Nom

grand — Générateur(s) de nombres pseudo-aléatoires

Séquence d'appel

Y=grand(m, n, dist_type [,p1,...,pk])
Y=grand(X, dist_type [,p1,...,pk])
Y=grand(n, dist_type [,p1,...,pk])
S=grand(action [,q1,....,ql])

Paramètres

m, n

entiers, dimensions de la matrice de nombres aléatoires à obtenir Y

X

une matrice (ou un vecteur) dont seules les dimensions (m x n) sont utilisées

dist_type

chaîne de caractères donnant la loi de distribution des nombres aléatoires ('bin', 'nor', 'poi', etc ...)

p1, ..., pk

les (éventuels) paramètres de la distribution dist_type

Y

la matrice de nombres aléatoires m x n

action

chaîne de caractères spécifiant l'action à entreprendre sur le générateur de base ('setgen' pour changer le générateur courant, 'getgen' pour obtenir le nom du générateur courant, 'getsd' pour obtenir l'état du générateur courant, etc...).

q1, ..., ql

les paramètres (éventuels) de l'action à effectuer sur le générateur de base.

S

résultat de l'action (en général une chaîne ou un vecteur colonne)

Description

Cette fonction peut être utilisée pour générer des nombres pseudo-aléatoires à partir d'une loi de distribution donnée (binomiale, uniforme, normale,...) : ces nombres peuvent être considérés comme des réalisations de variables aléatoires indépendantes qui suivent la loi donnée. Dans ce cas vous devez appliquer l'une des trois premières séquences d'appel pour obtenir une matrice m x n de tels nombres. La deuxième séquence est équivalente à la première si X est une matrice m x n et la troisième forme s'applique lorsque la loi est vectorielle (comme la loi multinomiale) : une réalisation correspond alors à un vecteur colonne (de dimension m) et l'on obtient ainsi n réalisations sous la forme d'une matrice m x n.

La dernière forme d'appel s'utilise pour entreprendre diverses actions sur le générateur de base (depuis la version 2.7 vous pouvez choisir parmi plusieurs générateurs comme Mersenne-Twister, KISS, clcg4, ...). Ces générateurs fournissent des entiers selon une loi uniforme sur un intervalle très grand (distribution lgi), les autres types de lois s'obtenant à partir de ces générateurs de base (en général suivant un schéma lgi -> U([0,1)) -> distribution cherchée).

Générer des nombres aléatoires selon une loi donnée

beta

: Y=grand(m,n,'bet',A,B) génère des nombres aléatoires suivant la loi beta de paramètres A and B. La densité de cette loi est (0 < x < 1) :

 
 A-1    B-1
x   (1-x)   / beta(A,B)  ( beta(A,B) = gamma(A+B) / (gamma(A) gamma(B)) )
 

A et B devant être des réels > 10^(-37). Fonction(s) associée(s) : cdfbet.

binomiale

: Y=grand(m,n,'bin',N,p) génère des nombres aléatoires suivant la loi binomiale de paramètres N (entier str. positif) et p (réel de [0,1]) : nombre de succès au cours de N épreuves de Bernouilli de probabilité de succès p. Fonction(s) associée(s) : binomial, cdfbin.

binomiale négative

: Y=grand(m,n,'nbn',N,p) génère des nombres aléatoires suivant la loi binomiale négative de paramètres N (entier str. positif) et p (réel de ]0,1[) : nombre d'échecs avant d'obtenir N succès dans des épreuves de Bernouilli de probabilité de succès p. Fonction(s) associée(s) : cdfnbn.

chi 2

: Y=grand(m,n,'chi', Df) génère des nombres aléatoires suivant la loi du chi 2 à Df (réel > 0.0) degrés de liberté. Fonction(s) associée(s) : cdfchi.

chi 2 non centrée

: Y=grand(m,n,'nch',Df,Xnon) génère des nombres aléatoires suivant la loi du chi 2 non centrée à Df degrés de liberté (réel >= 1.0) le paramètre de décentrage étant Xnonc (réel >= 0.0). Fonction(s) associée(s) : cdfchn.

exponentielle

: Y=grand(m,n,'exp',Av) génère des nombres aléatoires suivant la loi exponentielle de moyenne Av (réel >= 0.0).

F variance ratio

: Y=grand(m,n,'f',Dfn,Dfd) génère des nombres aléatoires suivant la loi F (variance ratio) à Dfn (réel > 0.0) degrés de liberté au numérateur et Dfd (réel > 0.0) degrés de liberté au dénominateur. Fonction(s) associée(s) : cdff.

non central F variance ratio

: Y=grand(m,n,'nf',Dfn,Dfd,Xnon) génère des nombres aléatoires suivant la loi F (variance ratio) non centrée à Dfn (réel >= 1) degrés de liberté au numérateur, et Dfd (réel > 0) degrés de liberté au dénominateur, Xnonc (réel >= 0) étant le paramètre de décentrage. Fonction(s) associée(s) : cdffnc.

gamma

: Y=grand(m,n,'gam',shape,scale) génère des nombres aléatoires suivant la loi gamma de paramètres shape (réel > 0) et scale (réel > 0). La densité est :

 
     shape  (shape-1)   -scale x
scale       x          e          /  gamma(shape)
 

Fonction(s) associée(s) : gamma, cdfgam.

Gauss Laplace (normale)

: Y=grand(m,n,'nor',Av,Sd) génère des nombres aléatoires suivant la loi normale de moyenne Av (réel) et d'écart type Sd (réel >= 0). Fonction(s) associée(s) : cdfnor, erf.

multi normale

: Y=grand(n,'mn',Mean,Cov) génère n réalisations indépendantes de la loi multi-normale ; Mean doit être un vecteur m x 1 et Cov une matrice m x m symétrique et définie positive, (Y est alors une matrice m x n).

geometrique

: Y=grand(m,n,'geom', p) génère des nombres aléatoires suivant la loi geométrique de paramètre p : nombre d'épreuves de Bernouilli (de probabilité de succès p) jusqu'à obtenir un succès (p doit appartenir à l'intervalle [pmin,1] (avec pmin = 1.3 10^(-307)).

Y contient des nombres réels positifs à valeur entière qui sont "le nombre de tentatives nécessaire pour obtenir un succès" pour chaque tirage.

markov

: Y=grand(n,'markov',P,x0) génère n états successifs d'une chaîne de Markov décrite par la matrice de transition P. L'état initial est donné par x0. Si x0 est une matrice de taille m=size(x0,'*') alors Y est une matrice de taille m x n. Y(i,:) étant le chemin à partir de l'état initial x0(i).

multinomiale

: Y=grand(n,'mul',nb,P) génère n réalisations indépendantes de la loi Multinomiale : classer nb éventualités dans m catégories (mettre nb "boules" dans m "boites"). P(i) étant la probabilité qu'une éventualité soit de categorie i. P le vecteur des probabilités est de taille m-1 (la probabilté de la catégorie m étant 1-sum(P)). Y est alors de dimensions m x n, chaque colonne Y(:,j) étant une réalisation de cette loi : Y(i,j) est le nombre d'éventualités classées en catégorie i pour la j ème réalisation (sum(Y(:,j)) = nb).

Poisson

: Y=grand(m,n,'poi',mu) génère des nombres aléatoires suivant la loi de Poisson de moyenne mu (réel >= 0.0).

permutations aléatoires

: Y=grand(n,'prm',vect) génère n permutations aléatoire du vecteur colonne (m x 1) vect.

uniforme (def)

: Y=grand(m,n,'def') génère des nombres aléatoires suivant la loi uniforme sur [0,1[ (1 n'est jamais retourné).

uniforme (unf)

: Y=grand(m,n,'unf',Low,High) génère des nombres aléatoires suivant la loi uniforme sur [Low, High[.

uniforme (uin)

: Y=grand(m,n,'uin',Low,High) génère des entiers aléatoires suivant la loi uniforme sur [Low, High]. High et Low doivent être des entiers tels que (High-Low+1) < 2147483561.

uniforme (lgi)

: Y=grand(m,n,'lgi') retourne la sortie du générateur de base courant : des entiers aléatoires suivant une loi uniforme sur :

  • [0, 2^32 - 1] for mt, kiss and fsultra

  • [0, 2147483561] for clcg2

  • [0, 2^31 - 2] for clcg4

  • [0, 2^31 - 1] for urand.

Actions sur le(s) générateur(s) de base

Depuis Scilab-2.7 vous avez la possibilité de choisir parmi plusieurs générateurs de base (donnant des entiers aléatoires suivant la loi 'lgi') :

mt

le Mersenne-Twister de M. Matsumoto and T. Nishimura, période d'environ 2^19937, état interne donné par 624 entiers (plus un index); c'est le générateur par défaut.

kiss

Le Keep It Simple Stupid de G. Marsaglia, période d'environ 2^123, état interne donné par 4 entiers.

clcg2

une combinaison de 2 générateurs linéaires congruentiels de P. L'Ecuyer, période d'environ 2^61, état interne donné par 2 entiers ; c'était le seul générateur de base utilisé auparavent par grand (cette version est cependant légèrement différente de l'ancienne).

clcg4

une combinaison de 4 générateurs linéaires congruentiels de P. L'Ecuyer, période d'environ 2^121, état interne donné par 4 entiers ; ce générateur peut être partagé en 101 générateur virtuels (en fait la suite de longueur 2^121 peut être découpée en 101 sous-suites) ce qui peut être utile dans certains cas (voir 'Actions specifiques à clcg4' et 'Exemple d'utilisation de clcg4').

urand

le générateur de base (congruentiel affine...) utilisé par la fonction rand, état interne constitué d'un seul entier, période de 2^31 (basé sur le vol 2 du Art of Computer Science de Knuth). C'est le plus rapide de cette liste mais il est maintenant dépassé : il est préférable de ne pas l'utiliser pour une simulation sérieuse consommant beaucoup de nombres aléatoires (en particulier ce générateur ne passe pas certains tests statistiques classiques).

fsultra

un générateur SWB (subtract-with-borrow) mixé avec un générator congruentiel concu par Arif Zaman et George Marsaglia. Sa période est supérieure à 10^356, et son état interne est constitué d'un tableau de 37 entiers, d'un index sur ce tableau et d'un drapeau (0 ou 1) ainsi qu'un autre entier donnant l'état interne du générateur congruentiel.

Actions

action= 'getgen'

: S=grand('getgen') retourne le nom du générateur de base actuel (S est l'une des chaînes de caractères 'mt', 'kiss', 'clcg2', 'clcg4', 'urand', 'fsultra').

action= 'setgen'

: grand('setgen',gen) permet de changer le générateur de base : gen doit être l'une des chaînes de caractères 'mt', 'kiss', 'clcg2', 'clcg4', 'urand', 'fsultra'. En cas de succès la fonction retourne cette même chaîne.

action= 'getsd'

: S=grand('getsd') retourne l'état interne actuel (les 'germes' dans l'ancienne appelation quoique ce terme désigne plutôt l'état initial) du générateur de base courant ; S est un vecteur colonne (d'entiers) de dimension 625 pour mt (la première composante étant un 'index' sur l'état, c-a-d un entier de l'intervalle [1,624]), 4 pour kiss, 2 pour clcg2 , 40pour fsultra, 4 pour clcg4 (pour ce dernier vous obtenez l'état interne du générateur virtuel courant), et 1 pour urand.

action= 'setsd'

: grand('setsd',S), grand('setsd',s1[,s2,s3,s4]) impose l'état interne du générateur de base courant :

pour mt

S est un vecteur d'entiers de dimension 625 (la première composante étant un index sur [1,624]), les 624 dernières composantes doivent être dans [0,2^32[) (mais ne doivent pas être toutes nulles) ; une initialisation plus simple est possible (et recommandée) en donnant un seul entier s1 (s1 appartenant à [0,2^32[) ;

pour kiss

4 entiers s1,s2, s3,s4 dans [0,2^32[ doivent être fournis ;

pour clcg2

2 entiers s1 dans [1,2147483562] et s2 dans [1,2147483398] doivent être fournis ;

pour clcg4

4 entiers s1 dans [1,2147483646], s2 dans [1,2147483542], s3 dans [1,2147483422], s4 dans [1,2147483322] sont requis ; ATTENTION : avec clcg4 vous positionnez l'état interne du générateur virtuel courant mais vous perdez alors la synchronisation avec les autres générateurs virtuels. (=> si vous utilisez clcg4 avec différents générateurs virtuels, il faut utiliser l'option 'setall' qui permet de changer l'état interne (du générateur numéro 0) tout en recalculant l'état initial des 100 autres générateurs virtuels).

pour urand

1 entier s1 appartenant à [0,2^31[ est requis.

for fsultra

S est un vecteur de 40 entiers (son premier élément doit être dans l'intervalle[0,37], son deuxième (drapeau) doit être 0 ou 1, le troisième un entier de [1,2^32[ et les 37 composantes suivantes, des entiers de [0,2^32[) ; il est recommandé d'utiliser l'autre procédure d'initialisation (plus simple) avec deux entiers s1 et s2 de [0,2^32[.

action= 'phr2sd'

: Sd=grand('phr2sd', phrase) étant donnée une chaîne de caractères phrase cet appel retourne un vecteur 1 x 2 qui peut être utilisé comme état interne pour un générateur de base (initialement adapté pour clcg2).

Options specifiques à clcg4

Le générateur clcg4 peut être utilisé comme les autres mais il offre l'avantage de pouvoir être découpé en (101) générateurs virtuels différents, c-a-d avec des séquences sans intersection (quand vous utilisez un générateur classique vous pouvez changer l'état initial de façon à obtenir une autre séquence mais vous n'êtes pas complètement sûr d'obtenir une séquence complètement différente). Chaque générateur virtuel correspond à une séquence de longueur 2^72 qui est de plus découpée en V=2^31 segments de longueur W=2^41. Pour un générateur virtuel donné vous pouvez retourner au début de la séquence ou au début du segment ou bien au début du segment suivant. Vous pouvez aussi changer l'état initial du générateur 0 avec l'option 'setall' qui recalcule l'état initial des autres générateurs virtuels de sorte à obtenir la synchronisation entre les générateurs (c-a-d qu'en fonction du nouvel état initial du générateur 0 l'état initial des générateurs 1..100 sont recalculés de façon à obtenir 101 séquences qui ne s'intersectent pas).

action= 'setcgn'

: grand('setcgn',G) sélectionne le générateur virtuel numéro G : lorsque le générateur de base courant est clcg4, c'est le générateur virtuel G qui sera alors utilisé ; les 101 générateurs virtuels sont numérotés 0,1,..,100 (ainsi G doit être un entier de l'intervalle [0,100]) ; par défaut le générateur virtuel courant est celui de numéro 0.

action= 'getcgn'

: S=grand('getcgn') retourne le numéro du générateur virtuel courant.

action= 'initgn'

: grand('initgn',I) réinitialise l'état du générateur virtuel courant :

I = -1

remet l'état à sa valeur initiale

I = 0

remet l'état au début du segment courant

I = 1

positionne l'état au début du segment suivant et met à jour les valeurs définissant le segment courant (vous ne pouvez pas revenir au début du segment précédent).

action= 'setall'

: grand('setall',s1,s2,s3,s4) impose l'état interne du générateur virtuel de numéro 0 à s1,s2,s3,s4. L'état initial des autres générateurs est alors reconstruit (de façon à obtenir 101 séquences qui ne s'intersectent pas). Voir l'action 'setsd' pour les contraintes sur s1, s2, s3, s4.

action= 'advnst'

: grand('advnst',K) avance l'état du générateur virtuel courant de 2^K valeurs et réinitialise l'état initial (du générateur virtuel courant) à ce nouvel état.

Exemple d'utilisation de clcg4

On cherche à comparer deux techniques statistiques sur des données de tailles différentes. La première, utilisant le 'bootstrapping' est supposée a priori aussi précise que la deuxième technique (utilisant uniquement la force brute) tout en utilisant moins de données. Pour la première méthode, un ensemble de données de taille n1, uniformément distribuée entre 25 et 50 devra être généré puis analysé par la méthode. Pour la seconde méthode, on procède de même avec une taille n2 à choisir entre 100 et 200. Ce processus est répété 1000 fois. Pour la réduction de la variance, on veut que les nombres aléatoires utilisés dans les deux méthodes soient les mêmes pour chacune des 1000 comparaisons. Comme la deuxième méthode utilise plus de nombres aléatoires, la synchronisation peut être difficile si l'on utilise un générateur classique. Avec un générateur comme clcg4 c'est par contre très simple : utilisez le générateur 0 pour obtenir la taille n1 du jeux de données et le générateur 1 pour obtenir les données. Avec le générateur 0 tirer la taille n2 puis resélectionner le générateur 1 et revenez au début du segment courant pour obtenir les n2 données pour la deuxième méthode : ainsi les données initiales (les n1 premieres) sont les mêmes pour les deux méthodes. Pour la comparaison suivante, il suffit d'avancer le générateur 1 au segment suivant, etc, etc.

Voir Aussi

rand

Auteurs

randlib

Les codes qui permettent de générer les lois autres que def, unf, lgi, uin et geom proviennent de "Library of Fortran Routines for Random Number Generation", de Barry W. Brown et James Lovato, Department of Biomathematics, The University of Texas, Houston.

mt

Le code est le mt19937int.c par M. Matsumoto and T. Nishimura, "Mersenne Twister: A 623-dimensionally equidistributed uniform pseudorandom number generator", ACM Trans. on Modeling and Computer Simulation Vol. 8, No. 1, January, pp.3-30 1998.

kiss

Ce code a été donné par G. Marsaglia lors d'une discussion concernant la génération de nombres aléatoires en langage C dans plusieurs forums usenet (dont sci.math.num-analysis) "My offer of RNG's for C was an invitation to dance..." seul kiss a été inclus dans Scilab (kiss est construit à partir de plusieurs générateurs mais qui ne sont accessibles à l'interpréteur scilab).

clcg2

Cette méthode est de P. L'Ecuyer mais le code C code provient de la page personnelle de Luc Devroye (http://cgm.cs.mcgill.ca/~luc/rng.html).

clcg4

Ce code est de P. L'Ecuyer et Terry H.Andres et est distribué avec un article à partir de la page personnelle de P. L'Ecuyer ( http://www.iro.umontreal.ca/~lecuyer/papers.html). Ce paquetage est le successeur logique d'un plus ancien utilisant le générateur clcg2 (muni d'un mécanisme équivalent de générateurs virtuels) : P. L'Ecuyer and S. Cote. Implementing a Random Number Package with Splitting Facilities. ACM Transactions on Mathematical Software 17:1,pp 98-111.

fsultra

un code d' Arif Zaman (arif@stat.fsu.edu) et de George Marsaglia (geo@stat.fsu.edu)

scilab packaging

Par Jean-Philippe Chancelier et Bruno Pinçon