Convergence de variables aléatoires

Dans la théorie des probabilités, il existe différentes notions de convergence de variables aléatoires. La convergence (dans un des sens décrits ci-dessous) de suites de variables aléatoires est un concept important de la théorie des probabilités utilisé notamment en statistique et dans l'étude des processus stochastiques. Par exemple, la moyenne de n variables aléatoires indépendantes et identiquement distribuées converge presque sûrement vers l'espérance commune de ces variables aléatoires (si celle-ci existe). Ce résultat est connu sous le nom de loi forte des grands nombres.

Dans cet article, on suppose que (Xn) est une suite de variables aléatoires réelles, que X est une variable aléatoire réelle, et que toutes ces variables sont définies sur un même espace probabilisé ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )} . D'éventuelles généralisations seront discutées.

Les différents modes de convergence

Il existe plusieurs notions de convergence de variables aléatoires. Elles ont toutes en commun le fait qu'elles sont insensibles face à d'éventuelles modifications négligeables des variables aléatoires. Plus précisément, si ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} (selon n'importe lequel des sens ci-dessous) et si Y , Y 1 , Y 2 , {\displaystyle Y,Y_{1},Y_{2},\dots } sont d'autres variables aléatoires telles que P ( Y n = X n ) = 1 {\displaystyle \mathbb {P} (Y_{n}=X_{n})=1} pour tout n {\displaystyle n} et P ( Y = X ) = 1 {\displaystyle \mathbb {P} (Y=X)=1} , alors ( Y n ) {\displaystyle (Y_{n})} converge aussi vers Y {\displaystyle Y} .

Convergence essentiellement uniforme (ou L)

Rappelons qu'une variable aléatoire réelle Y {\displaystyle Y} est dite essentiellement bornée s'il existe un nombre M > 0 {\displaystyle M>0} , appelé borne essentielle, tel que P ( | Y | M ) = 1 {\displaystyle \mathbb {P} (|Y|\leq M)=1} . Dans ce cas on définit | | Y | | L {\displaystyle ||Y||_{L^{\infty }}} comme la borne inférieure de l'ensemble des bornes essentielles de Y {\displaystyle Y} .

Définition (convergence essentiellement uniforme) —  On dit que (Xn) converge vers X essentiellement uniformément, ou encore en norme L si, pour tout n, Xn et X sont essentiellement bornées et si

lim n | | X n X | | L = 0 {\displaystyle \lim _{n\rightarrow \infty }||X_{n}-X||_{L^{\infty }}=0}

Dans ce cas on note X n L X {\displaystyle X_{n}\xrightarrow {L^{\infty }} X} .

Remarques :

  • Le fait que X n {\displaystyle X_{n}} et X {\displaystyle X} soient essentiellement bornées implique que X n X {\displaystyle X_{n}-X} l'est aussi. Ainsi la quantité | | X n X | | L {\displaystyle ||X_{n}-X||_{L^{\infty }}} est bien définie. Plus précisément l'ensemble des variables aléatoires réelles définies sur ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )} essentiellement bornées est un espace vectoriel réel pour lequel la fonction | | | | L {\displaystyle ||\cdot ||_{L^{\infty }}} est une semi-norme. Attention ce n'est pas une norme, en général on quotiente par le sous-espace des variables aléatoires presque-sûrement nulles. Sur cet espace quotient, | | | | L {\displaystyle ||\cdot ||_{L^{\infty }}} induit une norme.
  • Par abus de langage on parle parfois de « convergence uniforme » au lieu de « convergence essentiellement uniforme ». Cependant il ne faut pas s'y tromper, la notion de convergence donnée ci-dessus est plus faible que la convergence uniforme au sens strict. En effet, il se pourrait que les variables X n X {\displaystyle X_{n}-X} soient toutes essentiellement bornées mais non bornées au sens strict auquel cas la convergence uniforme au sens strict n'aurait pas de sens. La raison pour laquelle on considère la convergence essentiellement uniforme plutôt que la convergence uniforme au sens strict et celle donnée plus haut : on veut que la convergence soit insensible face aux modifications négligeables des variables aléatoires. Ce ne serait pas le cas si on prenait la convergence uniforme au sens strict. Donnons un exemple concret : prenons Ω = { 0 , 1 } {\displaystyle \Omega =\{0,1\}} muni de la tribu F = { , { 0 } , { 1 } , Ω } {\displaystyle {\mathcal {F}}=\{\emptyset ,\{0\},\{1\},\Omega \}} et de la probabilité définie par P ( { 0 } ) = 0 {\displaystyle \mathbb {P} (\{0\})=0} et P ( { 1 } ) = 1 {\displaystyle \mathbb {P} (\{1\})=1} . Prenons les variables définies par X ( 0 ) = 0 {\displaystyle X(0)=0} , X ( 1 ) = 1 {\displaystyle X(1)=1} , X n ( 0 ) = n {\displaystyle X_{n}(0)=n} et X n ( 1 ) = 1 + 1 / n {\displaystyle X_{n}(1)=1+1/n} pour tout n. Il est clair que ( X n ) {\displaystyle (X_{n})} ne converge pas uniformément vers X {\displaystyle X} au sens strict puisque pour tout n, sup Ω | X n X | = n {\displaystyle \sup _{\Omega }|X_{n}-X|=n} . En revanche ( X n ) {\displaystyle (X_{n})} converge essentiellement uniformément vers X {\displaystyle X} puisque pour tout n, | | X n X | | L = 1 / n {\displaystyle ||X_{n}-X||_{L^{\infty }}=1/n} .
  • Si ( X n ) {\displaystyle (X_{n})} converge essentiellement uniformément vers X {\displaystyle X} alors il existe un évènement E {\displaystyle E} de probabilité 1 tel que, restreint à E {\displaystyle E} , ( X n ) {\displaystyle (X_{n})} converge uniformément vers X {\displaystyle X} au sens strict. Plus précisément, sup Ω | 1 E X n 1 E X | {\displaystyle \sup _{\Omega }|\mathbf {1} _{E}X_{n}-\mathbf {1} _{E}X|} tend vers 0, où 1 E {\displaystyle \mathbf {1} _{E}} est la variable aléatoire qui vaut 1 sur E {\displaystyle E} et 0 ailleurs (elle est donc presque-sûrement égale à 1).
  • La convergence essentiellement uniforme se généralise à des variables aléatoires à valeurs dans un espace vectoriel normé muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré.

Convergence en moyenne d'ordre p (ou Lp)

Rappelons qu'une variable aléatoire réelle Y {\displaystyle Y} est dite avoir un moment d'ordre p > 0 fini si E ( | Y | p ) < + {\displaystyle \mathbb {E} (|Y|^{p})<+\infty } . Dans ce cas on définit | | Y | | L p := E ( | Y | p ) 1 / p {\displaystyle ||Y||_{L^{p}}:=\mathbb {E} (|Y|^{p})^{1/p}} .

Définition (convergence en moyenne d'ordre p) — Soit p > 0. On dit que (Xn) converge vers X en moyenne d'ordre p ou encore en norme Lp si, pour tout n, Xn et X ont un moment d'ordre p fini et si

lim n | | X n X | | L p = 0 {\displaystyle \lim _{n\rightarrow \infty }\vert \vert X_{n}-X\vert \vert _{L^{p}}=0}

ou de manière équivalente, si

lim n E [ | X n X | p ] 1 p = 0 {\displaystyle \lim _{n\rightarrow \infty }\mathbb {E} \left[\vert X_{n}-X\vert ^{p}\right]^{\frac {1}{p}}=0} .

Dans ce cas on note X n L p X {\displaystyle X_{n}\xrightarrow {L^{p}} X} .

Remarques :

  • Le fait que X n {\displaystyle X_{n}} et X {\displaystyle X} aient un moment d'ordre p fini implique que X n X {\displaystyle X_{n}-X} aussi (pour p ≥ 1 cela est une conséquence de l'inégalité de Minkowski). Ainsi la quantité | | X n X | | L p {\displaystyle ||X_{n}-X||_{L^{p}}} est bien définie. Plus précisément l'ensemble des variables aléatoires réelles définies sur ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )} ayant un moment d'ordre p fini est un espace vectoriel réel pour lequel la fonction | | | | L p {\displaystyle ||\cdot ||_{L^{p}}} est une semi-norme, quand p ≥ 1, et est une semi-quasi-norme, quand 0 < p < 1. Attention ce n'est pas une norme, en général on quotiente par le sous-espace des variables aléatoires presque-sûrement nulles. Sur cet espace quotient, | | | | L p {\displaystyle ||\cdot ||_{L^{p}}} induit une norme quand p ≥ 1 et induit une quasi-norme quand 0 < p < 1.
  • Pour p = 1, on parle simplement de convergence en moyenne et pour p = 2 de convergence en moyenne quadratique.
  • La convergence en moyenne d'ordre p se généralise à des variables aléatoires à valeurs dans un espace vectoriel normé muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré.
  • Pour r =2, on a le résultat suivant :

Propriété —  Soit c une constante réelle. On a alors

X n L 2 c {\displaystyle X_{n}{\xrightarrow {\mathbb {L} ^{2}}}c}

si et seulement si

lim n E [ X n ] = c et lim n Var [ X n ] = 0 {\displaystyle \lim _{n\to \infty }\mathbb {E} [X_{n}]=c\qquad {\text{et}}\qquad \lim _{n\to \infty }\operatorname {Var} [X_{n}]=0}
Démonstration

Cela découle l'identité suivante :

E [ ( X n c ) 2 ] = Var ( X n ) + ( E [ X n ] c ) 2 {\displaystyle \mathbb {E} \left[(X_{n}-c)^{2}\right]=\operatorname {Var} (X_{n})+\left(\mathbb {E} [X_{n}]-c\right)^{2}}

Convergence presque sûre

On rappelle qu'un ensemble négligeable de l'espace probabilisé ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )} est un sous-ensemble N Ω {\displaystyle N\subset \Omega } tel qu'il existe A F {\displaystyle A\in {\mathcal {F}}} vérifiant P ( A ) = 0 {\displaystyle \mathbb {P} (A)=0} et N A {\displaystyle N\subset A} . Autrement dit, un ensemble négligeable est un sous-ensemble de Ω {\displaystyle \Omega } inclus dans un ensemble de probabilité nulle.

Définition (convergence presque sûre) —  On dit que (Xn) converge presque sûrement vers X si

P ( lim n X n = X ) = 1 {\displaystyle \mathbb {P} \left(\lim _{n\rightarrow \infty }X_{n}=X\right)=1}

ou de manière équivalente, s'il existe un ensemble négligeable N ⊂ Ω tel que

ω Ω N , X n ( ω ) n X ( ω ) {\displaystyle \forall \omega \in \Omega \setminus N,\qquad X_{n}(\omega ){\xrightarrow[{n\to \infty }]{}}X(\omega )}

Dans ce cas on note X n p . s . X {\displaystyle X_{n}{\xrightarrow {p.s.}}X} .

Remarques :

  • L'ensemble { lim n X n = X } = { ω Ω | lim n X n ( ω ) = X ( ω ) } {\displaystyle \{\lim _{n\to \infty }X_{n}=X\}=\{\omega \in \Omega \,|\,\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\}} appartient bien à la tribu F {\displaystyle {\mathcal {F}}} , donc sa probabilité est bien définie. En effet cela peut se voir en écrivant { lim n X n = X } = m 1 N 1 n N { | X n X | 1 / m } {\displaystyle \{\lim _{n\to \infty }X_{n}=X\}=\bigcap _{m\geq 1}\bigcup _{N\geq 1}\bigcap _{n\geq N}\{|X_{n}-X|\leq 1/m\}} et en utilisant les propriétés de stabilité d'une tribu.
  • La convergence presque sûre est équivalente à la condition :
ε > 0 , P ( lim inf n { | X n X | < ε } ) = 1 {\displaystyle \forall \varepsilon >0,\qquad \mathbb {P} \left(\liminf _{n}\{|X_{n}-X|<\varepsilon \}\right)=1}
ainsi qu'à la condition :
ε > 0 , P ( lim sup n { | X n X | > ε } ) = 0 {\displaystyle \forall \varepsilon >0,\qquad \mathbb {P} \left(\limsup _{n}\{|X_{n}-X|>\varepsilon \}\right)=0}
où ces limites inférieure et supérieure de suites d'ensembles sont définies par
lim inf n { | X n X | < ε } := N N n N { | X n X | < ε } = { | X n X | < ε   a `   p a r t i r   d u n   c e r t a i n   r a n g } {\displaystyle \liminf _{n}\{|X_{n}-X|<\varepsilon \}:=\bigcup _{N\in \mathbb {N} }\bigcap _{n\geq N}\{|X_{n}-X|<\varepsilon \}=\{|X_{n}-X|<\varepsilon \ \mathrm {{\grave {a}}\ partir\ d'un\ certain\ rang} \}}
et
lim sup n { | X n X | > ε } := N N n N { | X n X | > ε } = { | X n X | > ε   i n f i n i m e n t   s o u v e n t } {\displaystyle \limsup _{n}\{|X_{n}-X|>\varepsilon \}:=\bigcap _{N\in \mathbb {N} }\bigcup _{n\geq N}\{|X_{n}-X|>\varepsilon \}=\{|X_{n}-X|>\varepsilon \ \mathrm {infiniment\ souvent} \}} .
  • La convergence presque sûre est utilisée dans la loi forte des grands nombres.
  • La convergence presque sûre se généralise à des variables aléatoires à valeurs dans un espace topologique muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré, on parle alors de convergence presque partout.

Convergence en probabilité

Définition (convergence en probabilité) —  On dit que (Xn) converge vers X en probabilité si

ε > 0 , lim n P ( | X n X | ε ) = 0. {\displaystyle \forall \varepsilon >0,\qquad \lim _{n\rightarrow \infty }\mathbb {P} \left(\left|X_{n}-X\right|\geq \varepsilon \right)=0.}

Dans ce cas on note X n P X {\displaystyle X_{n}{\xrightarrow {\mathbb {P} }}X} .

Remarques :

  • La convergence en probabilité se généralise à des variables aléatoires à valeurs dans un espace métrique muni de sa tribu borélienne. Dans ce cas il faut remplacer | X n X | {\displaystyle |X_{n}-X|} par d ( X n , X ) {\displaystyle d(X_{n},X)} dans la définition, où d {\displaystyle d} désigne la distance. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré, on parle alors de convergence en mesure.

Convergence en loi

Article détaillé : Convergence en loi.

Définition (convergence en loi) —  On dit que (Xn) converge vers X en loi si pour toute fonction f à valeurs réelles, continue et bornée

lim n E [ f ( X n ) ] = E [ f ( X ) ] . {\displaystyle \lim _{n\rightarrow \infty }\mathbb {E} \left[f(X_{n})\right]=\mathbb {E} \left[f(X)\right].}

Dans ce cas on note X n L X {\displaystyle X_{n}\xrightarrow {\mathcal {L}} X} ou encore X n X {\displaystyle X_{n}\Rightarrow X} .

Remarques :

  • Le fait que f {\displaystyle f} soit continue nous assure qu'elle est mesurable, donc par composition, f ( X n ) {\displaystyle f(X_{n})} et f ( X ) {\displaystyle f(X)} aussi. De plus, le fait que f {\displaystyle f} soit bornée implique que f ( X n ) {\displaystyle f(X_{n})} et f ( X ) {\displaystyle f(X)} sont aussi bornées. Ainsi les quantités E [ f ( X n ) ] {\displaystyle \mathbb {E} \left[f(X_{n})\right]} et E [ f ( X ) ] {\displaystyle \mathbb {E} \left[f(X)\right]} sont bien définies.
  • Dans le cas de variables aléatoires à valeurs entières, la convergence en loi est équivalente à :
lim n P ( X n = m ) = P ( X = m ) , {\displaystyle \lim _{n\rightarrow \infty }\mathbb {P} (X_{n}=m)=\mathbb {P} (X=m),} pour tout entier m.
  • Dans le cas de variables aléatoires à valeurs réelles, il existe un critère de convergence en loi important faisant appel aux fonctions de répartition. Plus précisément, soient F1, F2, ... la suite des fonctions de répartition associées aux variables aléatoires réelles X1, X2, ... et F la fonction de répartition de la variable aléatoire réelle X. Autrement dit, Fn est définie par Fn(x) = P(Xnx), et F par F(x) = P(Xx). La suite (Xn) converge vers X en loi si et seulement si
lim n F n ( a ) = F ( a ) , {\displaystyle \lim _{n\rightarrow \infty }F_{n}(a)=F(a),} pour tout réel aF est continue.
Puisque F(a) = P(Xa), cela signifie que la probabilité que X appartienne à un certain intervalle est très proche de la probabilité que Xn soit dans cet intervalle pour n suffisamment grand.
  • Un autre résultat important donnant des critères équivalents de convergence en loi est le théorème porte-manteau.
  • Le théorème de convergence de Lévy donne une équivalence entre la convergence en loi et la convergence, en tout point, des fonctions caractéristiques.
  • La convergence en loi se généralise à des variables aléatoires à valeurs dans un espace topologique muni de sa tribu borélienne.

Exemples

Convergence en loi

Théorème central limite :

La moyenne d'une suite de variables aléatoires centrées et de carré intégrable, indépendantes et de même loi, une fois renormalisée par n converge en loi vers la loi normale

n X ¯ n L N ( 0 , σ 2 ) . {\displaystyle {\sqrt {n}}{\bar {X}}_{n}{\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,\sigma ^{2}).}
Convergence de la loi de Student :

La loi de Student de paramètre k converge, lorsque k tend vers +∞, vers la loi de Gauss :

t ( k ) L N ( 0 , 1 ) . {\displaystyle \mathrm {t} (k){\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,1).}

Dans ce cas, on peut aussi utiliser le lemme de Scheffé, qui est un critère de convergence d'une suite de variables aléatoires à densité vers une variable aléatoire à densité.

Loi dégénérée :

La suite[1] N ( 0 , 1 n ) {\displaystyle {\mathcal {N}}\left(0,{\frac {1}{n}}\right)} converge en loi vers une variable aléatoire X0 dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée δ0) :

P ( X 0 x ) = δ 0 ( ] , x ] ) = { 0  si  x < 0 , 1  si  x 0. {\displaystyle \mathbb {P} (X_{0}\leq x)=\delta _{0}\left(]-\infty ,x]\right)={\begin{cases}0&{\text{ si }}x<0,\\1&{\text{ si }}x\geq 0.\end{cases}}}

Convergence d'une fonction d'une variable aléatoire

Un théorème très pratique, désigné en anglais généralement sous le nom de mapping theorem (en), établit qu'une fonction g continue appliquée à une variable qui converge vers X convergera vers g(X) pour tous les modes de convergence :

Théorème — (Mapping theorem[2]) Soit g : R k R m {\displaystyle g:\mathbb {R} ^{k}\to \mathbb {R} ^{m}} une fonction continue en tout point d'un ensemble C tel que P ( X C ) = 1 {\displaystyle \mathbb {P} (X\in C)=1}  :

  • Si X n L X  alors  g ( X n ) L g ( X ) {\displaystyle X_{n}{\xrightarrow {\mathcal {L}}}X{\text{ alors }}g(X_{n}){\xrightarrow {\mathcal {L}}}g(X)}  ;
  • Si X n p X  alors  g ( X n ) p g ( X ) {\displaystyle X_{n}{\xrightarrow {p}}X{\text{ alors }}g(X_{n}){\xrightarrow {p}}g(X)}  ;
  • Si X n p . s X  alors  g ( X n ) p . s . g ( X ) {\displaystyle X_{n}{\xrightarrow {p.s}}X{\text{ alors }}g(X_{n}){\xrightarrow {p.s.}}g(X)} .
Exemple :

En statistiques, un estimateur convergent de la variance σ2 est donné par :

s n 1 2 1 n 1 i = 1 n ( y i y ¯ ) 2 {\displaystyle s_{n-1}^{2}\equiv {\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}} .

On sait alors par le continuous mapping theorem que l'estimateur s n 1 2 {\displaystyle {\sqrt {s_{n-1}^{2}}}} de l'écart type σ = σ2 est convergent, car la fonction racine est une fonction continue.

Liens entre les différents modes de convergence

Convergences L et Lp

Propriété (L implique Lp) — Soit p > 0 {\displaystyle p>0} . Si ( X n ) {\displaystyle (X_{n})} et X {\displaystyle X} sont essentiellement bornées et si X n L X {\displaystyle X_{n}\xrightarrow {L^{\infty }} X} alors X n L p X {\displaystyle X_{n}\xrightarrow {L^{p}} X} .

Démonstration

Il suffit de remarquer que | | X n X | | L p | | X n X | | L {\displaystyle \vert \vert X_{n}-X\vert \vert _{L^{p}}\leq \vert \vert X_{n}-X\vert \vert _{L^{\infty }}} .

À noter que si ( X n ) {\displaystyle (X_{n})} et X {\displaystyle X} sont essentiellement bornées, alors elles admettent un moment d'ordre p fini. Il est donc légitime de parler de la convergence en norme L p {\displaystyle L^{p}} .

La réciproque du résultat est fausse. Par exemple, prenons une suite de variables aléatoires ( X n ) {\displaystyle (X_{n})} à valeurs dans { 0 , 1 } {\displaystyle \{0,1\}} telles que P ( X n = 1 ) = 1 / n {\displaystyle \mathbb {P} (X_{n}=1)=1/n} pour tout n 1 {\displaystyle n\geq 1} . Alors, pour tout p > 0 {\displaystyle p>0} , ( X n ) {\displaystyle (X_{n})} converge vers 0 en norme L p {\displaystyle L^{p}} car | | X n | | L p = ( 1 / n ) 1 / p {\displaystyle \vert \vert X_{n}\vert \vert _{L^{p}}=(1/n)^{1/p}} . Pourtant elle ne converge pas en norme L {\displaystyle L^{\infty }} car | | X n | | L = 1 {\displaystyle \vert \vert X_{n}\vert \vert _{L^{\infty }}=1} .

Convergences Lp et Lq

Propriété (Lp implique Lq pour p > q ≥ 1) — Soit p > q 1 {\displaystyle p>q\geq 1} . Si ( X n ) {\displaystyle (X_{n})} et X {\displaystyle X} sont dans L p {\displaystyle L^{p}} et si X n L p X {\displaystyle X_{n}\xrightarrow {L^{p}} X} alors X n L q X {\displaystyle X_{n}\xrightarrow {L^{q}} X} .

Démonstration

C'est une simple application de l'inégalité de Jensen avec la fonction convexe x x p / q {\displaystyle x\mapsto x^{p/q}}

À noter que si ( X n ) {\displaystyle (X_{n})} et X {\displaystyle X} ont un moment d'ordre p fini, alors elles ont aussi un moment d'ordre q fini. Il est donc légitime de parler de la convergence en norme L q {\displaystyle L^{q}} .

La réciproque du résultat est fausse. Par exemple, prenons une suite de variables aléatoires ( X n ) {\displaystyle (X_{n})} à valeurs dans R + {\displaystyle \mathbb {R} _{+}} telles que P ( X n = 0 ) = 1 1 / n p {\displaystyle \mathbb {P} (X_{n}=0)=1-1/n^{p}} et P ( X n = n ) = 1 / n p {\displaystyle \mathbb {P} (X_{n}=n)=1/n^{p}} pour tout n 1 {\displaystyle n\geq 1} . Alors ( X n ) {\displaystyle (X_{n})} converge vers 0 en norme L q {\displaystyle L^{q}} car | | X n | | L q q = n q p {\displaystyle \vert \vert X_{n}\vert \vert _{L^{q}}^{q}=n^{q-p}} . Pourtant elle ne converge pas en norme L p {\displaystyle L^{p}} car | | X n | | L p = 1 {\displaystyle \vert \vert X_{n}\vert \vert _{L^{p}}=1} .

Convergences Lp et en probabilité

Propriété (Lp implique en probabilité) — Soit p 1 {\displaystyle p\geq 1} . Si ( X n ) {\displaystyle (X_{n})} et X {\displaystyle X} sont dans L p {\displaystyle L^{p}} et si X n L p X {\displaystyle X_{n}\xrightarrow {L^{p}} X} alors X n P X {\displaystyle X_{n}\xrightarrow {\mathbb {P} } X} .

Démonstration

C'est une application directe de l'inégalité de Markov pour les variables aléatoires réelles admettant un moment d'ordre p :

P ( | X n X | ε ) E [ | X n X | p ] ε p {\displaystyle \mathbb {P} \left(\vert X_{n}-X\vert \geq \varepsilon \right)\leq {\frac {\operatorname {E} \left[\vert X_{n}-X\vert ^{p}\right]}{\varepsilon ^{p}}}}

La réciproque du résultat est fausse. Par exemple, prenons Y {\displaystyle Y} une variable aléatoire de loi uniforme sur [ 0 , 1 ] {\displaystyle [0,1]} et posons X n := n 1 { Y 1 / n } {\displaystyle X_{n}:=n{\textbf {1}}_{\{Y\leq 1/n\}}} . Alors ( X n ) {\displaystyle (X_{n})} converge vers 0 en probabilité car P ( | X n | ε ) = 1 / n {\displaystyle \mathbb {P} (\vert X_{n}\vert \geq \varepsilon )=1/n} pour n ε {\displaystyle n\geq \varepsilon } . Cette suite converge même presque sûrement vers 0. Pourtant elle ne converge pas en norme L 1 {\displaystyle L^{1}} car | | X n | | L 1 = 1 {\displaystyle \vert \vert X_{n}\vert \vert _{L^{1}}=1} . Le théorème de Lebesgue-Vitali et le lemme de Riesz-Scheffé[3] donnent chacun une condition suffisante pour que la convergence en probabilité donne la convergence en moyenne d'ordre p. La condition du premier est l'uniforme intégrabilité et la condition du second est la convergence des moments d'ordre p.

Théorème (Lebesgue-Vitali) — Soit p 1 {\displaystyle p\geq 1} . Supposons que les trois propriétés suivantes sont vérifiées.

  • La suite ( X n ) {\displaystyle (X_{n})} est dans L p {\displaystyle L^{p}} .
  • La suite ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} en probabilité.
  • La suite ( X n p ) {\displaystyle (X_{n}^{p})} est uniformément intégrable.

Dans ces conditions on a X {\displaystyle X} est dans L p {\displaystyle L^{p}} et X n L p X {\displaystyle X_{n}\xrightarrow {L^{p}} X} .

Lemme (Riesz-Scheffé) — Soit p 1 {\displaystyle p\geq 1} . Supposons que les quatre propriétés suivantes sont vérifiées.

  • La variable X {\displaystyle X} est dans L p {\displaystyle L^{p}} .
  • La suite ( X n ) {\displaystyle (X_{n})} est dans L p {\displaystyle L^{p}} .
  • La suite ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} en probabilité.
  • On a lim n E [ | X n | p ] = E [ | X | p ] {\displaystyle \lim _{n\to \infty }\mathbb {E} [\vert X_{n}\vert ^{p}]=\mathbb {E} [\vert X\vert ^{p}]} .

Dans ces conditions on a X n L p X {\displaystyle X_{n}\xrightarrow {L^{p}} X} .

Convergences L et presque sûre

Propriété (L implique presque sûre) — Si ( X n ) {\displaystyle (X_{n})} et X {\displaystyle X} sont essentiellement bornées et si X n L X {\displaystyle X_{n}\xrightarrow {L^{\infty }} X} alors X n p . s X {\displaystyle X_{n}\xrightarrow {p.s} X} .

La réciproque du résultat est fausse. Par exemple, prenons Y {\displaystyle Y} une variable aléatoire de loi uniforme sur [ 0 , 1 ] {\displaystyle [0,1]} et posons X n := 1 { Y 1 / n } {\displaystyle X_{n}:={\textbf {1}}_{\{Y\leq 1/n\}}} . Alors la suite ( X n ) {\displaystyle (X_{n})} converge vers 0 presque sûrement mais elle ne converge pas vers 0 dans L {\displaystyle L^{\infty }} car | | X n | | L = 1 {\displaystyle \vert \vert X_{n}\vert \vert _{L^{\infty }}=1} pour tout n {\displaystyle n} . Le théorème d'Egoroff donne une réciproque partielle : s'il y a convergence presque sûre, alors il y a convergence uniforme sur des évènements de probabilité aussi proche de 1 que l'on souhaite (sans jamais atteindre 1 exactement).

Théorème (Egoroff) — Supposons que ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} presque sûrement. Alors pour tout ε > 0 {\displaystyle \varepsilon >0} il existe un évènement A {\displaystyle A} tel que P ( A ) 1 ε {\displaystyle \mathbb {P} (A)\geq 1-\varepsilon } et tel que ( X n ) {\displaystyle (X_{n})} converge uniformément vers X {\displaystyle X} sur A {\displaystyle A} . Autrement dit,

lim n sup A | X n X | = 0 {\displaystyle \lim _{n\to \infty }\sup _{A}\vert X_{n}-X\vert =0} .

À noter que dans le théorème d'Egoroff la convergence est uniforme ce qui est plus fort que la convergence essentiellement uniforme.

Convergence presque sûre et en probabilité

Propriété (presque sûre implique en probabilité) — Si ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} presque sûrement alors ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} en probabilité.

Démonstration

Par le lemme de Fatou, on a pour tout ε > 0 :

lim inf n P ( | X n X | < ε ) P ( lim inf n { | X n X | < ε } ) = 1 {\displaystyle \liminf _{n}\mathbb {P} (|X_{n}-X|<\varepsilon )\geq \mathbb {P} \left(\liminf _{n}\{|X_{n}-X|<\varepsilon \}\right)=1}

La réciproque du résultat est fausse. Par exemple prenons Y {\displaystyle Y} une variable aléatoire de loi uniforme sur [ 0 , 1 ] {\displaystyle [0,1]} . On crée les intervalles I 1 := [ 0 , 1 ] {\displaystyle I_{1}:=[0,1]} , I 2 := [ 0 , 1 / 2 ] {\displaystyle I_{2}:=[0,1/2]} , I 3 := [ 1 / 2 , 1 ] {\displaystyle I_{3}:=[1/2,1]} , I 4 := [ 0 , 1 / 4 ] {\displaystyle I_{4}:=[0,1/4]} , I 5 := [ 1 / 4 , 2 / 4 ] {\displaystyle I_{5}:=[1/4,2/4]} , I 6 := [ 2 / 4 , 3 / 4 ] {\displaystyle I_{6}:=[2/4,3/4]} , I 7 := [ 3 / 4 , 1 ] {\displaystyle I_{7}:=[3/4,1]} , I 8 := [ 0 , 1 / 8 ] {\displaystyle I_{8}:=[0,1/8]} , ... Plus explicitement, pour tout n N {\displaystyle n\in \mathbb {N} ^{*}} on pose k n := log 2 ( n ) {\displaystyle k_{n}:=\lfloor \log _{2}(n)\rfloor } et a n := n 2 k n {\displaystyle a_{n}:=n-2^{k_{n}}} . On crée alors I n := [ a n / 2 k n , ( a n + 1 ) / 2 k n ] {\displaystyle I_{n}:=[a_{n}/2^{k_{n}},(a_{n}+1)/2^{k_{n}}]} . On définit ensuite X n := 1 { Y I n } {\displaystyle X_{n}:=\mathbf {1} _{\{Y\in I_{n}\}}} . Alors la suite ( X n ) {\displaystyle (X_{n})} converge en probabilité vers 0. Elle converge même dans L p {\displaystyle L^{p}} pour tout p > 0 {\displaystyle p>0} car E [ | X n | p ] = 1 / 2 k n {\displaystyle \mathbb {E} [\vert X_{n}\vert ^{p}]=1/2^{k_{n}}} . Pourtant cette suite ne converge pas presque sûrement vers 0 car presque sûrement il existe une infinité de n {\displaystyle n} tels que Y I n {\displaystyle Y\in I_{n}} . Il est également possible de trouver des suites qui convergent en probabilité mais qui converge ni presque sûrement, ni dans L p {\displaystyle L^{p}} comme le montre l'exemple suivant.

Exemple :

Soit p > 0. On considère (Xn)n ≥ 1 une suite de variables aléatoires indépendantes telle que

P ( X n = n 1 / p ) = 1 n et P ( X n = 0 ) = 1 1 n {\displaystyle \mathbb {P} (X_{n}=n^{1/p})={\frac {1}{n}}\qquad {\text{et}}\qquad \mathbb {P} (X_{n}=0)=1-{\frac {1}{n}}}

La suite (Xn)n converge en probabilité vers 0 car

ε > 0 , n ε , P ( | X n | ε ) = P ( X n = n 1 / p ) = 1 n 0 {\displaystyle \forall \varepsilon >0,\qquad \forall n\geq \varepsilon ,\qquad \mathbb {P} (\vert X_{n}\vert \geq \varepsilon )=\mathbb {P} (X_{n}=n^{1/p})={\frac {1}{n}}\to 0}

En revanche, elle ne converge pas dans L p {\displaystyle \mathbb {L} ^{p}} car E [ X n p ] = 1 0 {\displaystyle \mathbb {E} [X_{n}^{p}]=1\nrightarrow 0}

Montrons qu'elle ne converge pas non plus presque sûrement. Si c'était le cas sa limite presque sûre serait nécessairement sa limite en probabilité, à savoir 0. Or, comme n P ( X n = n 1 / p ) = + {\displaystyle \sum _{n}\mathbb {P} (X_{n}=n^{1/p})=+\infty } et comme les variables aléatoires Xn sont indépendantes, on a par la loi du zéro-un de Borel :

P ( lim sup n { X n = n 1 / p } ) = 1 {\displaystyle \mathbb {P} \left(\limsup _{n}\{X_{n}=n^{1/p}\}\right)=1}

i.e. presque sûrement Xn = n1/p pour une infinité de n. Donc, presque sûrement, lim sup n X n = + . {\displaystyle \limsup _{n}X_{n}=+\infty .} A fortiori Xn ne converge pas presque sûrement vers 0.

Exemple :

Dans l'exemple précédent, pour éviter le recours à la loi du zéro-un de Borel, on peut définir explicitement la suite Xn de la façon suivante. On choisit Ω = [0,1] muni de sa tribu borélienne et de la mesure de Lebesgue. On pose a 1 := 0 {\displaystyle a_{1}:=0} , a n := 1 2 + + 1 n ( mod 1 ) {\displaystyle a_{n}:={\frac {1}{2}}+\cdots +{\frac {1}{n}}{\pmod {1}}} pour n 2 {\displaystyle n\geq 2} , puis

I n := { [ a n 1 , a n ] si  a n 1 < a n [ 0 , a n ] [ a n 1 , 1 ] si  a n 1 > a n {\displaystyle I_{n}:=\left\{{\begin{matrix}\left[a_{n-1},a_{n}\right]&{\text{si }}a_{n-1}<a_{n}\\\left[0,a_{n}\right]\cup \left[a_{n-1},1\right]&{\text{si }}a_{n-1}>a_{n}\end{matrix}}\right.}

Enfin on définit

X n ( ω ) := { n 1 / p si  ω I n 0 si  ω I n {\displaystyle X_{n}(\omega ):=\left\{{\begin{matrix}n^{1/p}&{\text{si }}\omega \in I_{n}\\0&{\text{si }}\omega \notin I_{n}\end{matrix}}\right.}

Les Xn ainsi définis ne sont pas indépendants mais ils vérifient comme dans l'exemple précédent

P ( lim sup n { X n = n 1 / p } ) = 1 {\displaystyle \mathbb {P} \left(\limsup _{n}\{X_{n}=n^{1/p}\}\right)=1}

Les trois propriétés suivantes donnent des réciproques partielles. La première dit que la convergence en probabilité implique la converge presque sûre d'une sous-suite. La deuxième est une conséquence du théorème de Borell-Cantelli et dit que si la convergence en probabilité a lieu assez rapidement alors la convergence presque sûre a lieu également. Enfin, la troisième dit que la convergence en probabilité est équivalente à la convergence presque sûre pour une somme de variables aléatoires indépendantes[4],[5].

Propriété — Si ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} en probabilité, alors il existe une extraction φ {\displaystyle \varphi } telle que ( X φ ( n ) ) {\displaystyle (X_{\varphi (n)})} converge vers X {\displaystyle X} presque sûrement.

Propriété — Si pour tout ε > 0 {\displaystyle \varepsilon >0}

n P ( | X n X | ε ) < {\displaystyle \sum _{n}\mathbb {P} (\vert X_{n}-X\vert \geq \varepsilon )<\infty } ,

alors ( X n ) {\displaystyle (X_{n})} converge vers X {\displaystyle X} presque sûrement.

Propriété — Si les ( X n ) {\displaystyle (X_{n})} sont indépendantes et si on note S n := X 1 + X 2 + + X n {\displaystyle S_{n}:=X_{1}+X_{2}+\dots +X_{n}} pour tout n {\displaystyle n} , alors la suite ( S n ) {\displaystyle (S_{n})} converge presque sûrement si et seulement si elle converge en probabilités.

Convergence en probabilité et en loi

Lemme —  Si l'on a les convergences suivantes, respectivement dans (E,d) et dans R {\displaystyle \mathbb {R} }

X n L X et d ( X n , Y n ) L 0 {\displaystyle X_{n}{\xrightarrow[{}]{\mathcal {L}}}X\qquad {\text{et}}\qquad d(X_{n},Y_{n}){\xrightarrow[{}]{\mathcal {L}}}0}

alors on a

( X n , Y n ) L ( X , X ) {\displaystyle (X_{n},Y_{n}){\xrightarrow[{}]{\mathcal {L}}}(X,X)}

dans l'espace E × E muni de la distance infinie.

Démonstration

Soit F un fermé de E × E. Pour tout ε > 0 on note

F ε := { ( x , y ) E × E : d ( ( x , y ) , F ) ε } {\displaystyle F_{\varepsilon }:=\{(x,y)\in E\times E:d_{\infty }((x,y),F)\leq \varepsilon \}}

Alors

P ( ( X n , Y n ) F ) P ( ( X n , X n ) F ϵ ) + P ( d ( X n , Y n ) ϵ ) {\displaystyle \mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X_{n},X_{n})\in F_{\epsilon })+\mathbb {P} (d(X_{n},Y_{n})\geq \epsilon )}

En passant au limsup on obtient, en utilisant les deux hypothèses et le 3e point du théorème porte-manteau

lim sup n P ( ( X n , Y n ) F ) P ( ( X , X ) F ϵ ) {\displaystyle \limsup _{n}\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X,X)\in F_{\epsilon })}

puis en faisant tendre ε vers 0, comme F est fermé

lim sup n P ( ( X n , Y n ) F ) P ( ( X , X ) F {\displaystyle \limsup _{n}\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X,X)\in F}

On conclut en utilisant à nouveau le 3e point du théorème porte-manteau.

Propriété —  Si Xn converge vers X en probabilité alors Xn converge vers X en loi.

Démonstration

C'est une conséquence du lemme précédent en prenant Xn = X et en remarquant que la convergence en loi

d ( X , Y n ) ( d ) 0 {\displaystyle d(X,Y_{n}){\xrightarrow[{}]{(d)}}0}

dans R {\displaystyle \mathbb {R} } équivaut à la convergence en probabilité

Y n P X {\displaystyle Y_{n}{\xrightarrow[{}]{\mathbb {P} }}X}

dans (E,d).

Sinon, on peut procéder comme suit. Commençons par énoncer un lemme.

Lemme —  Soient X, Y des variables aléatoires réelles, c un réel et ε > 0. Alors

P ( Y c ) P ( X c + ε ) + P ( X Y > ε ) {\displaystyle \mathbb {P} (Y\leq c)\leq \mathbb {P} (X\leq c+\varepsilon )+\mathbb {P} (X-Y>\varepsilon )}

En effet, il suffit de remarquer que :

{ Y c } { X c + ε } { X > c + ε , Y c } {\displaystyle \{Y\leq c\}\subset \{X\leq c+\varepsilon \}\cup \{X>c+\varepsilon ,Y\leq c\}}

L'inégalité en découle naturellement.

Pour tout ε > 0, en raison de ce lemme, on a :

P ( X n a ) P ( X a + ε ) + P ( | X n X | > ε ) {\displaystyle \mathbb {P} (X_{n}\leq a)\leq \mathbb {P} (X\leq a+\varepsilon )+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )}
P ( X a ε ) P ( X n a ) + P ( | X n X | > ε ) {\displaystyle \mathbb {P} (X\leq a-\varepsilon )\leq \mathbb {P} (X_{n}\leq a)+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )}

On a donc

P ( X a ε ) P ( | X n X | > ε ) P ( X n a ) P ( X a + ε ) + P ( | X n X | > ε ) . {\displaystyle \mathbb {P} (X\leq a-\varepsilon )-\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )\leq \mathbb {P} (X_{n}\leq a)\leq \mathbb {P} (X\leq a+\varepsilon )+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon ).}

Soit a un point de continuité de FX. On fixe un réel ε' > 0. Par continuité de FX en a, il existe un réel ε > 0 tel que

| P ( X a + ε ) P ( X a ) | < ε e t | P ( X a ε ) P ( X a ) | < ε {\displaystyle |\mathbb {P} (X\leqslant a+\varepsilon )-\mathbb {P} (X\leqslant a)|<\varepsilon '\mathrm {et} |\mathbb {P} (X\leqslant a-\varepsilon )-\mathbb {P} (X\leqslant a)|<\varepsilon '} .

De la convergence de (Xn)n en probabilité vers X, on peut en déduire l'existence d'un entier N tel que : P ( | X n X | > ε ) < ε {\displaystyle \mathbb {P} (\left|X_{n}-X\right|>\varepsilon )<\varepsilon '} si nN.

D'où : n N , n N | P ( X n a ) P ( X a ) | < 2 ε {\displaystyle \forall n\in \mathbb {N} ,n\geqslant N\Rightarrow |\mathbb {P} (X_{n}\leqslant a)-\mathbb {P} (X\leqslant a)|<2\varepsilon '} .

Théorème de Slutsky — Si Xn converge en loi vers X, et si Yn converge en probabilité vers une constante c, alors le couple (Xn ,Yn) converge en loi vers le couple (X,c).

Convergence presque sûre et en loi

La convergence presque sûre implique la convergence en loi, puisqu'elle implique la convergence en probabilité et cette dernière implique celle en loi. La réciproque est fausse. Le théorème de représentation de Skorokhod donne une réciproque partielle.

Diagramme résumant les liens entre les différents modes de convergences de variables aléatoires. Une double flèche représente une implication. Une flèche simple représente une «réciproque partielle» ou un résultat permettant, sous certaines hypothèses, de passer d'un mode de convergence à un autre mode plus fort.

Notes et références

  1. Pour plus de détails sur cet exemple, voir Davidson et McKinnon 1993, chap. 4.
  2. Vaart 1998, p. 7.
  3. (en) N Kusolitsch, « Why the theorem of Scheffé should be rather called a theorem of Riesz », Periodica Mathematica Hungarica, vol. 61,‎ , p. 225-229 (lire en ligne)
  4. (en) « how to show convergence in probability imply convergence a.s. in this case? », sur StackExchange,
  5. (en) Kai Lai Chung, A Course in Probability Theory, Academic Press, 3e éd. (lire en ligne), p. 126 (Théorème 5.3.4)

Bibliographie

  • Russell Davidson et James McKinnon, Estimation and Inference in Econometrics, New York, Oxford University Press, , 874 p. (ISBN 978-0-19-506011-9, LCCN 92012048), p. 874
  • (en) G. R. Grimmett et D. R. Stirzaker, Probability and Random Processes, Oxford, Clarendon Press, , 2e éd. (ISBN 0-19-853665-8), p. 271-285
  • (en) Adrianus Willem van der Vaart (trad. de l'allemand), Asymptotic Statistics, Cambridge, Cambridge University Press, , 1re éd., 443 p., relié (ISBN 978-0-521-49603-2, LCCN 98015176), p. 443

Liens externes

  • [1] : cours de l’école centrale de Paris de 1e année sur la convergence des variables aléatoires


v · m
Index du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
  • icône décorative Portail des probabilités et de la statistique