Inégalité de concentration

Dans la théorie des probabilités, les inégalités de concentration fournissent des bornes sur la probabilité qu'une variable aléatoire dévie d'une certaine valeur (généralement l'espérance de cette variable aléatoire). Par exemple, la loi des grands nombres établit qu'une moyenne de variables aléatoires i.i.d. est, sous réserve de vérifier certaines conditions, proche de leur espérance commune. Certains résultats récents vont plus loin, en montrant que ce comportement est également vérifié par d'autres fonctions de variables aléatoires indépendantes[1].

Inégalités basiques

Inégalité de Markov

Article détaillé : Inégalité de Markov.

Cette inégalité indique la probabilité qu'une variable aléatoire à valeurs positives dépasse une certaine valeur, autrement dit elle permet de majorer la queue d'une loi de probabilité. En particulier, la probabilité qu'elle dépasse des valeurs de plus en plus grandes est de plus en plus faible. Si X {\displaystyle X} est une variable aléatoire réelle qu'on suppose presque sûrement positive alors

λ > 0 , P ( X λ ) 1 λ E [ X ] . {\displaystyle \forall \lambda >0,\quad \mathbb {P} (X\geq \lambda )\leq {\frac {1}{\lambda }}\mathbb {E} [X].}

Ce résultat possède un corollaire qui généralise ce résultat à toute fonction Φ : R R {\displaystyle \Phi \colon \mathbb {R} \to \mathbb {R} } croissante et positive :

λ R , P ( X λ ) 1 Φ ( λ ) E [ Φ ( X ) ] . {\displaystyle \forall \lambda \in \mathbb {R} ,\mathbb {P} (X\geq \lambda )\leq {\frac {1}{\Phi (\lambda )}}\mathbb {E} [\Phi (X)].}

Inégalité de Bienaymé-Tchebychev

Cette inégalité indique comment une variable dévie de sa moyenne. En particulier, la probabilité qu'une variable aléatoire dévie d'une valeur de plus en plus grande de sa moyenne est de plus en plus faible. On la démontre grâce à l'inégalité de Markov. Soit X {\displaystyle X} une variable aléatoire admettant un moment d'ordre deux alors

λ > 0 , P ( | X E [ X ] | λ ) V a r ( X ) λ 2 . {\displaystyle \forall \lambda >0,\quad \mathbb {P} \left(|X-\mathbb {E} [X]|\geq \lambda \right)\leq {\frac {\mathrm {Var} (X)}{\lambda ^{2}}}.}

On peut généraliser cela à une variable aléatoire admettant un moment d'ordre p {\displaystyle p}  :

λ > 0 , P ( | X E [ X ] | λ ) E [ | X E [ X ] | p ] λ p . {\displaystyle \forall \lambda >0,\quad \mathbb {P} \left(|X-\mathbb {E} [X]|\geq \lambda \right)\leq {\frac {\mathbb {E} [|X-\mathbb {E} [X]|^{p}]}{\lambda ^{p}}}.}

Inégalité de Chernoff

Article détaillé : Inégalité de Chernoff.

Cette inégalité permet de majorer la queue d'une loi de probabilité au même titre que l'inégalité de Markov. Elle ressemble à cette dernière mais donne une borne exponentielle.

Soit X {\displaystyle X} une variable aléatoire dont la fonction génératrice M X ( t ) = E [ e t X ] {\displaystyle M_{X}(t)=\mathbb {E} [e^{tX}]} est finie. Alors

λ 0 , P ( X λ ) e I ( λ ) e t P ( X λ ) e I ( λ ) {\displaystyle \forall \lambda \geq 0,\quad \mathbb {P} (X\geq \lambda )\leq e^{-I(\lambda )}\quad \mathrm {et} \quad \mathbb {P} (X\leq -\lambda )\leq e^{-I(-\lambda )}}

I {\displaystyle I} est la transformée de Cramér définie par I ( x ) = { sup t 0 x t log ( M X ( t ) ) si x > 0 sup t 0 x t log ( M X ( t ) ) si x 0 {\displaystyle I(x)=\left\lbrace {\begin{array}{l}\sup _{t\geq 0}xt-\log(M_{X}(t))\quad {\textrm {si}}\quad x>0\\\sup _{t\leq 0}-xt-\log(M_{X}(t))\quad {\textrm {si}}\quad x\leq 0\end{array}}\right.}

Inégalité de Bennett

Article détaillé : Inégalité de Bennett.

Cette inégalité majore la fonction génératrice des cumulants d'une somme de variables aléatoires indépendantes majorées centrées et majore en conséquence d'après l'inégalité de Chernoff la probabilité que cette somme dévie avec une quantité donnée. Soient X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} des variables i.i.d. de variance finie et tels que X i b {\displaystyle X_{i}\leq b} presque-sûrement pour tout 1 i n {\displaystyle 1\leq i\leq n} et b > 0 {\displaystyle b>0} . On pose S = i = 1 n ( X i E [ X i ] ) {\displaystyle S=\textstyle \sum _{i=1}^{n}(X_{i}-\mathbb {E} [X_{i}])} et v = i = 1 n E [ X i 2 ] {\displaystyle v=\textstyle \sum _{i=1}^{n}\mathbb {E} [X_{i}^{2}]} . Pour tout λ > 0 {\displaystyle \lambda >0} ,

log ( E e λ S ) n log ( 1 + v n b 2 ϕ ( b λ ) ) v b 2 ϕ ( b λ ) . {\displaystyle \log(\mathbb {E} e^{\lambda S})\leq n\log \left(1+{\frac {v}{nb^{2}}}\phi (b\lambda )\right)\leq {\frac {v}{b^{2}}}\phi (b\lambda ).}

ϕ ( u ) = e u u 1 {\displaystyle \phi (u)=e^{u}-u-1} pour u R {\displaystyle u\in \mathbb {R} } . En appliquant l'inégalité de Chernoff on obtient en particulier que pour tout t > 0 {\displaystyle t>0} ,

P ( S t ) exp ( v b 2 h ( b t v ) ) . {\displaystyle \mathbb {P} (S\geq t)\leq \exp \left(-{\frac {v}{b^{2}}}h\left({\frac {bt}{v}}\right)\right).}

h ( u ) = ( 1 + u ) log ( 1 + u ) u {\displaystyle h(u)=(1+u)\log(1+u)-u} pour u > 0 {\displaystyle u>0} .

Inégalités de la variance

Inégalité d'Efron-Stein

Article détaillé : Inégalité d'Efron-Stein.

Cette inégalité borne la variance d'une fonction générale d'une variable aléatoire[1]. Soient X 1 , , X n , X 1 , , X n {\displaystyle X_{1},\dots ,X_{n},X_{1}',\dots ,X_{n}'} des variables indépendantes (pas nécessairement identiquement distribuées) et tels que X i X i {\displaystyle X_{i}\sim X_{i}'} pour tout 1 i n {\displaystyle 1\leq i\leq n} . En posant X = ( X 1 , , X n ) {\displaystyle X=(X_{1},\dots ,X_{n})} et X ( i ) = ( X 1 , , X i 1 , X i , X i + 1 , , X n ) {\displaystyle X^{(i)}=(X_{1},\dots ,X_{i-1},X_{i}',X_{i+1},\dots ,X_{n})} alors

V a r ( f ( X ) ) 1 2 i = 1 n E [ ( f ( X ) f ( X ( i ) ) ) 2 ] . {\displaystyle \mathrm {Var} (f(X))\leq {\frac {1}{2}}\sum _{i=1}^{n}\mathbb {E} [(f(X)-f(X^{(i)}))^{2}].}

Inégalités du processus empirique

Inégalité DKW

Article détaillé : Inégalité DKW.

Cette inégalité borne la probabilité que la fonction de répartition empirique diffère uniformément de la fonction de répartition de la variable aléatoire étudiée.

Soient X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} des variables i.i.d. de fonction de répartition F {\displaystyle F} . On note F n {\displaystyle F_{n}} la fonction de répartition empirique basée sur l'échantillon X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} , c'est-à-dire

t R , F n ( t ) = 1 n i = 1 n 1 { X i t } . {\displaystyle \forall t\in \mathbb {R} ,\qquad F_{n}(t)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}.}

Alors l'inégalité d'un côté est donnée par :

P ( sup t R ( F n ( t ) F ( t ) ) > ε ) e 2 n ε 2 , ε 1 2 n ln 2 {\displaystyle \mathbb {P} \left(\sup _{t\in \mathbb {R} }(F_{n}(t)-F(t))>\varepsilon \right)\leq e^{-2n\varepsilon ^{2}},\qquad \forall \varepsilon \geq {\sqrt {{\frac {1}{2n}}\ln 2}}}

Cette inégalité a pour conséquence l'inégalité des deux côtés suivante (qui n'a pas de conditions sur ε {\displaystyle \varepsilon } ) :

P ( sup t R | F n ( t ) F ( t ) | > ε ) 2 e 2 n ε 2 , ε > 0 {\displaystyle \mathbb {P} \left(\sup _{t\in \mathbb {R} }|F_{n}(t)-F(t)|>\varepsilon \right)\leq 2e^{-2n\varepsilon ^{2}},\qquad \forall \varepsilon >0}

Inégalité de Borell

Cette inégalité donne une borne exponentielle pour la concentration d'un processus stochastique gaussien[2]. Soit X {\displaystyle X} un processus gaussien stochastique séparable indexé par un espace semi-métrique ( T , d ) {\displaystyle (T,d)} . On note | | X | | {\displaystyle ||X||} le supremum sup t T | X t | {\displaystyle \sup _{t\in T}|X_{t}|} et on suppose que le processus est centré, i.e. E [ X t ] = 0 {\displaystyle \mathbb {E} [X_{t}]=0} pour tout t T {\displaystyle t\in T} . On note σ 2 ( X ) = sup t T V a r ( X t ) {\displaystyle \sigma ^{2}(X)=\sup _{t\in T}\mathrm {Var} (X_{t})} le supremum de la variance du processus et M ( X ) {\displaystyle M(X)} la médiane de la variable X {\displaystyle X} . Pour tout t > 0 {\displaystyle t>0} ,

P ( |   | | X | | M ( X ) | t ) exp ( t 2 2 σ 2 ( X ) ) P ( |   | | X | | E [ X ] | t ) 2 exp ( t 2 2 σ 2 ( X ) ) P ( | | X | | t ) 2 exp ( t 2 8 E [ | | X | | 2 ] ) {\displaystyle {\begin{aligned}P(|\ ||X||-M(X)|\geq t)&\leq \exp \left(-{\frac {t^{2}}{2\sigma ^{2}(X)}}\right)\\P(|\ ||X||-\mathbb {E} [X]|\geq t)&\leq 2\exp \left(-{\frac {t^{2}}{2\sigma ^{2}(X)}}\right)\\P(||X||\geq t)&\leq 2\exp \left(-{\frac {t^{2}}{8\mathbb {E} [||X||^{2}]}}\right)\end{aligned}}}

Inégalité de Bousquet

Article détaillé : Inégalité de Bousquet.

L'inégalité de Bousquet donne la concentration du processus empirique indexé par des classes de fonctions bornées[3]. Soient X 1 , s , , X n , s {\displaystyle X_{1,s},\dots ,X_{n,s}} des variables aléatoires réelles i.i.d. indexés par s T {\displaystyle s\in T} . On suppose que les variables sont centrées et majorées par 1, i.e. E [ X i , s ] = 0 {\displaystyle \mathbb {E} [X_{i,s}]=0} et | X i , s | 1 {\displaystyle |X_{i,s}|\leq 1} pour tout i = 1 , , n {\displaystyle i=1,\dots ,n} et s T {\displaystyle s\in T} . On note Z = sup s T i = 1 n X i , s {\displaystyle Z=\textstyle \sup _{s\in T}\sum _{i=1}^{n}X_{i,s}} . Alors pour tout λ , t 0 {\displaystyle \lambda ,t\geq 0} ,

log E e λ ( Z E Z ) v ϕ ( λ ) P ( Z E Z + t ) e v h ( t / v ) {\displaystyle {\begin{aligned}\log \mathbb {E} e^{\lambda (Z-\mathbb {E} Z)}&\leq v\phi (\lambda )\\\mathbb {P} (Z\geq \mathbb {E} Z+t)&\leq e^{-vh(t/v)}\end{aligned}}}

ϕ ( u ) = e u u 1 , h ( u ) = ( 1 + u ) log ( 1 + u ) u {\displaystyle \phi (u)=e^{u}-u-1,h(u)=(1+u)\log(1+u)-u} pour u 1 {\displaystyle u\geq -1} , v = 2 E Z + σ 2 {\displaystyle v=2\mathbb {E} Z+\sigma ^{2}} avec σ 2 = sup s T i = 1 n E X i , s 2 {\displaystyle \sigma ^{2}=\textstyle \sup _{s\in T}\sum _{i=1}^{n}\mathbb {E} X_{i,s}^{2}} . En optimisant la fonction h {\displaystyle h} , on obtient en particulier

P ( Z E Z + t ) exp ( t 2 2 ( v + t / 3 ) ) {\displaystyle \mathbb {P} (Z\geq \mathbb {E} Z+t)\leq \exp \left(-{\frac {t^{2}}{2(v+t/3)}}\right)}

Inégalité de Talagrand

Article détaillé : Inégalité de Talagrand.

Cette inégalité donne également une borne exponentielle pour la concentration du processus empirique indexé par des classes de fonctions[4]. Soient X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} des variables i.i.d. à valeurs dans un espace X {\displaystyle {\mathcal {X}}} , une fonction f : X R {\displaystyle f:{\mathcal {X}}\to \mathbb {R} } une fonction mesurable, et le processus empirique α n ( f ) = 1 n i = 1 n ( f ( X i ) E [ f ( X i ) ] ) {\displaystyle \alpha _{n}(f)={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}(f(X_{i})-\mathbb {E} [f(X_{i})])} . Si F {\displaystyle {\mathcal {F}}} est une classe de fonctions mesurables définies sur X {\displaystyle {\mathcal {X}}} à valeurs réelles vérifiant certaines conditions d'entropie métrique alors pour tout t > 0 {\displaystyle t>0} ,

P ( | | α n | | F > t ) C ( ν ) t ν exp ( 2 t 2 ) , {\displaystyle \mathbb {P} (||\alpha _{n}||_{\mathcal {F}}>t)\leq C(\nu )t^{\nu }\exp(-2t^{2}),}

ν 1 , C ( ν ) > 0 {\displaystyle \nu \geq 1,C(\nu )>0} et | | α n | | F = sup f F | α n ( f ) | {\displaystyle ||\alpha _{n}||_{\mathcal {F}}=\sup _{f\in {\mathcal {F}}}|\alpha _{n}(f)|} .

Références

  1. a et b (en) Olivier Boucheron, Gabor Lugosi et Pascal Massart, Concentration inequalities: A Nonasymptotic Theory of Independence, OUP Oxford, 496 p. (ISBN 019876765X)
  2. (en) Christer Borell, « The Brunn-Minkowski inequality in Gauss space », Inventiones mathematicae, vol. 30, no 2,‎ , p. 207–216 (ISSN 0020-9910 et 1432-1297, DOI 10.1007/BF01425510, lire en ligne, consulté le )
  3. (fr + en) Olivier Bousquet, « A Bennett Concentration Inequality and Its Application to Suprema of Empirical Processes », Académie des sciences,‎ , p. 1-11
  4. (en) M. Talagrand, « Sharper Bounds for Gaussian and Empirical Processes », The Annals of Probability, vol. 22, no 1,‎ , p. 28–76 (ISSN 0091-1798 et 2168-894X, DOI 10.1214/aop/1176988847, lire en ligne, consulté le )
  • icône décorative Portail des probabilités et de la statistique