Erreur quadratique moyenne

Page d’aide sur l’homonymie

Pour les articles homonymes, voir EQM.

En statistiques, l’erreur quadratique moyenne d’un estimateur θ ^ {\displaystyle {\hat {\theta }}} d’un paramètre θ {\displaystyle \theta } de dimension 1 (mean squared error ( MSE {\displaystyle \operatorname {MSE} } ), en anglais) est une mesure caractérisant la « précision » de cet estimateur. Elle est plus souvent appelée « erreur quadratique » (« moyenne » étant sous-entendu) ; elle est parfois appelée aussi « risque quadratique ».

L’erreur quadratique moyenne est définie par :

Définition —  MSE ( θ ^ ) = def E [ ( θ ^ θ ) 2 ] {\displaystyle \operatorname {MSE} ({\hat {\theta }})\,{\overset {\text{def}}{=}}\,\mathbb {E} \left[({\hat {\theta }}-\theta )^{2}\right]}

Propriétés

Expression

On peut exprimer l’erreur quadratique moyenne en fonction du biais et de la variance de l’estimateur :

Théorème —  MSE ( θ ^ ) = Biais ( θ ^ ) 2 + Var ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {Biais} ({\hat {\theta }})^{2}+\operatorname {Var} ({\hat {\theta }})}

Démonstration

Rappelons d’abord que Biais ( θ ^ ) = def E ( θ ^ ) θ {\displaystyle \operatorname {Biais} ({\hat {\theta }})\,{\overset {\text{def}}{=}}\,\mathbb {E} ({\hat {\theta }})-\theta } et E ( θ ^ ) {\displaystyle \mathbb {E} ({\hat {\theta }})} sont des constantes, ce qui permet d’utiliser la linéarité de l’espérance : E ( c 1 X + c 2 ) = c 1 E ( X ) + c 2 {\displaystyle \mathbb {E} (c_{1}X+c_{2})=c_{1}\mathbb {E} (X)+c_{2}} .

MSE ( θ ^ ) = def E [ ( θ ^ θ ) 2 ] = E [ ( θ ^ E ( θ ^ ) + Biais ( θ ^ ) ) 2 ] = E [ ( θ ^ E ( θ ^ ) ) 2 + 2 ( θ ^ E ( θ ^ ) ) Biais ( θ ^ ) + Biais ( θ ^ ) 2 ] = E [ ( θ ^ E ( θ ^ ) ) 2 ] + 2 E ( θ ^ E ( θ ^ ) ) Biais ( θ ^ ) + Biais ( θ ^ ) 2 = Var ( θ ^ ) + 2 ( E ( θ ^ ) E ( θ ^ ) ) Biais ( θ ^ ) + Biais ( θ ^ ) 2 = Var ( θ ^ ) + Biais ( θ ^ ) 2 {\displaystyle {\begin{aligned}\operatorname {MSE} ({\hat {\theta }})\,{\overset {\text{def}}{=}}\,\mathbb {E} \left[({\hat {\theta }}-\theta )^{2}\right]&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})+\operatorname {Biais} ({\hat {\theta }})\right)^{2}\right]\\&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)^{2}+2\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)\operatorname {Biais} ({\hat {\theta }})+\operatorname {Biais} ({\hat {\theta }})^{2}\right]\\&=\mathbb {E} \left[\left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)^{2}\right]+2\mathbb {E} \left({\hat {\theta }}-\mathbb {E} ({\hat {\theta }})\right)\operatorname {Biais} ({\hat {\theta }})+\operatorname {Biais} ({\hat {\theta }})^{2}\\&=\operatorname {Var} ({\hat {\theta }})+2\left(\mathbb {E} ({\hat {\theta }})-\mathbb {E} ({\hat {\theta }})\right)\operatorname {Biais} ({\hat {\theta }})+\operatorname {Biais} ({\hat {\theta }})^{2}\\&=\operatorname {Var} ({\hat {\theta }})+\operatorname {Biais} ({\hat {\theta }})^{2}\end{aligned}}}

Signe

Corollaire — La variance étant toujours positive ou nulle, MSE ( θ ^ ) 0 {\displaystyle \operatorname {MSE} ({\hat {\theta }})\geq 0} .

Minimisation

Théorème — Soit θ ¯ {\displaystyle {\bar {\theta }}} un estimateur sans biais du paramètre θ {\displaystyle \theta } , tel que MSE ( θ ¯ ) > 0 {\displaystyle \operatorname {MSE} ({\bar {\theta }})>0} (si l’erreur quadratique moyenne est nulle, elle est déjà minimale, voir section « Signe » ci-dessus).

Parmi tous les estimateurs proportionnels à θ ¯ {\displaystyle {\bar {\theta }}} , l’erreur quadratique moyenne est minimale pour l’estimateur θ ˇ = def θ 2 θ 2 + MSE ( θ ¯ ) θ ¯ {\displaystyle {\check {\theta }}\,{\overset {\text{def}}{=}}\,{\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}{\bar {\theta }}} .

Cette erreur quadratique moyenne minimale vaut MSE ( θ ˇ ) = θ 2 MSE ( θ ¯ ) θ 2 + MSE ( θ ¯ ) {\displaystyle \operatorname {MSE} ({\check {\theta }})={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}} .

Démonstration

Par définition de l’estimateur sans biais, E ( θ ¯ ) = θ {\displaystyle \mathbb {E} ({\bar {\theta }})=\theta } , d’où Var ( θ ¯ ) = MSE ( θ ¯ ) {\displaystyle \operatorname {Var} ({\bar {\theta }})=\operatorname {MSE} ({\bar {\theta }})} .

Soit θ ^ α = α θ ¯ {\displaystyle {\hat {\theta }}_{\alpha }=\alpha {\bar {\theta }}} , donc :

  • par linéarité de l’espérance, E ( θ ^ α ) = E ( α θ ¯ ) = α E ( θ ¯ ) = α θ {\displaystyle \mathbb {E} ({\hat {\theta }}_{\alpha })=\mathbb {E} (\alpha {\bar {\theta }})=\alpha \mathbb {E} ({\bar {\theta }})=\alpha \theta }  ;
  • par homogénéité de la variance, Var ( θ ^ α ) = Var ( α θ ¯ ) = α 2 Var ( θ ¯ ) = α 2 MSE ( θ ¯ ) {\displaystyle \operatorname {Var} ({\hat {\theta }}_{\alpha })=\operatorname {Var} (\alpha {\bar {\theta }})=\alpha ^{2}\operatorname {Var} ({\bar {\theta }})=\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})}  ;

d’où MSE ( θ ^ α ) = ( α θ θ ) 2 + α 2 MSE ( θ ¯ ) = ( α 1 ) 2 θ 2 + α 2 MSE ( θ ¯ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }}_{\alpha })=(\alpha \theta -\theta )^{2}+\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})=(\alpha -1)^{2}\theta ^{2}+\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})} .

En dérivant par rapport à α {\displaystyle \alpha } , on trouve MSE ( θ ^ α ) = 2 ( α 1 ) θ 2 + 2 α MSE ( θ ¯ ) = 2 ( θ 2 + MSE ( θ ¯ ) ) α 2 θ 2 {\displaystyle \operatorname {MSE} '({\hat {\theta }}_{\alpha })=2(\alpha -1)\theta ^{2}+2\alpha \operatorname {MSE} ({\bar {\theta }})=2\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)\alpha -2\theta ^{2}} .

Comme on a supposé MSE ( θ ¯ ) > 0 {\displaystyle \operatorname {MSE} ({\bar {\theta }})>0} , cette dérivée est une fonction affine de coefficient directeur strictement positif, donc elle s’annule en α 0 = θ 2 θ 2 + MSE ( θ ¯ ) {\displaystyle \alpha _{0}={\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}} , est strictement négative pour α < α 0 {\displaystyle \alpha <\alpha _{0}} , et est strictement positive pour α > α 0 {\displaystyle \alpha >\alpha _{0}} , donc α 0 {\displaystyle \alpha _{0}} est le minimum de MSE ( θ ^ α ) {\displaystyle \operatorname {MSE} ({\hat {\theta }}_{\alpha })} .

L’erreur quadratique moyenne est donc minimale pour θ ^ α 0 = θ 2 θ 2 + MSE ( θ ¯ ) θ ¯ = def θ ˇ {\displaystyle {\hat {\theta }}_{\alpha _{0}}={\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}{\bar {\theta }}\,{\overset {\text{def}}{=}}\,{\check {\theta }}} .

Ce minimum vaut :

MSE ( θ ˇ ) = MSE ( θ ^ α 0 ) = ( α 0 1 ) 2 θ 2 + α 0 2 MSE ( θ ¯ ) = ( MSE ( θ ¯ ) θ 2 + MSE ( θ ¯ ) ) 2 θ 2 + ( θ 2 θ 2 + MSE ( θ ¯ ) ) 2 MSE ( θ ¯ ) = θ 2 MSE ( θ ¯ ) 2 + θ 4 MSE ( θ ¯ ) ( θ 2 + MSE ( θ ¯ ) ) 2 = ( θ 2 MSE ( θ ¯ ) ) ( MSE ( θ ¯ ) + θ 2 ) ( θ 2 + MSE ( θ ¯ ) ) 2 = θ 2 MSE ( θ ¯ ) θ 2 + MSE ( θ ¯ ) {\displaystyle {\begin{aligned}\operatorname {MSE} ({\check {\theta }})&=\operatorname {MSE} ({\hat {\theta }}_{\alpha _{0}})\\&=(\alpha _{0}-1)^{2}\theta ^{2}+\alpha _{0}^{2}\operatorname {MSE} ({\bar {\theta }})\\&=\left(-{\frac {\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\right)^{2}\theta ^{2}+\left({\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\right)^{2}\operatorname {MSE} ({\bar {\theta }})\\&={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})^{2}+\theta ^{4}\operatorname {MSE} ({\bar {\theta }})}{\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)^{2}}}\\&={\frac {\left(\theta ^{2}\operatorname {MSE} ({\bar {\theta }})\right)\left(\operatorname {MSE} ({\bar {\theta }})+\theta ^{2}\right)}{\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)^{2}}}\\&={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\end{aligned}}}

Remarque : la valeur de θ {\displaystyle \theta } étant inconnue par nature (sinon, on n’en chercherait pas un estimateur), cette formule n’a d’intérêt pratique que si le coefficient θ 2 θ 2 + MSE ( θ ¯ ) {\displaystyle {\tfrac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}} se simplifie en une constante indépendante de θ {\displaystyle \theta } , c’est-à-dire si et seulement si MSE ( θ ¯ ) {\displaystyle \operatorname {MSE} ({\bar {\theta }})} est proportionnel à θ 2 {\displaystyle \theta ^{2}} (voir exemple plus bas).

Utilité

Comparaison d’estimateurs

Si les deux estimateurs à comparer sont sans biais, l’estimateur le plus efficace est simplement celui dont la variance est la plus petite. De même, si un estimateur a à la fois un plus grand biais (en valeur absolue) et une plus grande variance qu’un autre estimateur, ce dernier est évidemment meilleur.

Cependant, si un estimateur a un plus grand biais (en valeur absolue) mais une plus petite variance, la comparaison n’est plus immédiate : l’erreur quadratique moyenne permet alors de trancher.

Exemple :

Comparons les deux estimateurs les plus courants de la variance :

s n 1 2 = def 1 n 1 i = 1 n ( y i y ¯ ) 2 {\displaystyle s_{n-1}^{2}\,{\overset {\text{def}}{=}}\,{\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}} et s n 2 = def 1 n i = 1 n ( y i y ¯ ) 2 = n 1 n s n 1 2 {\displaystyle s_{n}^{2}\,{\overset {\text{def}}{=}}\,{\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {n-1}{n}}s_{n-1}^{2}}

Pour un tirage avec remise et une loi de probabilité dont on suppose que le kurtosis normalisé est nul[note 1] (ex. : la loi normale), les calculs montrent que (voir Greene, section C.5.1) :

E ( s n 1 2 ) = σ 2 {\displaystyle \mathbb {E} (s_{n-1}^{2})=\sigma ^{2}} d’où Biais ( s n 1 2 ) = 0 {\displaystyle \operatorname {Biais} (s_{n-1}^{2})=0} ,
Var ( s n 1 2 ) = 2 σ 4 n 1 {\displaystyle \operatorname {Var} (s_{n-1}^{2})={\frac {2\sigma ^{4}}{n-1}}} d’où MSE ( s n 1 2 ) = 2 σ 4 n 1 {\displaystyle \operatorname {MSE} (s_{n-1}^{2})={\frac {2\sigma ^{4}}{n-1}}}  ;
E ( s n 2 ) = n 1 n E ( s n 1 2 ) = n 1 n σ 2 {\displaystyle \mathbb {E} (s_{n}^{2})={\frac {n-1}{n}}\mathbb {E} (s_{n-1}^{2})={\frac {n-1}{n}}\sigma ^{2}} d’où Biais ( s n 2 ) = σ 2 n {\displaystyle \operatorname {Biais} (s_{n}^{2})=-{\frac {\sigma ^{2}}{n}}} ,
Var ( s n 2 ) = ( n 1 n ) 2 Var ( s n 1 2 ) = ( n 1 n ) 2 2 σ 4 n 1 = 2 ( n 1 ) σ 4 n 2 {\displaystyle \operatorname {Var} (s_{n}^{2})=\left({\frac {n-1}{n}}\right)^{2}\operatorname {Var} (s_{n-1}^{2})=\left({\frac {n-1}{n}}\right)^{2}{\frac {2\sigma ^{4}}{n-1}}={\frac {2(n-1)\sigma ^{4}}{n^{2}}}} d’où MSE ( s n 2 ) = ( 2 n 1 ) σ 4 n 2 {\displaystyle \operatorname {MSE} (s_{n}^{2})={\frac {(2n-1)\sigma ^{4}}{n^{2}}}} .

L’estimateur s n 1 2 {\displaystyle s_{n-1}^{2}} est sans biais mais a une plus grande variance (plus faible efficacité) que l’estimateur s n 2 {\displaystyle s_{n}^{2}} .

La comparaison des erreurs quadratiques moyennes donne :

MSE ( s n 2 ) MSE ( s n 1 2 ) = σ 4 ( 2 n 1 n 2 2 n 1 ) = ( 3 n 1 ) σ 4 n 2 ( n 1 ) < 0 {\displaystyle \operatorname {MSE} (s_{n}^{2})-\operatorname {MSE} (s_{n-1}^{2})=\sigma ^{4}\left({\frac {2n-1}{n^{2}}}-{\frac {2}{n-1}}\right)=-{\frac {(3n-1)\sigma ^{4}}{n^{2}(n-1)}}<0}

L’estimateur biaisé s n 2 {\displaystyle s_{n}^{2}} est donc meilleur en termes d’erreur quadratique moyenne.

Toujours dans le cas d’un tirage avec remise et d’un kurtosis nul, en appliquant le théorème de minimisation donné plus haut à l’estimateur sans biais s n 1 2 {\displaystyle s_{n-1}^{2}} , on trouve que l’estimateur s n + 1 2 = n n + 1 s n 2 = n 1 n + 1 s n 1 2 {\displaystyle s_{n+1}^{2}={\frac {n}{n+1}}s_{n}^{2}={\frac {n-1}{n+1}}s_{n-1}^{2}} est l’estimateur minimisant l’erreur quadratique moyenne, cette dernière valant alors 2 σ 4 n + 1 {\displaystyle {\frac {2\sigma ^{4}}{n+1}}} .

Convergence de l'estimateur

Il est possible de déterminer si un estimateur est convergent en probabilité à partir de son erreur quadratique moyenne, on a en effet:

Théorème —  [ ( lim n E ( θ ^ ) = θ e t lim n Var ( θ ^ ) = 0 ) lim n MSE ( θ ^ ) = 0 ] θ ^ p θ {\displaystyle \left[\left(\lim _{n\to \infty }\mathbb {E} ({\hat {\theta }})=\theta \quad \mathbf {et} \quad \lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0\right)\Leftrightarrow \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\right]\Rightarrow {\hat {\theta }}{\xrightarrow {p}}\theta }

La démonstration est faite à la page convergence de variables aléatoires.

Généralisation

Dans un cadre plus général pour un modèle multiparamétrique où l'on cherche à estimer plusieurs paramètres ou pour estimer une fonction f ( θ ) {\displaystyle f(\theta )} de un ou plusieurs paramètres, l'erreur quadratique moyenne pour un estimateur δ {\displaystyle \delta } de f ( θ ) {\displaystyle f(\theta )} est défini par:

Définition —  E [ t ( δ f ( θ ) ) A ( δ f ( θ ) ) ] {\displaystyle \mathbb {E} \left[^{t}(\delta -f(\theta ))A(\delta -f(\theta ))\right]}

où A est une matrice symétrique définie positive (qui définit donc un produit scalaire).

Notes et références

Notes

  1. Plus généralement, toujours pour un tirage avec remise, on a : Var ( s n 1 2 ) = ( γ 2 n + 2 n 1 ) σ 4 {\displaystyle \operatorname {Var} (s_{n-1}^{2})=\left({\frac {\gamma _{2}}{n}}+{\frac {2}{n-1}}\right)\sigma ^{4}} .

Références

Voir aussi

Bibliographie

(en) William H Greene, Econométrie, Paris, Pearson Education, , 5e éd., 943 p. (ISBN 978-2-7440-7097-6), p. 2

Articles connexes

  • icône décorative Portail des probabilités et de la statistique