Régression de Cox

La régression de Cox (modèle à risque proportionnel) — nommée ainsi d'après le statisticien britannique David Cox — est une classe de modèles de survie en statistique. Les modèles de survie étudient le temps écoulé avant qu'un événement ne survienne. Historiquement, dans le modèle de Cox, cet événement est le décès de l'individu, c'est pourquoi on parle généralement de survie et de décès. Au cours des années, l'utilisation du modèle s'est étendue à d'autres situations, l'événement peut donc être de quelconque nature : il peut s'agir de la récidive d'une maladie, ou à l'inverse d'une guérison. D'un point de vue statistique, la nature de l'événement n'est bien sûr pas importante, il s'agira alors d'interpréter les coefficients en conséquence.

Prenons le cas d'une étude longitudinale, bien souvent, il n'est pas envisageable de suivre les individus sur une longue période, et les événements ne sont pas forcément observés sur toute la population, on parle alors de données tronquées ou censurées. L'avantage d'un modèle comme celui de Cox est que l'on peut prendre en compte ces données même si elles ne sont pas « complètes ».

Théorie

Le modèle de Cox exprime la fonction de risque instantané de décès λ {\displaystyle \lambda } (on peut aussi trouver les appellations suivantes : fonction de risque, taux de panne, taux de fiabilité, force de mortalité, taux de risque...) en fonction du temps t {\displaystyle t} et des covariables X 1 , , X n {\displaystyle X_{1},\cdots ,X_{n}} . On a alors :

λ ( t , X 1 , , X n ) = λ 0 ( t ) exp ( Σ i = 1 n β i X i ) {\displaystyle \lambda \left(t,X_{1},\cdots ,X_{n}\right)=\lambda _{0}\left(t\right)\exp \left(\Sigma _{i=1}^{n}\beta _{i}X_{i}\right)}


De manière plus formelle, pour un individu, la fonction λ ( t , X 1 , , X n ) {\displaystyle \lambda \left(t,X_{1},\cdots ,X_{n}\right)} correspond au risque instantané de décès à l'instant t sachant qu'il est vivant juste avant t.

λ 0 ( t ) {\displaystyle \lambda _{0}\left(t\right)} est appelé le risque de base. Il correspond au risque instantané de décès lorsque toutes les covariables sont nulles.

On peut noter quelques points :

  • On peut séparer la formule en deux parties, la première ( λ 0 ( t ) {\displaystyle \lambda _{0}\left(t\right)} ) est dépendante du temps contrairement à la seconde
    ( exp ( Σ i = 1 n β i X i ) {\displaystyle \exp \left(\Sigma _{i=1}^{n}\beta _{i}X_{i}\right)} ) qui elle ne dépend que des covariables (le modèle de Cox peut aussi s'étendre à des covariables qui dépendent du temps, confère à sous-partie correspondante).
  • On dit que le modèle de Cox est semi-paramétrique. En effet, on ne cherche pas à estimer la fonction λ 0 ( t ) {\displaystyle \lambda _{0}\left(t\right)} , qui en fait, est la même pour tous les individus à un instant donné. Ce qui nous importe, c'est le rapport des risques instantanés de décès pour deux individus exposés à des facteurs de risques différents.
  • Il découle de cette formule une hypothèse essentielle du modèle de Cox : celle des risques proportionnels. Pour comprendre cette notion, prenons deux individus j 1 {\displaystyle j_{1}} et j 2 {\displaystyle j_{2}} qui ne diffèrent que par une seule covariable, disons la k-ième. On peut imaginer que cette covariable vaut 0 chez j 1 {\displaystyle j_{1}} et 1 chez j 2 {\displaystyle j_{2}} .

On obtient alors, quel que soit t {\displaystyle t}  :

λ ( t , j 2 ) λ ( t , j 1 ) = λ 0 ( t ) exp ( β 1 X 1 + + β k 1 X k 1 + β k × 1 + β k + 1 X k + 1 + + β n X n ) λ 0 ( t ) exp ( β 1 X 1 + + β k 1 X k 1 + β k × 0 + β k + 1 X k + 1 + + β n X n ) = exp ( β k ) {\displaystyle {\frac {\lambda \left(t,j_{2}\right)}{\lambda \left(t,j_{1}\right)}}={\frac {\lambda _{0}\left(t\right)\exp \left(\beta _{1}X_{1}^{'}+\cdots +\beta _{k-1}X_{k-1}^{'}+\beta _{k}\times 1+\beta _{k+1}X_{k+1}^{'}+\cdots +\beta _{n}X_{n}^{'}\right)}{\lambda _{0}\left(t\right)\exp \left(\beta _{1}X_{1}^{'}+\cdots +\beta _{k-1}X_{k-1}^{'}+\beta _{k}\times 0+\beta _{k+1}X_{k+1}^{'}+\cdots +\beta _{n}X_{n}^{'}\right)}}=\exp \left(\beta _{k}\right)}

Le rapport est donc indépendant du temps, autrement dit, quel que soit le temps t, l'individu j 2 {\displaystyle j_{2}} a un risque instantané de mourir exp ( β k ) {\displaystyle \exp(\beta _{k})} fois celui de l'individu j 1 {\displaystyle j_{1}} .


Hypothèse des risques proportionnels

Il s'agit d'une hypothèse forte du modèle de Cox, il faut donc au préalable vérifier que celle-ci est satisfaite. Pour chaque covariable, on teste alors si son effet est indépendant du temps. Cet effet doit être constant, ce qui signifie qu'il peut être bénéfique, nocif ou simplement nul. Il existe différentes méthodes pour vérifier si l'hypothèse des risques proportionnels est satisfaite. On peut s'appuyer sur des méthodes graphiques, par exemple, si l'on veut vérifier l'hypothèse des risques proportionnels sur une covariable X k {\displaystyle X_{k}} - qui prend les valeurs 0 ou 1 - ; alors on peut regarder si les courbes log [ log [ S ( t ) ] ] {\displaystyle \log \left[-\log \left[S\left(t\right)\right]\right]} des deux strates (i.e. : les individus pour qui X k = 0 {\displaystyle X_{k}=0} et ceux pour qui X k = 1 {\displaystyle X_{k}=1} ) paraissent translatées (avec S {\displaystyle S} la fonction de survie, voir aussi le lien entre la fonction survie et la fonction de risque). Si c'est le cas, on pourrait penser que l'hypothèse est vérifiée.

Il existe cependant des tests statistiques. Parmi eux, le test des résidus de Schoenfeld : pour chaque date de mort t i {\displaystyle t_{i}} , on calcule la différence entre les caractéristiques de l’individu décédé (en cas d’ex aequo, on calcule un résidu pour chaque individu et chaque temps de décès et on somme les résidus) et une moyenne pondérée des caractéristiques des individus à risque de décéder au temps t i {\displaystyle t_{i}} . Ceci donne :

R i j = X i j X ¯ i j ( t i ) {\displaystyle R_{ij}=X_{ij}-{\bar {X}}_{ij}\left(t_{i}\right)} [1]

Avec :

  • R i j {\displaystyle R_{ij}}  : résidu au temps t i {\displaystyle t_{i}}
  • X i j {\displaystyle X_{ij}}  : valeur de la covariable j {\displaystyle j} pour l'individu décédé au temps t i {\displaystyle t_{i}}
  • X ¯ i j ( t i ) {\displaystyle {\bar {X}}_{ij}\left(t_{i}\right)}  : moyenne pondérée de la covariable j {\displaystyle j} chez les individus à risque au temps t i {\displaystyle t_{i}}

On utilise les résidus standardisés qui sont en fait les résidus divisés par leur variance.

Si l’hypothèse des risques proportionnels est vérifiée, alors les résidus doivent être distribués de la même manière au cours du temps. En plus de la statistique de test, il est courant d’effectuer une représentation graphique des résidus en fonction du temps.

Généralement, cette hypothèse est vérifiée pour la plupart des covariables. Si ce n'est pas le cas, une des solutions est de stratifier sur les covariables qui ne vérifient pas l'hypothèse des risques proportionnels.

Estimations des coefficients

L'estimation des β k | k = 1 n {\displaystyle \beta _{k}|k=1\cdots n} se fait par la méthode du maximum de vraisemblance. La vraisemblance d’un échantillon est en fait la probabilité d’observer cet échantillon, intuitivement donc, on veut maximiser cette probabilité.

Prenons donc un échantillon de données indépendantes avec les notations suivantes :

  • X i {\displaystyle X_{i}} le vecteur colonne des covariables de la i-ème personne (pouvant d'ailleurs dépendre du temps)
  • β {\displaystyle \beta } le vecteur colonne des coefficients β i {\displaystyle \beta _{i}}
  • t i | i = 1 m {\displaystyle t_{i}|i=1\cdots m} les temps de décès
  • d i {\displaystyle d_{i}} le nombre de décès au temps t i {\displaystyle t_{i}}
  • D i {\displaystyle D_{i}} l'ensemble des décès au temps t i {\displaystyle t_{i}}
  • r i {\displaystyle r_{i}} le nombre d'individus à risque de mourir au temps t i {\displaystyle t_{i}^{-}}
  • R i {\displaystyle R_{i}} l'ensemble des individus à risque de mourir au temps t i {\displaystyle t_{i}^{-}}


Au temps t i {\displaystyle t_{i}} , la probabilité qu’un sujet k {\displaystyle k} décède sachant qu'il est vivant au temps t i {\displaystyle t_{i}^{-}} est :

λ 0 ( t i ) exp ( X k t β ) d t {\displaystyle \lambda _{0}\left(t_{i}\right)\exp \left(X_{k}^{\operatorname {t} }\beta \right)dt}


Au temps t i {\displaystyle t_{i}} , la vraisemblance de l'ensemble des individus appartenant à D i {\displaystyle D_{i}} s'écrit alors :

exp ( β t Σ k D i X k ) [ Σ l R i exp ( β t X l ) ] d i {\displaystyle {\frac {\exp \left(\beta ^{\operatorname {t} }\Sigma _{k\in D_{i}}X_{k}\right)}{\left[\Sigma _{l\in R_{i}}\exp \left(\beta ^{\operatorname {t} }X_{l}\right)\right]^{d_{i}}}}}


Finalement, la fonction de vraisemblance (partielle) de Cox peut s'écrire :

L ( β ) = i = 1 m exp ( β t Σ k D i X k ) [ Σ l R i exp ( β t X l ) ] d i {\displaystyle L\left(\beta \right)=\prod _{i=1}^{m}{\frac {\exp \left(\beta ^{\operatorname {t} }\Sigma _{k\in D_{i}}X_{k}\right)}{\left[\Sigma _{l\in R_{i}}\exp \left(\beta ^{\operatorname {t} }X_{l}\right)\right]^{d_{i}}}}} [2]


Il s’agit donc de résoudre l’équation de sorte que L ( β ) {\displaystyle L\left(\beta \right)} soit maximale. La valeur V pour laquelle la fonction L atteint son maximum est la vraisemblance de l’échantillon.


Interprétation des coefficients

Prenons une covariable X k {\displaystyle X_{k}} qui peut prendre deux valeurs : 0 si l'individu prend le traitement A ou 1 s'il s'agit du traitement B. Prenons comme référence les individus qui prennent le traitement A (la manière de procéder pour le codage des variables est parfaitement identique aux modèles tels que la régression logistique ou linéaire), alors le coefficient β k {\displaystyle \beta _{k}} est le Risque instantané Relatif (ici risque instantané de décès), aussi appelé taux relatif associé au traitement B par rapport au traitement A. Autrement dit, les individus prenant le traitement B ont un risque instantané de décès exp ( β k ) {\displaystyle \exp \left(\beta _{k}\right)} fois celui des individus prenant le traitement A. Ceci signifie que, sur une durée courte, un patient prenant le traitement B a une probabilité de décès égale à exp ( β k ) {\displaystyle \exp \left(\beta _{k}\right)} fois celle qu'il aurait en prenant le traitement A. Ceci n'est pas vrai sur une durée longue : à l'extrême, sur un temps infini, la probabilité de décès pour tout patient est de 1, et non de 1 dans un groupe et exp ( β k ) {\displaystyle \exp \left(\beta _{k}\right)} dans l'autre groupe.

Extensions

Covariables dépendantes du temps

D'un point de vue mathématique, il n'est pas difficile d'inclure des variables qui dépendent du temps. C'est l'interprétation des coefficients qui est par contre très délicate. On ne peut plus interpréter exp ( β k ) {\displaystyle \exp \left(\beta _{k}\right)} comme un Risque Relatif.

Présence de données corrélées

Il peut arriver que l'hypothèse d'indépendance des données ne soit pas valable : les données sont alors groupées.

On note, par exemple, que l’estimateur de Kaplan-Meier reste valable en présence de données corrélées. Avec des données indépendantes, pour estimer la variance de l’estimateur de Kaplan-Meier, on utilise généralement la formule de Greenwood qui, dans le cas de données corrélées, n’est plus valable. Il a donc fallu développer d’autres estimateurs de la variance, on retrouve dans la littérature celui de Ying & Wei[3] dont l’application est disponible sur des packages spécifiques de certains logiciels de statistiques (prodlim pour le logiciel R par exemple).

Quant aux modèles de Cox adaptés aux données corrélées, il en existe deux types : les modèles à fragilité partagée (frailty models) dans lesquels on précise la nature de la corrélation et les modèles marginaux (marginal models) dans lesquels il n'est pas nécessaire de préciser la nature de la corrélation.

En présence de données corrélées, un modèle de Cox classique estime des coefficients convergents et asymptotiquement normaux, par contre la matrice de variance-covariance des estimateurs n’est pas valable (Lin 1994[4], Spiekerman 1998[5]). Pour contourner ce problème, les modèles marginaux utilisent comme matrice de variance-covariance, une matrice corrigée dite robuste ou estimateur sandwich.

Références

  1. (en) D. Schoenfeld, « Partial Residuals for The Proportionnal Hazards Regression Model », Biometrika, vol. 69,‎ , p. 239-241
  2. (en) D.R. Cox, « Partial Likelihood », Biometrika, vol. 62,‎ , p. 269-276
  3. (en) Z. Ying, L.J. Wei, « The Kaplan-Meier Estimate for Dependent Failure Time Observations », Journal of Multivariate Analysis, vol. 50,‎ , p. 17-29
  4. (en) D.Y. Lin, « Cox Regression Analysis of Multivariate Failure Time Data : The Marginal Approach », Statistics In Medicine, vol. 13,‎ , p. 2233-2247
  5. (en) C.F. Spiekerman, D.Y. Lin, « Marginal Regression Models for Multivariate Failure Time Data », Journal of the American Statistical Association, vol. 93,‎ , p. 1164-1175


Notes

v · m
Index du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
  • icône décorative Portail des probabilités et de la statistique