Apprentissage PAC

Apprentissage PAC
Type

modifier - modifier le code - modifier WikidataDocumentation du modèle

L'apprentissage PAC (pour probably approximately correct en anglais) est un cadre théorique pour l'apprentissage automatique. Il permet notamment d'évaluer la difficulté d'un problème dans le contexte de l'apprentissage supervisé. Il a été proposé par Leslie Valiant en 1984.

Principe

Dans le cadre de l'apprentissage PAC, l'algorithme «apprenant» reçoit des données d'apprentissage («samples») et doit choisir une fonction qui généralise ces données. Cette fonction est choisie parmi un ensemble préétabli. Elle est appelée «hypothèse». Le but est que la fonction en question classifie de nouvelles données inconnues (distribuées identiquement aux données d'apprentissage) avec une erreur minimale, et ceci avec forte probabilité.

Cadre formel

Le cadre le plus simple est le suivant[1].

On considère un ensemble d'échantillons, c'est-à-dire de points d'un espace X, étiquetés par «-1» ou «1». On dispose d'une loi de probabilité D sur X. On dispose aussi d'un ensemble d'hypothèses, c'est-à-dire d'un espace H, de fonctions de X vers {-1,1}. L'une d'elles est appelée le «concept» c : c'est la fonction inconnue que l'on veut apprendre.

L'erreur d'une hypothèse h par rapport au concept c sur D est : e r r e u r ( h ) = P r x D [ c ( x ) h ( x ) ] {\displaystyle erreur(h)=Pr_{x\in D}[c(x)\neq h(x)]} .

On dit que H est PAC apprenable s'il existe un algorithme L tel que :

  • pour tout concept c de H ;
  • pour toute loi D sur X ;
  • pour tout paramètre d'erreur 0 < ϵ < 1 / 2 {\displaystyle 0<\epsilon <1/2}  ;
  • pour tout paramètre de confiance 0 < δ < 1 / 2 {\displaystyle 0<\delta <1/2}  ;

L fournit une hypothèse qui vérifie avec une probabilité ( 1 δ ) {\displaystyle (1-\delta )} , e r r e u r ( h ) ϵ {\displaystyle erreur(h)\leq \epsilon } .

L est efficace si sa complexité en temps est polynomiale en 1 / δ {\displaystyle 1/\delta } et 1 / ϵ {\displaystyle 1/\epsilon } .

Contexte et historique

Leslie Valiant en 2005

L'apprentissage PAC a été proposé en 1984 par Leslie Valiant[2]. Ce cadre formel a permis de rapprocher la théorie de la complexité de l'apprentissage, et a donné naissance à ce que l'on appelle la computational learning theory[3].

Ce modèle a été critiqué, notamment à cause du choix de l'analyse dans le pire cas et de l'hypothèse que les données ne sont pas bruitées. D'autres modèles plus complexes ont alors été proposés[3].

Apprentissage PAC-Bayésien

Article détaillé : Apprentissage PAC-Bayésien.

Principe théorique

L'apprentissage PAC-Bayésien s'inspire de l'inférence bayésienne dans un cadre PAC. Plus précisément, le PAC-Bayésien étudie la capacité prédictive d'une mesure a posteriori Q {\displaystyle Q} sur l'espace des predicteurs H {\displaystyle H} par rapport à une mesure de référence a priori P {\displaystyle P} et au jeu de données disponible. Ces terminologies n'ont pas la même signification qu'en inférence Bayésienne car le PAC-Bayésien n'utilise pas nécessairement le théorème de Bayes.

L'apprentissage PAC-Bayésien se base sur des bornes supérieures empiriques qui contrôlent l'erreur de généralisation de Q {\displaystyle Q} : e r r e u r ( Q ) = E h Q [ e r r e u r ( h ) ] {\displaystyle erreur(Q)=\mathbb {E} _{h\sim Q}[erreur(h)]} . Cette quantité est une extension naturelle de la notion d'erreur introduite précédemment quand des mesures sur H {\displaystyle H} sont considérées. Grâce à cette notion d'erreur sur des mesures, on peut alors définir une la notion de classe PAC-Bayésienne apprenable de façon analogue à une classe PAC-apprenable.

En supposant un accès à un jeu de données d'entraînement S = ( x 1 , , x m ) X m {\displaystyle {\mathcal {S}}=(x_{1},\cdots ,x_{m})\in X^{m}} , un résultat classique de la théorie PAC-Bayésienne est la borne de McAllester [4], donnée ci-dessous dans le cadre particulier de la classification. Pour toute mesure a priori P {\displaystyle P} indépendante de S {\displaystyle {\mathcal {S}}} , avec probabilité au moins 1 δ {\displaystyle 1-\delta } sur S {\displaystyle {\mathcal {S}}} , pour toute mesure a posteriori Q {\displaystyle Q} ,

e r r e u r ( Q ) 1 m i = 1 m 1 { h ( x i ) c ( x i ) } + K L ( Q , P ) + log ( m / δ ) m . {\displaystyle erreur(Q)\leq {\frac {1}{m}}\sum _{i=1}^{m}\mathbb {1} \{h(x_{i})\neq c(x_{i})\}+{\sqrt {\frac {KL(Q,P)+\log(m/\delta )}{m}}}.}

K L {\displaystyle KL} désigne la divergence de Kullback-Leibler. La théorie PAC-Bayésienne est suffisamment flexible pour dépasser le cadre de l'apprentissage supervisé, ce qui permet de changer l'objectif d'apprentissage supervisé 1 { h ( x ) c ( x ) } {\displaystyle \mathbb {1} \{h(x)\neq c(x)\}} pour x X , h H {\displaystyle x\in X,h\in H} pour n'importe quelle fonction de perte ( h , x ) {\displaystyle \ell (h,x)} à valeurs dans [ 0 , 1 ] {\displaystyle [0,1]} , couvrant ainsi d'autres domaines tels que l'apprentissage par renforcement [5]

Algorithme PAC-Bayésien

Les bornes PAC-Bayésiennes sont majoritairement empiriques. Elles définissent ainsi des objectifs pratiques d'optimisation (et donc des algorithmes d'apprentissage) PAC-Bayésiens. Un exemple reconnu est l'objectif suivant, dérivé d'une borne d'Olivier Catoni[6], valide pour une mesure a priori P {\displaystyle P} et une température inverse λ > 0 {\displaystyle \lambda >0} fixées:

argmin Q 1 m i = 1 m 1 { h ( x i ) c ( x i ) } + K L ( Q , P ) λ . {\displaystyle \operatorname {argmin} _{Q}{\frac {1}{m}}\sum _{i=1}^{m}\mathbb {1} \{h(x_{i})\neq c(x_{i})\}+{\frac {KL(Q,P)}{\lambda }}.}

Cet objectif, lorsqu'il est minimisé sur l'ensemble des mesures sur H {\displaystyle H} , possède une formulation explicite lié aux mesures de Gibbs (introduite, par exemple, dans le livre de Chafai et Malrieu [7]) et implique, par exemple la méthode de Monte-Carlo par chaînes de Markov pour une estimation pratique. Il peut être également considéré sur des sous-classes de cette collection de mesures et la phase d'optimisation peut requérir d'autres type d'outils comme l'optimisation convexe pour la classe des fonctions gaussiennes par exemple.

Notes et références

  1. Voir Cours de Fabien Torre sur le modèle d'apprentissage PAC.
  2. (en) L.G. Valiant. A Theory of the Learnable, Communications of the ACM, 27(11), pp. 1134-1142, November 1984.
  3. a et b Haussler 1990
  4. McAllester 2003
  5. Fard 2012
  6. Catoni 2007
  7. Chafai 2016

Voir aussi

Bibliographie

  • M. Kearns,U. Vazirani An Introduction to Computational Learning Theory. MIT Press, 1994.
  • David Haussler, « Probably Approximately Correct Learning », dans Proceedings of the Eighth National Conference on Artificial Intelligence, (lire en ligne)
  • David McAllester, « Simplified PAC-Bayesian margin bounds », dans Learning Theory and Kernel Machines: 16th Annual Conference on Learning Theory and 7th Kernel Workshop 2003. Proceedings, (lire en ligne)
  • Djalil Chafai, « Mesures de Gibbs », dans Recueil de Modèles Aléatoires, (lire en ligne)
  • Mahdi Milani Fard, « PAC-Bayesian policy evaluation for reinforcement learning », dans ArXiv, (lire en ligne)
  • Olivier Catoni, « PAC-Bayesian supervised classification: the thermodynamics of statistical learning », dans ArXiv, (lire en ligne)



Articles connexes

  • Apprentissage automatique

Liens externes

  • Cours de Fabien Torre sur le modèle d'apprentissage PAC
  • D. Haussler. Overview of the Probably Approximately Correct (PAC) Learning Framework. Article de revue sur la PAC, ses critiques, et d'autres formalismes.
  • (en) Jeremy Kun, « Probably Approximately Correct — a Formal Theory of Learning », sur Math ∩ Programming,
v · m
Apprentissage automatique et exploration de données
Problèmes
Apprentissage supervisé
Classement
Régression
Réseau de neurones artificiels (ANN)
Apprentissage non supervisé
Clustering
Réduction de dimensions
Réseau de neurones artificiels (ANN)
Optimisation
Théorie
Logiciels
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l'informatique théorique
  • icône décorative Portail des données