Convalida incrociata

Abbozzo statistica
Questa voce sull'argomento statistica è solo un abbozzo.
Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.

La convalida incrociata (cross-validation in inglese) è una tecnica statistica[1] utilizzabile in presenza di una buona numerosità del campione osservato. In particolare, la convalida incrociata cosiddetta k-fold consiste nella suddivisione dell'insieme di dati totale in k parti di uguale numerosità e, a ogni passo, la kª parte dell'insieme di dati viene a essere quella di convalida, mentre la restante parte costituisce sempre l'insieme di addestramento. Così si allena il modello per ognuna delle k parti, evitando quindi problemi di sovradattamento, ma anche di campionamento asimmetrico (e quindi affetto da distorsione) del campione osservato, tipico della suddivisione dei dati in due sole parti (ossia addestramento/convalida). In altre parole, si suddivide il campione osservato in gruppi di egual numerosità, si esclude iterativamente un gruppo alla volta e si cerca di predirlo coi gruppi non esclusi, al fine di verificare la bontà del modello di predizione utilizzato.

Note

  1. ^ Metodo Cross-validation, su simone.it. URL consultato il 28 ottobre 2009 (archiviato dall'url originale il 25 ottobre 2013).

Bibliografia

  • I. Witten, E. Frank: Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann
  • R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley
  • T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer

Voci correlate

  • Ricampionamento
  • Metodo bootstrap
  • Training set
  • Griglia di ricerca

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su convalida incrociata

Collegamenti esterni

  • (EN) Cross-Validation tutorial by Andrew Moore, Carnegie Mellon University, Stati Uniti, su autonlab.org. URL consultato il 28 ottobre 2009 (archiviato dall'url originale il 16 aprile 2010).
  Portale Informatica
  Portale Statistica