Clasificación de documentos

Se define como la tarea de asignar valores booleanos a cada par d j , c i {\displaystyle \langle d_{j},c_{i}\rangle } pertenecientes a D × C {\displaystyle D\times C} , donde D {\displaystyle D} es el dominio de los documentos y C = { c 1 , . . . , c n } {\displaystyle C=\{c_{1},...,c_{n}\}} es una colección de categorías predefinidas. T (verdadero) indica archivar un documento d j {\displaystyle d_{j}} bajo c i {\displaystyle c_{i}} , mientras F (falso) indica no archivar d j {\displaystyle d_{j}} bajo c i {\displaystyle c_{i}} .

Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de correo electrónico (spam / no spam)

Las medidas de evaluación utilizadas en la clasificación de documentos son principalmente precisión, cobertura y F-1.[1]

Referencias

  1. «Evaluación de Modelos: Clasificación Multi-Etiqueta, Precisión y Cobertura». Aprendizage Automático (Machine Learning) en la Práctica. 19 de octubre de 2016. Consultado el 20 de octubre de 2016. 

Enlaces externos

Publicaciones:

  • Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 [1] (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q302088
  • Wd Datos: Q302088