Modelo Booleano Extendido

El Modelo Booleano Extendido fue presentado en un artículo de Communications of the ACM en el año 1983, por Gerard Salton, Edward A. Fox y Harry Wu. El propósito del Modelo Booleano Extendido es superar las desventajas del Modelo Booleano que ha sido utilizado en recuperación de información. El Modelo Booleano no considera los pesos de los términos en las consultas y el conjunto respuesta de una consulta booleana es con frecuencia demasiado pequeño o demasiado grande. La idea del modelo extendido es hacer uso de la correspondencia parcial y los pesos de los términos del Modelo de Espacio Vectorial, combinándolos con las propiedades del Álgebra Booleana. De esta forma, un documento puede ser un tanto relevante si contiene algunos términos de la consulta, y puede ser obtenido como respuesta, mientras que en el Modelo Booleano esto no ocurre.[1]


Así, el Modelo Booleano Extendido puede ser considerado como una generalización de los modelos Booleano y Vectorial. Además, la investigación ha demostrado mejoras en la efectividad respecto al procesamiento de consultas del Modelo Booleano. Otras investigaciones han mostrado que la retroalimentación y la expansión de consultas pueden ser adaptadas al procesamiento de consultas del Modelo Booleano Extendido.

Definiciones

En el Modelo Booleano Extendido un documento se representa por un vector (al igual que en el Modelo Vectorial). Cada componente corresponde a un término asociado al documento.

El peso del término K x {\displaystyle K_{x}} asociado al documento d j {\displaystyle d_{j}} se mide por su frecuencia de término normalizada y puede definirse como:

w x , j = f x , j I d f x m a x i I d f x {\displaystyle w_{x,j}=f_{x,j}*{\frac {Idf_{x}}{max_{i}Idf_{x}}}}

donde I d f x {\displaystyle Idf_{x}} es la frecuencia inversa de documento.

El vector de pesos asociado al documento d j {\displaystyle d_{j}} puede ser representado como:

v d j = [ w 1 , j , w 2 , j , , w i , j ] {\displaystyle \mathbf {v} _{d_{j}}=[w_{1,j},w_{2,j},\ldots ,w_{i,j}]}

Ejemplo en 2 Dimensiones

Fig. 1: Similitud de la consulta q = K x K y {\displaystyle q=K_{x}\lor K_{y}} con los documentos d j {\displaystyle d_{j}} y d j + 1 {\displaystyle d_{j+1}}
Fig. 2: Similitud de la consulta q = K x K y {\displaystyle q=K_{x}\land K_{y}} con los documentos d j {\displaystyle d_{j}} y d j + 1 {\displaystyle d_{j+1}}

Considerando el espacio compuesto por los dos términos K x {\displaystyle K_{x}} y K y {\displaystyle K_{y}} , los pesos correspondientes son w 1 {\displaystyle w_{1}} y w 2 {\displaystyle w_{2}} .[2]​ Así, para la consulta q o r = K x K y {\displaystyle q_{or}=K_{x}\lor K_{y}} , podemos calcular la similitud con la siguiente fórmula:

s i m ( q o r , d ) = w 1 2 + w 2 2 2 {\displaystyle sim(q_{or},d)={\sqrt {\frac {w_{1}^{2}+w_{2}^{2}}{2}}}}

Para la consulta q a n d = K x K y {\displaystyle q_{and}=K_{x}\land K_{y}} , podemos usar:

s i m ( q a n d , d ) = 1 ( 1 w 1 ) 2 + ( 1 w 2 ) 2 2 {\displaystyle sim(q_{and},d)=1-{\sqrt {\frac {(1-w_{1})^{2}+(1-w_{2})^{2}}{2}}}}

Generalizando la idea

Podemos generalizar el ejemplo anterior en 2 dimensiones del Modelo Booleano Extendido al espacio t-dimensional usando la distancia Euclidiana.

Esto puede hacerse usando Norma-P, que extiende la noción de distancia para incluir p-distancias, donde 1 p {\displaystyle 1\leq p\leq \infty } es un nuevo parámetro.[3]

  • Una consulta conjuntiva general está dada por:
q o r = k 1 p k 2 p . . . . p k t {\displaystyle q_{or}=k_{1}\lor ^{p}k_{2}\lor ^{p}....\lor ^{p}k_{t}}

La similitud de la consulta q o r {\displaystyle q_{or}} y el documento d j {\displaystyle d_{j}} puede definirse como:

s i m ( q o r , d j ) = w 1 p + w 2 p + . . . . + w t p t p {\displaystyle sim(q_{or},d_{j})={\sqrt[{p}]{\frac {w_{1}^{p}+w_{2}^{p}+....+w_{t}^{p}}{t}}}}
  • Una consulta disyuntiva general está dada por:
q a n d = k 1 p k 2 p . . . . p k t {\displaystyle q_{and}=k_{1}\land ^{p}k_{2}\land ^{p}....\land ^{p}k_{t}}

La similitud de la consulta q a n d {\displaystyle q_{and}} y el documento d j {\displaystyle d_{j}} puede definirse como:

s i m ( q a n d , d j ) = 1 ( 1 w 1 ) p + ( 1 w 2 ) p + . . . . + ( 1 w t ) p t p {\displaystyle sim(q_{and},d_{j})=1-{\sqrt[{p}]{\frac {(1-w_{1})^{p}+(1-w_{2})^{p}+....+(1-w_{t})^{p}}{t}}}}

Ejemplos

Considere la consulta q = ( K 1 K 2 ) K 3 {\displaystyle q=(K_{1}\land K_{2})\lor K_{3}} . La similitud entre la consulta q {\displaystyle q} y el documento d {\displaystyle d} puede calcularse usando la fórmula:

s i m ( q , d ) = ( 1 ( ( 1 w 1 ) p + ( 1 w 2 ) p 2 p ) ) p + w 3 p 2 p {\displaystyle sim(q,d)={\sqrt[{p}]{\frac {(1-{\sqrt[{p}]{({\frac {(1-w_{1})^{p}+(1-w_{2})^{p}}{2}}}}))^{p}+w_{3}^{p}}{2}}}}

Mejoras respecto al Modelo Booleano

Lee y Fox[4]​ compararon los modelos Booleano y Booleano Extendido con tres colecciones de prueba, CISI, CACM e INSPEC.

Utilizando Norma-P se obtuvo un promedio de mejoras en la precisión de 79%, 106% y 210% respecto al Modelo Booleano estándar, para las colecciones CISI, CACM e INSPEC, respectivamente.

El modelo de Norma-P es computacionalmente costoso por el número de operaciones de exponenciación que requiere; sin embargo, logra resultados mucho mejores que el Modelo Booleano, e incluso que el Modelo Fuzzy. El Modelo Booleano estándar es, no obstante, el más eficiente.

Véase también

Bibliografía

  1. Salton, Gerard; Edward A. Fox, Harry Wu (1983), Extended Boolean information retrieval, Communications of the ACM, Volume 26, Issue 11  La referencia utiliza el parámetro obsoleto |coauthors= (ayuda).
  2. Lusheng Wang
  3. Garcia, Dr. E., The Extended Boolean Model - Weighted Queries: Term Weights, p-Norm Queries and Multiconcept Types. Boolean OR Extended? AND that is the Query, archivado desde el original el 29 de mayo de 2010 .
  4. Lee, W. C.; E. A. Fox (1988), Experimental Comparison of Schemes for Interpreting Boolean Queries  La referencia utiliza el parámetro obsoleto |coauthors= (ayuda).

Enlaces externos

  • Esta obra contiene una traducción derivada de «Extended Boolean model» de Wikipedia en inglés, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q796230
  • Wd Datos: Q796230