Modelo vetorial em sistemas de recuperação da informação

O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos:

d j = ( w 1 , j , w 2 , j , , w n , j ) {\displaystyle d_{j}=(w_{1,j},w_{2,j},\dotsc ,w_{n,j})}
q = ( w 1 , q , w 2 , q , , w n , q ) {\displaystyle q=(w_{1,q},w_{2,q},\dotsc ,w_{n,q})}

Termos são ocorrências únicas nos documentos. A relevância dos termos é destacada assinalando pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano. Para determinar se um documento está próximo de uma consulta, compara-se o vetor do documento com o vetor da consulta. Ao invés de calcular o ângulo, calcula-se o cosseno, definido pela fórmula [Salton (1988)]:

cos θ = d q d q {\displaystyle \cos {\theta }={\frac {\mathbf {d} \cdot \mathbf {q} }{\left\|\mathbf {d} \right\|\left\|\mathbf {q} \right\|}}}

em que d q {\displaystyle \mathbf {d} \cdot \mathbf {q} } é o Produto escalar (intersecção) dos vetores do documento d e da consulta q, d {\displaystyle \left\|\mathbf {d} \right\|} é a norma do vetor d, e q {\displaystyle \left\|\mathbf {q} \right\|} é a norma do vetor q. A norma de um vetor é calculada como:

q = i = 1 n q i 2 {\displaystyle \left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}}

Usando o cosseno, a similaridade entre um documento dj e uma consulta q pode ser calculada como:

c o s ( d j , q ) = d j q d j q = i = 1 N w i , j w i , q i = 1 N w i , j 2 i = 1 N w i , q 2 {\displaystyle \mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}w_{i,j}w_{i,q}}{{\sqrt {\sum _{i=1}^{N}w_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}w_{i,q}^{2}}}}}}

Os pesos quantificam a relevância de cada termo para as consultas ( W i q {\displaystyle W_{iq}} ) e para os documentos ( W i d {\displaystyle W_{id}} ) no espaço vetorial. Para o cálculo dos pesos W i q {\displaystyle W_{iq}} e W i d {\displaystyle W_{id}} , utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando a frequência de um termo num documento f r e q ( t , d ) {\displaystyle freq(t,d)} . Se uma coleção possui N {\displaystyle N} documentos e d f t {\displaystyle df_{t}} é a quantidade de documentos que possuem o termo t {\displaystyle t} , então o inverso da frequência do termo na coleção, ou i d f t {\displaystyle idf_{t}} (inverse document frequency) é dado por:

i d f t = l o g N d f t {\displaystyle idf_{t}=log{\frac {N}{df_{t}}}}

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: W i d = f r e q ( t , d ) × i d f t {\displaystyle W_{id}=freq(t,d)\times idf_{t}} , ou seja, é o produto da frequência do termo <math>t<\math> no documento <math>d<\math> pelo inverso da frequência do termo na coleção. Assim termos muito comuns terão um idf baixo o que reduz o peso do termo e o torna menos significativo.

As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

Entre as limitações do modelo, vale citar que ele considera os termos de um documento como um saco-de-palavras, ou seja, a posição do termo no documento não é levado em consideração. Além disso, a semântica dos termos não é considerada nem questões de sinonímia, ambiguidade. termos compostos, etc.


Ícone de esboço Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.
  • v
  • d
  • e