Modelo vetorial em sistemas de recuperação da informação

O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos:

d_{j}=(w_{1,j},w_{2,j},\dotsc ,w_{n,j})

q=(w_{1,q},w_{2,q},\dotsc ,w_{n,q})

Termos são ocorrências únicas nos documentos. A relevância dos termos é destacada assinalando pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano. Para determinar se um documento está próximo de uma consulta, compara-se o vetor do documento com o vetor da consulta. Ao invés de calcular o ângulo, calcula-se o cosseno, definido pela fórmula [Salton (1988)]:

\cos {\theta }={\frac {\mathbf {d} \cdot \mathbf {q} }{\left\|\mathbf {d} \right\|\left\|\mathbf {q} \right\|}}

em que $\mathbf {d} \cdot \mathbf {q}$ é o Produto escalar (intersecção) dos vetores do documento d e da consulta q, $\left\|\mathbf {d} \right\|$ é a norma do vetor d, e $\left\|\mathbf {q} \right\|$ é a norma do vetor q. A norma de um vetor é calculada como:

\left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}

Usando o cosseno, a similaridade entre um documento d_j e uma consulta q pode ser calculada como:

\mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}w_{i,j}w_{i,q}}{{\sqrt {\sum _{i=1}^{N}w_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}w_{i,q}^{2}}}}}

Os pesos quantificam a relevância de cada termo para as consultas ( $W_{iq}$ ) e para os documentos ( $W_{id}$ ) no espaço vetorial. Para o cálculo dos pesos $W_{iq}$ e $W_{id}$ , utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando a frequência de um termo num documento $freq(t,d)$ . Se uma coleção possui $N$ documentos e $df_{t}$ é a quantidade de documentos que possuem o termo $t$ , então o inverso da frequência do termo na coleção, ou $idf_{t}$ (inverse document frequency) é dado por:

$idf_{t}=log{\frac {N}{df_{t}}}$

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: $W_{id}=freq(t,d)\times idf_{t}$ , ou seja, é o produto da frequência do termo <math>t<\math> no documento <math>d<\math> pelo inverso da frequência do termo na coleção. Assim termos muito comuns terão um idf baixo o que reduz o peso do termo e o torna menos significativo.

As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

Entre as limitações do modelo, vale citar que ele considera os termos de um documento como um saco-de-palavras, ou seja, a posição do termo no documento não é levado em consideração. Além disso, a semântica dos termos não é considerada nem questões de sinonímia, ambiguidade. termos compostos, etc.