Calculadora de similaridade cosseno - Análise de similaridade vetorial

Calcule instantaneamente a similaridade cosseno entre dois vetores. Um valor de 1 significa mesma direção, 0 perpendicular e −1 direção oposta.

Digite dois vetores numéricos de mesmo comprimento, separados por vírgulas ou espaços, e clique em Calcular para ver a similaridade cosseno e as métricas de apoio.

Calculadora de similaridade cosseno - Análise de similaridade vetorial
Calcule instantaneamente a similaridade cosseno entre dois vetores. Um valor de 1 significa mesma direção, 0 perpendicular e −1 direção oposta.

Digite números separados por vírgulas ou espaços

Digite números separados por vírgulas ou espaços

Sobre a calculadora de similaridade cosseno

A similaridade cosseno é uma das medidas de similaridade mais usadas entre dois vetores não nulos em um espaço multidimensional. Diferente da distância euclidiana, que mede o quão distantes dois pontos estão, a similaridade cosseno foca exclusivamente na orientação dos vetores — especificamente, no cosseno do ângulo entre eles. Isso a torna especialmente útil quando a magnitude não importa, mas a direção sim, como ao comparar documentos de tamanhos diferentes ou perfis de preferência de usuários com níveis de atividade distintos. A fórmula é simples: cos(θ) = (A · B) / (‖A‖ × ‖B‖), em que A · B é o produto escalar dos dois vetores e ‖A‖ e ‖B‖ são suas magnitudes euclidianas (normas). O produto escalar é calculado multiplicando os elementos correspondentes e somando os resultados. A magnitude de um vetor é a raiz quadrada da soma dos quadrados de seus componentes. O resultado sempre fica no intervalo [−1, 1]. Uma similaridade cosseno de 1 significa que os dois vetores apontam exatamente para a mesma direção — estão perfeitamente alinhados. Um valor de 0 significa que são perpendiculares (ortogonais) — não há correlação em sua orientação. Um valor de −1 significa que apontam exatamente para direções opostas. Na prática, muitas aplicações consideram apenas características não negativas (como frequências de palavras ou contagens de avaliações), caso em que a similaridade fica restrita a [0, 1]. Em processamento de linguagem natural e recuperação de informação, a similaridade cosseno é a forma padrão de comparar documentos de texto representados como vetores TF-IDF ou bag-of-words. Como documentos longos naturalmente têm vetores de maior magnitude, comparações por produto escalar bruto os favoreceriam injustamente. Ao normalizar dividindo pelo produto das magnitudes, a similaridade cosseno elimina esse viés de tamanho e se concentra apenas na composição proporcional dos termos. Sistemas de recomendação usam a similaridade cosseno para combinar vetores de preferência de usuários. Se dois usuários avaliaram itens semelhantes com entusiasmo relativo parecido — mesmo que um deles tenha avaliado muito mais itens no total — a similaridade cosseno entre eles será alta, sugerindo gostos em comum. A mesma lógica se aplica ao reconhecimento de imagens, em que vetores descritores de características de redes neurais são comparados com similaridade cosseno para encontrar imagens visualmente parecidas. Nesta calculadora, você pode inserir vetores de qualquer comprimento, desde que ambos tenham o mesmo número de dimensões. Separe os valores com vírgulas ou espaços. A calculadora mostra a similaridade cosseno, o produto escalar e a magnitude de cada vetor para que você possa verificar o cálculo passo a passo.

Exemplos de similaridade cosseno

Três cenários representativos que mostram diferentes níveis de similaridade vetorial.

VetoresSimilaridadeInterpretação
A = [1, 2, 3], B = [2, 4, 6]1.000000B é um múltiplo escalar de A (mesma direção). A similaridade cosseno = 1, independentemente do fator de escala.
A = [1, 0, 0], B = [0, 1, 0]0.000000Os vetores da base padrão são perpendiculares. Produto escalar = 0, então a similaridade cosseno = 0.
A = [5, 3, 0, 2], B = [4, 2, 1, 3]0.947758Alta similaridade típica em comparações de documentos ou preferências de usuários em que a maioria das dimensões se sobrepõe. A·B=32, |A|=√38≈6.164, |B|=√30≈5.477.
A = [1, 0], B = [-1, 0]-1.000000Vetores apontando exatamente em direções opostas resultam em similaridade cosseno = −1.

Como usar a calculadora de similaridade cosseno

  1. Digite o primeiro vetor no campo "Primeiro vetor (A)" usando números separados por vírgulas ou espaços, por exemplo: 1, 2, 3.
  2. Digite o segundo vetor no campo "Segundo vetor (B)". Ele deve ter o mesmo número de elementos que o primeiro vetor.
  3. Clique em "Calcular similaridade". O painel de resultados mostra a pontuação de similaridade cosseno, o produto escalar e a magnitude de cada vetor.
  4. Use os botões de exemplo abaixo da tabela para carregar instantaneamente pares de vetores predefinidos e ver como o cálculo funciona.
  5. Clique em "Redefinir" para limpar todos os campos e iniciar um novo cálculo.

Perguntas frequentes sobre similaridade cosseno

O que significa uma similaridade cosseno de 0.85?
Significa que o ângulo entre os dois vetores é de aproximadamente 31,8 graus, indicando um alto grau de similaridade direcional. Na análise de texto, isso normalmente sugere que os dois documentos compartilham uma grande proporção de seus termos-chave com frequências relativas parecidas. Na maioria das aplicações, valores acima de 0,7 são considerados altamente similares.
Por que a similaridade cosseno é preferida à distância euclidiana para texto?
A distância euclidiana é sensível à magnitude do vetor, então um documento longo e um curto sobre os mesmos temas podem parecer muito diferentes apenas porque o mais longo tem valores de contagem de termos maiores. A similaridade cosseno normaliza a magnitude e foca apenas no ângulo, tornando os documentos comparáveis independentemente do tamanho. Essa invariância ao comprimento é a principal razão de a similaridade cosseno dominar aplicações baseadas em texto.
A similaridade cosseno pode ser negativa?
Sim, a similaridade cosseno varia de −1 a 1. Um valor negativo significa que o ângulo entre os vetores é maior que 90 graus — os vetores apontam mais para longe um do outro do que um em direção ao outro. Em aplicações que usam apenas características não negativas (contagens de palavras, avaliações), todas as similaridades caem em [0, 1], mas com características com sinal, como avaliações centralizadas na média ou escores de sentimento, similaridades negativas são possíveis e significativas.
O que acontece quando um vetor é todo zeros?
A similaridade cosseno é matematicamente indefinida quando qualquer vetor é um vetor zero, porque ocorre divisão por zero na etapa de normalização. Esta calculadora exibe um erro nesse caso. Na prática, um vetor zero em processamento de texto geralmente significa que um documento não continha nenhum termo do vocabulário, algo que raramente é útil para comparação de similaridade.
Quantas dimensões os vetores podem ter?
Esta calculadora suporta vetores de qualquer comprimento, limitada apenas pelo desempenho do navegador. Na prática, aplicações reais usam rotineiramente milhares ou até milhões de dimensões (por exemplo, espaços de embeddings de palavras). A fórmula matemática é a mesma independentemente da dimensionalidade. Ambos os vetores devem ter exatamente o mesmo número de elementos para que o cálculo seja válido.
A similaridade cosseno é o mesmo que correlação?
A similaridade cosseno e a correlação de Pearson estão intimamente relacionadas, mas não são idênticas. A correlação de Pearson primeiro centraliza cada vetor na média (subtrai a média de seus elementos) antes de calcular a similaridade cosseno dos vetores centralizados. Se seus vetores já estiverem centralizados na média, as duas medidas produzem o mesmo resultado. Para vetores de características brutos sem centralização, a similaridade cosseno e a correlação normalmente diferem.