Question 1

¿Qué significa una similitud coseno de 0.85?

Accepted Answer

Significa que el ángulo entre los dos vectores es de aproximadamente 31.8 grados, lo que indica un alto grado de similitud direccional. En análisis de texto, esto suele sugerir que ambos documentos comparten una proporción importante de sus términos clave con frecuencias relativas similares. En la mayoría de las aplicaciones, valores por encima de 0.7 se consideran muy similares.

Question 2

¿Por qué se prefiere la similitud coseno a la distancia euclídea para texto?

Accepted Answer

La distancia euclídea es sensible a la magnitud del vector, así que un documento largo y uno corto que traten los mismos temas parecerán muy distintos solo porque el más largo tiene valores de conteo más altos. La similitud coseno normaliza la magnitud y se centra únicamente en el ángulo, lo que permite comparar documentos sin importar su longitud. Esta invariancia a la longitud es la principal razón por la que la similitud coseno domina las aplicaciones basadas en texto.

Question 3

¿Puede la similitud coseno ser negativa?

Accepted Answer

Sí, la similitud coseno va de −1 a 1. Un valor negativo significa que el ángulo entre los vectores es mayor de 90 grados: los vectores apuntan más alejándose entre sí que acercándose. En aplicaciones que solo usan características no negativas (recuentos de palabras, valoraciones), todas las similitudes caen en [0, 1], pero con características con signo, como valoraciones centradas en la media o puntuaciones de sentimiento, las similitudes negativas son posibles y útiles.

Question 4

¿Qué ocurre cuando un vector es todo ceros?

Accepted Answer

La similitud coseno no está definida matemáticamente cuando cualquiera de los vectores es un vector cero, porque ocurre una división por cero en la etapa de normalización. Esta calculadora muestra un error en ese caso. En la práctica, un vector cero en procesamiento de texto suele significar que un documento no contiene ninguno de los términos del vocabulario, algo que rara vez sirve para comparar similitud.

Question 5

¿Cuántas dimensiones pueden tener los vectores?

Accepted Answer

Esta calculadora admite vectores de cualquier longitud, limitada solo por el rendimiento del navegador. En la práctica, las aplicaciones reales usan con frecuencia miles o incluso millones de dimensiones (por ejemplo, espacios de embeddings de palabras). La fórmula matemática es la misma independientemente de la dimensionalidad. Ambos vectores deben tener exactamente el mismo número de elementos para que el cálculo sea válido.

Question 6

¿La similitud coseno es lo mismo que la correlación?

Accepted Answer

La similitud coseno y la correlación de Pearson están estrechamente relacionadas, pero no son idénticas. La correlación de Pearson primero centra cada vector en la media (resta la media de sus elementos) antes de calcular la similitud coseno de los vectores centrados. Si tus vectores ya están centrados en la media, ambas medidas dan el mismo resultado. Para vectores de características sin centrar, la similitud coseno y la correlación suelen diferir.

Vectores	Similitud	Interpretación
A = [1, 2, 3], B = [2, 4, 6]	1.000000	B es un múltiplo escalar de A (misma dirección). La similitud coseno = 1 independientemente del factor de escala.
A = [1, 0, 0], B = [0, 1, 0]	0.000000	Los vectores base estándar son perpendiculares. Producto punto = 0, por lo que la similitud coseno = 0.
A = [5, 3, 0, 2], B = [4, 2, 1, 3]	0.947758	Alta similitud típica en comparaciones de documentos o preferencias de usuarios donde la mayoría de las dimensiones coinciden. A·B=32, \|A\|=√38≈6.164, \|B\|=√30≈5.477.
A = [1, 0], B = [-1, 0]	-1.000000	Los vectores que apuntan exactamente en direcciones opuestas dan una similitud coseno = −1.

Calculadora de similitud coseno - Análisis de similitud vectorial

Acerca de la calculadora de similitud coseno

Ejemplos de similitud coseno

Cómo usar la calculadora de similitud coseno

Preguntas frecuentes sobre similitud coseno