Calculadora de similitud coseno - Análisis de similitud vectorial
Calcula al instante la similitud coseno entre dos vectores. Un valor de 1 significa misma dirección, 0 perpendicular y −1 dirección opuesta.
Introduce dos vectores numéricos de la misma longitud, separados por comas o espacios, y haz clic en Calcular para ver la similitud coseno y las métricas de apoyo.
Calculadora de similitud coseno - Análisis de similitud vectorial
Calcula al instante la similitud coseno entre dos vectores. Un valor de 1 significa misma dirección, 0 perpendicular y −1 dirección opuesta.
Introduce números separados por comas o espacios
Introduce números separados por comas o espacios
Acerca de la calculadora de similitud coseno
La similitud coseno es una de las medidas de similitud más utilizadas entre dos vectores no nulos en un espacio multidimensional. A diferencia de la distancia euclídea, que mide qué tan alejados están dos puntos, la similitud coseno se centra exclusivamente en la orientación de los vectores, concretamente en el coseno del ángulo entre ellos. Esto la hace especialmente útil cuando la magnitud no importa pero la dirección sí, como al comparar documentos de distinta longitud o perfiles de preferencias de usuarios con distintos niveles de actividad.
La fórmula es sencilla: cos(θ) = (A · B) / (‖A‖ × ‖B‖), donde A · B es el producto punto de los dos vectores y ‖A‖ y ‖B‖ son sus magnitudes euclídeas (normas). El producto punto se calcula multiplicando los elementos correspondientes y sumando los resultados. La magnitud de un vector es la raíz cuadrada de la suma de sus componentes al cuadrado.
El resultado siempre cae en el rango [−1, 1]. Una similitud coseno de 1 significa que los dos vectores apuntan exactamente en la misma dirección; están perfectamente alineados. Un valor de 0 significa que son perpendiculares (ortogonales); no hay correlación en su orientación. Un valor de −1 significa que apuntan exactamente en direcciones opuestas. En la práctica, muchas aplicaciones solo consideran características no negativas (como frecuencias de palabras o recuentos de valoraciones), en cuyo caso la similitud queda restringida a [0, 1].
En procesamiento de lenguaje natural y recuperación de información, la similitud coseno es la forma estándar de comparar documentos representados como vectores TF-IDF o de bolsa de palabras. Como los documentos largos tienen naturalmente vectores de mayor magnitud, comparar el producto punto bruto los favorecería injustamente. Al normalizar dividiendo por el producto de las magnitudes, la similitud coseno elimina ese sesgo por longitud y se centra únicamente en la composición proporcional de los términos.
Los sistemas de recomendación usan la similitud coseno para emparejar vectores de preferencias de usuarios. Si dos usuarios han valorado elementos similares con entusiasmo relativo parecido, incluso si uno ha valorado muchos más elementos en total, su similitud coseno será alta, lo que sugiere gustos compartidos. La misma lógica se aplica al reconocimiento de imágenes, donde los vectores descriptor de características de redes neuronales se comparan con similitud coseno para encontrar imágenes visualmente parecidas.
En esta calculadora puedes introducir vectores de cualquier longitud, siempre que ambos tengan el mismo número de dimensiones. Separa los valores con comas o espacios. La calculadora muestra la similitud coseno, el producto punto y la magnitud de cada vector para que puedas verificar el cálculo paso a paso.
Ejemplos de similitud coseno
Tres escenarios representativos que muestran distintos niveles de similitud vectorial.
| Vectores | Similitud | Interpretación |
|---|---|---|
| A = [1, 2, 3], B = [2, 4, 6] | 1.000000 | B es un múltiplo escalar de A (misma dirección). La similitud coseno = 1 independientemente del factor de escala. |
| A = [1, 0, 0], B = [0, 1, 0] | 0.000000 | Los vectores base estándar son perpendiculares. Producto punto = 0, por lo que la similitud coseno = 0. |
| A = [5, 3, 0, 2], B = [4, 2, 1, 3] | 0.947758 | Alta similitud típica en comparaciones de documentos o preferencias de usuarios donde la mayoría de las dimensiones coinciden. A·B=32, |A|=√38≈6.164, |B|=√30≈5.477. |
| A = [1, 0], B = [-1, 0] | -1.000000 | Los vectores que apuntan exactamente en direcciones opuestas dan una similitud coseno = −1. |
Cómo usar la calculadora de similitud coseno
- Introduce el primer vector en el campo "Primer vector (A)" usando números separados por comas o espacios, por ejemplo: 1, 2, 3.
- Introduce el segundo vector en el campo "Segundo vector (B)". Debe tener el mismo número de elementos que el primer vector.
- Haz clic en "Calcular similitud". El panel de resultados muestra la puntuación de similitud coseno, el producto punto y la magnitud de cada vector.
- Usa los botones de ejemplo debajo de la tabla para cargar al instante pares de vectores predefinidos y ver cómo funciona el cálculo.
- Haz clic en "Restablecer" para borrar todos los campos y empezar un nuevo cálculo.
Preguntas frecuentes sobre similitud coseno
¿Qué significa una similitud coseno de 0.85?
Significa que el ángulo entre los dos vectores es de aproximadamente 31.8 grados, lo que indica un alto grado de similitud direccional. En análisis de texto, esto suele sugerir que ambos documentos comparten una proporción importante de sus términos clave con frecuencias relativas similares. En la mayoría de las aplicaciones, valores por encima de 0.7 se consideran muy similares.
¿Por qué se prefiere la similitud coseno a la distancia euclídea para texto?
La distancia euclídea es sensible a la magnitud del vector, así que un documento largo y uno corto que traten los mismos temas parecerán muy distintos solo porque el más largo tiene valores de conteo más altos. La similitud coseno normaliza la magnitud y se centra únicamente en el ángulo, lo que permite comparar documentos sin importar su longitud. Esta invariancia a la longitud es la principal razón por la que la similitud coseno domina las aplicaciones basadas en texto.
¿Puede la similitud coseno ser negativa?
Sí, la similitud coseno va de −1 a 1. Un valor negativo significa que el ángulo entre los vectores es mayor de 90 grados: los vectores apuntan más alejándose entre sí que acercándose. En aplicaciones que solo usan características no negativas (recuentos de palabras, valoraciones), todas las similitudes caen en [0, 1], pero con características con signo, como valoraciones centradas en la media o puntuaciones de sentimiento, las similitudes negativas son posibles y útiles.
¿Qué ocurre cuando un vector es todo ceros?
La similitud coseno no está definida matemáticamente cuando cualquiera de los vectores es un vector cero, porque ocurre una división por cero en la etapa de normalización. Esta calculadora muestra un error en ese caso. En la práctica, un vector cero en procesamiento de texto suele significar que un documento no contiene ninguno de los términos del vocabulario, algo que rara vez sirve para comparar similitud.
¿Cuántas dimensiones pueden tener los vectores?
Esta calculadora admite vectores de cualquier longitud, limitada solo por el rendimiento del navegador. En la práctica, las aplicaciones reales usan con frecuencia miles o incluso millones de dimensiones (por ejemplo, espacios de embeddings de palabras). La fórmula matemática es la misma independientemente de la dimensionalidad. Ambos vectores deben tener exactamente el mismo número de elementos para que el cálculo sea válido.
¿La similitud coseno es lo mismo que la correlación?
La similitud coseno y la correlación de Pearson están estrechamente relacionadas, pero no son idénticas. La correlación de Pearson primero centra cada vector en la media (resta la media de sus elementos) antes de calcular la similitud coseno de los vectores centrados. Si tus vectores ya están centrados en la media, ambas medidas dan el mismo resultado. Para vectores de características sin centrar, la similitud coseno y la correlación suelen diferir.