Question 1

코사인 유사도 0.85는 무엇을 의미하나요?

Accepted Answer

두 벡터 사이의 각도가 약 31.8도라는 뜻으로, 방향 유사도가 높다는 의미입니다. 텍스트 분석에서는 보통 두 문서가 핵심 용어를 상당 부분 공유하고 상대 빈도도 비슷하다는 것을 시사합니다. 대부분의 응용에서 0.7 이상은 대체로 매우 유사한 것으로 봅니다.

Question 2

텍스트에서 유클리드 거리보다 코사인 유사도가 선호되는 이유는 무엇인가요?

Accepted Answer

유클리드 거리는 벡터 크기에 민감해서, 같은 주제를 다루는 긴 문서와 짧은 문서라도 긴 쪽의 단어 수가 많다는 이유만으로 크게 달라 보일 수 있습니다. 코사인 유사도는 크기를 정규화하고 각도만 보기 때문에 길이에 상관없이 문서를 비교할 수 있습니다. 이런 길이 불변성이 텍스트 기반 응용에서 코사인 유사도가 널리 쓰이는 가장 큰 이유입니다.

Question 3

코사인 유사도는 음수가 될 수 있나요?

Accepted Answer

네, 코사인 유사도는 −1에서 1 사이입니다. 음수 값은 두 벡터 사이의 각도가 90도보다 크다는 뜻으로, 서로 더 멀어지는 방향을 가리킨다는 의미입니다. 단어 수나 평점처럼 음이 아닌 특성만 쓰는 응용에서는 유사도가 [0, 1]에 머물지만, 평균 중심화된 평점이나 감성 점수처럼 부호가 있는 특성에서는 음의 유사도도 의미 있을 수 있습니다.

Question 4

한 벡터가 모두 0이면 어떻게 되나요?

Accepted Answer

어느 한쪽이라도 영벡터이면 정규화 단계에서 0으로 나누기가 발생하므로 코사인 유사도는 수학적으로 정의되지 않습니다. 이 계산기는 그런 경우 오류를 표시합니다. 실제로 텍스트 처리에서 영벡터는 문서에 어휘 목록의 단어가 하나도 없다는 뜻인 경우가 많아, 어차피 비교에 별 도움이 되지 않습니다.

Question 5

벡터는 몇 차원까지 사용할 수 있나요?

Accepted Answer

이 계산기는 브라우저 성능이 허용하는 범위 내에서 길이 제한 없이 벡터를 지원합니다. 실제 환경에서는 수천 차원이나 수백만 차원(예: 단어 임베딩 공간)을 쓰는 경우도 흔합니다. 차원이 얼마든 수학 공식은 동일합니다. 계산이 유효하려면 두 벡터의 요소 수가 정확히 같아야 합니다.

Question 6

코사인 유사도는 상관계수와 같은가요?

Accepted Answer

코사인 유사도와 피어슨 상관계수는 밀접하지만 동일하지는 않습니다. 피어슨 상관계수는 먼저 각 벡터를 평균 중심화(요소 평균을 뺌)한 뒤 중심화된 벡터의 코사인 유사도를 계산합니다. 벡터가 이미 평균 중심화되어 있다면 두 값은 같습니다. 평균 중심화가 없는 원시 특징 벡터에서는 코사인 유사도와 상관계수가 일반적으로 다릅니다.

벡터	유사도	해석
A = [1, 2, 3], B = [2, 4, 6]	1.000000	B는 A의 스칼라 배수입니다(같은 방향). 스케일 계수와 무관하게 코사인 유사도는 1입니다.
A = [1, 0, 0], B = [0, 1, 0]	0.000000	표준 기저 벡터는 서로 직교합니다. 내적 = 0이므로 코사인 유사도 = 0입니다.
A = [5, 3, 0, 2], B = [4, 2, 1, 3]	0.947758	문서나 사용자 선호 비교에서 흔한 높은 유사도입니다. 대부분의 차원이 겹칩니다. A·B=32, \|A\|=√38≈6.164, \|B\|=√30≈5.477.
A = [1, 0], B = [-1, 0]	-1.000000	정확히 반대 방향을 가리키는 벡터는 코사인 유사도 = −1을 만듭니다.

코사인 유사도 계산기 - 벡터 유사성 분석

코사인 유사도 계산기 소개

코사인 유사도 예시

코사인 유사도 계산기 사용 방법

코사인 유사도 FAQ