tbd
tbd
tbd
tbd
tbd
tbd
BoW에 기반한 단어 표현 방법인 DTM, TF-IDF 또는 Word2Bec 등과 같이 단어를 수치화할 수 있는 방법을 이해했다면 코사인 유사도를 통해 문서의 유사도를 구하는게 가능하다
두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다.
두 벡터의 방향이 완전히 동일한 경우 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1 값을 갖게 된다. 즉 코사인 유사도는 -1 ~ 1이하의 값을 가지며 1에 가까울 수록 유사도가 높다고 판단할 수 있다.

두 벡터, A, B에 대해서 코사인 유사도는 식으로 표현하면 다음과 같다.