Prepare NLP

tbd

Text Preprocessing

tbd

Language Model

tbd

Count based word Representation

tbd

Vector Similarity

Euclidean Distance Similarity

tbd

Jaccard Similarity

tbd

Cosine Similarity

BoW에 기반한 단어 표현 방법인 DTM, TF-IDF 또는 Word2Bec 등과 같이 단어를 수치화할 수 있는 방법을 이해했다면 코사인 유사도를 통해 문서의 유사도를 구하는게 가능하다

두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다.

두 벡터의 방향이 완전히 동일한 경우 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1 값을 갖게 된다. 즉 코사인 유사도는 -1 ~ 1이하의 값을 가지며 1에 가까울 수록 유사도가 높다고 판단할 수 있다.

image.png

두 벡터, A, B에 대해서 코사인 유사도는 식으로 표현하면 다음과 같다.