Search Engine (+IR)

정보 검색 모델의 유형

다양한 유형의 정보 검색 모델은 특정 과제를 해결하고 관련 정보를 검색하는 프로세스를 구축하도록 설계되었습니다. 해당 분야의 기초를 형성하는 고전적 모델, 전통적인 접근 방식의 한계를 해결하려고 시도하는 비고전적 모델, 그리고 종종 머신 러닝 및 언어 모델과 같은 고급 기술을 통합하여 훨씬 더 발전하는 대체 정보 검색 모델이 있습니다. 일반적인 수준에서 가장 일반적인 유형의 정보 검색 모델은 다음과 같습니다.

부울 모델

가장 간단한 초기의 정보 검색 모델 중 하나인 부울 모델은 AND, OR, NOT 등의 연산자를 사용하여 쿼리 용어를 결합하는 부울 논리를 기반으로 합니다. 문서는 용어의 집합으로 표현되며, 지정된 조건과 일치하는 문서를 식별하기 위해 쿼리가 처리됩니다. 정확한 쿼리 일치에는 효과적이지만, 부울 모델은 정확도를 기준으로 문서의 순위를 매기거나 부분 일치를 제공할 수 없습니다.

벡터 공간 모델

이 모델에서는 문서와 쿼리가 다차원 공간에서 벡터로 표현됩니다. 각 차원은 고유한 용어에 해당하며, 각 차원의 값은 문서 또는 쿼리에서 해당 용어의 중요성과 빈도를 나타냅니다. 쿼리 벡터와 문서 벡터 간의 코사인 유사성을 계산하여 쿼리에 대한 문서의 정확도를 결정합니다. 부울 모델의 단점을 해결하기 위해 부분적으로 개발된 벡터 공간 모델은 정확도 점수를 기반으로 순위가 매겨진 결과를 제공할 수 있으며 텍스트 검색에 널리 사용됩니다.

확률적 모델

이 모델은 문서가 특정 쿼리와 관련될 확률을 추정합니다. 정확도 확률을 계산하기 위해 용어 빈도 및 문서 길이와 같은 요소를 고려합니다. 특히 대용량 데이터를 처리할 때 유용합니다. 가중 통계와 함께 작동하기 때문에 이 모델은 순위가 매겨진 결과를 제공하는 데 이상적입니다.

잠재 시맨틱 인덱싱(LSI)

LSI는 특이값 분해(SVD)를 사용하여 용어와 문서 간의 의미 관계를 포착합니다. 시맨틱 검색과 마찬가지로, 시맨틱 인덱싱은 정확한 용어를 공유하지 않더라도 의도와 맥락을 사용하여 개념적으로 관련된 문서를 식별합니다. 이 핵심 기능을 통해 LSI는 텍스트 본문에서 단어의 문맥적 의미를 추출하는 데 유용합니다.

Okapi BM25

확률 모델의 가장 인기 있는 변형 중 하나인 BM25는 검색 정확도 순위 기능입니다. 이는 검색 엔진에서 문서와 검색 쿼리의 정확도를 추정하는 데 사용됩니다. 문서 내 용어 간의 상호 관계에 관계없이 각 문서에 나타나는 쿼리 용어를 기반으로 문서 집합의 순위를 매기며, 다양한 구성 요소와 매개 변수를 가진 많은 채점 기능으로 구성됩니다. BM은 "베스트 매칭"을 의미합니다.

정보 검색 시스템의 주요 구성 요소

정보 검색 시스템은 다음과 같은 몇 가지 주요 구성 요소로 구성됩니다.

문서 컬렉션

시스템이 정보를 검색할 수 있는 문서 세트입니다.

인덱싱 구성 요소

소스 데이터와 문서는 처리되어 인덱스를 생성하고, 용어와 데이터를 이를 포함하는 문서에 매핑합니다. 이는 주로 최적화된 전용 데이터 구조로 이루어집니다.

쿼리 프로세서