엘라스틱 서치에서의 유사도 점수

점수

: 검색 결과 검색 기준과 일치붓다 점수로 계산답장으로 보내십시오.

– 검색어와 관련된 검색결과(문서)가 높을수록 점수가 높아집니다.

– 점수가 높을수록 원하는 검색결과일 확률이 높습니다.

계산 방법

– 점수는 BM(Best Matching)25이라는 알고리즘을 사용하여 계산됩니다.


BM25 계산 공식 (매우 복잡해 보입니다.

)

알고리즘은 총 3가지 구성요소로 구성됩니다.

하나. TF(학기 빈도)

: 검색하려는 특정 용어 문서에 얼마나 많은 나타났나요?

중요한 것은 문서 (문서)검색어 얼마나 많이 나타 났습니까?당신은했다

예를 들어 “쥬라기 공원”이라는 용어를 검색하면 “쥬라기 공원”이단어 5 포함된 웹페이지보다 10번들로 제공되는 웹 페이지가 보고 싶은 정보 페이지일 확률이 높습니다.

“약속 빈도 높은 = 특정 문서당신이 찾고 있던 단어 많이 나타났다~하다 높은 점수받다

=> 원하는 검색 결과 아마도.”

2. IDF(역 문서 빈도)

: 문서 전체에서 검색하려는 단어 얼마나 많은 문서에 나타났다?

문득 문서빈도, 즉 얼마나 많은 문서가 등장했는지가 나와서 이해불가가 될 수 있다.

검색을 하고자 할 때는 앞서 언급한 분석기로 나누어 용어(단어) 형태로 검색한다.

이러한 단어 중 일부 단어는 사이트 전체의 많은 문서에 나타날 수 있습니다.

이 이야기는 결국 사이트 전체에 나타나며, 이는 단어 자체가 일반적이라는 것을 의미합니다.

IDF의 경우 일반적인 단어가 많을수록 점수가 낮아집니다.

이러한 이유로 문서 빈도에 반전이 추가됩니다.

단어 자체가 주로 일반적이기 때문에 이러한 일반적인 단어는 상대적으로 덜 일반적인 단어보다 지정된 문서에 나타날 가능성이 더 큽니다.

용어 빈도가 단순히 높더라도 우리가 원하는 것의 가능성은 예상보다 낮을 수 있습니다.

.

예를 들어 쥬라기 공원을 검색하면 “법”그리고 “공원”는 단어로 구분되어 있으며 각 문서에서 검색이 이루어지지만 “Jurassic”이라는 단어보다 “Park”라는 단어가 더 일반적이며 문서 전체에 걸쳐 많은 수의 문서에 자주 나타납니다.

(문서 빈도가 높은)

문서가 위에서 언급한 것과 동일한 용어 빈도를 가진다고 하더라도 상대적으로 희귀한 단어인 “Jurassic”이 자주 나오는 검색 문서의 중요도 점수는 더 높을 수밖에 없습니다.

한마디로 요약하자면,

“문서 빈도 높은 = 단어 그 자체 함께 = 낮은 점수받다

=> 원하는 검색 결과 ~할 것 같지 않은.”

3. 필드 길이

: 검색한 문서의 길이는 얼마입니까?

필드 길이, 문자 그대로 필드의 길이. 이곳의 필드는 발견된 문서그리고 위의 TF-IDF 값이 같더라도 상대적으로 짧은 문서(문서)더 많이 나타날 높은 점수얻어 질 수있는

예를 들어 일부 텍스트 제목수업 세부 사항로 구성되어 있으면 특정 단어에 대한 검색 횟수가 같더라도 제목에 대한 검색과 기사의 내용에 차이가 있습니다.

제목은 아마도 한두 줄 정도이고 기사의 내용은 1페이지 이상이면 책의 길이일 것입니다.

긴 문서에서 필드 길이 자체가 나온다면 긴 문서에서 단어를 검색하더라도 원하는 검색 결과가 아닌 텍스트일 가능성이 높습니다.

제목에 “쥬라기 공원”이 나온다면 제목 자체의 내용이 “쥬라기 공원”일 가능성이 큽니다.

그것은 단지 “제목” 때문이 아니라 필드 길이가 짧기 때문입니다.

반면에 “Jurassic Park”가 텍스트에 나오는 경우 단순히 텍스트의 필드가 시작하기에 길기 때문에 “Jurassic Park”라는 단어가 예로 나타날 확률이 높습니다.

“필드 길이는 = 검색된 문서의 길이 = 낮은 점수받다

=> 원하는 검색 결과 ~할 것 같지 않은.”

출처 : 엘라스틱 가이드(김종민)

https://esbook.kimjmin.net/05-search/5.3-relevancy