BM25 & Vector Search
·
Tech Experiments & Study/Advanced
RAG를 사용할 때, 사용자의 질의와 실제로 관련된 문서들을 잘 가져와야 답변의 품질이 올라갑니다.그렇지 않다면, 오히려 답변을 생성하는데에 노이즈가 될 것입니다. 이때, 사용자의 질의와 관련된 문서들을 선택하는 방법들이 여러 개가 있지만, 대표적인 방법 중 BM25와 Vector Search에 대해 오늘은 얘기해보고자 합니다. BM25 (Best Matching 25) BM25를 이해하기 위해서는 TF-IDF(Term Frequency - Inverse Document Frequency)를 알아야합니다.왜냐하면, BM25는 TF-IDF를 개선한 알고리즘이기 때문입니다. TF-IDF BM25 TF-IDF와 BM25의 수식을 보면, 두 알고리즘 모두 특정 단어의 빈도수, 문서의 개수와 같이 특정 단어..