논문 리딩
-
[논문 리딩] Automatically Building a Stopword List for an Information Retrieval System논문 리딩/NLP 2020. 6. 16. 11:32
Automatically Building a Stopword List for an Information Retrieval System 2005, RTW Lo, B He, I Ounis ABSTRACT 문서에서 자주 등장하지만 정보 전달 면에서 가치가 없는 단어를 stopwords(불용어) 라고 한다. 불용어는 맥락이나 정보에 영향을 끼치지 않으므로 삭제되어야 하지만, 하나의 고정된 불용어 리스트를 여러 문서 집합에 적용하는 것은 정보 전달의 관점에서 바람직하지 않을 수 있다. 이 논문에서는 네 개의 서로 다른 TREC(Text Retrieval Conference) 문서 집합을 이용해 주어진 문서 집합에 대해 불용어를 자동적으로 생성하는 방법들을 소개하고, 그 결과를 평가한다. 특히, term-based..