분류 전체보기
-
단어 임베딩 -2: Iteration based methods (Word2Vec, FastText)개인 스터디/NLP 2020. 7. 1. 19:29
앞서의 원핫 인코딩 모델이나 윈도우 기반 co-occurence 모델은 모두 커다란 데이터셋에 대한 전체적인 정보를 살펴보고 단어를 벡터로 변환했습니다. Iteration based 방법은 이와는 조금 다르게, 한 iteration마다 해당 컨텍스트에 단어가 등장할 확률을 점차 학습해나가는 모델입니다. 만들고자 하는 언어 모델은 "나는 친구와 과자를 먹었다"와 같은 유효한 문장에 높은 확률을 주고, "고양이 임베딩은 필통이다"와 같은 문장에는 낮은 확률을 주는 모델입니다. $n$개의 단어로 이루어진 문장 $s$의 확률을 문장에 사용된 단어들, $w_1, \ldots, w_n$을 이용해 다음과 같이 정의할 수 있습니다. $P(s) = P(w_1, w_2, \ldots, w_n)$ 1. Unigram Mod..
-
단어 임베딩 -1: 원핫 임베딩, SVD기반 임베딩개인 스터디/NLP 2020. 6. 30. 11:07
자연어를 컴퓨터에서 처리하기 위해서는 우선 자연어 단어를 컴퓨터가 이해할 수 있는 단위인 숫자로 바꾸는 과정이 필요합니다. 1. One-hot encoding 원 핫 인코딩은 단어를 벡터로 인코딩하는 가장 간단한 방법입니다. 원 핫 인코딩을 위해서는 우선 문서에 등장하는 모든 단어를 모아 단어 사전(vocabulary)를 작성합니다. 만약 가지고 있는 문서가 "나는 사탕보다 초콜릿이 좋다" 라면 ["나", "는", "사탕", "보다", "초콜릿", "이", "좋다"]와 같은 단어 사전을 가지게 될 것입니다. 원 핫 인코딩은 이 단어들을 오직 0과 1로 이루어진 벡터로 변환합니다. 각 벡터에서는 1이 단 한 번 등장하며, 서로 다른 단어가 임베딩된 벡터에서는 서로 다른 위치에 1이 등장하게 됩니다. 문서를..
-
-
[논문 리딩] Automatically Building a Stopword List for an Information Retrieval System논문 리딩/NLP 2020. 6. 16. 11:32
Automatically Building a Stopword List for an Information Retrieval System 2005, RTW Lo, B He, I Ounis ABSTRACT 문서에서 자주 등장하지만 정보 전달 면에서 가치가 없는 단어를 stopwords(불용어) 라고 한다. 불용어는 맥락이나 정보에 영향을 끼치지 않으므로 삭제되어야 하지만, 하나의 고정된 불용어 리스트를 여러 문서 집합에 적용하는 것은 정보 전달의 관점에서 바람직하지 않을 수 있다. 이 논문에서는 네 개의 서로 다른 TREC(Text Retrieval Conference) 문서 집합을 이용해 주어진 문서 집합에 대해 불용어를 자동적으로 생성하는 방법들을 소개하고, 그 결과를 평가한다. 특히, term-based..
-
Ensemble Learning(앙상블 기법)개인 스터디/ML 2020. 6. 4. 16:10
앙상블 기법(Ensemble Learning)은 더 정확한 학습 모델을 만들기 위해 여러 개의 학습 기법을 결합하는 방법입니다. 지난번에는 연속되는 질문과 대답을 통해 클래스를 예측하는 Decision Tree(의사결정나무)를 알아보았습니다. 그런데 위의 의사결정나무가 어떤 동물이 포유류인지를 정확히 예측할 수 있을까요? 그림 2는 오리너구리입니다. 오리너구리는 알을 낳기 때문에, 그림 1의 decision tree를 이용해 판정을 하면 포유류가 아니라는 결과가 나옵니다. 하지만 오리너구리는 새끼를 낳아 젖을 먹이기 때문에 포유류로 분류됩니다. 이와 같이 의사결정나무는 데이터의 작은 변화에 의해 예측 결과가 크게 변하는 특성(high variance)이 있습니다. 이러한 특성을 보완하기 위해 쓰이는 기법..
-
Decision Tree(의사결정나무)개인 스터디/ML 2020. 6. 4. 15:46
Decision Tree(의사결정나무)는 의사결정 규칙을 Tree 구조로 나타내어 자료에 대한 패턴을 파악하는 알고리즘입니다. 그림 1은 임의의 동물이 주어졌을 때, 체온과 새끼를 낳는지의 여부에 의해 포유류/포유류가 아님을 결정하는 decision tree입니다. (어릴 때 하던 스무고개, 심리테스트와도 비슷합니다.) 여기에서 각 점(원과 사각형)을 node, 각 화살표를 edge라고 합니다. 디시전 트리의 노드 종류는 다음 3가지로, 일반 tree의 노드 호칭과 비슷입니다. - root node: 들어오는 edge가 없고 나가는 edge가 0개 이상인 노드 - internal node: 들어오는 edge가 한 개이고 나가는 edge가 2개 이상인 노드 - leaf node: 들어오는 edge가 한 개..