전체 글
-
[논문 리딩] Character-Aware Neural Language Models논문 리딩/NLP 2020. 7. 14. 15:21
Character-Aware Neural Language Models 2015, Y. Kim, Y. Jernite, D. Sontag, A. M. Rush Abstract 이 논문에서는 캐릭터 단위(character-level)의 입력값을 받는 간단한 신경망 언어 모델을 제안한다. 모델은 CNN(Convolutional Neural Network)와 캐릭터들에 대한 highway network를 사용하고, 그 출력을 LSTM(Long Short Term Memory) 순환신경망 언어 모델의 입력값으로서 사용한다. English Penn Treebank 영어 데이터셋에서 제안된 모델은 여타 SOTA 수준의 다른 모델의 60% 정도의 매개변수(parameter)만 사용하면서도 비슷한 정확도를 보인다. 복잡한..
-
[PRML] 1.6 Information Theory (작성중)책 리딩/PRML 2020. 7. 12. 23:17
1.6 Information Theory 이 장에서는 정보 이론(Information Theory)에 대해서 간략히 소개한다. 먼저, 이산 랜덤 변수 $x$를 생각해 보자. $x$의 구체적인 값을 관찰하는 경우 어느 정도의 정보(information)를 얻을 수 있는지를 정량화하고자 한다. 정보의 양이라는 것은 놀람의 정도(degree of suprise)로 볼 수 있다. 예컨대 아주 일어날 법 하지 않은 일이 일어났을 때 얻을 수 있는 정보의 양은 일어날 법한 일이 일어났을 때 얻을 수 있는 정보의 양보다 많다. 그리고 일어날 것이 확실한 사건이 일어났다는 소식은 우리에게 아무런 정보도 주지 않을 것이다. 따라서 $x$를 관찰하는 사건에서 얻을 수 있는 정보의 양은 확률분포 $p(x)$에 의존한다. 따..
-
[PRML] 1.5 Decision Theory책 리딩/PRML 2020. 7. 12. 17:11
1.5 Decision Theory 1.2장에서 확률론이 불확실성을 정량화하고 다루는 데에 있어 일관적인 framework를 제공한다는 것을 배웠다. 이 장에서는 확률론과 함께 불확실성이 개입된 상황에서 최적의 결정을 내리도록 하는 결정 이론에 대해 공부할 것이다. 입력 벡터 $\mathbb{x}$와 상응하는 타겟 벡터 $\mathbb{t}$(클래스 라벨)가 주어졌을 때 이를 이용해 새로운 입력 벡터 $\mathbb{x}_{new}$에 대해 예측 $\mathbb{t}_{new}$을 하는 모델을 만들고자 한다고 한다. 결합 확률(joint distribution) $p(\mathbb{x}, \mathbb{t})$는 이 변수들에 연관된 불확실성에 대한 완전한 요약을 제공한다. 학습 데이터로부터 $p(\mat..
-
[PRML] 1.4 The Curse of Dimensionality책 리딩/PRML 2020. 7. 12. 15:52
1.4 The Curse of Dimensionality 앞서 살펴본 다항 곡선 피팅 예제에서는 입력 데이터 $x$가 단 한 개였다. 그러나 현실 세계의 패턴 인식에서는 높은 차원의 입력 데이터를 다뤄야 하는 경우가 잦다. 이 장에서는 높은 차원의 데이터를 다루며 마주치게 되는 문제들에 대해서 이야기하겠다. 문제를 설명하기 위해 기름, 물, 가스가 혼합된 파이프에서 측정한 값을 나타내는 데이터 셋을 고려한다. 그림 1.19는 이 데이터 세트의 측정치 중 $x_6$과 $x_7$ 두 가지를 나타낸다. 각 데이터 포인트는 homogenous, annular, laminar 중 하나의 레이블을 가지고 있으며, 이 레이블은 그림에서 색깔로 분류된다. 우리의 목표는 새로운 데이터 포인트(그림의 x)가 주어졌을 때 ..
-
[PRML] 1.3 Model Selection책 리딩/PRML 2020. 7. 12. 15:23
1.3 Model Selection 앞서 최소 제곱법(leat squares)를 이용한 다항식 곡선 피팅의 문제에서 최적의 차수를 구하는 법을 알아보았다. 다항식의 차수는 모델 안의 파라미터의 개수를 결정하며, 따라서 모델의 복잡도도 결정하게 된다. 정규화된 최소 제곱법을 사용했을 때, 정규화 계수 $\lambda$역시 모델의 복잡도를 조절할 수 있다. 현실 세계에서 우리는 파라미터의 값들을 직접 정해야 하고, 그 주 목적은 새로운 데이터에 대한 올바른 예측을 하기 위함이다. 이미 maximum likelihood 방식은 과대적합(over-fitting)문제가 있는 것을 확인했다. 만약 데이터가 충분하다면 데이터를 샘플링해 여러 모델을 훈련시키고, 검증 데이터셋(validation set)을 구성해 검증..
-
[PRML] 1.1 Example: Polynomial Curve Fitting책 리딩/PRML 2020. 7. 12. 10:23
1.1 Example: Polynomial Curve Fitting $f(x) = \sin (2 \pi x)$ 예측하기 문제 설정: $\mathbb{x} = (x_1, \ldots, x_N)^T$: 인풋 벡터 $\mathbb{t} = (t_1, \ldots, t_N)^T$: 타겟 벡터 ($f(x) = \sin (2 \pi x)$ 로부터 관찰된 $y$값) 목표: 트레이닝 셋을 잘 학습하여 새로운 데이터 $\hat{x}$가 주어졌을 때 예측치 $\hat{t}$를 생성하는 것 유한한+노이즈가 포함된 데이터셋으로부터 내재된 구조를 파악하는 것은 어렵다. 확률론(probability theory): 불확실성을 정확하고 정량적으로 표현하기 위한 프레임워크 제공 결정론(decision theory): 확률론을 이용하..
-
[PRML] 1. Introduction책 리딩/PRML 2020. 7. 11. 12:48
패턴 인식(Pattern Recognition): 1. 컴퓨터 알고리즘을 이용해 데이터의 내재적 규칙을 파악하고, 2. 발견된 규칙을 사용해 카테고리 분류 등의 행동을 취하는 것. 머신 러닝(Machine Learning): 1. 경험을 통해 자동적으로 발전하는 컴퓨터 알고리즘에 대한 연구 본격적인 내용으로 들어가기 전에, 책의 제목을 보면 먼저 패턴 인식과 머신 러닝의 차이에 대한 궁금증이 떠오른다. 머신 러닝이라는 단어는 친숙하지만, 패턴 인식이라는 단어는 조금 생소하기도 하다. preface에 적혀 있는 내용에 따르면 패턴 인식은 공학에서, 머신 러닝은 컴퓨터 과학에서 나왔지만 이 둘은 같은 분야의 서로 다른 두 가지 측면으로 볼 수 있으며, 함께 발전해 왔다고 한다. 참고 링크에 의하면 패턴 인식..
-
[논문 리딩] XGBoost: A scalable Tree Boosting System논문 리딩/ML 2020. 7. 5. 12:47
XGBoost: A scalable Tree Boosting System T. Chen, C.Guestrin, 2016 Abstract Tree Boosting은 아주 효율적이고 널리 쓰이는 머신러닝 기법이다. 본 논문에서는 종단간 기계학습이자 scalable한 학습법인 XGBoost를 소개한다. * 종단간 학습(end-to-end learning): 데이터에서 목표한 결과를 사람의 개입 없이 얻는 것 * scalable machine learning: 어떤 양의 데이터에도 많은 양의 리소스(메모리 등)을 사용하지 않고 대응할 수 있는 알고리즘 1 Introduction 논문의 주요 contribution: We design and build a highly scalable end-to-end tree ..