전체 글
-
[논문 리뷰] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks논문 리딩/NLP 2024. 2. 7. 12:10
https://arxiv.org/pdf/2005.11401.pdf Abstract 대규모로 사전 훈련된 모델들은 파라미터에 지식을 저장하고, downstream task에 대해서 파인튜닝되었을 때 SOTA를 달성한다. 하지만 LLM의 지식에 접근하고 정확하게 활용하는 능력은 아직 제한적이며, 지식 집약적인 과제들에서는 task-specific한 구조에 비해 성능이 떨어지는 면이 있다. 또한, 결정에 대한 이유를 설명하거나, world knowledge를 업데이트하는 것은 여전히 남아 있는 과제이다. 사전 학습 모델로 하여금 파라미터 내의 지식을 활용하는 것이 아닌 다른 접근법을 취하게 하는 방법은 extractive downstream task들에 대해서만 연구되어 왔다. 이 논문에서는 RAG 모델을 위..
-
[논문 리뷰] ChatHaruhi: Reviving Anime Character in Reality via LLM논문 리딩/NLP 2024. 1. 12. 23:29
https://arxiv.org/pdf/2308.09597.pdf Abstract LLM에 기반한 롤플레잉 챗봇은 최근 화제가 많이 되지만, 특정한 가공의 캐릭터를 모사하기 위해서는 더 많은 기술적인 발전이 요구된다. 이 논문에서는 더 나은 프롬프트와 스크립트에서 추출한 캐릭터의 정보로 LLM을 더 잘 제어할 수 있는 알고리즘을 제시한다. 여기에서 구성한 ChatHaruhi는 중국어/영어 기반 TV 프로그램, 혹은 애니메이션에 등장하는 32개의 캐릭터에 대한 54k이상의 대화로 이루어진 데이터셋이다. 자동 평가와 정성적 평가 양쪽 모두에서, 논문에서 제시하는 접근법이 베이스라인에 비해 뛰어났다. 1. Introduction 롤 플레잉 LLM에 대한 프롬프트 기반 접근 I want you to act li..
-
[논문 리딩] Choose Your Weapon: Survival Strategies for Depressed AI Academics논문 리딩/ML 2023. 4. 26. 15:01
Abstract 당신이 학계에 몸을 담은 AI 연구자이거나, 최근 AI 트렌드에 따라가지 못하는 것 같아 불안한 마음을 가지고 있거나, 혹은 AI연구에 필요한 충분한 인적/컴퓨팅 리소스가 없다고 느낀다면 당신은 혼자가 아니다. 최신 AI 연구에 대한 투자의 규모가 점점 방대해지면서, 세계적인 스케일에서 경쟁하기 위한 방법이나 자원을 찾기 어려워하는 연구자의 수는 점점 늘고 있다. 이 논문에서는 학계에 머무르면서도 경쟁력을 갖출 수 있는 방법들에 대해서 논의하고, 대학들이 이런 상황을 개선하기 위해서 어떤 행동을 취할 수 있을지에 대해서도 간단하게 이야기한다. 1. Introduction 대학에서 AI 연구를 업으로 삼은 사람이라면 DeepMind, OpenAI, GoogleBrain, Meta AI와 같..
-
[논문 리딩] Inductive Representation Learning on Large Graphs논문 리딩/ML 2021. 6. 14. 23:05
Inductive Representation Learning on Large Graphs 2017, WL Hamilton, R Ying, J Leskovec Abstract 큰 그래프에서 노드를 낮은 차원으로 임베딩하는 것은 내용 추천부터 프로틴 함수 식별까지, 여러 예측 과제에서 매우 유용하다고 증명되어 왔다. 그러나 지금까지 대부분의 접근들은 임베딩을 학습하는 동안 그래프의 모든 노드가 존재해야 한다는 전제를 가졌다. 이런 접근은 내재적으로 transductive하고 학습 기간 동안 없었던 노드들에 대해 일반화가 되지 않는다. 이 논문에서 제안하는 graphSAGE는 일반적인 inductive 프레임워크로써, 노드 피쳐 정보(텍스트 등)를 활용해 학습 데이터셋에 없었던 노드들에 대해서도 효율적으로 노..
-
[논문 리딩] Attention is All You Need논문 리딩/NLP 2021. 2. 15. 23:37
Attention is All You Need 2017, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin Abstract 일반적인 시퀀스 전달(transduction) 모델은 encoder와 decoder를 포함하는 복잡한 순환/합성곱 신경망으로 이루어져 있다. 개중 가장 성능이 좋은 모델 역시 어텐션 매커니즘을 통해 encoder와 decoder를 결합한다. 이 논문에서는 회귀나 합성곱을 사용하지 않고 오로지 어텐션에만 기반한 간단한 구조인 트랜스포머(Transformer)를 새롭게 제안한다. 두 기계 번역 과제에서의 실험을 통해 이 모..
-
[PRML] 2. Probability Distributions책 리딩/PRML 2020. 8. 8. 17:13
1장에서는 패턴 인식 문제에서 확률론이 얼마나 중요한 역할을 하는지를 이야기했다. 이 장에서는 특정 확률 분포들의 예시와 그 특성에 대해서 배워 보겠다. 이 장에서 소개하는 확률 분포들은 그 자체로도 흥미롭지만, 책 전체를 통틀어 보다 더 복잡한 문제를 푸는 데 사용되기도 한다. 이 장에서는 또한 이후의 장들에서 복잡한 맥락에서 등장하게 될 베이지안 추론(Baysian inference)와 같은 주요한 확률론적 개념을 조금 더 단순한 상황을 통해 먼저 맛보게 된다. 이 장에서 소개하게 될 확률 분포들의 역할 중 하나는 밀도 추정(density estimation) 으로, 유한한 측정치 $\mathbf{x}_1, \mathbf{x}_N$이 주어졌을 때 확률변수 $\mathbf{x}$의 분포 $p(\math..
-
어텐션 매커니즘(Attention Mechanism)개인 스터디/NLP 2020. 7. 20. 15:33
"운동장에 공이 있다"는 말을 들을 때, 모든 말이 똑같이 중요해 보이지는 않을 것입니다. "운동장", "공이"는 다른 단어들보다 더 중요해 보입니다. 실제로 많은 문장에서 단어들이 갖는 중요도는 서로 많이 다릅니다. 더욱이 번역 과제에서, 번역된 문장의 각 부분은 번역 전 문장의 서로 다른 단어들에 의존합니다. 그런데 Seq2Seq 모델에서는 이런 특성을 반영하지 않고, 모든 단어를 똑같이 취급해 문맥 벡터(context vector)를 생성합니다. 어탠션 매커니즘에서는 디코더 네트워크가 각 순간에 전체 입력 문장을 확인하도록 하여, 각 순간마다 입력 단어들의 중요도를 산정합니다. 1. Bahdanau et al. NMT model Seq2Seq 모델은 입력 시퀀스를 인코딩하는 인코더와, 문맥 벡터를 ..
-
시퀀스 투 시퀀스(Seq2Seq) 모델개인 스터디/NLP 2020. 7. 17. 13:55
일반적인 인공 신경망을 사용한 자연어 처리 과제는 단어 표현이나 라벨링처럼 단일한 출력값을 만들어냅니다. 하지만 많은 자연어 처리 과제는 가변적인 길이의 순차적인 출력값(sequential output)을 결과로써 요구합니다. 예컨대 다음과 같은 과제들이 있습니다. 번역: 특정한 언어로 쓰인 문장을 입력값으로 받아 다른 언어로 쓰인 같은 문장을 출력하는 것 대화: 문장이나 질문을 입력값으로 받아 그에 반응하는 것 요약: 긴 글을 입력값으로 받아 그에 대한 요약을 출력하는 것 여기에서는 이런 유형의 문제들을 딥 러닝 기반으로 다룰 수 있는 seqence-to-sequence 모델을 살펴보도록 하겠다. 1. Seq2Seq 이전의 접근법 과거에는 확률적 모델에 기반해 번역 시스템을 만들었습니다. 번역 모델(t..