논문 리딩
-
[논문 리뷰] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks논문 리딩/NLP 2024. 2. 7. 12:10
https://arxiv.org/pdf/2005.11401.pdf Abstract 대규모로 사전 훈련된 모델들은 파라미터에 지식을 저장하고, downstream task에 대해서 파인튜닝되었을 때 SOTA를 달성한다. 하지만 LLM의 지식에 접근하고 정확하게 활용하는 능력은 아직 제한적이며, 지식 집약적인 과제들에서는 task-specific한 구조에 비해 성능이 떨어지는 면이 있다. 또한, 결정에 대한 이유를 설명하거나, world knowledge를 업데이트하는 것은 여전히 남아 있는 과제이다. 사전 학습 모델로 하여금 파라미터 내의 지식을 활용하는 것이 아닌 다른 접근법을 취하게 하는 방법은 extractive downstream task들에 대해서만 연구되어 왔다. 이 논문에서는 RAG 모델을 위..
-
[논문 리뷰] ChatHaruhi: Reviving Anime Character in Reality via LLM논문 리딩/NLP 2024. 1. 12. 23:29
https://arxiv.org/pdf/2308.09597.pdf Abstract LLM에 기반한 롤플레잉 챗봇은 최근 화제가 많이 되지만, 특정한 가공의 캐릭터를 모사하기 위해서는 더 많은 기술적인 발전이 요구된다. 이 논문에서는 더 나은 프롬프트와 스크립트에서 추출한 캐릭터의 정보로 LLM을 더 잘 제어할 수 있는 알고리즘을 제시한다. 여기에서 구성한 ChatHaruhi는 중국어/영어 기반 TV 프로그램, 혹은 애니메이션에 등장하는 32개의 캐릭터에 대한 54k이상의 대화로 이루어진 데이터셋이다. 자동 평가와 정성적 평가 양쪽 모두에서, 논문에서 제시하는 접근법이 베이스라인에 비해 뛰어났다. 1. Introduction 롤 플레잉 LLM에 대한 프롬프트 기반 접근 I want you to act li..
-
[논문 리딩] Choose Your Weapon: Survival Strategies for Depressed AI Academics논문 리딩/ML 2023. 4. 26. 15:01
Abstract 당신이 학계에 몸을 담은 AI 연구자이거나, 최근 AI 트렌드에 따라가지 못하는 것 같아 불안한 마음을 가지고 있거나, 혹은 AI연구에 필요한 충분한 인적/컴퓨팅 리소스가 없다고 느낀다면 당신은 혼자가 아니다. 최신 AI 연구에 대한 투자의 규모가 점점 방대해지면서, 세계적인 스케일에서 경쟁하기 위한 방법이나 자원을 찾기 어려워하는 연구자의 수는 점점 늘고 있다. 이 논문에서는 학계에 머무르면서도 경쟁력을 갖출 수 있는 방법들에 대해서 논의하고, 대학들이 이런 상황을 개선하기 위해서 어떤 행동을 취할 수 있을지에 대해서도 간단하게 이야기한다. 1. Introduction 대학에서 AI 연구를 업으로 삼은 사람이라면 DeepMind, OpenAI, GoogleBrain, Meta AI와 같..
-
[논문 리딩] Inductive Representation Learning on Large Graphs논문 리딩/ML 2021. 6. 14. 23:05
Inductive Representation Learning on Large Graphs 2017, WL Hamilton, R Ying, J Leskovec Abstract 큰 그래프에서 노드를 낮은 차원으로 임베딩하는 것은 내용 추천부터 프로틴 함수 식별까지, 여러 예측 과제에서 매우 유용하다고 증명되어 왔다. 그러나 지금까지 대부분의 접근들은 임베딩을 학습하는 동안 그래프의 모든 노드가 존재해야 한다는 전제를 가졌다. 이런 접근은 내재적으로 transductive하고 학습 기간 동안 없었던 노드들에 대해 일반화가 되지 않는다. 이 논문에서 제안하는 graphSAGE는 일반적인 inductive 프레임워크로써, 노드 피쳐 정보(텍스트 등)를 활용해 학습 데이터셋에 없었던 노드들에 대해서도 효율적으로 노..
-
[논문 리딩] Attention is All You Need논문 리딩/NLP 2021. 2. 15. 23:37
Attention is All You Need 2017, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin Abstract 일반적인 시퀀스 전달(transduction) 모델은 encoder와 decoder를 포함하는 복잡한 순환/합성곱 신경망으로 이루어져 있다. 개중 가장 성능이 좋은 모델 역시 어텐션 매커니즘을 통해 encoder와 decoder를 결합한다. 이 논문에서는 회귀나 합성곱을 사용하지 않고 오로지 어텐션에만 기반한 간단한 구조인 트랜스포머(Transformer)를 새롭게 제안한다. 두 기계 번역 과제에서의 실험을 통해 이 모..
-
[논문 리딩] Character-Aware Neural Language Models논문 리딩/NLP 2020. 7. 14. 15:21
Character-Aware Neural Language Models 2015, Y. Kim, Y. Jernite, D. Sontag, A. M. Rush Abstract 이 논문에서는 캐릭터 단위(character-level)의 입력값을 받는 간단한 신경망 언어 모델을 제안한다. 모델은 CNN(Convolutional Neural Network)와 캐릭터들에 대한 highway network를 사용하고, 그 출력을 LSTM(Long Short Term Memory) 순환신경망 언어 모델의 입력값으로서 사용한다. English Penn Treebank 영어 데이터셋에서 제안된 모델은 여타 SOTA 수준의 다른 모델의 60% 정도의 매개변수(parameter)만 사용하면서도 비슷한 정확도를 보인다. 복잡한..
-
[논문 리딩] XGBoost: A scalable Tree Boosting System논문 리딩/ML 2020. 7. 5. 12:47
XGBoost: A scalable Tree Boosting System T. Chen, C.Guestrin, 2016 Abstract Tree Boosting은 아주 효율적이고 널리 쓰이는 머신러닝 기법이다. 본 논문에서는 종단간 기계학습이자 scalable한 학습법인 XGBoost를 소개한다. * 종단간 학습(end-to-end learning): 데이터에서 목표한 결과를 사람의 개입 없이 얻는 것 * scalable machine learning: 어떤 양의 데이터에도 많은 양의 리소스(메모리 등)을 사용하지 않고 대응할 수 있는 알고리즘 1 Introduction 논문의 주요 contribution: We design and build a highly scalable end-to-end tree ..
-