Research - FacerAin's blog (Page 2)

Research

[논문 리뷰] Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

이번 시간에는 Long-context language model(LCLMs)의 장점과 이를 평가할 수 있는 벤치마크인 LOFT를 제안한 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? 논문을 소개합니다. Long-context language model(LCLMs)은 전통적인 Retriever이나 Database와 같은 외부 툴에 의존하는 방식이 아닌, 전체 corpus를 한 번에 입력하여 다양한 작업을 수행할 수

Research

[논문 리뷰] Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

이번 시간에는 RAG와 Long-Context LLMs의 성능을 비교하고, 두 방법을 혼합한 Self-Route를 제안한 논문을 살펴봅니다. 최근에 출시된 Gemini 1.5와 같은 모델들은 Context window size가 1 Million에 달하는 등 매우 많은 토큰을 한 번에 입력 받을 수 있습니다. 이는 영문 소설 8권을 한 번에 입력할 수 있는 양입니다. 이러한 점을 활용해

Research

[논문 리뷰] Gecko: Versatile Text Embeddings Distilled from Large Language Models

이번 시간에는 구글 딥마인드에서 발표한 Gecko 논문을 리뷰합니다. Gecko는 LLMs로부터 지식 증류 (knowledge distillation)를 통해 학습한 text embedding 모델입니다. 작은 모델 사이즈로도 큰 모델과 비견되는 높은 성능을 내는 것이 특징입니다. 논문은 링크에서 확인할 수 있습니다. Abstract * Gecko라는 compact하고 versatile한 text embedding 모델을 제안 * retriever에서 LLMs로부터의 지식 증류를 활용하여 강력한

Research

[논문 리뷰] Rethinking the Role of Token Retrieval in Multi-Vector Retrieval

이번 시간에는 구글 딥마인드 팀에서 발표한 “Rethinking the Role of Token Retrieval in Multi-Vector Retrieval” 논문을 소개하고자 합니다. 최근 LLM의 부상과 함께 RAG (Retrieval-Augmented Generation)이라는 기술도 많은 주목을 받고 있는데요, 이는 외부의 신뢰할 수 있는 지식 베이스에서 유저의 질문 (query)과 관련된 지식 소스를 참고하여 답변을 생성하는 기술입니다. 이를

Research

AI 모델에게 특정 기억을 잊게 할 수는 없을까? - Unlearning

모두의 연구소 PERSONA LAB에서 진행한 세미나의 내용들을 참고하여 정리하였습니다 😄 들어가며 이번에 NeurIPS’23에서 구글이 무려 $50,000 상당의 캐글 컴페티션을 개최했는데요 (대회 링크), 컴페티션의 주제는 “Machine Unlearning” 입니다. Machine Learning은 많이 들어봤어도, Machine unlearning은 생소한 개념인데요, 어떤 주제인지 함께 알아봅시다 😄 Machine Unlearning? Machine unlearning은 말 그대로 기존에 모델이 학습했던 특정

Research

[논문 리뷰] Generative Agents: Interactive Simulacra of Human Behavior

들어가며 이번 시간에는 Generative Agents: Interactive Simulacra of Human Behavior 논문에 대해 함께 알아보도록 하겠습니다. 논문 링크 본 논문은 인간의 행동을 모방할 수 있는 Agent를 제안합니다. 많은 분들이 Sims나 동물의 숲과 같은 게임을 즐겨해보셨을 것인데요. 이러한 게임에서는 가상의 샌드박스 세계에서 자신의 캐릭터를 만들고, 다양한 NPC 들과 상호작용하며 게임을 즐길 수

Research

[논문 리뷰] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

이번 시간엔 BERT의 지식 증류 버전인 DistilBERT를 살펴봅니다. 최근 모델 사이즈가 커짐에 따라 성능도 비약적으로 향상하였지만, 컴퓨팅 자원이 많이 들고, 실제 서비스에 활용하기 어렵다는 단점도 생겼습니다. 해당 논문에서 지식 증류 기법 통해 이 문제를 어떻게 해결하였는지 확인해보세요 :) 논문은 링크에서 확인할 수 있습니다. Abstract * 최근 NLP 분야에서 큰 사이즈의 프리트레인 모델들을

Research

[논문 리뷰] Fine-tune BERT for Extractive Summarization

이번 시간에는 추출 요약을 수행하는 BERTSUM 모델에 대해 알아보겠습니다. 기존 BERT 구조에서 큰 변화없이 단순한 응용으로 추출 요약이 가능한 것이 인상적입니다. 논문은 링크에서 확인할 수 있습니다. Abstract * 연구팀은 BERTSUM이라는 추출 요약을 할 수 있는 BERT 모델을 제시 * 관련 요약 태스크에서 SOTA 성능을 달성 Introduction 문서 요약은 한 문서에서 중요한 정보를

Research

딥러닝 모델 성능 개선 Tip 모음

본 포스트는 경희대학교 컴퓨터공학과 동아리 D.COM에서 진행한 D.Competition 대회에서 배부한 모델 성능 향상 가이드라인입니다. 전체적인 내용은 Andrew Ng 교수의 Deep Learning 수업을 참고하였습니다. 틀리거나 잘못된 내용이 있으면 언제나 의견 부탁드립니다 😊 Introduction 본 문서는 여러분들의 모델의 성능을 끌어올릴 수 있는 Tip을 담은 로드맵을 제시하고자 합니다. 해당 내용을 바탕으로 더욱

Research

[논문 리뷰] Language Models are Unsupervised Multitask Learners

이번 시간에는 GPT-2 논문을 리뷰합니다. GPT-2는 GPT-1의 후속 모델로,이전 모델과 전체적인 구조는 비슷하나, 보다 더 크고 많은 학습 데이터와 파라미터로 성능을 높였습니다. GPT-1과 어떤 차이점이 있는지 위주로 논문을 살펴보도록 하겠습니다. 지금부터 GPT-2 논문 리뷰를 시작하겠습니다! GPT-1 논문 리뷰는 링크에서 확인할 수 있습니다 😄 Abstract * 연구팀은 명시적인 지도 학습 없이도(제로샷

Research

[논문 리뷰] Improving Language Understanding by Generative Pre-Training

이번 시간에는 GPT-1 논문을 리뷰합니다. BERT와 함께 NLP에 한 획은 그은 모델 중 하나로, 이때부터 NLP 프리트레인과 파인튜닝 모델이 힘이 실리기 시작하였습니다. 최근 GPT-1 모델의 후속작으로 GPT-3 모델까지 발표되었는데, 매우 강력한 성능이 특징입니다. 관련 포스트는 링크를 참고해주세요. 그럼 지금부터 GPT-1 모델을 알아보겠습니다. 논문은 링크에서 확인할 수 있습니다. Abstract & Introduction

Research

[논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

이번 시간에는 RoBERTa 논문을 리뷰합니다. RoBERTa는 BERT의 파생 모델로, 기존 모델에 추가적인 학습 방법을 제시하여 성능을 향상시켰습니다. 모델 구조에 큰 변화 없이 학습 방법을 살짝 수정한 것만으로도 모델의 성능을 크게 올릴 수 있다는 점이 인상적인 논문입니다. 그럼 지금부터 RoBERTa 논문 리뷰를 시작합니다 😊 원활한 이해를 위해 실제 논문과 글의 순서나 구성을