Research - FacerAin's blog

Research

[논문 리뷰] ColPali: EFFICIENT DOCUMENT RETRIEVAL WITH VISION LANGUAGE MODELS

ColPali: Efficient Document Retrieval with Vision Language ModelsDocuments are visually rich structures that convey information through text, but also figures, page layouts, tables, or even fonts. Since modern retrieval systems mainly rely on the textual information they extract from document pages to index documents -often through lengthy and brittle processes-,

Research

[논문 리뷰] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

들어가며 이번 시간에는 LLM이 검색 엔진과 상호작용하며 추론(Reasoning)을 수행할 수 있는 강화 학습 프레임워크 Search-R1을 소개합니다. 최근 OpenAI의 Deep Research나 여러 최신 연구에서 알 수 있듯, LLM의 추론 능력뿐 아니라 실시간 검색과 결합된 Reasoning이 큰 주목을 받고 있습니다. 하지만 기존의 RAG(Retrieval-Augmented Generation)이나 Tool-Use 방식은 * 복잡한 다단계

Research

[번역] The Bitter Lesson

The Bitter Lesson The Bitter Lesson Rich Sutton March 13, 2019 AI 연구 70년에서 배울 수 있는 가장 큰 교훈은 연산력을 활용하는 일반적인 방법론이 결국 가장 효과적이며, 그것도 큰 차이로 효과적이라는 점입니다. 이러한 결과의 근본적인 이유는 무어의 법칙, 더 정확히는 연산 단위당 비용이 지속적으로 기하급수적으로 감소한다는 일반화된 법칙 때문입니다. 대부분의

Research

[논문 리뷰] Evaluating Very Long-Term Conversational Memory of LLM Agents

들어가며 이번 시간에는 Evaluating Very Long-Term Conversational Memory of LLM Agents 논문에 대해 살펴봅니다. 최근에 ChatGPT를 필두로 사람과 LLM 간의 대화가 활발해지면서, LLM Agent가 사용자와 그동안 했던 대화를 기억(Memory)하고 답변에 적재적소로 활용할 수 있는 능력 또한 중요해지고 있습니다. 하지만 기존의 데이터셋은 대화 세션의 길이가 충분히 길지 않아, 긴

Research

[논문 리뷰] Beyond Retrieval: Embracing Compressive Memory in Real-World Long-Term Conversations

이번 시간에는 Beyond Retrieval: Embracing Compressive Memory in Real-World Long-Term Conversations 논문을 소개합니다. 최근에 AI가 사용자와 그동안 나누었던 대화를 바탕으로 사용자의 과거와 취향 등을 기억하고, 이를 활용하여 답변할 수 있는 개인화 AI가 주목을 받고 있습니다. 이를 위해서는 대화 기록을 적재 적소로 정리하고 사용할 수 있는 memory 기술이 필요한데요, 본 논문에서는

Life

[생각 노트] 구글 검색은 죽어가고 있다 - 검색의 미래

Google Search Is Dying(There is good discussion on this article on Hacker News and Reddit)DKB BlogDmitri Brereton 2022년 2월, HackerNews와 Reddit을 뜨겁게 달군 글이 있다. "Google Search is Dying."이라는 다소 자극적인 제목의 글로 왜 최근에 구글 검색 결과가 망가지고 있는지 다루고 있다. 한국에서도 유튜버 코딩

Research

[논문 리뷰] Learning Retrieval Augmentation for Personalized Dialogue Generation

이번 시간에는 Personalized dialogue generation을 RAG와 결합하여 시도한 "Learning Retrieval Augmentation for Personalized Dialogue Generation" 논문을 살펴봅니다. 특히 최근에 개인화된 AI가 주목 받고 있는데요, AI가 사용자의 페르소나, 정보, 성격 등을 반영한다면 더욱 풍성하고 도움이 되는 답변을 생성할 수 있습니다. 이를 Personalized dialogue generation이라고 하는데요. 연구팀은 어떻게 해당 문제를

Research

[논문 리뷰] ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction

이번 시간에는 “ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction” 논문을 살펴봅니다. 기존 ColBERT에서는 query와 document 간의 token-level interaction과 document token 임베딩은 미리 저장해두고, inference 시에 불러와서 사용하는 late interaction을 통해 성능과 속도를 모두 챙길 수 있었는데요. 하지만 late interaction을 위해 모델의 space footprint (공간 사용량)이 10배 이상

Research

[논문 리뷰] CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval

이번 시간에는 “CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval” 논문을 살펴봅니다. 최근 sparse (e.g., BM25) 와 dense (e.g., DPR) retriever의 장점을 결합한 Multi-vector retriever method가 다양한 검색 태스크에서 좋은 성능을 보여주고 있습니다. 하지만 이러한 방법은 Single-vector retriever 방법에 비해 훨씬 느리고

Research

[논문 리뷰] COIL: Revisit Exact Lexical Match in Information Retrieval with Contextualized Inverted List

이번 시간에는 COIL: Revisit Exact Lexical Match in Information Retrieval with Contextualized Inverted List 논문에 대해서 살펴봅니다. COIL은 기존 BM25와 같은 Exact lexical match 방식과 ColBERT와 같은 Dense Retriever의 장점을 합친 모델입니다. 이를 통해 적은 컴퓨팅 비용으로도 당시의 SOTA deep LM Retriever과 유사한 성능을 내는 점이 특징입니다. 논문은 링크에서 확인할

Research

[논문 리뷰] Certifiably Robust RAG against Retrieval Corruption

이번 시간에는 Retrieval corruption attack을 방어하는 RobustRAG를 제안한 Certifiably Robust RAG against Retrieval Corruption 논문에 대해 알아봅니다. 최근 공격자가 RAG system에 adversarial passage를 주입하여 의도하지 않은 retrievel 결과를 유도하는 기법들이 많이 연구되고 있습니다. 관련 논문 리뷰 링크 해당 논문은 이러한 공격 방법을 방어하는 프레임워크를 제안한 논문으로, 어떻게 공격을 막았는지 한번

Research

[논문 리뷰] Poisoning Retrieval Corpora by Injecting Adversarial Passages

이번 시간에는 Dense Retrieval 시스템의 취약점을 이용한 corpus poisoning attack을 제안한 “Poisoning Retrieval Corpora by Injecting Adversarial Passages” 논문을 살펴봅니다. 본 연구에서는 corpus poisoning attack을 통해 적대적인 passage를 corpus에 삽입하여 retrieval이 의도하지 않은 공격자의 passage를 출력하도록 하는 방법을 제안합니다. 최근 RAG가 주목 받으며 다양한 시스템에 Retrieval 시스템이 적용되고 있는데, 이러한