From 5c90be58a06f94f58c9cb5dbddc483b4d9dd197b Mon Sep 17 00:00:00 2001 From: emphasis10 Date: Tue, 4 Jun 2024 14:33:27 +0900 Subject: [PATCH] Add papers --- README.md | 7 +++++++ summaries/2401.02415.md | 24 ++++++++++++++++++++++++ summaries/2404.16130.md | 41 +++++++++++++++++++++++++++++++++++++++++ summaries/2405.17009.md | 38 ++++++++++++++++++++++++++++++++++++++ summaries/2405.17402.md | 27 +++++++++++++++++++++++++++ summaries/2405.18357.md | 28 ++++++++++++++++++++++++++++ summaries/2405.19592.md | 32 ++++++++++++++++++++++++++++++++ summaries/2405.20139.md | 28 ++++++++++++++++++++++++++++ 8 files changed, 225 insertions(+) create mode 100644 summaries/2401.02415.md create mode 100644 summaries/2404.16130.md create mode 100644 summaries/2405.17009.md create mode 100644 summaries/2405.17402.md create mode 100644 summaries/2405.18357.md create mode 100644 summaries/2405.19592.md create mode 100644 summaries/2405.20139.md diff --git a/README.md b/README.md index 94f2f2ee..bf76fffe 100644 --- a/README.md +++ b/README.md @@ -12,11 +12,13 @@ #### [DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation](summaries/2405.20289.md) #### [MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model](summaries/2405.20222.md) #### [Jina CLIP: Your CLIP Model Is Also Your Text Retriever](summaries/2405.20204.md) +#### [GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning](summaries/2405.20139.md) #### [PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting](summaries/2405.19957.md) #### [Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts](summaries/2405.19893.md) #### [Parrot: Efficient Serving of LLM-based Applications with Semantic Variable](summaries/2405.19888.md) #### [DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories](summaries/2405.19856.md) #### [DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark](summaries/2405.19707.md) +#### [Why Larger Language Models Do In-context Learning Differently?](summaries/2405.19592.md) #### [Self-Exploring Language Models: Active Preference Elicitation for Online Alignment](summaries/2405.19332.md) #### [NPGA: Neural Parametric Gaussian Avatars](summaries/2405.19331.md) #### [MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series](summaries/2405.19327.md) @@ -34,6 +36,7 @@ #### [Phased Consistency Model](summaries/2405.18407.md) #### [Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning](summaries/2405.18386.md) #### [LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models](summaries/2405.18377.md) +#### [Faithful Logical Reasoning via Symbolic Chain-of-Thought](summaries/2405.18357.md) #### [4-bit Shampoo for Memory-Efficient Network Training](summaries/2405.18144.md) #### [2BP: 2-Stage Backpropagation](summaries/2405.18047.md) #### [VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections](summaries/2405.17991.md) @@ -41,8 +44,10 @@ #### [Matryoshka Multimodal Models](summaries/2405.17430.md) #### [Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control](summaries/2405.17414.md) #### [Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer](summaries/2405.17405.md) +#### [THREAD: Thinking Deeper with Recursive Spawning](summaries/2405.17402.md) #### [Trans-LoRA: towards data-free Transferable Parameter Efficient Finetuning](summaries/2405.17258.md) #### [An Introduction to Vision-Language Modeling](summaries/2405.17247.md) +#### [Position: Foundation Agents as the Paradigm Shift for Decision Making](summaries/2405.17009.md) #### [Part123: Part-aware 3D Reconstruction from a Single-view Image](summaries/2405.16888.md) #### [Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models](summaries/2405.16759.md) #### [ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models](summaries/2405.15738.md) @@ -221,6 +226,7 @@ #### [Interactive3D: Create What You Want by Interactive 3D Generation](summaries/2404.16510.md) #### [List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs](summaries/2404.16375.md) #### [NeRF-XL: Scaling NeRFs with Multiple GPUs](summaries/2404.16221.md) +#### [From Local to Global: A Graph RAG Approach to Query-Focused Summarization](summaries/2404.16130.md) #### [MaGGIe: Masked Guided Gradual Human Instance Matting](summaries/2404.16035.md) #### [MoDE: CLIP Data Experts via Clustering](summaries/2404.16030.md) #### [Editable Image Elements for Controllable Synthesis](summaries/2404.16029.md) @@ -462,6 +468,7 @@ #### [Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads](summaries/2401.10774.md) #### [Tuning Language Models by Proxy](summaries/2401.08565.md) #### [Heterogeneous LoRA for Federated Fine-tuning of On-Device Foundation Models](summaries/2401.06432.md) +#### [LLaMA Pro: Progressive LLaMA with Block Expansion](summaries/2401.02415.md) #### [RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models](summaries/2401.00396.md) ## 2312 #### [SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling](summaries/2312.15166.md) diff --git a/summaries/2401.02415.md b/summaries/2401.02415.md new file mode 100644 index 00000000..e7457502 --- /dev/null +++ b/summaries/2401.02415.md @@ -0,0 +1,24 @@ +# LLaMA Pro: Progressive LLaMA with Block Expansion +## TL;DR +## Summary +- [https://arxiv.org/pdf/2401.02415.pdf](https://arxiv.org/pdf/2401.02415.pdf) + +#### 1. 서론 +대규모 언어 모델(LLMs)은 자연어 처리에서 큰 혁신을 일으켰지만, 프로그래밍, 수학, 생물의학, 금융 등 특정 분야에서는 여전히 한계가 있습니다. 기존 연구들은 도메인별 전이 학습을 통해 LLMs의 다방면 능력을 향상시키려 했으나, 이는 대규모 데이터와 많은 계산 자원을 필요로 합니다. 이에 따른 해결책으로 우리는 블록 확장(block expansion) 기법을 제안합니다. 이 방법은 기존의 사전 학습된 LLM을 복사한 Transformer 블록을 추가해 확장한 후, 도메인 특화된 데이터만을 사용해 조정하는 것입니다. + +#### 2. 관련 연구 +최근 LLMs의 발전은 모델과 데이터 규모의 성장에 힘입어 다양한 작업에서 최첨단 성능을 이끌어냈습니다. 특히, 특정 도메인에 모델을 맞추기 위한 연구가 활발히 이루어지고 있습니다. 그러나 이러한 연구들은 종종 모델의 일반적인 능력을 저하시킵니다. 우리는 블록 확장을 통해 이러한 문제를 해결하고자 합니다. + +#### 3. 방법론 +블록 확장은 LLaMA 블록 구조에서 시작합니다. 각 블록 후에 동일한 블록을 추가해 모델의 깊이를 증가시킵니다. 추가된 블록은 초기 출력 선형 행렬을 0으로 초기화해 모델의 원래 출력을 유지합니다. 이를 통해 모델은 새로운 도메인 지식을 통합하면서도 기존의 일반적인 능력을 유지할 수 있습니다. + +#### 4. 실험 +코드와 수학에 중점을 둔 데이터셋을 구축하여 실험을 진행했습니다. LLAMA PRO는 기존 모델과 비교해 종합 벤치마크에서 우수한 성능을 보였습니다. 특히, 코드와 수학 영역에서의 성능이 두드러졌습니다. + +#### 5. 결론 +우리는 블록 확장 기법을 통해 LLMs의 도메인 특화 능력을 향상시키면서도 원래의 일반적인 능력을 유지할 수 있음을 보였습니다. LLAMA PRO는 다양한 작업에서 우수한 성능을 발휘하며, LLMs의 향후 발전에 중요한 통찰을 제공합니다. + +--- + +### 전체 요약 +이 논문은 대규모 언어 모델(LLMs)의 도메인 특화 능력을 향상시키기 위해 블록 확장 기법을 제안합니다. 이 기법은 기존의 사전 학습된 모델에 Transformer 블록을 추가해 모델의 깊이를 증가시키고, 도메인 특화 데이터를 사용해 추가된 블록만을 조정함으로써 새로운 지식을 통합합니다. 이를 통해 모델은 도메인 특화 작업에서 뛰어난 성능을 보이면서도 원래의 일반적인 능력을 유지할 수 있습니다. 실험 결과, LLAMA PRO는 코드와 수학 영역에서 기존 모델보다 우수한 성능을 보였습니다. 이 연구는 LLMs의 도메인 특화 학습과 관련된 중요한 통찰을 제공하며, 향후 LLMs의 발전에 기여할 수 있을 것으로 기대됩니다. \ No newline at end of file diff --git a/summaries/2404.16130.md b/summaries/2404.16130.md new file mode 100644 index 00000000..0d3c118e --- /dev/null +++ b/summaries/2404.16130.md @@ -0,0 +1,41 @@ +# From Local to Global: A Graph RAG Approach to Query-Focused Summarization +## TL;DR +## Summary +- [https://arxiv.org/pdf/2404.16130.pdf](https://arxiv.org/pdf/2404.16130.pdf) + +### 섹션 요약 + +#### 1. 소개 +이 논문은 대규모 언어 모델(LLM)을 활용하여 개인 텍스트 코퍼스를 질의 중심 요약(Query-Focused Summarization, QFS) 방식으로 분석하는 새로운 방법론인 Graph RAG를 제안합니다. 전통적인 RAG(Retrieval-Augmented Generation) 방법이 텍스트 일부에서 답을 찾는 데 중점을 둔다면, Graph RAG는 텍스트 전체에서 주요 주제를 요약하는 데 초점을 맞추고 있습니다. 이 접근법은 엔터티 지식 그래프(entity knowledge graph)를 구축하고, 이를 기반으로 커뮤니티 요약을 생성하여 최종 응답을 생성합니다. + +#### 2. Graph RAG 접근법 및 파이프라인 +- **Source Documents → Text Chunks:** 원본 문서를 텍스트 청크로 분할합니다. +- **Text Chunks → Element Instances:** 각 텍스트 청크에서 엔터티와 관계를 추출합니다. +- **Element Instances → Element Summaries:** 추출된 요소를 요약하여 그래프 요소로 만듭니다. +- **Element Summaries → Graph Communities:** 요약된 요소들을 그래프 커뮤니티로 분류합니다. +- **Graph Communities → Community Summaries:** 커뮤니티 단위로 요약을 생성합니다. +- **Community Summaries → Community Answers → Global Answer:** 질의에 대한 최종 응답을 생성하기 위해 커뮤니티 요약을 사용합니다. + +#### 3. 평가 +- **Datasets:** 팟캐스트 전사와 뉴스 기사 두 가지 데이터셋을 사용했습니다. +- **Queries:** 데이터셋에 대한 고수준의 이해를 요구하는 질의를 생성하여 평가했습니다. +- **Conditions:** Graph RAG를 포함한 여러 방법을 비교했습니다. +- **Metrics:** 응답의 포괄성, 다양성, 사용자의 이해도 증진, 직접성을 평가했습니다. + +#### 4. 관련 연구 +이 섹션에서는 기존 RAG 시스템과 지식 그래프를 사용한 접근법들을 검토했습니다. 다양한 RAG 시스템이 존재하며, 그 중에서도 Graph RAG는 자연스러운 모듈화 기능을 활용해 데이터의 전반적인 요약을 가능하게 합니다. + +#### 5. 토론 +평가 방법의 제한점과 그래프 인덱스 구축의 장단점을 논의했습니다. 또한 향후 연구 방향으로 그래프 기반 인덱스와 요약 기법의 개선 가능성을 제시했습니다. + +#### 6. 결론 +Graph RAG는 대규모 텍스트 코퍼스에 대해 질의 중심 요약을 수행하는 새로운 접근법으로, 기존 RAG 방법에 비해 포괄성과 다양성에서 뛰어난 성능을 보였습니다. 이는 특정 데이터셋에 대한 반복적인 질의 응답 상황에서 특히 유용할 수 있습니다. + +### 논문의 주요 기여 및 혁신 부분 +이 논문의 주요 기여는 다음과 같습니다: +- **새로운 접근법 제안:** 질의 중심 요약을 위한 Graph RAG 접근법을 제안하여 기존 RAG 방법의 한계를 극복. +- **효율적인 요약 생성:** 엔터티 지식 그래프와 커뮤니티 요약을 통해 데이터셋의 전체적인 요약을 효율적으로 생성. +- **평가 및 비교:** 다양한 평가 지표를 사용하여 Graph RAG의 우수성을 입증. + +### 전체 요약 +이 논문은 대규모 텍스트 코퍼스에서 질의 중심 요약을 수행하기 위한 새로운 방법론인 Graph RAG를 제안하고, 이를 평가하여 그 효율성을 입증합니다. Graph RAG는 기존 RAG 방법의 한계를 극복하며, 특히 포괄성과 다양성 측면에서 뛰어난 성능을 보여줍니다. 이는 다양한 데이터셋에 대해 반복적인 질의 응답이 필요한 상황에서 매우 유용할 수 있습니다. \ No newline at end of file diff --git a/summaries/2405.17009.md b/summaries/2405.17009.md new file mode 100644 index 00000000..4ce923d4 --- /dev/null +++ b/summaries/2405.17009.md @@ -0,0 +1,38 @@ +# Position: Foundation Agents as the Paradigm Shift for Decision Making +## TL;DR +## Summary +- [https://arxiv.org/pdf/2405.17009.pdf](https://arxiv.org/pdf/2405.17009.pdf) + +### 논문의 주요 내용 요약 + +#### 1. 서론 +논문에서는 의사 결정의 중요성과 전통적인 접근 방식의 한계를 설명하고 있습니다. 전통적인 의사 결정 모델은 샘플 효율성 및 일반화 능력에서 한계를 보입니다. 반면, 언어 및 시각 분야의 기초 모델은 다양한 새로운 작업에 신속하게 적응할 수 있는 능력을 보여주었습니다. 이를 바탕으로, 논문에서는 에이전트 학습 패러다임의 혁신적인 변화를 가져올 기초 에이전트의 구축을 제안합니다. 기초 에이전트는 물리적 및 가상 세계에서 일반적인 능력을 가진 에이전트로, 언어 모델과 유사하게 다양한 작업에 적용될 수 있습니다. + +#### 2. 기초 에이전트의 특성 +기초 에이전트는 다음과 같은 세 가지 기본 특성을 가지고 있습니다: +1. 의사 결정 과정에 관련된 변수의 통합 표현. +2. 다양한 작업과 도메인에 걸쳐 통일된 정책 인터페이스. +3. 물리적 및 가상 세계에서 상호작용적 의사 결정. + +이러한 특성은 기초 에이전트를 다중 모달리티 인식, 다중 작업 및 교차 도메인 적응, 몇 샘플 또는 제로샷 일반화 능력을 갖추게 합니다. + +#### 3. 대규모 상호작용 데이터로부터 학습 +기초 에이전트를 구축하기 위해 대규모 상호작용 데이터를 활용합니다. 이를 통해 에이전트는 다양한 시나리오에서 행동을 학습하고, 스케일업을 통해 더욱 향상된 성능을 발휘할 수 있습니다. 데이터 생성 시스템이나 실제 세계 시뮬레이터를 활용해 대규모 데이터를 생성하고 이를 기반으로 에이전트를 학습시킵니다. + +#### 4. 자기 지도 사전 학습 및 적응 +기초 에이전트는 자기 지도 학습을 통해 보상 신호 없이도 데이터를 학습할 수 있습니다. 이는 인터넷이나 실제 세계 시뮬레이터에서 대규모로 수집된 데이터를 활용하여 다양한 상황에 적응할 수 있는 능력을 길러줍니다. 사전 학습을 통해 얻은 지식을 다운스트림 작업에 전이하여 샘플 효율성과 일반화 능력을 향상시킵니다. + +#### 5. LLMs를 통한 지식 및 가치 정렬 +LLMs(대형 언어 모델)는 풍부한 세계 지식과 인간의 가치를 내포하고 있어, 기초 에이전트의 의사 결정 능력을 향상시킬 수 있습니다. LLMs를 메모리, 계획 및 행동 모듈과 결합하여 에이전트가 더 나은 계획을 세우고, 복잡한 문제를 해결할 수 있도록 합니다. + +#### 6. 기초 에이전트의 연구 동향 +기초 에이전트의 연구는 다음과 같은 주요 문제들을 해결하는 방향으로 진행됩니다: +1. 통합 또는 구성 가능한 기초 에이전트의 구축. +2. 기초 에이전트를 활용한 정책 최적화의 이론적 토대 마련. +3. 오픈엔디드(Open-ended) 작업을 위한 기초 에이전트의 학습. + +#### 7. 실제 응용 사례 +기초 에이전트는 자율 제어, 헬스케어, 과학 연구 등 다양한 분야에서 활용될 수 있습니다. 자율 제어에서는 로봇 공학, 자율 주행 등의 영역에서 높은 잠재력을 가지고 있으며, 헬스케어에서는 진단 정확도 향상, 개인 맞춤형 치료 계획 수립 등에 기여할 수 있습니다. 과학 연구에서는 데이터 분석과 실험 과정을 가속화하여 더 빠르고 정확한 통찰력을 제공할 수 있습니다. + +### 전체 요약 +이 논문은 전통적인 의사 결정 모델의 한계를 극복하고자 기초 에이전트의 구축을 제안합니다. 기초 에이전트는 언어 모델과 유사하게 다양한 작업에 신속하게 적응할 수 있는 능력을 가지고 있으며, 이를 위해 대규모 상호작용 데이터를 활용한 자기 지도 학습, LLMs와의 통합 등을 통해 효율성과 일반화 능력을 크게 향상시킵니다. 이 논문에서는 기초 에이전트의 기본 특성, 학습 방법, 연구 동향 등을 상세히 다루고 있으며, 이를 자율 제어, 헬스케어, 과학 연구 등 실제 응용 사례에서 활용할 수 있는 가능성을 제시합니다. 이는 AI의 발전에 중요한 기여를 할 수 있는 내용으로, 다양한 분야에서 혁신적인 변화를 가져올 것으로 기대됩니다. \ No newline at end of file diff --git a/summaries/2405.17402.md b/summaries/2405.17402.md new file mode 100644 index 00000000..f5a19afa --- /dev/null +++ b/summaries/2405.17402.md @@ -0,0 +1,27 @@ +# THREAD: Thinking Deeper with Recursive Spawning +## TL;DR +## Summary +- [https://arxiv.org/pdf/2405.17402.pdf](https://arxiv.org/pdf/2405.17402.pdf) + +### 논문의 주요 기여 및 혁신적인 부분 + +#### 1. 서론 +본 논문은 "Thinking Recursively and Dynamically" (THREAD)라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 큰 언어 모델(LLM)이 문맥의 길이와 복잡성이 증가함에 따라 성능이 저하되는 문제를 해결하고자 합니다. THREAD는 모델의 생성 과정을 스레드 실행으로 간주하여 문맥에 따라 새 스레드를 동적으로 생성하거나 기존 스레드를 완료할 수 있습니다. 이러한 동적 스레드 생성을 통해 모델은 필요한 만큼 중간 작업을 적응적으로 수행할 수 있습니다. + +#### 2. 기여 +THREAD는 기존 모델들이 긴 문맥에서 직면하는 문제를 해결하기 위해 다음과 같은 주요 기여를 합니다: +- 스레드 생성 및 동기화를 통해 부모 스레드가 필요한 정보만 반환받아 작업을 효율적으로 수행할 수 있게 합니다. +- LLM 작업 해결 및 질문 응답 설정에서 동적 스레딩을 적용하여 주어진 작업이나 질문을 점진적으로 더 간단한 하위 문제로 재귀적으로 분해합니다. +- 다양한 벤치마크에서 GPT-4와 GPT-3.5를 사용하여 상태 최첨단 성능을 달성합니다. + +#### 3. 혁신적인 부분 +THREAD의 혁신적인 부분은 다음과 같습니다: +- 모델 생성 과정을 동적으로 관리할 수 있는 스레드 구조로 설계하여 중간 작업의 양을 조절할 수 있습니다. +- 부모-자식 스레드 간의 정보 교환 및 동기화를 통해 모델이 더욱 효율적으로 작업을 분배하고 수행할 수 있습니다. +- GPT-4와 GPT-3.5뿐만 아니라 Llama-3-8b 및 CodeLlama-7b와 같은 소규모 모델에서도 기존 프레임워크 대비 10%에서 50%의 성능 향상을 보입니다. + +#### 4. 결론 +THREAD 프레임워크는 모델 생성 과정을 동적으로 관리하여 LLM의 작업 수행 능력과 질문 응답 정확성을 크게 향상시킵니다. 이를 통해 다양한 벤치마크에서 기존 방법보다 뛰어난 성능을 보여줍니다. 본 연구는 향후 LLM의 활용 가능성을 크게 확장할 수 있는 잠재력을 제시합니다. + +### 전체 요약 +본 논문은 LLM의 성능을 극대화하기 위해 THREAD라는 새로운 프레임워크를 제안합니다. THREAD는 모델의 생성 과정을 동적으로 관리하여 필요한 만큼 중간 작업을 수행할 수 있게 함으로써 긴 문맥에서도 높은 성능을 유지할 수 있습니다. 이를 통해 다양한 작업과 질문 응답 설정에서 뛰어난 성능을 입증하며, 특히 GPT-4, GPT-3.5, Llama-3-8b, CodeLlama-7b와 같은 모델에서 기존 방법 대비 최대 50%의 성능 향상을 보였습니다. THREAD는 부모-자식 스레드 간의 동기화 및 정보 교환을 통해 더욱 효율적인 작업 분배를 가능하게 하며, 이를 통해 LLM의 활용 가능성을 크게 확장할 수 있는 혁신적인 접근법을 제시합니다. \ No newline at end of file diff --git a/summaries/2405.18357.md b/summaries/2405.18357.md new file mode 100644 index 00000000..5c0a605e --- /dev/null +++ b/summaries/2405.18357.md @@ -0,0 +1,28 @@ +# Faithful Logical Reasoning via Symbolic Chain-of-Thought +## TL;DR +## Summary +- [https://arxiv.org/pdf/2405.18357.pdf](https://arxiv.org/pdf/2405.18357.pdf) + +### 논문 요약 + +#### 1. 소개 +인공지능의 논리적 추론 능력을 인간 수준으로 향상시키는 것은 인공지능 시스템의 문제 해결, 의사 결정, 비판적 사고 능력을 가능하게 하는 데 중요합니다. 최근 대형 언어 모델(LLM)은 의미 이해에서 뛰어난 능력을 보이며 AGI(Artificial General Intelligence) 실현에 대한 희망을 주고 있습니다. 하지만 논리적 추론 능력을 더욱 강화하는 것은 중요한 과제입니다. + +#### 2. 관련 연구 +기존 연구들은 LLM을 사용하여 논리적 추론을 시도했으나, 대부분은 외부의 전통적 논리 추론 시스템에 의존하였습니다. 이런 접근 방식은 LLM의 내재적인 논리 추론 능력을 강화하지 못하고, 유연성 및 정보 손실 문제를 초래합니다. 이를 해결하기 위해, CoT(Chain-of-Thought) 기법이 도입되어 LLM이 중간 단계를 고려하며 문제를 해결하도록 하여 신뢰성을 높였습니다. 그러나 이 역시 자연어 표현의 추상성으로 인해 논리적 추론에서 한계를 가집니다. + +#### 3. SymbCoT의 제안 +SymbCoT는 논리적 추론을 위해 완전히 LLM 기반의 프레임워크를 제안합니다. 이는 다음의 네 가지 주요 모듈로 구성됩니다: +1. **번역기(Translator)**: 자연어로 된 전제를 기호 형식으로 변환합니다. +2. **계획자(Planner)**: 문제를 작은 하위 문제로 분해하고, 전제와 질문을 연결하는 세부 계획을 수립합니다. +3. **해결사(Solver)**: 계획에 따라 논리적 규칙을 적용하여 문제를 해결합니다. +4. **검증기(Verifier)**: 번역 및 추론 과정의 정확성을 검증합니다. + +#### 4. 실험 +SymbCoT는 FOL(First-Order Logic) 및 제약 최적화(Constraint Optimization) 기법을 사용하여 5개의 논리적 추론 데이터셋에서 테스트되었습니다. 결과는 SymbCoT가 기존의 CoT 및 최첨단 방법을 능가하며, 특히 복잡한 논리 추론 작업에서 현저한 개선을 보였습니다. 이는 SymbCoT의 신뢰성 있는 추론 과정 및 정보 손실 문제 해결 능력 덕분입니다. + +#### 5. 결론 +이 연구는 SymbCoT 프레임워크를 통해 논리적 추론 능력을 향상시키는 방법을 제안합니다. 실험 결과, SymbCoT는 CoT보다 더 나은 성능을 보였으며, 향후 연구에서는 외부 솔버와의 통합을 통해 성능을 더욱 향상시킬 계획입니다. + +### 전체 요약 +이 논문은 논리적 추론을 강화하기 위해 SymbCoT라는 새로운 기법을 제안합니다. SymbCoT는 LLM을 활용하여 자연어 전제를 기호 형식으로 변환하고, 논리적 규칙을 적용해 문제를 해결하는 과정에서 계획 및 검증 단계를 추가합니다. 실험 결과, SymbCoT는 기존 방법보다 우수한 성능을 보이며, 특히 복잡한 논리 추론 작업에서 큰 개선을 보였습니다. 이 연구는 논리적 추론 능력을 강화하는 데 중요한 기여를 하며, 향후 외부 솔버와의 통합을 통해 더 나은 성능을 기대할 수 있습니다. \ No newline at end of file diff --git a/summaries/2405.19592.md b/summaries/2405.19592.md new file mode 100644 index 00000000..030b440a --- /dev/null +++ b/summaries/2405.19592.md @@ -0,0 +1,32 @@ +# Why Larger Language Models Do In-context Learning Differently? +## TL;DR +## Summary +- [https://arxiv.org/pdf/2405.19592.pdf](https://arxiv.org/pdf/2405.19592.pdf) + +### 섹션 요약 + +#### 1. 소개 +대형 언어 모델(LLM)은 인공지능 개발에 큰 변화를 가져오고 있으며, 이러한 모델들의 성공을 이끄는 중요한 능력 중 하나는 맥락 내 학습(ICL)입니다. ICL은 몇 개의 예시 입력-레이블 쌍을 프롬프트로 제공받아 새로운 입력을 평가하는 몇 샷(few-shot) 평가 방법으로, 모델의 파라미터를 업데이트하지 않고도 새로운 작업을 잘 수행할 수 있게 합니다. 이 연구에서는 LLM이 ICL을 수행하는 메커니즘을 이론적으로 분석하여, 더 나은 이해를 목표로 합니다. + +#### 2. 관련 연구 +대형 언어 모델과 관련된 다양한 연구들이 있으며, 이들은 주로 변환기(transformer) 기반 신경망 구조를 활용합니다. 변환기는 자연어 처리 작업에서 강력한 성능을 보이며, 수많은 파라미터로 사전 훈련된 모델들입니다. 이 연구는 기존 연구와의 차별화를 위해, 선형 모델과 비선형 모델 모두를 고려하여 ICL의 메커니즘을 분석합니다. + +#### 3. 연구의 주요 기여 +- ICL과 LLM의 스케일링 효과를 연구하기 위한 새로운 이론적 설정을 공식화했습니다. +- 두 가지 설정에서 최적의 솔루션을 특성화하였고, 이를 통해 모델의 크기에 따른 주의 메커니즘 차이를 설명했습니다. +- 이론적 분석을 뒷받침하는 실험적 증거를 제공했습니다. + +#### 4. 선형 회귀 +단층 단일 헤드 선형 변환기 모델을 사용하여 ICL을 분석했습니다. 이 모델에서는 작은 모델이 중요한 숨겨진 특징에 주목하는 반면, 큰 모델은 더 많은 숨겨진 특징을 다루기 때문에 노이즈에 더 민감해지는 것을 발견했습니다. + +#### 5. 패리티 분류 +다층 다중 헤드 주의 메커니즘을 사용하는 비선형 데이터와 모델을 사용하여 ICL을 분석했습니다. 이 설정에서도 작은 모델이 노이즈에 더 강인한 반면, 큰 모델은 더 많은 숨겨진 특징을 포함하여 주의가 분산되는 경향이 있음을 확인했습니다. + +#### 6. 실험 결과 +다양한 크기의 Llama 모델 가족을 이용하여 NLP 작업에서 ICL 실험을 수행했습니다. 실험 결과는 이론적 분석을 뒷받침하며, 작은 모델이 더 강인하고 큰 모델이 더 쉽게 분산되는 것을 보여주었습니다. + +#### 7. 결론 +이 연구는 LLM의 크기에 따른 ICL 메커니즘 차이를 이론적 및 실험적으로 분석했습니다. 작은 모델은 중요한 특징에 주목하고 노이즈에 강인한 반면, 큰 모델은 더 많은 특징을 다루어 노이즈에 민감해진다는 결론을 도출했습니다. 이러한 결과는 LLM과 ICL의 이해를 높이고, 이 모델들의 훈련 및 응용을 개선하는 데 기여할 수 있습니다. + +### 전체 요약 +이 논문은 대형 언어 모델(LLM)이 맥락 내 학습(ICL)을 수행하는 방식이 모델의 크기에 따라 어떻게 달라지는지 이론적으로 분석하고, 이를 실험적으로 증명한 연구입니다. 주요 기여는 두 가지 이론적 설정에서 최적의 솔루션을 특성화하고, 이를 통해 작은 모델은 중요한 특징에 주목하여 노이즈에 강인하고, 큰 모델은 더 많은 특징을 포함하여 노이즈에 민감해진다는 점을 밝혀낸 것입니다. 이러한 분석과 실험 결과는 LLM과 ICL의 이해를 높이고, 모델의 훈련과 응용을 개선하는 데 중요한 통찰을 제공합니다. \ No newline at end of file diff --git a/summaries/2405.20139.md b/summaries/2405.20139.md new file mode 100644 index 00000000..10d166b2 --- /dev/null +++ b/summaries/2405.20139.md @@ -0,0 +1,28 @@ +# GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning +## TL;DR +## Summary +- [https://arxiv.org/pdf/2405.20139.pdf](https://arxiv.org/pdf/2405.20139.pdf) + +#### 1. 서론 +대형 언어 모델(LLM)은 자연어 이해에서 우수한 성능을 보이며, 많은 NLP 작업에서 최신 기술을 제공하지만, 새로운 지식이나 도메인 지식에 쉽게 적응하지 못하고 헛소리를 생성하는 경향이 있습니다. 반면, 지식 그래프(KG)는 구조화된 형식으로 정보를 저장하고 업데이트가 용이하여 복잡한 상호작용을 캡처할 수 있습니다. LLM과 KG를 결합한 RAG(검색 증강 생성) 프레임워크는 LLM의 헛소리를 줄이고 질문에 대한 답변을 KG 정보에 근거하여 제공할 수 있습니다. + +#### 2. 관련 연구 +기존의 LLM 기반 검색 방법은 복잡한 그래프 정보를 처리하는 데 한계가 있으며, 여러 홉의 정보를 필요로 하는 질문에 대한 성능이 떨어집니다. GNN-RAG는 GNN의 강력한 그래프 표현 학습 능력을 활용하여 이러한 한계를 극복합니다. + +#### 3. 문제 정의 및 배경 +KGQA(지식 그래프 질문 답변)는 주어진 KG와 자연어 질문에 대해 올바른 답변을 추출하는 작업입니다. 이를 위해 질문에 특정한 하위 그래프를 검색하고, GNN과 LLM을 사용하여 올바른 답변을 도출합니다. GNN은 노드 분류 문제로 KGQA를 처리하며, LLM은 자연어로 변환된 KG 정보를 사용하여 질문에 답변합니다. + +#### 4. GNN-RAG +GNN-RAG는 GNN과 LLM의 강점을 결합하여 KGQA 성능을 향상시킵니다. 먼저, GNN은 밀집된 KG 하위 그래프에서 질문에 대한 답변 후보를 검색합니다. 그런 다음, KG에서 질문 엔티티와 답변 후보를 연결하는 최단 경로를 추출하여 LLM의 추론 입력으로 사용합니다. 또한, 검색 증강 기법을 개발하여 GNN-RAG의 KGQA 성능을 더욱 향상시킵니다. + +#### 5. 실험 설정 +WebQuestionsSP와 Complex WebQuestions 1.1의 두 가지 널리 사용되는 KGQA 벤치마크를 사용하여 실험을 수행했습니다. 실험 결과는 GNN-RAG가 기존 방법을 능가하며 복잡한 질문에 대해 탁월한 성능을 보였음을 보여줍니다. 특히, GNN-RAG+RA는 RoG보다 최대 15.5% 높은 성능을 나타냅니다. + +#### 6. 결과 +GNN-RAG는 두 가지 KGQA 벤치마크에서 최첨단 성능을 달성하며, GNN과 LLM의 결합이 KGQA 성능을 크게 향상시킵니다. 특히, 복잡한 질문과 다중 엔티티 질문에서 우수한 성능을 보입니다. + +#### 7. 결론 +GNN-RAG는 LLM과 GNN의 결합을 통해 KGQA에서 최신 성능을 달성하는 새로운 방법을 소개합니다. 이 방법은 효율성과 신뢰성을 동시에 제공하며, 복잡한 질문에 대한 LLM의 추론 능력을 강화합니다. + +### 전체 요약 +이 논문은 GNN과 LLM을 결합한 GNN-RAG라는 새로운 방법을 소개합니다. GNN-RAG는 밀집된 KG 하위 그래프에서 GNN이 답변 후보를 검색하고, 이를 LLM이 자연어로 추론하여 최종 답변을 도출합니다. 이 방법은 기존의 LLM 기반 검색 방법보다 복잡한 질문에서 우수한 성능을 보이며, 두 가지 KGQA 벤치마크에서 최신 성능을 달성했습니다. GNN-RAG는 효율적이고 신뢰성 있는 KGQA를 가능하게 하며, 복잡한 질문에 대한 LLM의 추론 능력을 크게 향상시킵니다. \ No newline at end of file