Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Jun 4, 2024
1 parent 66206b9 commit 5c90be5
Show file tree
Hide file tree
Showing 8 changed files with 225 additions and 0 deletions.
7 changes: 7 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,11 +12,13 @@
#### [DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation](summaries/2405.20289.md)
#### [MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model](summaries/2405.20222.md)
#### [Jina CLIP: Your CLIP Model Is Also Your Text Retriever](summaries/2405.20204.md)
#### [GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning](summaries/2405.20139.md)
#### [PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting](summaries/2405.19957.md)
#### [Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts](summaries/2405.19893.md)
#### [Parrot: Efficient Serving of LLM-based Applications with Semantic Variable](summaries/2405.19888.md)
#### [DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories](summaries/2405.19856.md)
#### [DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark](summaries/2405.19707.md)
#### [Why Larger Language Models Do In-context Learning Differently?](summaries/2405.19592.md)
#### [Self-Exploring Language Models: Active Preference Elicitation for Online Alignment](summaries/2405.19332.md)
#### [NPGA: Neural Parametric Gaussian Avatars](summaries/2405.19331.md)
#### [MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series](summaries/2405.19327.md)
Expand All @@ -34,15 +36,18 @@
#### [Phased Consistency Model](summaries/2405.18407.md)
#### [Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning](summaries/2405.18386.md)
#### [LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models](summaries/2405.18377.md)
#### [Faithful Logical Reasoning via Symbolic Chain-of-Thought](summaries/2405.18357.md)
#### [4-bit Shampoo for Memory-Efficient Network Training](summaries/2405.18144.md)
#### [2BP: 2-Stage Backpropagation](summaries/2405.18047.md)
#### [VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections](summaries/2405.17991.md)
#### [Yuan 2.0-M32: Mixture of Experts with Attention Router](summaries/2405.17976.md)
#### [Matryoshka Multimodal Models](summaries/2405.17430.md)
#### [Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control](summaries/2405.17414.md)
#### [Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer](summaries/2405.17405.md)
#### [THREAD: Thinking Deeper with Recursive Spawning](summaries/2405.17402.md)
#### [Trans-LoRA: towards data-free Transferable Parameter Efficient Finetuning](summaries/2405.17258.md)
#### [An Introduction to Vision-Language Modeling](summaries/2405.17247.md)
#### [Position: Foundation Agents as the Paradigm Shift for Decision Making](summaries/2405.17009.md)
#### [Part123: Part-aware 3D Reconstruction from a Single-view Image](summaries/2405.16888.md)
#### [Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models](summaries/2405.16759.md)
#### [ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models](summaries/2405.15738.md)
Expand Down Expand Up @@ -221,6 +226,7 @@
#### [Interactive3D: Create What You Want by Interactive 3D Generation](summaries/2404.16510.md)
#### [List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs](summaries/2404.16375.md)
#### [NeRF-XL: Scaling NeRFs with Multiple GPUs](summaries/2404.16221.md)
#### [From Local to Global: A Graph RAG Approach to Query-Focused Summarization](summaries/2404.16130.md)
#### [MaGGIe: Masked Guided Gradual Human Instance Matting](summaries/2404.16035.md)
#### [MoDE: CLIP Data Experts via Clustering](summaries/2404.16030.md)
#### [Editable Image Elements for Controllable Synthesis](summaries/2404.16029.md)
Expand Down Expand Up @@ -462,6 +468,7 @@
#### [Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads](summaries/2401.10774.md)
#### [Tuning Language Models by Proxy](summaries/2401.08565.md)
#### [Heterogeneous LoRA for Federated Fine-tuning of On-Device Foundation Models](summaries/2401.06432.md)
#### [LLaMA Pro: Progressive LLaMA with Block Expansion](summaries/2401.02415.md)
#### [RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models](summaries/2401.00396.md)
## 2312
#### [SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling](summaries/2312.15166.md)
Expand Down
24 changes: 24 additions & 0 deletions summaries/2401.02415.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# LLaMA Pro: Progressive LLaMA with Block Expansion
## TL;DR
## Summary
- [https://arxiv.org/pdf/2401.02415.pdf](https://arxiv.org/pdf/2401.02415.pdf)

#### 1. 서론
대규모 언어 모델(LLMs)은 자연어 처리에서 큰 혁신을 일으켰지만, 프로그래밍, 수학, 생물의학, 금융 등 특정 분야에서는 여전히 한계가 있습니다. 기존 연구들은 도메인별 전이 학습을 통해 LLMs의 다방면 능력을 향상시키려 했으나, 이는 대규모 데이터와 많은 계산 자원을 필요로 합니다. 이에 따른 해결책으로 우리는 블록 확장(block expansion) 기법을 제안합니다. 이 방법은 기존의 사전 학습된 LLM을 복사한 Transformer 블록을 추가해 확장한 후, 도메인 특화된 데이터만을 사용해 조정하는 것입니다.

#### 2. 관련 연구
최근 LLMs의 발전은 모델과 데이터 규모의 성장에 힘입어 다양한 작업에서 최첨단 성능을 이끌어냈습니다. 특히, 특정 도메인에 모델을 맞추기 위한 연구가 활발히 이루어지고 있습니다. 그러나 이러한 연구들은 종종 모델의 일반적인 능력을 저하시킵니다. 우리는 블록 확장을 통해 이러한 문제를 해결하고자 합니다.

#### 3. 방법론
블록 확장은 LLaMA 블록 구조에서 시작합니다. 각 블록 후에 동일한 블록을 추가해 모델의 깊이를 증가시킵니다. 추가된 블록은 초기 출력 선형 행렬을 0으로 초기화해 모델의 원래 출력을 유지합니다. 이를 통해 모델은 새로운 도메인 지식을 통합하면서도 기존의 일반적인 능력을 유지할 수 있습니다.

#### 4. 실험
코드와 수학에 중점을 둔 데이터셋을 구축하여 실험을 진행했습니다. LLAMA PRO는 기존 모델과 비교해 종합 벤치마크에서 우수한 성능을 보였습니다. 특히, 코드와 수학 영역에서의 성능이 두드러졌습니다.

#### 5. 결론
우리는 블록 확장 기법을 통해 LLMs의 도메인 특화 능력을 향상시키면서도 원래의 일반적인 능력을 유지할 수 있음을 보였습니다. LLAMA PRO는 다양한 작업에서 우수한 성능을 발휘하며, LLMs의 향후 발전에 중요한 통찰을 제공합니다.

---

### 전체 요약
이 논문은 대규모 언어 모델(LLMs)의 도메인 특화 능력을 향상시키기 위해 블록 확장 기법을 제안합니다. 이 기법은 기존의 사전 학습된 모델에 Transformer 블록을 추가해 모델의 깊이를 증가시키고, 도메인 특화 데이터를 사용해 추가된 블록만을 조정함으로써 새로운 지식을 통합합니다. 이를 통해 모델은 도메인 특화 작업에서 뛰어난 성능을 보이면서도 원래의 일반적인 능력을 유지할 수 있습니다. 실험 결과, LLAMA PRO는 코드와 수학 영역에서 기존 모델보다 우수한 성능을 보였습니다. 이 연구는 LLMs의 도메인 특화 학습과 관련된 중요한 통찰을 제공하며, 향후 LLMs의 발전에 기여할 수 있을 것으로 기대됩니다.
41 changes: 41 additions & 0 deletions summaries/2404.16130.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,41 @@
# From Local to Global: A Graph RAG Approach to Query-Focused Summarization
## TL;DR
## Summary
- [https://arxiv.org/pdf/2404.16130.pdf](https://arxiv.org/pdf/2404.16130.pdf)

### 섹션 요약

#### 1. 소개
이 논문은 대규모 언어 모델(LLM)을 활용하여 개인 텍스트 코퍼스를 질의 중심 요약(Query-Focused Summarization, QFS) 방식으로 분석하는 새로운 방법론인 Graph RAG를 제안합니다. 전통적인 RAG(Retrieval-Augmented Generation) 방법이 텍스트 일부에서 답을 찾는 데 중점을 둔다면, Graph RAG는 텍스트 전체에서 주요 주제를 요약하는 데 초점을 맞추고 있습니다. 이 접근법은 엔터티 지식 그래프(entity knowledge graph)를 구축하고, 이를 기반으로 커뮤니티 요약을 생성하여 최종 응답을 생성합니다.

#### 2. Graph RAG 접근법 및 파이프라인
- **Source Documents → Text Chunks:** 원본 문서를 텍스트 청크로 분할합니다.
- **Text Chunks → Element Instances:** 각 텍스트 청크에서 엔터티와 관계를 추출합니다.
- **Element Instances → Element Summaries:** 추출된 요소를 요약하여 그래프 요소로 만듭니다.
- **Element Summaries → Graph Communities:** 요약된 요소들을 그래프 커뮤니티로 분류합니다.
- **Graph Communities → Community Summaries:** 커뮤니티 단위로 요약을 생성합니다.
- **Community Summaries → Community Answers → Global Answer:** 질의에 대한 최종 응답을 생성하기 위해 커뮤니티 요약을 사용합니다.

#### 3. 평가
- **Datasets:** 팟캐스트 전사와 뉴스 기사 두 가지 데이터셋을 사용했습니다.
- **Queries:** 데이터셋에 대한 고수준의 이해를 요구하는 질의를 생성하여 평가했습니다.
- **Conditions:** Graph RAG를 포함한 여러 방법을 비교했습니다.
- **Metrics:** 응답의 포괄성, 다양성, 사용자의 이해도 증진, 직접성을 평가했습니다.

#### 4. 관련 연구
이 섹션에서는 기존 RAG 시스템과 지식 그래프를 사용한 접근법들을 검토했습니다. 다양한 RAG 시스템이 존재하며, 그 중에서도 Graph RAG는 자연스러운 모듈화 기능을 활용해 데이터의 전반적인 요약을 가능하게 합니다.

#### 5. 토론
평가 방법의 제한점과 그래프 인덱스 구축의 장단점을 논의했습니다. 또한 향후 연구 방향으로 그래프 기반 인덱스와 요약 기법의 개선 가능성을 제시했습니다.

#### 6. 결론
Graph RAG는 대규모 텍스트 코퍼스에 대해 질의 중심 요약을 수행하는 새로운 접근법으로, 기존 RAG 방법에 비해 포괄성과 다양성에서 뛰어난 성능을 보였습니다. 이는 특정 데이터셋에 대한 반복적인 질의 응답 상황에서 특히 유용할 수 있습니다.

### 논문의 주요 기여 및 혁신 부분
이 논문의 주요 기여는 다음과 같습니다:
- **새로운 접근법 제안:** 질의 중심 요약을 위한 Graph RAG 접근법을 제안하여 기존 RAG 방법의 한계를 극복.
- **효율적인 요약 생성:** 엔터티 지식 그래프와 커뮤니티 요약을 통해 데이터셋의 전체적인 요약을 효율적으로 생성.
- **평가 및 비교:** 다양한 평가 지표를 사용하여 Graph RAG의 우수성을 입증.

### 전체 요약
이 논문은 대규모 텍스트 코퍼스에서 질의 중심 요약을 수행하기 위한 새로운 방법론인 Graph RAG를 제안하고, 이를 평가하여 그 효율성을 입증합니다. Graph RAG는 기존 RAG 방법의 한계를 극복하며, 특히 포괄성과 다양성 측면에서 뛰어난 성능을 보여줍니다. 이는 다양한 데이터셋에 대해 반복적인 질의 응답이 필요한 상황에서 매우 유용할 수 있습니다.
38 changes: 38 additions & 0 deletions summaries/2405.17009.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
# Position: Foundation Agents as the Paradigm Shift for Decision Making
## TL;DR
## Summary
- [https://arxiv.org/pdf/2405.17009.pdf](https://arxiv.org/pdf/2405.17009.pdf)

### 논문의 주요 내용 요약

#### 1. 서론
논문에서는 의사 결정의 중요성과 전통적인 접근 방식의 한계를 설명하고 있습니다. 전통적인 의사 결정 모델은 샘플 효율성 및 일반화 능력에서 한계를 보입니다. 반면, 언어 및 시각 분야의 기초 모델은 다양한 새로운 작업에 신속하게 적응할 수 있는 능력을 보여주었습니다. 이를 바탕으로, 논문에서는 에이전트 학습 패러다임의 혁신적인 변화를 가져올 기초 에이전트의 구축을 제안합니다. 기초 에이전트는 물리적 및 가상 세계에서 일반적인 능력을 가진 에이전트로, 언어 모델과 유사하게 다양한 작업에 적용될 수 있습니다.

#### 2. 기초 에이전트의 특성
기초 에이전트는 다음과 같은 세 가지 기본 특성을 가지고 있습니다:
1. 의사 결정 과정에 관련된 변수의 통합 표현.
2. 다양한 작업과 도메인에 걸쳐 통일된 정책 인터페이스.
3. 물리적 및 가상 세계에서 상호작용적 의사 결정.

이러한 특성은 기초 에이전트를 다중 모달리티 인식, 다중 작업 및 교차 도메인 적응, 몇 샘플 또는 제로샷 일반화 능력을 갖추게 합니다.

#### 3. 대규모 상호작용 데이터로부터 학습
기초 에이전트를 구축하기 위해 대규모 상호작용 데이터를 활용합니다. 이를 통해 에이전트는 다양한 시나리오에서 행동을 학습하고, 스케일업을 통해 더욱 향상된 성능을 발휘할 수 있습니다. 데이터 생성 시스템이나 실제 세계 시뮬레이터를 활용해 대규모 데이터를 생성하고 이를 기반으로 에이전트를 학습시킵니다.

#### 4. 자기 지도 사전 학습 및 적응
기초 에이전트는 자기 지도 학습을 통해 보상 신호 없이도 데이터를 학습할 수 있습니다. 이는 인터넷이나 실제 세계 시뮬레이터에서 대규모로 수집된 데이터를 활용하여 다양한 상황에 적응할 수 있는 능력을 길러줍니다. 사전 학습을 통해 얻은 지식을 다운스트림 작업에 전이하여 샘플 효율성과 일반화 능력을 향상시킵니다.

#### 5. LLMs를 통한 지식 및 가치 정렬
LLMs(대형 언어 모델)는 풍부한 세계 지식과 인간의 가치를 내포하고 있어, 기초 에이전트의 의사 결정 능력을 향상시킬 수 있습니다. LLMs를 메모리, 계획 및 행동 모듈과 결합하여 에이전트가 더 나은 계획을 세우고, 복잡한 문제를 해결할 수 있도록 합니다.

#### 6. 기초 에이전트의 연구 동향
기초 에이전트의 연구는 다음과 같은 주요 문제들을 해결하는 방향으로 진행됩니다:
1. 통합 또는 구성 가능한 기초 에이전트의 구축.
2. 기초 에이전트를 활용한 정책 최적화의 이론적 토대 마련.
3. 오픈엔디드(Open-ended) 작업을 위한 기초 에이전트의 학습.

#### 7. 실제 응용 사례
기초 에이전트는 자율 제어, 헬스케어, 과학 연구 등 다양한 분야에서 활용될 수 있습니다. 자율 제어에서는 로봇 공학, 자율 주행 등의 영역에서 높은 잠재력을 가지고 있으며, 헬스케어에서는 진단 정확도 향상, 개인 맞춤형 치료 계획 수립 등에 기여할 수 있습니다. 과학 연구에서는 데이터 분석과 실험 과정을 가속화하여 더 빠르고 정확한 통찰력을 제공할 수 있습니다.

### 전체 요약
이 논문은 전통적인 의사 결정 모델의 한계를 극복하고자 기초 에이전트의 구축을 제안합니다. 기초 에이전트는 언어 모델과 유사하게 다양한 작업에 신속하게 적응할 수 있는 능력을 가지고 있으며, 이를 위해 대규모 상호작용 데이터를 활용한 자기 지도 학습, LLMs와의 통합 등을 통해 효율성과 일반화 능력을 크게 향상시킵니다. 이 논문에서는 기초 에이전트의 기본 특성, 학습 방법, 연구 동향 등을 상세히 다루고 있으며, 이를 자율 제어, 헬스케어, 과학 연구 등 실제 응용 사례에서 활용할 수 있는 가능성을 제시합니다. 이는 AI의 발전에 중요한 기여를 할 수 있는 내용으로, 다양한 분야에서 혁신적인 변화를 가져올 것으로 기대됩니다.
27 changes: 27 additions & 0 deletions summaries/2405.17402.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
# THREAD: Thinking Deeper with Recursive Spawning
## TL;DR
## Summary
- [https://arxiv.org/pdf/2405.17402.pdf](https://arxiv.org/pdf/2405.17402.pdf)

### 논문의 주요 기여 및 혁신적인 부분

#### 1. 서론
본 논문은 "Thinking Recursively and Dynamically" (THREAD)라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 큰 언어 모델(LLM)이 문맥의 길이와 복잡성이 증가함에 따라 성능이 저하되는 문제를 해결하고자 합니다. THREAD는 모델의 생성 과정을 스레드 실행으로 간주하여 문맥에 따라 새 스레드를 동적으로 생성하거나 기존 스레드를 완료할 수 있습니다. 이러한 동적 스레드 생성을 통해 모델은 필요한 만큼 중간 작업을 적응적으로 수행할 수 있습니다.

#### 2. 기여
THREAD는 기존 모델들이 긴 문맥에서 직면하는 문제를 해결하기 위해 다음과 같은 주요 기여를 합니다:
- 스레드 생성 및 동기화를 통해 부모 스레드가 필요한 정보만 반환받아 작업을 효율적으로 수행할 수 있게 합니다.
- LLM 작업 해결 및 질문 응답 설정에서 동적 스레딩을 적용하여 주어진 작업이나 질문을 점진적으로 더 간단한 하위 문제로 재귀적으로 분해합니다.
- 다양한 벤치마크에서 GPT-4와 GPT-3.5를 사용하여 상태 최첨단 성능을 달성합니다.

#### 3. 혁신적인 부분
THREAD의 혁신적인 부분은 다음과 같습니다:
- 모델 생성 과정을 동적으로 관리할 수 있는 스레드 구조로 설계하여 중간 작업의 양을 조절할 수 있습니다.
- 부모-자식 스레드 간의 정보 교환 및 동기화를 통해 모델이 더욱 효율적으로 작업을 분배하고 수행할 수 있습니다.
- GPT-4와 GPT-3.5뿐만 아니라 Llama-3-8b 및 CodeLlama-7b와 같은 소규모 모델에서도 기존 프레임워크 대비 10%에서 50%의 성능 향상을 보입니다.

#### 4. 결론
THREAD 프레임워크는 모델 생성 과정을 동적으로 관리하여 LLM의 작업 수행 능력과 질문 응답 정확성을 크게 향상시킵니다. 이를 통해 다양한 벤치마크에서 기존 방법보다 뛰어난 성능을 보여줍니다. 본 연구는 향후 LLM의 활용 가능성을 크게 확장할 수 있는 잠재력을 제시합니다.

### 전체 요약
본 논문은 LLM의 성능을 극대화하기 위해 THREAD라는 새로운 프레임워크를 제안합니다. THREAD는 모델의 생성 과정을 동적으로 관리하여 필요한 만큼 중간 작업을 수행할 수 있게 함으로써 긴 문맥에서도 높은 성능을 유지할 수 있습니다. 이를 통해 다양한 작업과 질문 응답 설정에서 뛰어난 성능을 입증하며, 특히 GPT-4, GPT-3.5, Llama-3-8b, CodeLlama-7b와 같은 모델에서 기존 방법 대비 최대 50%의 성능 향상을 보였습니다. THREAD는 부모-자식 스레드 간의 동기화 및 정보 교환을 통해 더욱 효율적인 작업 분배를 가능하게 하며, 이를 통해 LLM의 활용 가능성을 크게 확장할 수 있는 혁신적인 접근법을 제시합니다.
Loading

0 comments on commit 5c90be5

Please sign in to comment.