Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Dec 24, 2024
1 parent c1dd3f0 commit 8f74a62
Show file tree
Hide file tree
Showing 13 changed files with 285 additions and 0 deletions.
12 changes: 12 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,9 +1,19 @@
# Paper List
## 2412
#### [Large Motion Video Autoencoding with Cross-modal Video VAE](summaries/2412.17805.md)
#### [ResearchTown: Simulator of Human Research Community](summaries/2412.17767.md)
#### [Deliberation in Latent Space via Differentiable Cache Augmentation](summaries/2412.17747.md)
#### [PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World](summaries/2412.17589.md)
#### [DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought](summaries/2412.17498.md)
#### [Diving into Self-Evolving Training for Multimodal Reasoning](summaries/2412.17451.md)
#### [Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding](summaries/2412.17295.md)
#### [B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners](summaries/2412.17256.md)
#### [Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching](summaries/2412.17153.md)
#### [Revisiting In-Context Learning with Long Context Language Models](summaries/2412.16926.md)
#### [OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning](summaries/2412.16849.md)
#### [OpenAI o1 System Card](summaries/2412.16720.md)
#### [NILE: Internal Consistency Alignment in Large Language Models](summaries/2412.16686.md)
#### [LearnLM: Improving Gemini for Learning](summaries/2412.16429.md)
#### [Offline Reinforcement Learning for LLM Multi-Step Reasoning](summaries/2412.16145.md)
#### [CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up](summaries/2412.16112.md)
#### [Fietje: An open, efficient LLM for Dutch](summaries/2412.15450.md)
Expand All @@ -16,6 +26,7 @@
#### [AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation](summaries/2412.15191.md)
#### [Rethinking Uncertainty Estimation in Natural Language Generation](summaries/2412.15176.md)
#### [Parallelized Autoregressive Visual Generation](summaries/2412.15119.md)
#### [Outcome-Refining Process Supervision for Code Generation](summaries/2412.15118.md)
#### [Qwen2.5 Technical Report](summaries/2412.15115.md)
#### [AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling](summaries/2412.15084.md)
#### [LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps](summaries/2412.15035.md)
Expand All @@ -26,6 +37,7 @@
#### [TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation](summaries/2412.14642.md)
#### [MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design](summaries/2412.14590.md)
#### [MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval](summaries/2412.14475.md)
#### [Agent-SafetyBench: Evaluating the Safety of LLM Agents](summaries/2412.14470.md)
#### [Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion](summaries/2412.14462.md)
#### [PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation](summaries/2412.14283.md)
#### [Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception](summaries/2412.14233.md)
Expand Down
22 changes: 22 additions & 0 deletions summaries/2412.14470.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
# Agent-SafetyBench: Evaluating the Safety of LLM Agents
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.14470.pdf](https://arxiv.org/pdf/2412.14470.pdf)

### 요약

1. **섹션별 요약**

- **서론**: 대형 언어 모델(LLM)의 보급이 증가함에 따라 안전성 문제가 부각되고 있으며, 기존 연구는 주로 콘텐츠 안전성에 초점을 맞췄으나, 본 논문은 LLM이 다양한 도구를 사용하여 상호작용하는 환경에서의 새로운 안전성 문제를 다루고 있다.

- **AGENT-SAFETYBENCH 소개**: LLM 에이전트의 안전성을 평가하기 위한 종합적인 벤치마크를 제안하였으며, 349개의 상호작용 환경과 2,000개의 테스트 케이스를 포함한다. 8개의 안전 위험 범주와 10개의 일반적인 실패 모드를 평가하며, 16개의 대표적인 LLM 에이전트를 테스트하여 안전 점수가 모두 60% 미만이라는 우려스러운 결과를 발견하였다.

- **안전 평가의 필요성**: LLM의 툴 사용이 증가하면서 안전성 결함의 두 가지 주요 원인으로는 툴 사용의 견고성 부족과 위험 인식 부족이 지적되었다. 단순한 방어 프롬프트로는 이러한 문제를 해결하기에 충분하지 않으며, 더 발전된 안전 전략의 필요성이 강조된다.

2. **주요 기여 및 혁신적 부분**

- AGENT-SAFETYBENCH의 제안은 LLM에이전트의 안전성을 체계적으로 평가할 수 있는 새로운 방법론을 제공하며, 이는 현재 안전성 향상을 위한 중요한 초석이 되어줄 것이다. LLM 에이전트의 두 가지 주된 안전 결함을 드러내어 이를 해결할 수 있는 잠재적 방안을 시사한다.

### 전체 요약

이 논문은 대형 언어 모델(LLM) 에이전트의 안전성을 평가하기 위한 고유한 벤치마크를 제안하고, 16개의 대표 LLM 에이전트를 평가하여 안전 결함을 식별한다. 이는 에이전트의 견고성과 위험 인식에 대한 부족을 해결하고, LLM 에이전트의 안전성을 개선하기 위한 중요하고 새로운 접근을 제시한다.
20 changes: 20 additions & 0 deletions summaries/2412.15118.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# Outcome-Refining Process Supervision for Code Generation
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.15118.pdf](https://arxiv.org/pdf/2412.15118.pdf)

1. 각 섹션의 요약:

- **소개 (Introduction)**: 대규모 언어 모델(LLMs)은 코드 생성에서 뛰어난 능력을 보여주지만, 복잡한 알고리즘적 사고가 필요한 작업에서는 여전히 어려움을 겪습니다. 이를 해결하기 위해, 우리는 결과 자체의 개선 과정을 감독하는 새로운 패러다임인 결과 개선 프로세스 감독(Outcome-Refining Process Supervision, ORPS)을 제안합니다.

- **초록 (Abstract)**: ORPS는 구체적인 실행 신호를 활용하여 모델의 판단을 지지하고, 다수의 솔루션 경로를 동시에 유지하는 트리 구조 탐색을 사용합니다. 이를 통해 다양한 솔루션 전략을 탐구하고 개선할 수 있습니다.

- **방법론 (Methodology)**: ORPS는 결과의 개선을 감독할 과정으로 다룹니다. 트리 구조를 통한 빔 서치는 각 상태가 이론적 이해와 실제 구현을 동시에 포괄하도록 하여 보다 깊은 사고 탐구를 가능하게 합니다. 이로 인해 다양한 전략을 탐구할 수 있습니다.

- **실험 (Experiments)**: ORPS는 다양한 벤치마크에서 Pass@1 정확도가 평균 26.9% 증가하고 런타임이 42.2% 감소하는 등 기존 방법을 능가하는 성능을 보였습니다. 이는 충분한 논리적 공간과 구체적인 피드백 신호가 복잡한 프로그래밍 문제를 해결하는데 중요함을 나타냅니다.

- **결론 (Conclusion)**: 본 연구는 구조화된 추론 공간과 구체적인 실행 피드백이 복잡한 프로그래밍 작업 해결에 필수적임을 보여줍니다. ORPS는 더 작은 모델에서도 효과적임을 증명하며, 비싼 주석 데이터 없이도 신뢰할 수 있는 검증을 제공합니다.

2. 전체 요약:

이 논문은 인공지능과 기계 학습에서 코드 생성을 개선하기 위한 새로운 접근법으로 결과 개선 프로세스 감독(ORPS)을 제안합니다. 전통적인 방법이 단순히 최종 결과에 초점을 맞추는 것과 달리, ORPS는 과정 전반의 사고를 감독의 대상으로 삼아, 다양한 솔루션 경로와 알고리즘적 개선을 탐구합니다. 이를 통해 더 작은 모델이 높은 정확도와 성능을 달성할 수 있게 하며, 기존의 비싼 주석 데이터 없이도 신뢰성 있는 검증을 가능하게 합니다.
24 changes: 24 additions & 0 deletions summaries/2412.16429.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# LearnLM: Improving Gemini for Learning
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.16429.pdf](https://arxiv.org/pdf/2412.16429.pdf)

### 섹션별 요약

#### 서론
이 연구는 AI 튜터 시스템을 위한 교육적 행동을 전문가들이 쉽게 설정할 수 있도록 '교육 명령 이행'이라는 새로운 접근법을 제시합니다. 개발자와 교사는 시스템 상의 지침을 통해 AI의 교수 방식을 정의할 수 있으며, 모델이 이런 교육적 데이터를 효과적으로 학습하도록 했습니다.

#### 방법론
연구에서는 교육적 시스템 지침을 잘 따를 수 있도록 데이터를 수집하여 이 모델들이 명확한 지침을 따를 수 있게 교육합니다. 교사들이 자주 사용하는 복잡한 교육적 시스템 지침을 따르도록 돕기 위해 강화를 통해 인간의 피드백 및 슈퍼바이즈드 파인트 훈련을 활용했습니다.

#### 휴먼 평가 디자인
교육 시나리오를 기반으로 AI 시스템을 평가하며, 다양한 시나리오를 반복적이고 통제된 방식으로 비교합니다. 이를 통해 각 시스템의 능력을 효과적으로 평가할 수 있는 기반을 제공합니다.

#### 결과
LearnLM 모델은 GPT-4o, Claude 3.5, 그리고 Gemini 1.5 Pro와 비교했을 때 교육적 지표에서 탁월한 성과를 보였습니다. 특히, '명령 이행 능력'에서 큰 강점을 발휘합니다.

#### 결론
이 연구는 AI 시스템의 교육적 명령 이행을 개선하는 데에 집중하였고, LearnLM 모델의 우수성을 입증했습니다. 향후 연구도 교육적 명령 이행능력을 향상시켜 교사나 교육 제품 개발자들이 쉽게 접근할 수 있도록 하는 것에 중점을 둘 예정입니다.

### 전체 요약
이 논문은 AI가 교수법을 따르며 학습 활용 사례를 개선하는 방법을 연구합니다. 교육적 명령 이행을 중심으로 한 새로운 접근법을 통해 AI가 더 유연하게 작동하도록 했고, 다양한 평가를 통해 LearnLM 모델이 다른 최신 AI 모델보다 교육적 성능에서 우수하다는 것을 보여주었습니다. 이 연구는 AI의 교육적 사용 가능성을 열며, 다양한 교육 환경에서 AI 활용을 촉진하기 위한 기반을 제공합니다.
18 changes: 18 additions & 0 deletions summaries/2412.16720.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,18 @@
# OpenAI o1 System Card
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.16720.pdf](https://arxiv.org/pdf/2412.16720.pdf)

죄송합니다. 업로드된 파일에서 제공받은 정보를 기반으로 요약을 제공합니다.

1. 각 섹션 요약:
- **소개 및 배경**: 이 논문은 AI와 기계 학습 분야에서 강조된 여러 연구를 소개합니다. 최근 개발된 ML 모델인 o1 시리즈는 고급 추론 기술을 이용해 안전하고 강력한 모델을 개발하는 데 중점을 둡니다.
- **모델 데이터 및 학습**: o1 모델은 강화 학습을 통해 복잡한 추론을 수행할 수 있도록 훈련되었습니다. 이는 다양한 공개 데이터세트와 독점 데이터를 결합하여 성능을 개선한 결과입니다.
- **안전 평가**: o1 모델은 기존의 내용 지침을 잘 준수하며, 신중한 추론을 통해 더욱 안전한 성능을 보여줍니다. 다양한 외부 전문가와 협력하여 모델의 무해성과 정당성을 평가했습니다.
- **다국어 성능**: o1 모델은 14개의 언어로 MMLU 테스트 세트를 평가받아 다국어 처리 능력이 GPT-4o보다 높음을 입증했습니다.
- **결론**: o1의 체인 오브 쏘트 reasoning 능력은 안전 및 기능 벤치마크에서 우수했지만, 특정 위험도 또한 증가했습니다.

2. 논문의 전체 요약:
논문은 최신 AI 기술의 발전과 이를 이용한 o1 모델의 개선된 능력 및 안정성을 중점적으로 설명합니다. 고급 추론 기술을 활용하여 더욱 안전하고 효율적인 모델을 개발하였으며, 다국어 평가에서도 높은 성과를 거두었습니다. 새로운 기회와 더불어 증가된 위험성을 인지하고 이를 관리하기 위한 평가 및 평가 프레임워크를 소개함으로써 AI 발전에 기여하고자 합니다.

이 정보는 발표에 충분한 상세 정보를 제공하여 AI의 발전에 기여할 수 있습니다.
25 changes: 25 additions & 0 deletions summaries/2412.16849.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
# OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.16849.pdf](https://arxiv.org/pdf/2412.16849.pdf)

1. 각 섹션 요약 및 논문의 주요 공헌과 혁신 부분 요약:

- **서론**:
이 논문은 OpenAI의 강력한 추론 모델이 도메인별 작업으로 확장될 수 있음을 보여주는 Reinforcement Fine-Tuning(RFT)의 가능성을 소개합니다. 이 기술은 단순한 패턴 모방을 넘어서는 새로운 정밀 조정 방법을 제공하며, 도메인 특화 모델을 생성하는 데 활용됩니다.

- **방법론**:
RFT는 도메인별 데이터를 활용하여 질문 증대, 추론 과정 데이터 합성, 및 소수의 샘플을 사용하는 상황 학습(ICL) 기법을 통해 모델을 정밀 조정합니다. 이를 통해 도메인 특화 추론 모델의 성능을 향상시킵니다.

- **데이터 증강**:
데이터 증강은 질문의 변형을 통해 데이터의 다양성을 높이며, 이에 따라 모델의 학습을 확장할 수 있게 도와줍니다.

- **SFT 기반 모방**:
강력한 추론 모형을 교사 모델로 사용하여 도메인별 데이터에 적합한 고품질의 추론 과정을 합성하고 이를 통해 정책 모델을 초기화합니다.

- **실험 및 결과**:
극소수의 도메인별 샘플로도 OpenRFT가 유의미한 성능 향상을 달성했으며, 이는 광범위한 도메인에서의 추론 모델의 활용 가능성을 넓혔습니다.

2. 전체 요약:

이 논문은 도메인 특화 작업에 적합한추론 모델을 개발하기 위해 Reinforcement Fine-Tuning (RFT)을 도입하였습니다. OpenRFT라고 명명된 이 접근법은 도메인별 적합성을 강화하기 위해 질문 증강, 추론 과정 데이터 합성, 소수의 샘플 기반의 상황 학습을 활용합니다. 이 방식은 단순히 패턴을 모방하는 기존 방법을 넘어 합리적이며 자주적 학습을 가능하게 함으로써, 보다 인간과 닮은 일반화 능력을 보여줍니다. 실험 결과, OpenRFT는 적은 수의 도메인별 샘플만으로도 높은 성능을 보였으며, 이는 추론 모델의 적용 범위를 더욱 광범위하게 확장할 수 있음을 시사합니다.
19 changes: 19 additions & 0 deletions summaries/2412.17153.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,19 @@
# Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.17153.pdf](https://arxiv.org/pdf/2412.17153.pdf)

1. **각 섹션의 주요 내용 요약**

**서론**
AI와 머신러닝 분야에서 자가회귀 모델(AR)의 높은 성능에도 불구하고, 이들이 가지고 있는 주요 문제는 느린 생성 속도입니다. 본 논문에서는 이러한 문제를 해결하기 위해, 미리 훈련된 AR 모델을 1 또는 2 단계로 결과를 생성하도록 적응시키는 가능성을 탐구합니다. 이는 AR 모델의 빠른 생성 및 배포를 가능하게 합니다.

**마지막 결과 및 논의**
이 논문에서는 Distilled Decoding(DD)라는 새로운 기법을 제안합니다. DD는 미리 훈련된 AR 모델을 소수 단계(1-2 스텝)로 샘플링할 수 있도록 증류하는 방법입니다. VAR와 LlamaGen과 같은 최신 이미지 AR 모델에서 DD의 효과를 입증했으며, 이 모델들이 10단계에서 1단계로, 또는 256단계에서 1단계로 샘플링을 줄일 수 있음을 보여줬습니다. 이는 기존 방식들이 1단계 생성을 못하는 상황에서도 중요한 발전을 나타냅니다.

**주요 기여 및 혁신적인 부분**
DD의 중요한 기여는 기존 방법들의 한계를 확인하고 극복할 방법을 제시한 것입니다. 이는 기존의 AR 모델의 느린 생성 속도를 개선하고, 여러 이미지 AR 모델에 대한 1단계 샘플링의 가능성을 처음으로 증명한 것입니다.

2. **종합 요약**

본 논문은 자가회귀 모델의 느린 생성 문제를 해결하기 위해 Distilled Decoding(DD)라는 획기적인 방법을 제안합니다. 이는 미리 훈련된 모델을 소수의 단계로 압축적으로 샘플링할 수 있게 하며, 결과적으로 AR 모델의 효율적인 활용을 가능하게 합니다. 이 논문은 DD를 통해 다양한 이미지 생성 모델에서 샘플링 속도를 대폭 줄이면서도 품질 향상을 위한 다양한 가능성을 제시하여 AR 모델의 활용도를 높이고, AI와 머신러닝 연구에 중요한 기여를 하고 있습니다.
21 changes: 21 additions & 0 deletions summaries/2412.17295.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
# Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.17295.pdf](https://arxiv.org/pdf/2412.17295.pdf)

1. **논문 각 섹션 요약:**

- **소개 및 데이터셋 설명:**
이 논문은 다중 모달 다자대화(Multi-modal multi-party conversation, MMC)라는 새로운 연구 분야를 제안합니다. 이를 위해 "Friends-MMC"라는 데이터셋을 개발하였으며, 이는 TV 시리즈 Friends에서 대화를 수집한 것입니다. 이 데이터셋은 각 발언이 비디오 컨텍스트와 연결되어 있으며, 발언자 및 얼굴 인식 정보를 포함하고 있습니다.

- **모델 및 방법론:**
논문은 시각, 오디오, 텍스트, 얼굴 트랙을 포함하여 다양한 모달리티를 통합하는 기본 방법론을 제시합니다. 이 메서드는 M1 (인셉션 모델, TalkNet)과 M2 (DeBERTa-v3) 모델과 같은 다양한 모듈로 구성되어 각각 얼굴 예측 및 텍스트 기반 발언자 판단 기능을 제공합니다.

- **실험 결과:**
다양한 모달리티 조합을 통해 실험을 진행하였으며, 합리적인 결과를 얻었습니다. 특히, 본 논문은 다중 모달리티가 발언자 식별 정확도를 크게 향상시킬 수 있음을 보여줍니다. 시간대가 가까운 여러 회차를 세션으로 만들어 텍스트와 시각 정보를 기반으로 발언자를 예측하는 방법을 사용했습니다.

- **결론:**
이 논문은 MMC 분야에서 실질적인 발전을 이루었으며, 다중 모달 다자대화의 연구 방향을 설정하는 데 기여하였습니다. 발언자 식별 및 대화 응답 예측이라는 두 가지 새로운 과제를 제시하고, 모델 성능을 검증하여 발언자 정보를 활용하는 이점을 분석했습니다.

2. **전체 요약:**
이 논문은 다중 모달 다자대화의 연구를 위한 새로운 데이터셋인 "Friends-MMC"를 소개하며, 이 분야의 발전을 위한 이론적 및 실천적 기반을 마련했습니다. TV 시리즈 Friends를 기반으로 한 이 데이터셋은 다자 대화 환경에서, 발언자 식별과 대화 응답 예측을 개선하기 위한 실험들을 통해 그 가능성을 입증했습니다. 다자대화에서 발언자 정보의 중요성을 강조하고, 다중 모달리티 접근법이 제공하는 이점을 실험적으로 분석했습니다.
Loading

0 comments on commit 8f74a62

Please sign in to comment.