Add papers

emphasis10 · Sep 19, 2024 · 47fa982 · 47fa982
1 parent 835ae9d
commit 47fa982
Show file tree

Hide file tree

Showing 10 changed files with 295 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,5 +1,12 @@
 # Paper List
 ## 2409
+#### [Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution](summaries/2409.12191.md)
+#### [Qwen2.5-Coder Technical Report](summaries/2409.12186.md)
+#### [To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning](summaries/2409.12183.md)
+#### [Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models](summaries/2409.12139.md)
+#### [GRIN: GRadient-INformed MoE](summaries/2409.12136.md)
+#### [LLMs + Persona-Plug = Personalized LLMs](summaries/2409.11901.md)
+#### [Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey](summaries/2409.11564.md)
 #### [Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion](summaries/2409.11406.md)
 #### [NVLM: Open Frontier-Class Multimodal LLMs](summaries/2409.11402.md)
 #### [OSV: One Step is Enough for High-Quality Image to Video Generation](summaries/2409.11367.md)
@@ -64,8 +71,10 @@
 #### [Insights from Benchmarking Frontier Language Models on Web App Code Generation](summaries/2409.05177.md)
 #### [Can OOD Object Detectors Learn from Foundation Models?](summaries/2409.05162.md)
 #### [OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs](summaries/2409.05152.md)
+#### [Achieving Peak Performance for Large Language Models: A Systematic Review](summaries/2409.04833.md)
 #### [POINTS: Improving Your Vision-language Model with Affordable Strategies](summaries/2409.04828.md)
 #### [Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance](summaries/2409.04593.md)
+#### [Theory, Analysis, and Best Practices for Sigmoid Self-Attention](summaries/2409.04431.md)
 #### [Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation](summaries/2409.04410.md)
 #### [Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak](summaries/2409.04269.md)
 #### [UniDet3D: Multi-dataset Indoor 3D Object Detection](summaries/2409.04234.md)

diff --git a/summaries/2409.04431.md b/summaries/2409.04431.md
@@ -0,0 +1,38 @@
+# Theory, Analysis, and Best Practices for Sigmoid Self-Attention
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.04431.pdf](https://arxiv.org/pdf/2409.04431.pdf)
+
+### 1. 섹션별 요약 및 분석
+
+#### Introduction
+
+이 논문은 Attention 메커니즘, 특히 Softmax 대신 Sigmoid 함수로 구현된 Sigmoid Attention을 소개합니다. SoftmaxAttention은 고전적인 Attention 메커니즘으로 널리 사용되어 왔으나, 몇 가지 한계를 지니고 있습니다. 이를 극복하기 위해 Sigmoid 함수로 대체하고, 이를 통한 성능 개선과 이론적 우월성을 입증하고자 합니다. 이 논문의 주요 공헌은 SigmoidAttention이 sequence-to-sequence 작업에서 보편 함수 근사기(universal function approximator)임을 증명하고, 이를 통해 다양한 작업과 도메인에서 Softmax와 성능이 유사하다는 것을 입증합니다.
+
+#### Sigmoid Attention
+
+Sigmoid Attention은 입력 시퀀스의 각 벡터에 대해 세 가지 가중치 행렬을 학습하여 쿼리, 키, 값을 계산합니다. 그런 다음 이 쿼리와 키를 사용하여 내적을 계산하고, 이를 Sigmoid 함수로 변환하여 Attention 가중치를 구합니다. 이러한 방식을 통해, 각 행의 요소를 개별적으로 처리하게 됩니다. 이를 통해 Softmax 대신 Sigmoid를 활용한 Attention을 구현할 수 있습니다.
+
+#### Theoretical Properties of Sigmoid Attention
+
+이 섹션은 Sigmoid Attention이 보편 함수 근사기임을 입증합니다. 연속적이고 순열 불변인 함수를 임의의 작은 오차로 근사할 수 있음을 증명합니다. Sigmoid Attention 레이어를 사용하여 함수 근사를 통해 모든 시퀀스-투-시퀀스(sequenc-to-sequence) 함수를 근사할 수 있음을 보입니다.
+
+#### FlashSigmoid: Hardware-Aware Implementation
+
+이 부분에서는 FlashAttention과 유사하게 GPU 메모리 계층을 최적화하여 성능을 향상시키는 FlashSigmoid를 소개합니다. 이를 통해 커널 추론 시간과 실제 추론 시간 모두에서 최대 17%의 속도 향상을 달성하였습니다. 이 구현은 메모리를 효율적으로 사용하여 Attention 계산을 가속화합니다.
+
+#### Supervised Image Classification and Self-Supervised Image Representation Learning
+
+이 섹션에서는 감독 하의 이미지 분류와 자가 지도 학습을 포함한 여러 비전 과제에서 Sigmoid Attention의 성능을 입증합니다. 기존의 SoftmaxAttention과 비교하여 유사한 성능을 보이며, 특히 큰 시퀀스 길이에서 로스 곡선이 부드럽게 유지되는 것을 확인하였습니다.
+
+#### Automatic Speech Recognition and Autoregressive Large Language Modeling
+
+자동 음성 인식(ASR)과 자기 회귀적 대형 언어 모델링 작업에서도 Sigmoid Attention의 성능을 평가합니다. SigmoidAttention은 SoftmaxAttention과 유사한 성능을 보이며 특히 추론 속도에서 우수한 성능을 나타냅니다. 일부 초기 런에서는 학습 안정성을 보장하기 위한 Attention 편향이 필요함을 발견하였습니다.
+
+#### Conclusion
+
+이 논문은 Sigmoid Attention의 이론적 및 실증적 분석을 통해, 이를 Softmax Attention의 대안으로써 제시합니다. SigmoidAttention은 보편 함수 근사기로서의 성질을 가지며, 여러 작업과 도메인에서 Softmax Attention과 유사한 성능을 보입니다. 또한 FlashSigmoid를 통해 하드웨어의 메모리 사용을 최적화하여 성능을 향상시킬 수 있습니다.
+
+### 2. 전체 요약
+
+이 논문은 기존의 Softmax Attention을 대체할 수 있는 Sigmoid Attention을 소개하고, 그 우수성을 입증합니다. Sigmoid Attention은 입력 시퀀스의 각 요소를 개별적으로 처리하며, 여러 작업과 도메인에서 Softmax Attention과 유사한 성능을 입증하였습니다. 또한 하드웨어 효율성을 극대화한 FlashSigmoid를 통해 추론 속도를 크게 향상시켰습니다. 최종적으로 이론적 분석을 통해 Sigmoid Attention이 보편 함수 근사기이라는 것을 증명하고, 이를 통해 다양한 머신러닝 작업에서 효율적이고 실용적인 대안임을 제시하였습니다.
diff --git a/summaries/2409.04833.md b/summaries/2409.04833.md
@@ -0,0 +1,36 @@
+# Achieving Peak Performance for Large Language Models: A Systematic Review
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.04833.pdf](https://arxiv.org/pdf/2409.04833.pdf)
+
+### 1. 섹션별 주요 내용 요약
+
+#### I. 서론
+이 논문은 최근 인공지능과 기계 학습 분야에서 급격히 성장한 대형 언어 모델(LLM)의 최적화와 가속화 기술을 체계적으로 리뷰합니다. 초거대 모델(수십억에서 수조 개의 파라미터)은 상당한 자원이 필요하며, 이는 많은 연구자들에게 접근성을 제한합니다. 본 논문은 최신 기술들을 논의하며, 효율성, 확장성, 유연성을 중심으로 LLM 최적화를 검토합니다.
+
+#### II. 언어 모델의 발전
+이 섹션에서는 언어 모델의 발전 과정을 개괄적으로 설명하고, 특히 GPT와 BERT 같은 트랜스포머 기반 모델의 성공에 대해 논의합니다. 이러한 모델들은 자연어 처리(NLP)에서 뛰어난 성과를 보이고 있으며, 다양한 어플리케이션에서 사용되고 있습니다.
+
+#### III. 기계 학습 모델
+기계 학습 모델의 구축, 배포, 관리는 크게 학습, 추론, 시스템 서빙의 세 단계로 나뉘며, 각 단계마다 효율성을 높이기 위한 다양한 기술들이 사용됩니다. 이 섹션에서는 이러한 기술들을 분류하고 설명합니다.
+
+#### IV. 프레임워크 및 라이브러리
+대부분의 LLM은 트랜스포머를 기반으로 하고 있으며, 이는 모델의 크기를 크게 만들고 병렬 처리 기법을 요구합니다. 이 섹션에서는 최근에 개발된 다양한 프레임워크와 라이브러리를 설명하며, GPipe, ByteTransformer, Megatron-LM, LightSeq2, CoLLiE 등의 성과를 요약합니다.
+
+#### V. 최적화 전략
+LLM 최적화 전략은 크게 학습 최적화, 하드웨어 최적화, 확장성과 신뢰성으로 나뉩니다. 이 논문은 각 전략의 효율성, 비용, 확장성 측면에서 비교 분석하며, 메모리 최적화와 이종 학습 등 다양한 기술을 검토합니다. 특히, ZeRO-Offload, SWARM Parallelism, FlexGen 등의 최신 기술을 소개합니다.
+
+#### VI. 하드웨어 최적화
+하드웨어 최적화는 메모리 관리, 하드웨어 인지 최적화, 오프로딩, 혼합 정밀도 등을 포함합니다. FlexGen과 ZeRO-Offload는 CPU와 GPU를 효과적으로 사용하는 기술로, 더 큰 모델을 적은 자원으로 학습할 수 있게 합니다.
+
+#### VIII. 사례 연구
+두 가지 실질적인 사례 연구를 통해 모델 학습 최적화와 추론 효율성을 높이는 방법을 보여줍니다. 첫 번째 사례 연구는 모델 학습의 자원 제한을 해결하는 방법을, 두 번째는 추론 효율성을 높이는 방법을 다룹니다.
+
+---
+
+### 2. 전체 요약
+이 논문은 최근 대형 언어 모델(LLM) 최적화를 위한 최신 기술들을 체계적으로 검토한 문헌 리뷰입니다. LLM은 수많은 파라미터로 높은 성능을 달성하지만, 이는 컴퓨팅 자원과 메모리 사용량을 크게 증가시킵니다. 논문은 LLM의 학습, 추론, 배포를 최적화하기 위한 다양한 전략과 기술을 다룹니다. 특히, 학습 최적화, 하드웨어 최적화, 확장성과 신뢰성이라는 세 가지 주요 범주로 구분하여 설명합니다. 또한, 최신 프레임워크와 라이브러리를 통해 다양한 최적화 방법을 실질적으로 적용한 사례를 제시합니다. 연구는 향후 LLM의 효율성, 확장성, 유연성을 향상시키기 위한 많은 유망한 연구 영역을 강조하며, 두 개의 사례 연구를 통해 실질적인 적용 방법을 논의합니다.
+
+---
+
+이 요약을 바탕으로 프레젠테이션을 구성할 때, 각 섹션의 주요 내용을 강조하고, 이해하기 쉽게 설명하면 좋습니다. 기술적인 용어는 최대한 쉽게 풀어쓰고, 실제 적용 사례를 중심으로 설명하면 청중에게 효과적으로 전달할 수 있습니다.
diff --git a/summaries/2409.11564.md b/summaries/2409.11564.md
@@ -0,0 +1,36 @@
+# Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.11564.pdf](https://arxiv.org/pdf/2409.11564.pdf)
+
+## 요약
+
+### 1. 서론
+논문에서는 인간의 피드백을 통한 선호 조정이 생성 모델을 인간의 선호도에 맞추기 위한 중요한 단계임을 강조합니다. 연구에 따르면 생성 모델은 종종 지시 사항을 잘못 해석하고 환각(hallucination) 현상을 일으킵니다. 또한 생성된 콘텐츠의 안전성을 보장하는 것이 중요한 도전 과제입니다. 이는 모델이 때때로 예상치 못한 행동을 보이거나, 사실을 조작하거나, 편향되거나 유독한 텍스트를 생성하기 때문입니다.
+
+### 2. 기반 지식 (Preliminaries)
+이 섹션은 선호 조정의 기초를 설명하고, 강화 학습(RL)을 활용한 포맷을 소개합니다. 여기서 정책 모델, 보상 모델, 액션 스페이스, 환경 등의 개념을 다룹니다. 예를 들어 정책 모델은 입력 프롬프트에 따라 출력 시퀀스를 생성하는 모델로 정의됩니다.
+
+### 3. 방법론
+선호 조정 방법의 다양한 접근 방식을 다룹니다. 대표적으로 인간 피드백을 통한 강화 학습(RLHF), 인간 피드백을 통한 직접 조정(DPO) 및 그 변형 방법 등을 포함합니다. 이 섹션에서는 각각의 방법이 어떻게 사용되며 장단점이 무엇인지에 대해 설명합니다.
+
+### 4. 결과 및 토론
+이 논문은 여러 모델에 선호 조정을 적용한 결과에 대해 다수의 실험 결과를 제시합니다. 여기서 강조한 주요 성과는 모델이 인간 선호도에 더 잘 맞추어졌다는 점이며, 다양한 평가 지표를 통해 이를 입증합니다. 또한, 이러한 접근 방식이 언어, 비전 및 음성 등 다양한 분야에 미치는 영향도 논의합니다.
+
+### 5. 결론
+논문은 선호 조정을 통한 생성 모델의 성능 향상 가능성을 강조합니다. 특히, 모델의 안전성, 일관성 및 사용자 지침을 잘 따르는지에 포커스를 맞추어 더 나은 성능을 도출할 수 있음을 시사합니다. 마지막으로 향후 연구가 필요한 분야와 가능성을 제안합니다.
+
+## 전체 요약
+이 논문은 인간의 피드백을 통한 선호 조정을 통해 생성 모델을 더욱 향상시키는 방법을 다룹니다. 주요 내용은 다음과 같습니다:
+
+1. **서론**: 선호 조정의 중요성을 설명하며, 현재 생성 모델이 직면한 문제들(예: 내용 왜곡, 안전성 문제 등)을 소개합니다.
+2. **기반 지식**: 선호 조정의 기초가 되는 개념들(정책 모델, 보상 모델 등)을 설명합니다.
+3. **방법론**: 다양한 선호 조정 방법들과 그 적용 사례를 다룹니다.
+4. **결과 및 토론**: 실험 결과를 통해 선호 조정의 효과와 이를 평가하는 다양한 지표들을 소개합니다.
+5. **결론**: 연구의 주요 성과를 요약하고, 향후 연구 과제를 제시합니다.
+
+이 논문은 인간 피드백을 통한 선호 조정이 모델의 성능 향상 및 안전성 보장에 중요한 역할을 한다고 주장하며, 이를 위한 다양한 방법론과 그 효과를 실험적으로 검증합니다.
+
+---
+
+이 내용을 바탕으로 프레젠테이션을 준비할 수 있습니다. 추가적으로 도움이 필요하면 언제든지 말씀해 주세요.
diff --git a/summaries/2409.11901.md b/summaries/2409.11901.md
@@ -0,0 +1,30 @@
+# LLMs + Persona-Plug = Personalized LLMs
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.11901.pdf](https://arxiv.org/pdf/2409.11901.pdf)
+
+## 1. 섹션별 중요 내용 요약:
+
+### 서론 (Introduction)
+
+이 논문에서는 대형 언어 모델(LLM)의 개인화의 중요성을 강조합니다. 개인화된 LLM은 사용자 별로 맞춤 응답을 제공하여, 각 사용자의 고유한 선호도와 요구 사항을 충족시킬 수 있습니다. 이에 대한 해결책으로 제안된 것이 PPlug (Persona-Plug) 모델입니다. 이 모델은 사용자 embedder 모듈을 통해 사용자의 모든 이전 기록을 인코딩하여, 고유한 개인화 임베딩을 생성합니다. 이 개인 임베딩을 활용하여 LLM이 더 개인화된 출력을 생성할 수 있게 합니다.
+
+### 관련 연구 (Related Work)
+
+개인화된 LLM에 대한 연구는 두 가지 주요 접근 방법으로 나뉩니다. 첫째, 사용자 별로 별도의 LLM을 미세 조정하는 방법. 둘째, 검색 기반 접근법을 사용하는 방법. 하지만, 기존 방법들은 컴퓨팅 비용이 많이 들고, 사용자의 전반적인 패턴을 제대로 포착하지 못하는 문제점이 있습니다. PPlug 모델은 이러한 문제를 해결하고자 사용자 embedder 모듈을 사용하여 효율적이고, 모든 사용자의 포괄적인 패턴을 반영할 수 있는 방법을 제시합니다.
+
+### 방법론 (Methodology)
+
+PPlug 모델은 가벼운 plug-and-play 방식의 사용자 임베더 모듈을 사용합니다. 이 모듈은 사용자의 모든 이전 행동을 밀집 벡터로 인코딩하고, 이를 하나의 개인 임베딩으로 집계하여 현재 입력에 반영합니다. 이 개인 임베딩을 기반으로 LLM이 더 개인화된 응답을 생성할 수 있습니다. 이 모델은 LLM의 파라미터를 추가로 조정할 필요 없이, 고유한 개인화 임베딩을 입력으로 사용합니다.
+
+### 실험 (Experiments)
+
+LaMP(Large-scale Model Personalization) 벤치마크에서의 실험 결과, PPlug 모델은 기존의 개인화된 LLM 방법에 비해 1.4%에서 35.8%까지 성능 향상을 보였습니다. 특히 영화 태깅과 트윗 패러프레이징 작업에서 더 높은 성능을 나타냈습니다. 이는 PPlug 모델이 사용자의 전반적인 스타일을 포착하는 능력이 뛰어나다는 것을 의미합니다.
+
+### 결론 (Conclusion)
+
+PPlug 모델은 개인화된 언어 생성에서 뛰어난 성능을 보이는 새로운 모델로, 가벼운 사용자 embedder 모듈을 사용하여 각 사용자의 모든 행동을 하나의 임베딩으로 집계합니다. 이 모델은 기존의 검색 기반 방법과 비교하여, 더 나은 성능을 제공합니다. 향후 연구에서는 더 세밀한 개인화 임베딩을 개발하거나, retrieval 기반 방법과의 통합을 통해 성능을 더 향상시킬 수 있는 가능성을 탐색할 수 있습니다.
+
+## 2. 논문의 전체 요약
+
+이 논문에서는 대형 언어 모델의 개인화를 위한 새로운 접근 방식인 PPlug 모델을 제안했습니다. PPlug 모델은 사용자의 모든 역사적 행동을 밀집 벡터로 인코딩하여, 이를 하나의 임베딩으로 집계합니다. 이를 통해 LLM이 현재 입력에 따라 더 개인화된 응답을 생성할 수 있도록 합니다. LaMP 벤치마크에서의 실험 결과, PPlug 모델은 기존의 개인화된 LLM 방법보다 더 나은 성능을 보였습니다. 이 모델의 주요 기여는 고유한 개인 임베딩을 사용하여 LLM이 사용자 별 특성을 잘 포착하고, 추가 파라미터 수정 없이 개인화된 응답을 생성할 수 있다는 점입니다. 향후 연구에서는 더 세밀한 개인화 임베딩을 개발하거나, retrieval 기반 방법과의 조합을 통해 성능을 더 향상시킬 수 있는 가능성을 제시했습니다.