From 2b2a2c6682c82cf0af224ee3b0994b5f5be6e4cd Mon Sep 17 00:00:00 2001 From: emphasis10 Date: Mon, 27 May 2024 23:06:23 +0900 Subject: [PATCH] Add papers --- README.md | 2 ++ summaries/2403.03507.md | 30 ++++++++++++++++++++++++++++++ summaries/2405.15130.md | 32 ++++++++++++++++++++++++++++++++ 3 files changed, 64 insertions(+) create mode 100644 summaries/2403.03507.md create mode 100644 summaries/2405.15130.md diff --git a/README.md b/README.md index 18e1cc57..b9f31a7b 100644 --- a/README.md +++ b/README.md @@ -8,6 +8,7 @@ #### [Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training](summaries/2405.15319.md) #### [iVideoGPT: Interactive VideoGPTs are Scalable World Models](summaries/2405.15223.md) #### [Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition](summaries/2405.15216.md) +#### [OptLLM: Optimal Assignment of Queries to Large Language Models](summaries/2405.15130.md) #### [HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting](summaries/2405.15125.md) #### [Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization](summaries/2405.15071.md) #### [Aya 23: Open Weight Releases to Further Multilingual Progress](summaries/2405.15032.md) @@ -384,6 +385,7 @@ #### [Poly-View Contrastive Learning](summaries/2403.05490.md) #### [How Far Are We from Intelligent Visual Deductive Reasoning?](summaries/2403.04732.md) #### [Learning to Decode Collaboratively with Multiple Language Models](summaries/2403.03870.md) +#### [GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection](summaries/2403.03507.md) #### [LAB: Large-Scale Alignment for ChatBots](summaries/2403.01081.md) #### [CLLMs: Consistency Large Language Models](summaries/2403.00835.md) ## 2402 diff --git a/summaries/2403.03507.md b/summaries/2403.03507.md new file mode 100644 index 00000000..7431391b --- /dev/null +++ b/summaries/2403.03507.md @@ -0,0 +1,30 @@ +# GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection +## TL;DR +## Summary +- [https://arxiv.org/pdf/2403.03507.pdf](https://arxiv.org/pdf/2403.03507.pdf) + +### 섹션별 요약 + +#### 1. 소개 +**내용 요약:** +대규모 언어 모델(LLM)들은 여러 분야에서 뛰어난 성과를 보이고 있으나, 이들의 학습에는 막대한 메모리 자원이 필요합니다. 기존의 저메모리 적응 기법인 LoRA는 학습 시 메모리 사용을 줄일 수 있으나, 성능 면에서 한계가 있습니다. 이를 해결하기 위해 본 논문에서는 GaLore(Gradient Low-Rank Projection)라는 새로운 학습 전략을 제안합니다. GaLore는 LLM의 전수 모수를 학습하면서도 메모리 효율성을 높일 수 있는 방법입니다. + +#### 2. 관련 연구 +**내용 요약:** +기존 연구들은 저메모리 학습과 파라미터 효율 적응 기법에 집중해 왔습니다. 대표적으로 LoRA는 저랭크 행렬을 도입하여 메모리 사용을 줄이는 방식입니다. 그러나 LoRA는 학습 초기 단계에서 고랭크 모델로의 초기화가 필요하고, 최적의 성능을 내기 어려운 문제가 있습니다. 이에 반해 GaLore는 이러한 문제를 해결하기 위해 설계되었습니다. + +#### 3. 제안 방법 +**내용 요약:** +GaLore는 학습 중 기울기 행렬이 저랭크 구조를 갖는다는 이론적 근거를 바탕으로, 기울기 행렬을 두 개의 프로젝션 행렬을 사용해 저랭크 형태로 변환합니다. 이를 통해 옵티마이저 상태의 메모리 사용을 크게 줄일 수 있습니다. GaLore는 저랭크 기울기 업데이트를 통해 학습 역동성을 변경하지 않고 메모리 효율성을 달성합니다. + +#### 4. 실험 결과 +**내용 요약:** +실험 결과, GaLore는 LLaMA 7B 모델을 C4 데이터셋으로 학습할 때, 기존의 방법들보다 최대 65.5% 메모리 절감을 이루었습니다. 또한, RoBERTa를 GLUE 벤치마크에서 파인튜닝할 때도 기존 방법보다 뛰어난 성능을 보였습니다. GaLore는 다양한 옵티마이저와 쉽게 결합할 수 있으며, NVIDIA RTX 4090과 같은 소비자용 GPU에서 24GB 메모리로도 대규모 모델 학습이 가능함을 보여주었습니다. + +#### 5. 결론 +**내용 요약:** +GaLore는 LLM 학습 시 메모리 효율성을 크게 향상시킬 수 있는 기법으로, 저메모리 환경에서도 대규모 모델을 학습할 수 있게 합니다. 이를 통해 연구자들은 더 낮은 비용으로 더 큰 모델을 훈련할 수 있으며, 이는 AI 연구와 개발에 큰 기여를 할 것입니다. + +### 전체 요약 +**주요 기여 및 혁신:** +GaLore는 기울기 저랭크 프로젝션을 이용해 메모리 효율성을 극대화하면서도 전체 파라미터 학습을 가능하게 하는 새로운 학습 전략입니다. 기존의 저메모리 적응 기법들이 가진 한계를 극복하고, 대규모 언어 모델의 학습 시 필요한 메모리 자원을 크게 절감할 수 있습니다. 이를 통해 소비자용 GPU로도 대규모 모델 학습이 가능해졌으며, 이는 AI 연구 및 응용의 범위를 넓히는 데 기여할 것입니다. \ No newline at end of file diff --git a/summaries/2405.15130.md b/summaries/2405.15130.md new file mode 100644 index 00000000..b277b304 --- /dev/null +++ b/summaries/2405.15130.md @@ -0,0 +1,32 @@ +# OptLLM: Optimal Assignment of Queries to Large Language Models +## TL;DR +## Summary +- [https://arxiv.org/pdf/2405.15130.pdf](https://arxiv.org/pdf/2405.15130.pdf) + +#### 1. 서론 (Introduction) + +이 논문은 대형 언어 모델(LLM)을 비용과 성능의 균형을 맞추어 최적으로 할당하는 문제를 다루고 있습니다. 많은 회사들이 LLM 서비스를 API를 통해 제공하고 있으며, 각 모델은 성능과 비용 면에서 차이가 있습니다. 따라서 사용자에게 가장 적합한 LLM을 선택하는 것이 중요한 과제가 됩니다. 이를 해결하기 위해 OptLLM이라는 프레임워크를 제안합니다. 이 프레임워크는 쿼리별로 가장 적합한 LLM을 선택하여 비용과 성능을 최적화합니다 . + +#### 2. 관련 연구 (Related Work) + +OptLLM은 여러 가지 기존 연구와 비교됩니다. 특히, 비용과 성능을 예측하여 쿼리를 적절한 LLM에 할당하는 다른 프레임워크들과의 비교가 이루어집니다. 다른 연구와 달리, OptLLM은 멀티라벨 분류 모델을 사용하여 예측의 신뢰성을 높이고, 적은 양의 데이터(1%)만으로 예측 모델을 구성합니다 . + +#### 3. 문제 정의 (Problem Formulation) + +이 논문은 쿼리 할당 문제를 다목적 최적화 문제로 정의합니다. 목표는 비용을 최소화하고 정확도를 최대화하는 것입니다. 쿼리는 각 LLM의 토큰 가격에 따라 비용이 산출되며, 각 쿼리에 대해 LLM의 정확도와 비용을 고려하여 할당됩니다 . + +#### 4. 제안된 접근법 (Proposed Approach) + +OptLLM은 예측 컴포넌트와 최적화 컴포넌트로 구성됩니다. 예측 컴포넌트는 멀티라벨 분류 모델을 사용하여 각 쿼리에 대해 후보 LLM이 성공적으로 처리할 가능성을 예측합니다. 예측의 불확실성을 처리하기 위해, 부트스트랩 샘플 예측을 가중 평균하여 집계하고, 표준 편차를 계산하여 불확실성을 정량화합니다. 최적화 컴포넌트는 초기 최적 해를 생성한 후, 파괴 및 재구성 과정을 통해 비지배 해를 반복적으로 생성합니다 . + +#### 5. 실험 결과 (Experimental Results) + +다양한 NLP 및 도메인 특화 과제를 대상으로 한 실험에서, OptLLM은 비용을 줄이면서 정확도를 높일 수 있음을 입증했습니다. OptLLM은 가장 좋은 개별 LLM과 같은 수준의 정확도를 유지하면서 비용을 2.40%에서 49.18%까지 절감할 수 있습니다. 다른 다목적 최적화 알고리즘과 비교했을 때, OptLLM은 정확도를 2.94%에서 69.05%까지 향상시키거나, 비용을 8.79%에서 95.87%까지 절감할 수 있습니다 . + +#### 6. 결론 (Conclusion) + +OptLLM은 쿼리를 적절한 LLM에 자동으로 할당하는 효과적이고 효율적인 프레임워크를 제안합니다. 실험 결과는 OptLLM이 다른 기준 방법들에 비해 효율성과 효과성 면에서 우수함을 보여줍니다. OptLLM의 소스 코드와 실험 결과는 GitHub에서 제공됩니다 . + +### 전체 요약 + +이 논문은 대형 언어 모델(LLM)을 비용과 성능을 최적화하여 할당하는 문제를 다룹니다. 이를 위해, OptLLM이라는 프레임워크를 제안합니다. OptLLM은 멀티라벨 분류 모델을 사용하여 각 쿼리에 대해 후보 LLM의 성능을 예측하고, 파괴 및 재구성 과정을 통해 비지배 해를 반복적으로 생성하여 최적화합니다. 다양한 실험 결과는 OptLLM이 비용을 절감하면서 높은 정확도를 유지할 수 있음을 보여줍니다. OptLLM은 다른 다목적 최적화 알고리즘보다 뛰어난 성능을 보이며, LLM의 실제 적용에 있어 실질적인 이점을 제공합니다.