-
Notifications
You must be signed in to change notification settings - Fork 3
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
cad40d9
commit c1dd3f0
Showing
6 changed files
with
121 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,29 @@ | ||
# RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2412.14922.pdf](https://arxiv.org/pdf/2412.14922.pdf) | ||
|
||
**1. 각 섹션 요약 및 주요 공헌** | ||
|
||
- **서론** | ||
대규모 언어 모델(LLM)의 지도 학습(Fine-tuning)은 특정 도메인에 맞춰 모델 성능을 최적화하는 중요한 기술입니다. 지도 학습 데이터는 노이즈를 포함하고 있어, 이를 다루기 위한 강건한 프레임워크의 필요성이 강조됩니다. | ||
|
||
- **문제 정의** | ||
다운스트림 작업에서 올바르지 않은 레이블 데이터를 식별하는 메커니즘 개발이 목표입니다. 이는 데이터 노이즈를 줄여 모델의 성능을 개선하기 위한 것입니다. | ||
|
||
- **방법론** | ||
- **개요**: LLM의 강건한 성능을 유지하기 위해 노이즈 감지 및 제거 메커니즘을 포함한 시스템을 구축합니다. | ||
- **노이즈 감지**: 여러 LLM의 협력 학습을 통해 노이즈 데이터 샘플을 파악하여 더 강력한 감지 메커니즘을 구현합니다. | ||
- **데이터 제거**: 문맥 강화 추론과 불확실성에 기반한 데이터 선택을 통해 신뢰할 수 있는 레이블을 생성하여 데이터를 정제합니다. | ||
- **데이터 선택**: 엔트로피 기반 데이터 선택 메커니즘을 통해 고품질의 샘플만을 보존합니다. | ||
- **종합**: 이러한 데이터를 결합하여 강건한 데이터 세트를 구성합니다. | ||
|
||
- **실험 및 분석** | ||
성능 개선을 위한 다양한 데이터 세트와의 실험을 통해 ROBUSTFT의 탁월한 성능을 증명했습니다. 더욱이, 다양한 소음 수준에서 견고한 성능을 유지할 수 있도록 설계되었습니다. | ||
|
||
- **결론** | ||
ROBUSTFT 프레임워크는 다소 미지의 영역인 노이즈에 강한 감독적 미세 조정을 다루고 있습니다. 이는 실제 노이즈 상황과 잘 부합하며, 실질적인 적용 가능성을 입증합니다. | ||
|
||
**2. 전체 요약** | ||
|
||
이 논문은 대규모 언어 모델의 성능을 개선하기 위해 데이터를 소음으로부터 보호하는 방법론을 제안합니다. ROBUSTFT는 다수의 LLM을 이용해 데이터를 검토하고, 신뢰할 수 있는 데이터를 기반으로 잘못된 레이블을 시정합니다. 실험을 통해 다양한 데이터 셋에서 우수한 성능을 보여 강한 실용성을 갖춘 방법임을 입증하였습니다. 이 방법론은 특히 noisy label 학습에서 고성능을 보이며, 다양한 도메인과 작업에서의 광범위한 적용 가능성을 제공합니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,23 @@ | ||
# NILE: Internal Consistency Alignment in Large Language Models | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2412.16686.pdf](https://arxiv.org/pdf/2412.16686.pdf) | ||
|
||
1. 섹션별 요약: | ||
|
||
- **서론**: 이 논문은 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 내부 지식과 외부 데이터셋의 일관성을 유지하는 새로운 프레임워크인 NILE을 제안합니다. 이 과정은 대규모 사전 훈련된 모델이 가진 내재된 지식과 현실 데이터셋의 정보를 조화롭게 통합하여 성능을 극대화하는 것을 목표로 합니다. | ||
|
||
- **관련 연구**: 기존 연구는 대량의 고품질 데이터를 인공지능 모델 훈련에 활용하는데 많은 인력과 시간이 드는 점을 해결하기 위해, 모델의 자가 지도 학습방법을 통한 데이터 생성과 다양한 분야의 지시서를 자동으로 생성하는 기술을 탐구하고 있습니다. | ||
|
||
- **방법론**: NILE은 크게 세 단계로 나누어집니다. | ||
1. **내부 지식 추출(IKE)**: 사전 훈련된 모델에서 내부 지식을 추출하여 원래 지시서와 연결하는 작업을 수행합니다. | ||
2. **지식 기반 샘플 수정(KSR)**: 추출된 내부 지식을 사용하여 기존 데이터 샘플을 자동으로 수정합니다. | ||
3. **내부 일관성 필터링(ICF)**: 이들 수정된 샘플 중 저품질을 걸러내어 최종 지시서에 통합합니다. | ||
|
||
- **실험**: NILE 프레임워크는 다양한 벤치마크에서 모델 성능을 크게 향상시키는 것으로 나타났습니다. 특히, 복잡한 추론이 필요한 작업에서 뛰어난 성과를 보여, LLM이 새로운 작업과 영역에 일반화하는 능력을 증가시켰습니다. | ||
|
||
- **결론**: NILE은 외부 데이터셋과 LLM의 내부 지식을 일치시켜 데이터셋의 품질을 향상시키고, 이를 통해 LLM의 능력을 최적화하는 데 중요한 역할을 합니다. | ||
|
||
2. 전체 요약: | ||
|
||
이 논문에서는 AI의 학습 및 성능을 개선하기 위한 새로운 접근 방식인 NILE 프레임워크를 소개하였습니다. 이는 LLM 내의 내부 지식과 외부 지식 간의 일관성을 유지하여 모델의 성능을 높이는 데 중점을 두고 있습니다. 실험 결과, NILE 최적화 데이터셋은 다양한 벤치마크 테스트에서 LLM의 성능을 크게 향상시켰습니다. 이 방식은 특히 새로운 작업이나 영역을 다루는 LLM의 일반화 능력을 강화하며, 이를 통해 AI 모델이 더욱 폭넓은 응용 분야에서 활용될 수 있는 가능성을 보여주고 있습니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,21 @@ | ||
# Revisiting In-Context Learning with Long Context Language Models | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2412.16926.pdf](https://arxiv.org/pdf/2412.16926.pdf) | ||
|
||
**1. 각 섹션 요약 및 논문 주요 기여 및 혁신 요약:** | ||
|
||
- **서론**: 이 논문은 Long Context Language Models (LCLMs) 기반의 문맥 내 학습(ICL)을 다룹니다. 전통적인 ICL은 문맥 길이 제한으로 최적의 예제 선택이 중요했지만, LCLMs의 발전으로 더 많은 예제를 이용할 수 있게 되었습니다. | ||
|
||
- **기존의 방법 재고찰**: 기존의 복잡한 예제 선택 기법들이 많았지만, LCLM에서는 임의 선택 방식이 거의 동일한 결과를 보여줍니다. 따라서 선택의 최적화보다 많은 예제를 통해 문맥 창을 충분히 활용하는 것에 더 초점을 맞추고 있습니다. | ||
|
||
- **실험 설정**: 18개 데이터셋에서 다양한 실험을 통해 예제 선택 전략이 아닌, 문맥 창을 최대한 활용하는 방법을 강조합니다. 이 과정에서 Data Augmentation(데이터 확대)을 통해 성능이 상당히 향상된다는 것을 발견했습니다. | ||
|
||
- **결론**: LCLM에서 문맥 내 학습이 이루어질 때, 성능이 예제 수의 증가에 따라 개선되지만, 문맥 길이가 너무 길어질 때 성능이 저하될 수 있다는 것을 발견했습니다. 이는 주로 길고 복잡한 문맥을 분석할 때 과부하가 발생함을 시사합니다. | ||
|
||
**논문의 주요 기여 및 혁신**: | ||
이 논문은 LCLM을 활용한 ICL에서 데이터 선택의 복잡성을 줄이고 문맥 창의 용량을 최대화하는 새로운 방향성을 제시합니다. 구체적으로, 데이터 확장을 통한 ICL 성능 향상 전략을 제안하며, 이는 자원이 부족한 문제 해결에 실질적인 개선을 가져왔습니다. | ||
|
||
**2. 논문의 전반적인 요약:** | ||
|
||
이 논문은 ICL에서 LCLM 사용의 새로운 시각을 제공합니다. LCLM의 문맥 창 확대로 인해 전통적인 예제 선택이 덜 중요해지면서, 문맥 창의 용량을 최대한 활용하는 방향으로 연구의 초점이 이동하고 있습니다. 이 연구는 특히 저자원 환경에서 데이터 확장을 통한 성능 향상 가능성을 제시하며, LCLM의 문맥 용량에 맞춰 데이터를 효율적으로 활용하는 전략을 제공합니다. 이를 통해 ICL 연구의 새로운 패러다임으로 자리잡을 가능성을 보여줍니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,21 @@ | ||
# B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2412.17256.pdf](https://arxiv.org/pdf/2412.17256.pdf) | ||
|
||
### 1. 보고서 요약 | ||
|
||
#### 도입 및 배경 | ||
AI와 머신러닝 분야에서, 큰 언어 모델은 복잡한 문제 해결 능력을 보유하고 있지만, 고품질의 사람 제작 데이터세트에 대한 의존은 점점 지속 가능하지 않게 되었습니다. 이를 해결하기 위해, 복잡한 문제 해결 작업에서 '자기 개선' 방법이 중요한 해결책으로 등장했습니다. 이러한 방법은 모델이 자체 출력을 바탕으로 훈련을 진행해 성능을 향상시키는 체계입니다. | ||
|
||
#### 핵심 요소: 탐색과 활용 | ||
자기 개선 과정의 핵심은 모델이 다양한 응답을 생성하는 탐색 능력과 외부 보상을 통해 고품질 솔루션을 선택하는 활용 능력입니다. 기존 방법들이 몇 회 반복 후 성장이 정체되는 문제를 해결하기 위해 이 두 요소의 동적 균형을 모니터링하는 새로운 접근법이 필요합니다. | ||
|
||
#### 주요 기여: B-STAR | ||
B-STAR라는 새롭고 균형잡힌 자기 학습 추론기를 개발하여 모델의 탐색과 활용을 동적으로 조절합니다. 이 방법은 평균 균형 점수를 높이기 위해 설정값을 조정하여 성능을 최대화하는 것을 목표로 합니다. 이 방법은 다양한 설정을 자동으로 조정하여 좋은 성능을 유지함과 동시에 모델의 발전을 돕습니다. | ||
|
||
#### 실험 결과 | ||
수학 문제 해결, 코딩 도전 및 상식 추론에서 B-STAR는 다른 자기 개선 방법을 능가하는 성능을 보여줍니다. 또한, Pass@1 및 Pass@32와 같은 탐색 관련 메트릭 역시 개선되었다는 점에서 B-STAR의 우수성을 드러냅니다. | ||
|
||
### 2. 총괄 요약 | ||
이 논문은 인공지능 모델의 자기 개선에서 탐색과 활용의 중요성을 강조하고, 이를 동적으로 조절하여 모델의 성능을 극대화하는 방법을 제안합니다. B-STAR는 학습 과정 동안 탐색과 활용의 균형을 맞추는 데 중점을 두며, 이를 통해 복잡한 문제 해결 능력을 향상시키는 데 주력합니다. 전체적으로 B-STAR는 기존 방법들에 비해 더 나은 성과를 보이며 인공지능의 자기 개선에 대한 새로운 지평을 열었다고 할 수 있습니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,22 @@ | ||
# Diving into Self-Evolving Training for Multimodal Reasoning | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2412.17451.pdf](https://arxiv.org/pdf/2412.17451.pdf) | ||
|
||
### 섹션별 요약 | ||
|
||
**1. 서론** | ||
AI의 빠른 발전으로 다중 모드 모델의 추론 능력이 크게 향상되어 다양한 현실적 응용에서 요구되는 일반적인 추론 역량에 대한 수요가 증가하였습니다. 기존의 데이터 부족 문제를 해결하기 위한 새로운 방법인 자기 진화 훈련(self-evolving training)이 소개됩니다. 이 훈련 방법은 데이터 주석 없이 AI 모델이 자체적으로 학습하며 성능을 개선할 수 있도록 합니다. | ||
|
||
**2. 다중 모드 추론을 위한 자기 진화 훈련의 개요** | ||
자기 진화 훈련은 강화 학습의 일반적인 틀로서 다양한 알고리즘을 구체적으로 실현할 수 있는 방법론입니다. 이는 여러 모델을 훈련하여 다중 모드 추론의 성능을 강화하는 데 목표를 두며, 정책 모델의 기대 보상을 최대화하고자 합니다. | ||
|
||
**3. 자기 진화 훈련의 세부 이론 분석** | ||
훈련 방법, 보상 모델, 그리고 프롬프트 변동성이 자기 진화 훈련의 세 가지 주요 요소로 제시됩니다. 특히 보상 모델의 역할과 최적화되어야 할 다양한 구성 요소들에 대한 심층적 분석이 이루어졌습니다. 새로운 자기 진화 훈련 알고리즘인 M-STAR가 도입되어 5개의 다중 모드 추론 벤치마크에서 모든 모델의 성능을 향상시켰습니다. | ||
|
||
**결론** | ||
연구 결과는 자기 진화 훈련이 다중 모드 추론 성능을 상당히 향상시키며, 다양한 모델 크기에 있어서도 일관되게 효과적이라는 것을 강조합니다. M-STAR의 활용은 추가적인 인간 주석 없이도 모델의 성능을 크게 향상시킬 수 있습니다. | ||
|
||
### 전체 요약 | ||
|
||
이 연구는 다중 모드 추론에서 자기 진화 훈련이라는 새로운 접근 방식을 심층적으로 탐구하며, 다양한 모델 구성과 훈련 방법론이 모델의 성능에 어떤 영향을 미치는지 분석하였습니다. M-STAR라는 새로운 알고리즘을 통해, 주석 데이터의 부재하에서도 모델의 추론 능력을 개선할 수 있다는 것을 보여주었습니다. 이 접근 방법은 기존의 한계를 극복하고 다중 모드 AI 모델의 발전에 귀중한 통찰을 제공합니다. |