-
Notifications
You must be signed in to change notification settings - Fork 3
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
9a7ed83
commit 420a79c
Showing
9 changed files
with
325 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,58 @@ | ||
# Self-Improving Robust Preference Optimization | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2406.01660.pdf](https://arxiv.org/pdf/2406.01660.pdf) | ||
|
||
## 개요 | ||
이 논문은 **Self-Improving Robust Preference Optimization (SRPO)**라는 새로운 오프라인 강화 학습 프레임워크를 제안합니다. 기존의 강화 학습 방법들은 특정 작업에 매우 종속적이어서, 작업이 바뀔 때 성능이 저하되는 문제를 겪습니다. SRPO는 이러한 문제를 해결하기 위해 자기 개선 프로세스를 활용하여 인간의 선호도로부터 학습하는 방법을 제시합니다. SRPO는 자기 개선 정책과 생성 정책을 적대적으로 최적화하여, 훈련 작업에 독립적인 최적의 솔루션을 제공합니다. 이는 보상 모델이나 온라인 추론 없이도 대규모로 표준 감독 최적화 기법을 사용하여 최적화할 수 있습니다. | ||
|
||
## 1. 도입 | ||
### 주요 내용 | ||
- 인간의 피드백을 통한 강화 학습(RLHF)이 대형 언어 모델(LLM)의 정렬을 위해 널리 사용됨. | ||
- 기존 방법들은 훈련 작업에 강하게 의존, 작업 분포가 변할 때 성능 저하. | ||
- SRPO는 작업 분포의 변화에 견고한 솔루션을 제공하기 위해 제안됨. | ||
|
||
## 2. 자기 개선 정책 학습 | ||
### 주요 내용 | ||
- 인간의 선호 데이터는 더 선호되는 완성도를 향상시키는 정보를 제공. | ||
- 기존 RLHF 방법과 달리, 자기 개선 모델은 하위 완성도를 상위 완성도로 개선하는 규칙을 학습함. | ||
- SRPO는 자기 개선 정책을 최적화하여 LLM의 출력을 반복적으로 향상시킴. | ||
|
||
## 3. SRPO 목표 | ||
### 주요 내용 | ||
- SRPO의 목표는 맥락에서 자기 개선 모델을 학습하는 것. | ||
- 주어진 맥락과 완성도를 기반으로 개선된 완성도를 생성. | ||
- 이 문제는 KL-정규화된 형태로 표현되어 표준 감독 최적화 방식으로 해결 가능. | ||
|
||
## 4. 오프라인 SRPO 최적화 솔루션 | ||
### 주요 내용 | ||
- SRPO 최적화 문제는 두 단계의 적대적 최적화 문제로 해결. | ||
- 첫 번째 단계는 최적의 자기 개선 정책을 학습. | ||
- 두 번째 단계는 생성 정책을 학습하여 최소한의 개선이 필요한 완성도를 생성. | ||
|
||
## 5. SRPO의 견고성 | ||
### 주요 내용 | ||
- SRPO는 행동 정책에 독립적인 견고한 솔루션을 제공. | ||
- 기존의 방법들과 달리, SRPO는 행동 정책의 변화에 영향을 받지 않음. | ||
- 실험을 통해 SRPO가 OOD(Out-Of-Distribution) 상황에서도 높은 성능을 유지함을 확인. | ||
|
||
## 6. 관련 연구 | ||
### 주요 내용 | ||
- 기존의 오프라인 선호 최적화 연구들은 RLHF와 달리 행동 정책의 변화에 취약. | ||
- SRPO는 이러한 문제를 해결하기 위해 제안됨. | ||
- 자기 개선 모델을 학습하는 새로운 접근 방식을 제시. | ||
|
||
## 7. 실험 | ||
### 주요 내용 | ||
- SRPO의 성능을 다양한 요약 작업에서 평가. | ||
- TL;DR 요약 데이터셋과 XSum 데이터셋을 사용하여 실험. | ||
- SRPO는 OOD 상황에서 DPO보다 높은 성능을 보임. | ||
|
||
## 8. 토론 및 한계 | ||
### 주요 내용 | ||
- SRPO는 행동 정책의 변화에 강건한 솔루션을 제공함을 실험적으로 입증. | ||
- 향후 연구에서는 더 복잡한 멀티 태스크 벤치마크에 SRPO를 적용할 계획. | ||
- SRPO의 한계는 보다 복잡한 작업에 대한 성능 평가가 필요함. | ||
|
||
## 전반적인 요약 | ||
SRPO는 인간의 선호도를 학습하여 대형 언어 모델을 정렬하는 새로운 오프라인 강화 학습 방법입니다. SRPO는 자기 개선 프로세스를 통해 작업 분포의 변화에 강건한 솔루션을 제공하며, 이는 보상 모델이나 온라인 추론 없이도 대규모로 최적화할 수 있습니다. 실험 결과, SRPO는 OOD 상황에서 기존 방법들보다 뛰어난 성능을 보였으며, 향후 더 복잡한 작업에 대한 적용 가능성을 가지고 있습니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,39 @@ | ||
# I4VGen: Image as Stepping Stone for Text-to-Video Generation | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2406.02230.pdf](https://arxiv.org/pdf/2406.02230.pdf) | ||
|
||
### 논문 요약: "I4VGEN: Image as Stepping Stone for Text-to-Video Generation" | ||
|
||
**논문 제목:** I4VGEN: Image as Stepping Stone for Text-to-Video Generation | ||
|
||
**저자:** Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang (Alibaba Group) | ||
|
||
--- | ||
|
||
#### 1. 요약 | ||
이 논문은 텍스트-비디오 생성의 품질과 다양성이 텍스트-이미지 생성에 비해 낮다는 문제를 해결하기 위해 제안된 I4VGen 프레임워크를 소개합니다. I4VGen은 학습이 필요 없는 플러그 앤 플레이 방식의 비디오 확산 추론 프레임워크로, 강력한 이미지 기술을 활용하여 텍스트-비디오 생성을 향상시킵니다. 주요 혁신점은 텍스트에서 이미지를 거쳐 비디오로 생성 단계를 분할한 것입니다. | ||
|
||
#### 2. 도입 (Introduction) | ||
텍스트에서 비디오 생성은 복잡한 시공간 모델링과 제한된 비디오-텍스트 데이터셋으로 인해 텍스트-이미지 생성에 비해 품질과 다양성이 뒤처져 있습니다. 이를 해결하기 위해 I4VGen은 텍스트에서 비디오 생성을 두 단계로 나누어 처리합니다: | ||
1. **앵커 이미지 생성** | ||
2. **앵커 이미지 기반 비디오 생성** | ||
|
||
#### 3. 관련 연구 (Related Work) | ||
비디오 생성 모델은 GANs, VAEs, ARs 등 다양한 기법을 사용하여 발전해 왔으나, 텍스트에서 비디오 생성을 직접적으로 수행하는 것은 여전히 어려운 과제입니다. I4VGen은 기존의 텍스트-이미지 생성을 중간 단계로 활용하여 텍스트-비디오 생성 성능을 향상시키는 접근법을 채택했습니다. | ||
|
||
#### 4. I4VGen 프레임워크 | ||
I4VGen은 다음 두 단계를 통해 텍스트-비디오 생성을 수행합니다: | ||
1. **앵커 이미지 생성 (Anchor Image Synthesis):** 텍스트 프롬프트에 적합한 앵커 이미지를 생성합니다. 이를 위해 후보 이미지들을 생성한 후 보상 메커니즘을 통해 가장 적합한 이미지를 선택합니다. | ||
2. **앵커 이미지 기반 비디오 생성 (Anchor Image-Guided Video Synthesis):** 선택된 앵커 이미지를 동영상으로 변환하는 과정입니다. 여기서는 새로운 노이즈 불변 비디오 스코어 증류 샘플링(NI-VSDS) 방법을 사용하여 이미지를 동영상으로 애니메이션화합니다. | ||
|
||
#### 5. 실험 결과 (Experiments) | ||
I4VGen은 다양한 텍스트-비디오 확산 모델과 통합하여 시각적 현실성과 텍스트 충실도를 크게 향상시켰습니다. 실험 결과, I4VGen은 텍스트-비디오 생성에서 더 높은 품질의 비디오를 생성하는 데 성공했습니다. | ||
|
||
#### 6. 결론 (Conclusion) | ||
I4VGen은 학습이 필요 없는 플러그 앤 플레이 방식의 비디오 확산 추론 프레임워크로, 텍스트-비디오 생성의 품질을 향상시키는 새로운 접근법을 제안합니다. 이 프레임워크는 기존의 텍스트-비디오 확산 모델과 쉽게 통합될 수 있으며, 비디오의 시각적 현실성과 텍스트 충실도를 개선합니다. | ||
|
||
--- | ||
|
||
### 전체 요약 | ||
이 논문은 I4VGen이라는 학습이 필요 없는 플러그 앤 플레이 방식의 텍스트-비디오 생성 프레임워크를 소개합니다. I4VGen은 텍스트-이미지 생성을 중간 단계로 사용하여 텍스트-비디오 생성을 두 단계로 나눠 처리합니다. 이를 통해 시각적 현실성과 텍스트 충실도가 높은 비디오를 생성할 수 있습니다. 실험 결과, I4VGen은 기존의 텍스트-비디오 생성 모델에 비해 품질이 향상된 비디오를 생성하는 데 성공했습니다. 이 논문의 주요 기여는 텍스트-비디오 생성 과정에서 이미지를 중간 매개체로 사용하여 생성 품질을 크게 향상시킨 것입니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,42 @@ | ||
# Seed-TTS: A Family of High-Quality Versatile Speech Generation Models | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2406.02430.pdf](https://arxiv.org/pdf/2406.02430.pdf) | ||
|
||
#### 소개 | ||
Seed-TTS는 인간 수준의 자연스러움과 표현력을 갖춘 음성을 생성할 수 있는 대규모 자동 회귀 텍스트-음성 변환(TTS) 모델 군입니다. 이 모델은 짧은 발화 샘플을 기반으로 새로운 음성을 생성할 수 있으며, 가상 비서, 오디오북, 비디오 더빙 등 다양한 응용 분야에 적용될 수 있습니다. Seed-TTS는 세 가지 주요 작업에서 평가되었습니다: 제로샷 음성 인-컨텍스트 학습(ICL), 화자 미세 조정, 감정 제어. | ||
|
||
#### 방법 | ||
Seed-TTS는 자동 회귀 변환기 기반 모델로, 다음과 같은 네 가지 주요 구성 요소로 이루어져 있습니다: | ||
1. **음성 토크나이저**: 음성 신호를 토큰 시퀀스로 변환 | ||
2. **토큰 언어 모델**: 텍스트 및 음성 토큰을 기반으로 음성 토큰 생성 | ||
3. **토큰 확산 모델**: 생성된 음성 토큰을 세부적으로 변환하여 연속 음성 표현 생성 | ||
4. **음향 보코더**: 최종 음파형 예측 | ||
|
||
Seed-TTS는 사전 학습, 미세 조정, 사후 학습의 세 가지 단계로 학습됩니다. 사전 학습은 다양한 시나리오와 화자를 포괄하도록 설계되었으며, 미세 조정은 선택된 화자의 성능 향상에 중점을 둡니다. 사후 학습은 강화 학습(RL)을 통해 모델을 전반적으로 개선합니다. | ||
|
||
#### 실험 결과 | ||
1. **제로샷 인-컨텍스트 학습**: | ||
- **객관적 테스트**: Common Voice 및 DiDiSpeech 데이터셋 사용 | ||
- **주관적 테스트**: 인하우스 데이터셋 사용 | ||
- **평가 지표**: 단어 오류율(WER) 및 화자 유사도(SIM) | ||
|
||
2. **화자 미세 조정**: | ||
- 선택된 화자 그룹에 대한 성능 향상 | ||
- 감정 제어 및 상호 작용성 개선 | ||
|
||
3. **음성 편집 및 발화 속도 조정**: | ||
- Seed-TTSDiT(확산 기반 변형 모델)을 사용한 음성 편집 및 발화 속도 조정 실험 | ||
|
||
#### 모델 확장 및 혁신 | ||
1. **자기 증류를 통한 음성 분해**: Seed-TTS의 단순한 자기 증류 기법을 통해 높은 품질의 음색 분리를 달성 | ||
2. **강화 학습 기반 사후 학습**: 모델의 강인성, 화자 유사성 및 제어 능력 향상 | ||
3. **완전 확산 기반 변형 모델**: Seed-TTSDiT는 종단 간 처리로 뛰어난 음성 생성 품질을 제공하며, 음성 편집 작업에서의 장점 확인 | ||
|
||
#### 모델의 응용 및 한계 | ||
- Seed-TTS는 음성 채팅, 오디오북, 콘텐츠 생성 등 다양한 응용 분야에서 활용될 수 있습니다. | ||
- 한계점으로는 복잡한 감정 및 상황 이해가 필요한 시나리오에서의 성능 제한, 배경음악이나 과도한 소음이 포함된 프롬프트에서의 일관성 문제 등이 있습니다. | ||
- 사회적 책임을 고려하여 안전한 사용을 위해 다단계 검증 방법 및 콘텐츠 워터마킹 등 여러 안전 절차를 구현했습니다. | ||
|
||
### 전체 요약 | ||
Seed-TTS는 고품질, 다목적 음성 생성 모델로, 인간 수준의 자연스러움과 표현력을 갖춘 음성을 생성할 수 있습니다. 이 모델은 다양한 응용 분야에서 활용될 수 있으며, 제로샷 학습, 화자 미세 조정, 감정 제어 등의 작업에서 뛰어난 성능을 보입니다. 또한, 자기 증류 및 강화 학습을 통한 모델 확장 기법을 도입하여 성능을 더욱 향상시켰습니다. Seed-TTS는 음성 생성 기술의 발전에 기여할 수 있는 중요한 연구 결과를 제시합니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,33 @@ | ||
# Guiding a Diffusion Model with a Bad Version of Itself | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2406.02507.pdf](https://arxiv.org/pdf/2406.02507.pdf) | ||
|
||
### 1. 논문 요약 (섹션별) | ||
|
||
#### 1.1. 초록 | ||
이 논문은 이미지 생성 확산 모델에서 이미지 품질, 결과의 다양성, 주어진 조건과의 일치성을 주요 관심 축으로 다룹니다. 특히, 기존의 무조건적 모델을 조건부 모델로 안내하는 접근 방식이 이미지 품질과 프롬프트 일치를 향상시키지만 다양성을 감소시키는 문제를 해결합니다. 이 논문은 덜 훈련된 작은 모델을 이용하여 다양성을 희생하지 않고 이미지 품질을 향상시키는 방법을 제안합니다. 이를 통해 ImageNet 생성에서 최고의 FID(Fréchet Inception Distance) 성능을 달성했습니다. | ||
|
||
#### 1.2. 소개 | ||
확산 모델은 이미지 생성에서 점진적으로 노이즈를 제거하여 순수 노이즈에서 이미지를 복원합니다. 기존의 무조건적 모델을 조건부 모델로 안내하는 방식은 프롬프트 일치와 이미지 품질을 향상시키지만 다양성을 희생합니다. 이 논문은 모델의 작은 버전으로 이미지 생성을 안내하여 이러한 문제를 해결합니다. | ||
|
||
#### 1.3. 배경 | ||
확산 모델은 노이즈를 점진적으로 제거하여 이미지를 생성합니다. 이 과정에서 스코어 함수와 신경망을 사용하여 노이즈 수준에 따라 이미지를 복원합니다. 조건부 생성에서 모델은 클래스 라벨이나 텍스트 프롬프트를 사용하여 출력을 제어합니다. | ||
|
||
#### 1.4. 왜 CFG가 이미지 품질을 향상시키는가? | ||
Classifier-Free Guidance(CFG)는 이미지 품질을 향상시키는 원인을 분석합니다. CFG는 조건부 모델과 무조건적 모델의 차이를 이용하여 샘플을 더 높은 품질로 안내합니다. 그러나 이 과정에서 다양한 이미지를 생성하는 능력이 감소합니다. 이 논문은 이러한 문제를 해결하기 위해 더 낮은 용량의 모델을 이용한 autoguidance를 제안합니다. | ||
|
||
#### 1.5. 우리의 방법 | ||
제안하는 autoguidance 방법은 더 낮은 용량으로 훈련된 동일한 모델을 사용하여 이미지 생성을 안내합니다. 이는 모델의 에러를 줄이고 더 높은 품질의 이미지를 생성하는 방향으로 샘플을 안내합니다. 다양한 실험을 통해 제안된 방법의 유효성을 검증하였습니다. | ||
|
||
#### 1.6. 결과 | ||
ImageNet 데이터셋을 이용한 평가에서 제안된 방법이 기존 방법보다 FID와 FDDINOv2 지표에서 우수한 성능을 보였습니다. 특히, 더 낮은 용량의 모델을 사용한 autoguidance는 이미지 품질을 향상시키면서도 다양한 이미지를 생성하는 능력을 유지합니다. | ||
|
||
#### 1.7. 실험 | ||
제안된 방법의 다양한 하이퍼파라미터에 대한 민감도를 조사했습니다. 그 결과, 모델의 용량 감소와 훈련 시간 감소가 중요한 역할을 한다는 것을 확인했습니다. 또한, EMA 길이 등 다른 파라미터의 영향도 분석했습니다. | ||
|
||
#### 1.8. 정성적 결과 | ||
제안된 방법을 이용하여 생성된 이미지의 예시를 제공합니다. 기존의 CFG 방법과 비교했을 때, 제안된 방법은 더 다양한 이미지 구성을 유지하면서도 높은 품질의 이미지를 생성하는 것으로 나타났습니다. | ||
|
||
### 2. 전체 요약 | ||
이 논문은 이미지 생성 확산 모델에서 이미지 품질을 향상시키면서도 다양성을 유지하는 새로운 방법을 제안합니다. 기존의 무조건적 모델을 조건부 모델로 안내하는 방식의 문제를 해결하기 위해, 덜 훈련된 작은 모델을 이용한 autoguidance 방법을 도입했습니다. 이를 통해 ImageNet 데이터셋에서 최고의 성능을 달성하였으며, 다양한 실험을 통해 제안된 방법의 유효성을 검증하였습니다. 이 연구는 이미지 생성 모델의 품질을 크게 향상시킬 수 있는 새로운 접근 방식을 제시합니다. |
Oops, something went wrong.