Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Aug 26, 2024
1 parent 5e6562c commit f059336
Show file tree
Hide file tree
Showing 11 changed files with 306 additions and 0 deletions.
10 changes: 10 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,7 +1,15 @@
# Paper List
## 2408
#### [ConvKGYarn: Spinning Configurable and Scalable Conversational Knowledge Graph QA Datasets with Large Language Models](summaries/2408.convkgyarn.md)
#### [MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?](summaries/2408.13257.md)
#### [LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation](summaries/2408.13252.md)
#### [CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities](summaries/2408.13239.md)
#### [Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time](summaries/2408.13233.md)
#### [A Web-Based Solution for Federated Learning with LLM-Based Automation](summaries/2408.13010.md)
#### [FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering](summaries/2408.12894.md)
#### [T3M: Text Guided 3D Human Motion Synthesis from Speech](summaries/2408.12885.md)
#### [Memory-Efficient LLM Training with Online Subspace Descent](summaries/2408.12857.md)
#### [Building and better understanding vision-language models: insights and future directions](summaries/2408.12637.md)
#### [DreamCinema: Cinematic Transfer with Free Camera and 3D Character](summaries/2408.12601.md)
#### [Controllable Text Generation for Large Language Models: A Survey](summaries/2408.12599.md)
#### [xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations](summaries/2408.12590.md)
Expand All @@ -11,6 +19,7 @@
#### [Show-o: One Single Transformer to Unify Multimodal Understanding and Generation](summaries/2408.12528.md)
#### [The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design](summaries/2408.12503.md)
#### [Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese](summaries/2408.12480.md)
#### [CODE: Confident Ordinary Differential Editing](summaries/2408.12418.md)
#### [Subsurface Scattering for 3D Gaussian Splatting](summaries/2408.12282.md)
#### [Scalable Autoregressive Image Generation with Mamba](summaries/2408.12245.md)
#### [SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models](summaries/2408.12114.md)
Expand All @@ -35,6 +44,7 @@
#### [Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model](summaries/2408.11039.md)
#### [MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning](summaries/2408.11001.md)
#### [Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos](summaries/2408.10998.md)
#### [HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments](summaries/2408.10945.md)
#### [To Code, or Not To Code? Exploring Impact of Code in Pre-training](summaries/2408.10914.md)
#### [ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining](summaries/2408.10906.md)
#### [Flexora: Flexible Low Rank Adaptation for Large Language Models](summaries/2408.10774.md)
Expand Down
29 changes: 29 additions & 0 deletions summaries/2408.10945.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,29 @@
# HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.10945.pdf](https://arxiv.org/pdf/2408.10945.pdf)

### 1. 섹션별 요약 및 주요 기여 점

#### Introduction (소개)
소개 부분에서는 비전-언어 모델(VLM)의 출현과 고해상도 이미지 처리의 필요성을 설명합니다. 기존의 VLM은 저해상도 이미지를 사용하여 세부 시각 정보를 잃는 단점이 있습니다. 이를 해결하기 위해 고해상도 이미지의 동적 분할을 사용하는 새로운 VLM이 등장했습니다.

#### Related Work (관련 연구)
이 섹션에서는 고해상도 VLM 효율성을 높이기 위한 다양한 방법을 다룹니다. 기존 연구들은 주로 모델 경량화, 희소 주의 계산, 그리고 시각 토큰의 조기 삭제 기술을 사용합니다. 그러나 이들 방법은 모두 주요한 성능 손실을 초래하거나, 자원 제약을 충분히 해결하지 못합니다.

#### Methods (방법론)
여기서 HiRED(High-Resolution Early Dropping)의 설계와 작동 방식을 설명합니다. HiRED는 주목(attention) 지도 조기 삭제 프레임워크로, 적은 토큰 예산 내에서 가장 중요한 시각 토큰만 남기고 나머지는 삭제합니다. 이 과정은 자원 제약이 있는 환경에서 효율적인 추론을 가능케 합니다.

1. **주요 기여 요소**:
- 고해상도 VLM을 위한 플러그 앤 플레이 방식의 토큰 삭제 프레임워크.
- 초기 계층의 클래스 토큰 주목(attention) 지도를 사용하여 시각 콘텐츠 평가.
- 최종 계층의 주목 지도를 이용한 중요한 시각 토큰의 선택.

#### Evaluation (평가)
HiRED의 성능을 다양한 벤치마크 테스크를 통해 평가합니다. HiRED는 20%의 토큰 budget으로 대부분의 시각 질문 응답 테스크에서 거의 동일한 정확도를 유지하고, 일부 테스크에서는 더 높은 정확도를 보여줍니다. GPU 메모리 사용량도 크게 줄어듭니다.

#### Conclusion (결론)
최종적으로, HiRED는 다양한 멀티모달 테스크에서 고해상도 VLM의 추론 효율성과 성능을 크게 개선했다고 결론짓습니다. HiRED는 자원 제약이 있는 환경에서도 높은 정확도와 성능을 유지할 수 있으며, 이는 미래의 VLM 연구에 중요한 통찰을 제공합니다.

### 2. 전체 요약
이 논문은 고해상도 비전-언어 모델(VLM)의 효율성을 높이는 HiRED(High-Resolution Early Dropping) 프레임워크를 제안하고 평가합니다. HiRED는 주목(attention) 지도 기반의 조기 시각 토큰 삭제 기법을 통해 자원 제약 환경에서 고해상도 이미지 처리를 효율적으로 할 수 있게 합니다. 주요 혁신은 초기 계층과 최종 계층의 클래스 토큰 주목 지도를 활용하여 가장 중요한 시각 토큰을 선택하고, 나머지를 삭제하는 것입니다. 실험 결과 HiRED는 추론 속도와 메모리 사용 효율성 측면에서 기존 방법보다 우수한 성능을 보였습니다. 이 연구는 고해상도 VLM의 실용성을 높이는 중요한 기여를 했으며, 특히 자원 제약 환경에서의 멀티모달 테스크에서 강력한 성능을 입증했습니다.
37 changes: 37 additions & 0 deletions summaries/2408.12418.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,37 @@
# CODE: Confident Ordinary Differential Editing
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.12418.pdf](https://arxiv.org/pdf/2408.12418.pdf)

### 요약 및 분석

#### 1. 각 섹션 요약
---

**1. Introduction (소개)**

이 섹션에서는 연구의 배경과 목적을 설명합니다. 본 연구는 사전 학습된 생성 모델을 사용하여 유사 인간 수준의 복원을 목표로 하고 있으며, 추가적인 데이터 확장이 없다는 점이 특징입니다. 제시된 방법은 손상된 이미지의 복원을 자동화하고, 한편으로는 현실감과 입력 충실도의 균형을 맞추는 것에 중점을 둡니다.

**2. Background and Related Works (배경 및 관련 연구)**

최근 복원 방법들과 비교하면서, 본 연구가 특별히 기존 방법의 한계를 어떻게 극복하는지를 논의합니다. 구체적으로, 상태-최신 기법들이 미지의 손상 데이터에 대해 일반화하는데 어려움을 겪는다는 점을 강조합니다.

**3. Method: Confident Ordinary Differential Editing (CODE) (방법론: 신뢰 기반 보통 미분 편집법)**

CODE는 손상된 이미지를 잠재 공간으로 매핑한 후, 신뢰 간격 기반의 클리핑 방법을 통해 손상된 이미지의 정보를 배제하고, 그 후 확률 흐름 ODE를 사용해 편집된 잠재 공간을 다시 이미지 공간으로 투영하는 방법을 소개합니다. 코드의 주요 기여는 두 가지로 요약될 수 있습니다: 첫째, 더 나은 제어와 현실감을 제공하는 새로운 편집 방법을 도입했고, 둘째, 신뢰 간격 기반 클리핑 방법을 통해 복원 프로세스를 강화했습니다.

**4. Experimental Results (실험 결과)**

CODE의 테스트는 다양한 손상 시나리오에서 이루어졌으며 기존의 방법들보다 더 나은 성능을 보여주었습니다. 평가 지표로는 PSNR, SSIM, FID 등이 사용되었고, CODE는 특히 중대한 손상이나 OOD 입력에 대한 상황에서도 우수한 성능을 보였습니다.

**5. Discussion and Conclusion (토론 및 결론)**

CODE가 기존의 SDEdit을 발전시킨 형태로 더 다양한 편집 능력을 제공하며, 특별한 기능을 추가 학습 없이 통합할 수 있다는 점을 강조합니다. 또한, 탐색 과정에서 발생하는 여러 문제점과 향후 연구 방향에 대해 논의하며, 자동화 및 텍스트-이미지 합성과의 시너지를 고려해야 한다고 제안합니다.

---

#### 2. 전체 요약

본 논문에서는 Confident Ordinary Differential Editing (CODE)라는 새로운 이미지 복원 및 생성 방법을 제시합니다. CODE는 사전 학습된 Diffusion 모델을 사용하여, 손상된 이미지를 복원하는 과정에서 현실감과 입력 충실도의 균형을 맞춥니다. 기존 방법들과 비교할 때, CODE는 추가적인 데이터 증강이나 손상 유형에 대한 가정이 필요 없다는 점이 특징입니다. 실험결과 CODE는 특히 중대한 손상이나 OOD 입력 상황에서도 기존 방법 대비 우수한 성능을 보였으며, 이는 PSNR, SSIM, FID 등의 지표로도 확인되었습니다.

연구는 손상된 이미지를 잠재 공간으로 매핑한 후, 신뢰 간격 기반 클리핑을 통해 손상된 정보를 배제하고, 확률 흐름 ODE를 사용해 원래 이미지 공간으로 복원하는 방법을 중심으로 진행되었습니다. 이러한 과정에서 SDEdit과의 차별점을 두어, 더 나은 제어력과 현실감을 제공하는 동시에 더 다양한 시나리오에 적용 가능한 강점을 가집니다. 본 연구는 향후 자동화 및 텍스트-이미지 합성과의 통합 가능성에 대해 논의하며, 이를 통해 AI 이미지 복원 기술의 발전 방향을 제시합니다.
29 changes: 29 additions & 0 deletions summaries/2408.12637.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,29 @@
# Building and better understanding vision-language models: insights and future directions
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.12637.pdf](https://arxiv.org/pdf/2408.12637.pdf)

### 주요 섹션 요약

#### 1. 서론 (Introduction)
비전-언어 모델(Vision-Language Models, VLMs)은 이미지와 텍스트를 입력으로 받아 텍스트를 출력하는 모델로, 문서 이해, 시각적 수학 문제 해결, 웹페이지 스크린샷을 코드로 변환하는 등 다양한 응용 분야에서 뛰어난 성능을 보입니다. 이 논문은 현재 다양한 VLM 접근 방식의 장단점을 종합적으로 요약하고, 주요 연구 질문들을 다루며, VLM 개발의 효율성과 안정성을 높이기 위한 방법들을 제안합니다.

#### 2. VLM의 아키텍처 분석 (Analyzing Architectural Choices in VLMs)
주요 아키텍처 설계 선택들에 대한 분석이 이루어졌습니다. 기존의 단일 모달리티로 사전 학습된 모델과 비전 인코더를 연결하는 다양한 아키텍처가 비교되었습니다. 주요 아키텍처로는 교차-주목(Cross-Attention) 아키텍처와 자기-주목(Self-Attention) 아키텍처가 있으며, 각자의 장단점과 개발 효율성에 대해 논의됩니다.

#### 3. 데이터 활용 방법 (Data Utilization Methods)
VLM 훈련에 사용되는 다양한 데이터 타입과 그 유용성, 적절한 도입 단계 등에 대해 논의합니다. 특히, Docmatix 데이터셋은 문서 이해 능력을 향상시키기 위해 만들어졌으며, 2.4백만 이미지와 9.5백만 QA 쌍을 포함하고 있어 기존 데이터셋에 비해 240배 규모가 큽니다.

#### 4. 훈련 방법 (Training Methods)
모델의 효율성과 안정성을 높이기 위한 훈련 방법을 다룹니다. VLM 훈련 과정은 다단계로 나누어지며, 각 단계에서 발생하는 도전 과제들과 그 극복 방법에 대해 설명합니다. 새로운 모델 Idefics3-8B은 효율적으로 훈련된 모델로, 동일한 크기 범주 내에서 최고 성능을 달성하였습니다.

#### 5. 결론 (Conclusion)
이 논문은 VLM 구축에 대한 종합적인 튜토리얼을 제공하며, 아키텍처, 데이터, 훈련 방법의 중요성을 강조합니다. 또한, 현재 최첨단 접근 방식들의 장단점을 분석하고, 모델 성능 향상을 위한 잠재적 연구 방향을 제시합니다. 마지막으로, Docmatix 데이터셋을 사용하여 개선된 문서 이해 작업에서의 성능 향상을 보여주는 Idefics3-8B 모델 구축 과정을 상세히 설명합니다.

### 논문의 주요 기여 및 혁신
이 논문의 주요 기여는 VLM 개발의 핵심 요소들을 종합적으로 분석하고, 문서 이해 능력을 대폭 향상시킨 Docmatix 데이터셋과 새로운 모델 Idefics3-8B의 효율적인 훈련 방법을 제안한 것에 있습니다. 이러한 기여는 차세대 VLM 개발에 중요한 토대를 제공합니다.

---

### 전체 요약
이 논문은 비전-언어 모델(VLM)의 현재 연구 상태를 종합적으로 검토하고, 다양한 아키텍처와 데이터 활용, 훈련 방법을 분석합니다. 특히, 새로운 Docmatix 데이터셋을 통해 문서 이해 능력을 크게 향상시킨 Idefics3-8B 모델을 개발하는 과정을 상세히 설명합니다. 연구팀은 이러한 분석과 새로운 접근 방식을 통해 VLM의 성능을 대폭 향상시키고, 차세대 인공지능 모델 개발에 중요한 기여를 하고자 합니다.
33 changes: 33 additions & 0 deletions summaries/2408.12857.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,33 @@
# Memory-Efficient LLM Training with Online Subspace Descent
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.12857.pdf](https://arxiv.org/pdf/2408.12857.pdf)

### 요약 섹션별 요약

#### 1. 서론
이 논문은 최근 주목받고 있는 메모리 효율적인 딥러닝 모델 학습 방법들에 대해 다룹니다. 기존의 성긴 행렬 분해 방식을 사용하지 않고 대신 온라인 주성분 분석(PCA)을 이용하여 최적화 기법을 제안합니다. 이를 통해 학습 과정에서 메모리 사용을 줄이면서도 성능을 유지할 수 있는 방법을 제안합니다.

#### 2. 최적화 배경
딥러닝 모델 학습은 일반적으로 모델의 가중치 행렬을 최소화하는 최적화 문제로 환원됩니다. 이 섹션에서는 다양한 최적화 알고리즘(예: Adam, Momentum 등)의 업데이트 규칙을 설명하며, 이들이 메모리 사용에 미치는 영향을 다룹니다.

#### 3. 메모리 효율적인 최적화 기법
이 섹션에서는 온라인 서브스페이스 디센트(OSD)라는 새로운 메모리 효율적 최적화 기법을 제안합니다. 기존의 정적 서브스페이스 디센트 방식을 동적으로 개선하고, SVD를 사용하지 않고 온라인 PCA를 통해 투영 행렬을 갱신하여 메모리 사용을 최소화하는 방법을 설명합니다.

#### 4. 수렴 보장
OSD 방식이 다양한 최적화 기법에서 수렴성을 보장하는 방법을 설명합니다. 이를 위해 해밀토니안 디센트 프레임워크를 활용하여 이론적 근거를 제시합니다. 일반적인 최적화 알고리즘(LION, Adam 등)에 적용할 수 있으며, 수렴 보장을 통해 알고리즘의 안정성과 효과성을 증명합니다.

#### 5. 실험
대규모 언어 모델(LLM)인 LLaMA 모델을 사용해 제안된 방법의 성능을 평가합니다. 실험 결과, 제안된 OSD 방법이 기존의 성긴 행렬 분해 방법보다 낮은 퍼플렉시티를 나타내며, 학습 시간을 단축시키는 것을 확인하였습니다.

#### 6. 관련 연구
이 섹션에서는 메모리 효율적인 최적화와 성긴 행렬 분해 기법에 관련된 기존 연구들을 논의합니다. 기존 연구들과의 차별점을 설명하며, 제안된 방법의 혁신성을 강조합니다.

#### 7. 결론
논문의 결론에서는 OSD 방법이 다양한 최적화 환경에서 수렴성을 보장하며, 메모리 효율성을 크게 개선할 수 있음을 강조합니다. 추가 연구 바탕을 제시하며, 제안된 방법이 미래 연구에 미칠 영향을 논의합니다.

### 전체 요약
이 논문은 메모리 효율적인 대규모 언어 모델 학습을 위한 새로운 최적화 기법인 온라인 서브스페이스 디센트(OSD)를 제안합니다. 기존의 성긴 행렬 분해 방식을 대신하여 온라인 PCA를 사용하여 투영 행렬을 갱신함으로써 메모리 사용량을 줄이면서도 학습 성능을 유지할 수 있음을 증명합니다. 다양한 실험을 통해 OSD 방식이 기존 방법보다 낮은 퍼플렉시티를 나타내며 학습 시간을 단축시키는 것을 확인하였습니다. 이론적 근거를 바탕으로 수렴성을 보장하며, 다양한 최적화 알고리즘에도 적용할 수 있습니다. 본 논문은 추후 연구 방향을 제시하며, AI와 머신러닝 분야에서 중요한 기여를 할 수 있는 내용을 담고 있습니다.

---
위 요약을 사용하여 프레젠테이션 자료를 준비할 수 있으며, 각 섹션의 주요 내용과 결과를 쉽게 이해하고 설명할 수 있게 도울 것입니다.
Loading

0 comments on commit f059336

Please sign in to comment.