Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Aug 2, 2024
1 parent 53393d6 commit 538eefd
Show file tree
Hide file tree
Showing 7 changed files with 199 additions and 0 deletions.
6 changes: 6 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,16 +2,22 @@
## 2408
#### [MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities](summaries/2408.00765.md)
#### [UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model](summaries/2408.00762.md)
#### [Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention](summaries/2408.00760.md)
#### [Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model](summaries/2408.00754.md)
#### [TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models](summaries/2408.00735.md)
#### [SAM 2: Segment Anything in Images and Videos](summaries/2408.00714.md)
#### [Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning](summaries/2408.00690.md)
#### [SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement](summaries/2408.00653.md)
#### [Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses](summaries/2408.00584.md)
#### [Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion](summaries/2408.00458.md)
#### [Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names](summaries/2408.00298.md)
#### [Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation](summaries/2408.00205.md)
#### [OmniParser for Pure Vision Based GUI Agent](summaries/2408.00203.md)
#### [Finch: Prompt-guided Key-Value Cache Compression](summaries/2408.00167.md)
#### [Gemma 2: Improving Open Language Models at a Practical Size](summaries/2408.00118.md)
## 2407
#### [Projected Language Models: A Large Model Pre-Segmented Into Smaller Ones](summaries/2407.projected_lm.md)
#### [Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey](summaries/2407.21794.md)
#### [The Llama 3 Herd of Models](summaries/2407.21783.md)
#### [Berkeley Humanoid: A Research Platform for Learning-based Control](summaries/2407.21781.md)
#### [ShieldGemma: Generative AI Content Moderation Based on Gemma](summaries/2407.21772.md)
Expand Down
25 changes: 25 additions & 0 deletions summaries/2407.21794.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
# Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
## TL;DR
## Summary
- [https://arxiv.org/pdf/2407.21794.pdf](https://arxiv.org/pdf/2407.21794.pdf)

### 1. 각 섹션 요약

#### 서론 (Introduction)
이 논문에서는 AI 시스템의 안전성을 보장하기 위해 중요한 문제인 분포 외 샘플 탐지(OOD detection)에 대해 논의합니다. OOD 탐지는 기존 시스템이 예측하지 못하거나 훈련 데이터에 없는 새로운 데이터를 식별하고 거부하는 능력을 의미합니다. 자율 주행, 산업 제어 등 다양한 응용 분야에서 매우 중요합니다. 이 논문은 비전-언어 모델(VLM)의 출현이 이러한 탐지 문제를 어떻게 변화시키고 있는지에 대한 포괄적인 리뷰를 제공합니다.

#### 주 기여 (Main Contribution)
논문은 VLM 시대에서의 OOD 탐지 및 관련된 여러 문제들(이상 탐지, 새로운 클래스 인식 등)을 종합적으로 다루고, 현재 상황을 파악하고 미래 방향을 제시합니다. 특히, CLIP와 같은 대규모 비전-언어 모델이 어떻게 이 분야에서 중요한 역할을 하고 있는지 설명합니다. 다양한 방법론과 최신 연구 동향을 정리하여 연구자들이 쉽게 이해하고 자신의 연구에 적용할 수 있도록 돕습니다.

#### 방법론 (Methodology)
OOD 탐지의 다양한 방법론을 세 가지로 나누어 다룹니다: 훈련이 필요 없는 방법, 보조 훈련 방법, ID 기반 훈련 방법. 각 방법의 특징과 장단점을 설명하고, 특히 CLIP 기반의 방법들이 어떻게 기존의 한계를 극복하는지 논의합니다. 예를 들어, ZeroOE와 같은 방법은 훈련 없이도 높은 성능을 보이며, PromptAD와 같은 방법은 적은 샘플을 사용하여 효과적으로 이상을 탐지합니다.

#### 결과 (Results)
논문에서는 다양한 벤치마크 테스트를 통해 제안된 방법들의 성능을 평가했습니다. 특히 MVTec-AD, VisA와 같은 산업 표준 데이터셋을 사용하여 CLIP 기반의 방법들이 기존 방법들에 비해 뛰어난 성능을 보인다고 결론지었습니다. 또한, GPT-4V와 같은 최신 대형 비전-언어 모델이 여러 분야에서 우수한 성능을 발휘하는 것을 강조합니다.

#### 결론 (Conclusion)
논문은 VLM 시대에서의 OOD 탐지의 중요성과 미래 연구 방향을 강조하면서 끝을 맺습니다. 특히, AD와 OOD 탐지가 여전히 주요 도전 과제이며, 향후 연구자들이 협력하여 더 나은 방법론을 개발할 것을 권장합니다. 또한, 대형 비전-언어 모델이 이 분야에서 중요한 역할을 할 것이라고 전망합니다.

### 2. 전체 요약

이 논문은 비전-언어 모델 시대에서의 분포 외 샘플 탐지와 관련된 다양한 문제들에 대한 포괄적인 리뷰를 제공합니다. 주요 기여로는 AI 시스템의 안전성을 보장하기 위해 중요한 OOD 탐지의 개념과 VLM 시대에서의 진화, 다양한 방법론, 최신 연구 동향, 성능 평가, 미래 연구 방향 등이 있습니다. 특히, CLIP와 같은 대형 비전-언어 모델이 이 분야에서 어떻게 중요한 역할을 하고 있는지를 상세히 설명하며, GPT-4V와 같은 최신 모델이 다양한 분야에서 뛰어난 성능을 발휘하는 것을 강조합니다. 이 논문은 연구자들이 보다 쉽게 이해하고 자신의 연구에 응용할 수 있도록 돕는 중요한 자료입니다.
36 changes: 36 additions & 0 deletions summaries/2408.00118.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,36 @@
# Gemma 2: Improving Open Language Models at a Practical Size
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.00118.pdf](https://arxiv.org/pdf/2408.00118.pdf)

### 1. 섹션별 요약

#### 1. Introduction
Gemma 2는 다양한 규모 (2억~27억 파라미터)를 가지며, 특히 작은 모델들의 성능을 개선하기 위한 다양한 기법을 도입한 오픈 모델이다. 이 논문은 대규모 언어 모델(LLM)이 최근 여러 언어 이해, 생성, 추론 능력을 보여주며, 모델의 크기가 증가할수록 성능도 향상된다는 점을 기반으로 한다. Gemma 2는 지식 증류(knowledge distillation) 방식을 사용하여 학습된 모델로, 작은 모델에서도 우수한 성능을 보인다. 모델 학습 시 각 토큰 예측 대신 좀 더 풍부한 정보 분포를 사용한다는 점이 주요 혁신점이다.

#### 2. Model Architecture
Gemma 2는 기존 Gemma 모델들과 유사하게 디코더 전용 Transformer 아키텍처를 기반으로 한다. 주된 특징으로는 글로벌 및 로컬 어텐션 레이어를 결합한 벨타지(Beltagy) 기법과 그룹-쿼리 어텐션(GQA)을 적용하였다. 이로 인해 모델의 성능을 개선하고, 파라미터 수를 줄인 상태에서도 높은 성능을 유지할 수 있다.

#### 3. Pre-training
사전 학습 단계에서 대규모 데이터셋을 사용해 모델의 이해도를 높였으며, 이를 통해 사전 훈련된 여러 언어적 맥락을 잘 학습할 수 있게 하였다. 여기서 중요한 점은 훈련 데이터가 모델의 최종 성능에 결정적인 영향을 미친다는 것이다.

#### 4. Training Data
훈련 데이터는 다양한 언어와 문서로부터 수집하여 모델이 다양한 상황에서도 잘 작동할 수 있도록 하였다. 또한 데이터 증강 기술을 통해 모델의 일반화 능력을 향상시켰다.

#### 5. Knowledge Distillation
지식 증류는 큰 모델의 출력 분포를 활용해 작은 모델을 훈련시키는 방식을 의미한다. 이를 통해 작은 모델에서도 큰 모델의 성능을 일부 이어받을 수 있다. 또한 이 기법을 통해 훈련 시간을 단축시키고, 더 적은 데이터로도 높은 성능을 낼 수 있게 한다.

#### 6. Compute Infrastructure
높은 계산 자원을 효율적으로 사용하기 위해 분산 학습 및 고성능 컴퓨팅 인프라를 구축하였다. 이를 통해 대규모 데이터와 모델을 효과적으로 처리할 수 있었다.

#### 7. Ablations
여러 실험을 통해 다양한 설정에서의 성능 변화를 관찰하였다. 예를 들어, 지식 증류 기법을 사용한 모델은 동일한 파라미터 크기의 모델보다 성능이 뛰어나며, 다층 어텐션 기법을 사용한 모델도 성능 향상을 보인다.

#### 8. Evaluation
모델은 여러 벤치마크 테스트를 통해 평가되었으며, 다양한 언어 이해 과제에서 높은 성능을 보인다. 특히 인간 평가와 자동 평가 모두에서 우수한 결과를 얻었다.

#### 9. Discussion and Conclusion
논문에서는 Gemma 2 모델의 지식 증류 기법이 기존의 토큰 예측 방식보다 우수하다는 점을 다시 한번 강조하고 있다. 이러한 모델을 커뮤니티에 공개함으로써 연구와 개발의 새로운 물결을 이끌기를 기대하고 있다.

### 2. 전체 요약
Gemma 2는 다양한 규모와 개선된 성능을 가진 다목적 언어 모델로, 특히 작은 모델에서도 뛰어난 성능을 냄으로써 현재의 대규모 언어 모델이 가진 한계를 극복하고자 한다. 주요 혁신점은 지식 증류(knowledge distillation) 기법을 통해 작은 모델에서도 큰 모델의 성능을 구현하는 것에 있다. 이를 통해 학습 시간과 자원을 절약하면서도, 높은 수준의 언어 이해와 생성 능력을 보인다. 이 논문은 여러 실험과 평가를 통해 Gemma 2 모델의 성능, 안전성, 효율성을 입증하며, 향후 연구와 개발에 큰 영향을 미칠 것으로 기대된다.
43 changes: 43 additions & 0 deletions summaries/2408.00167.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,43 @@
# Finch: Prompt-guided Key-Value Cache Compression
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.00167.pdf](https://arxiv.org/pdf/2408.00167.pdf)

### 전체 요약

이 논문은 대형 언어 모델(LLM)을 위한 **FINCH**라는 새로운 방법을 제안하고 있습니다. 이 방법은 모델의 메모리 사용을 줄이고, 성능을 유지하면서 더 긴 텍스트를 효율적으로 처리하기 위해 설계되었습니다. 주요 기여는 다음과 같습니다:

- **KV 캐시 압축**: 기계 학습 모델의 성능을 저하시키지 않으면서 적절한 키-값(KV) 쌍을 저장하여 메모리 사용을 최적화합니다.
- **새로운 압축 방법**: 기존의 요약 및 압축과 달리 FINCH는 훈련이나 미세조정 없이 작동하며, 프롬프트와 문서 청크 간의 연관성을 고려하여 중요한 정보를 식별합니다.
- **효율적인 계산**: 압축된 상태에서 모델을 운용하여 계산 복잡성을 줄이고 메모리 풋프린트를 최적화합니다.

---

### 섹션별 요약

#### 서론
이 섹션에서는 대형 언어 모델(LLM)의 현재 한계와 문제를 설명합니다. LLM은 긴 입력 컨텍스트를 처리하는 데 어려움을 겪으며, 이는 주로 GPU 메모리 사용량이 많기 때문입니다. 이를 해결하기 위해 FINCH라는 새로운 접근 방식을 제시합니다.

#### 배경
Transformer 모델의 핵심인 자기 주의 메커니즘을 설명합니다. 여기에는 Queries (Q), Keys (K), Values (V)의 세 가지 벡터가 포함되며, 주의 메커니즘이 어떻게 작동하는지를 설명합니다.

#### 문제 정의
FINCH의 목표는 입력 컨텍스트의 크기를 줄이면서 모델의 성능을 유지하는 것입니다. 이를 위해 캐시 속의 K와 V 매트릭스를 압축합니다. MAIN 이론과 수학적 모델을 통해 설명합니다.

#### 방법론
FINCH의 구체적인 방법론과 작동 방식을 설명합니다. 문서를 청크 단위로 분할하여 프롬프트와 관련성을 계산하고, 가장 중요한 정보를 캐시에 저장하는 방식으로 작동합니다. 이 섹션에서는 FINCH의 메커니즘을 그래픽과 함께 시각적으로 설명합니다.

#### 실험 설정
다양한 데이터셋을 기반으로 FINCH의 성능을 평가합니다. 여기에는 질문 응답, 요약, 코드 완성 등의 작업이 포함됩니다.

#### 결과 및 논의
FINCH의 실험 결과를 자세히 설명하며, FINCH가 기존 방법들보다 성능 면에서 우수하고 메모리 사용량을 크게 줄일 수 있다는 점을 강조합니다. FINCH의 압축 방법이 문서의 중요한 정보를 잘 유지할 수 있음을 검증합니다.

#### 결론
FINCH는 대형 언어 모델이 긴 입력 텍스트를 효율적으로 처리할 수 있도록 돕는 혁신적인 방법임을 결론지으며, 미래의 연구 방향을 제안합니다.

---

### 최종 총괄 요약

이 논문은 대형 언어 모델의 메모리 사용 한계를 극복하기 위해 **FINCH**라는 새로운 압축방법을 제안합니다. FINCH는 기존 모델을 훈련하지 않고도 사용할 수 있으며, 프롬프트와 문서 청크 간의 중요한 관계를 유지하면서 메모리를 효율적으로 사용하도록 설계되었습니다. 다양한 실험을 통해 FINCH의 우수한 성능과 메모리 최적화 능력이 입증되었습니다. 이 방법은 LLM의 실용성과 효율성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다.
35 changes: 35 additions & 0 deletions summaries/2408.00458.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,35 @@
# Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.00458.pdf](https://arxiv.org/pdf/2408.00458.pdf)

### 1. 섹션별 중요 내용 요약

#### Abstract
이 논문에서는 대화형 비디오 합성을 위한 정밀 제어 시스템을 소개합니다. 이 시스템은 사용자가 비디오 생성 과정에서 원하는 자세한 내용을 실시간으로 조작할 수 있게 해줍니다. 주요 기여 내용은 실제 데이터를 기반으로 하는 새로운 경량 파이프라인을 통해, xxx의 정확도를 높였습니다.

#### Introduction
비디오 생성 및 편집 기법은 확산 모델의 도입 이후 크게 발전했으나, 여전히 모션 제어에는 어려움이 있습니다. 이 논문에서는 모션 제어에 대한 해결책을 제공합니다.

#### Related Work
기존 연구들은 인물 재연(얼굴 재연 및 전체 몸체 모션 이동 등)과 같은 도메인 특화 재연 기술에 중점을 두었으며, 여기서는 더 일반화된 접근 방식을 제안합니다. Diffusion 모델은 다양한 도메인에서 일관되게 동작하며, 다양한 작업에 적용 가능합니다.

#### Method
우리는 확산 모델에서 모션을 제어하기 위한 새로운 모션-텍스트 임베딩 방법을 소개합니다. 이 방법은 프레임마다 다른 토큰을 학습하여 모션의 시간적 세밀도를 높입니다. 이를 통해 비정렬된 시나리오에서도 모션 전송의 정확도를 높입니다.

#### Experiments
실험 결과, 제안된 방법이 기존 방법보다 성능이 뛰어남을 입증했습니다. 추가적으로, 다양한 도메인에서도 우수한 성능을 보였으며, 전체 모델의 훈련 시간이 크게 단축되었습니다.

#### Conclusion
우리는 이번 연구를 통해 새로운 모션-텍스트 임베딩 기법을 제안하고, 이를 통해 다양한 도메인에서의 인물 재연 및 모션 제어 문제를 효과적으로 해결할 수 있음을 보여주었습니다.

### 2. 전체 요약

이 논문에서는 효과적인 비디오 모션 커스터마이제이션을 위한 새로운 방법론을 제시합니다. 기존의 문제점들을 해결하기 위해 모션-텍스트 임베딩 기법을 도입하고, 이를 통해 프레임별로 세밀한 모션 제어가 가능하도록 했습니다. 다양한 실험을 통해 제안된 방법의 우수성을 입증했으며, 이 기술은 비정렬된 시나리오에서도 효과적인 모션 전송이 가능합니다. 또한, 이 방법은 얼굴 및 인체 재연 등 다양한 도메인에서 사용될 수 있으며, 추가 훈련 없이도 높은 정확도를 유지할 수 있습니다.

이 논문의 주요 기여는 다음과 같습니다:
1. 프레임별 모션 세밀도를 향상시키는 새로운 모션-텍스트 임베딩 기법 제안.
2. 다양한 도메인에서 기존 방법보다 우수한 성능을 입증.
3. 고품질 비디오 생성 및 편집을 위한 새로운 확산 모델 기반 접근 방식 제시.

결론적으로, 이 연구는 모션 제어와 비디오 생성 기술을 한 단계 발전시키며, 실제 애플리케이션에서의 활용 가능성을 크게 높였습니다.
27 changes: 27 additions & 0 deletions summaries/2408.00584.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
# Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
## TL;DR
## Summary
- [https://arxiv.org/pdf/2408.00584.pdf](https://arxiv.org/pdf/2408.00584.pdf)

## 1. 섹션별 요약 및 주요 기여 요약

### 1. 소개
AI와 머신 러닝 분야에서 어려운 퍼즐을 풀면서 모델의 다단계 추론 능력을 평가했습니다. 특히, 이탈리아어로 된 리버스 퍼즐을 언어 모델이 얼마나 잘 푸는지 조사했습니다. 일반적인 언어 모델인 LLaMA-3와 GPT-4o는 약한 성능을 보여줬으나, 특정 목적을 위한 미세 조정을 하면 성능이 크게 향상되었습니다.

### 2. 데이터셋 생성
텍스트 전용 리버스 퍼즐 데이터셋을 만들기 위해, 83,000개 이상의 리버스 퍼즐을 수집하여 전사되었습니다. 리버스 퍼즐은 이미지를 통해 문자와 단어를 유추하는 퍼즐로 언어 모델의 다양한 능력을 평가할 수 있습니다.

### 3. 모델 평가
최신 언어 모델들을 대상으로 몇 번의 사례를 제시하면서 리버스 퍼즐을 푸는 능력을 평가했습니다. 일반적인 언어 모델들은 저조한 성능을 보였지만 적절한 훈련을 거친 작은 모델들이 높은 성능을 발휘했습니다.

### 4. 성능 분석
실험 결과, 미세 조정된 작은 언어 모델들은 성능이 향상되었지만 이는 주로 학습 데이터의 암기에서 비롯된 것임을 확인했습니다. 새로운 데이터에 대해 일반화하는 능력은 여전히 부족했습니다.

### 5. 앞으로의 과제
더 넓은 언어, 입력 형식, 퍼즐 범주를 포함한 평가가 필요합니다. 특히, 시각적 리버스 퍼즐을 풀 수 있는 멀티모달 AI 시스템 개발이 중요하다고 강조했습니다.

### 6. 결론
이번 연구는 리버스 퍼즐을 통해 언어 모델의 언어 능력과 다단계 추론 능력을 평가하는 방법을 제시했습니다. 향후 연구에서는 다양한 방법으로 이 과제를 확장해 나갈 필요가 있습니다.

## 2. 전체 요약
이번 논문은 이탈리아어 리버스 퍼즐을 통해 최신 언어 모델의 다단계 추론 능력을 평가했습니다. 일반적인 모델은 성능이 낮았으나, 특정 목적을 위해 미세 조정하면 성능이 크게 향상되었습니다. 실험 결과, 성능 향상이 주로 학습 데이터 암기에 기인했으며, 새로운 데이터에 대한 일반화에는 한계가 있음을 확인했습니다. 향후 연구는 더 넓은 언어와 다양한 퍼즐 범주를 포함한 평가가 필요하며, 이는 멀티모달 AI 시스템 개발에 중요한 단초가 될 것입니다.
Loading

0 comments on commit 538eefd

Please sign in to comment.