Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Sep 27, 2024
1 parent d4801d2 commit e69aaa7
Show file tree
Hide file tree
Showing 9 changed files with 335 additions and 0 deletions.
8 changes: 8 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,11 @@
# Paper List
## 2409
#### [LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness](summaries/2409.18125.md)
#### [Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction](summaries/2409.18124.md)
#### [Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction](summaries/2409.18121.md)
#### [EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions](summaries/2409.18042.md)
#### [Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study](summaries/2409.17580.md)
#### [Pixel-Space Post-Training of Latent Diffusion Models](summaries/2409.17565.md)
#### [MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models](summaries/2409.17481.md)
#### [Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction](summaries/2409.17422.md)
#### [Disco4D: Disentangled 4D Human Generation and Animation from a Single Image](summaries/2409.17280.md)
Expand Down Expand Up @@ -29,6 +34,9 @@
#### [OmniBench: Towards The Future of Universal Omni-Language Models](summaries/2409.15272.md)
#### [Boosting Healthcare LLMs Through Retrieved Context](summaries/2409.15127.md)
#### [AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark](summaries/2409.15041.md)
#### [Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling](summaries/2409.14683.md)
#### [Instruction Following without Instruction Tuning](summaries/2409.14254.md)
#### [The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends](summaries/2409.14195.md)
#### [Present and Future Generalization of Synthetic Image Detectors](summaries/2409.14128.md)
#### [Tabular Data Generation using Binary Diffusion](summaries/2409.13882.md)
#### [A Case Study of Web App Coding with OpenAI Reasoning Models](summaries/2409.13773.md)
Expand Down
42 changes: 42 additions & 0 deletions summaries/2409.14195.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,42 @@
# The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends
## TL;DR
## Summary
- [https://arxiv.org/pdf/2409.14195.pdf](https://arxiv.org/pdf/2409.14195.pdf)

### 논문 요약

#### 1. 각 섹션 요약 및 상세 설명

**서론 (Introduction)**:
이 섹션에서는 연구 배경과 본 논문의 목적을 전개합니다. 대규모 언어 모델(LLMs)의 발달에 따라 대화 분석(CA)의 중요성이 더욱 커지고 있음을 강조합니다. 또한, CA의 주요 구성 요소로 장면 재구성, 인과 분석, 기술 향상 및 대화 생성이 있음을 소개합니다.

**개념과 공식화 (Concept and Formulation)**:
CA는 인간-인간, 인간-기계, 기계-기계 및 다자간 대화에서 핵심 정보를 식별하고, 이러한 정보를 바탕으로 문제 해결과 목표 달성을 위한 방안을 도출하는 과정을 포함합니다. 이 과정은 장면 재구성, 인과 분석, 기술 향상 및 대화 생성의 절차로 나누어집니다.

**장면 재구성 (Scene Reconstruction)**:
대화에서 대화 내용 외의 요소(참여자, 시나리오, 감정, 의도 등)를 추출하고 분석합니다. 이를 통해 대화의 배경 정보를 재구성하며, 이는 CA의 기초 작업으로 중요한 역할을 합니다.

**인과 분석 (Causality Analysis)**:
대화 내용과 장면 요소 간의 연관성을 분석하고, 이를 기반으로 더 깊은 수준의 인과 관계를 밝히는 절차입니다. 이를 통해 대화에서 발생하는 사건들의 근본 원인을 파악할 수 있습니다.

**기술 향상 (Skill Enhancement)**:
인과 분석의 결과를 활용하여 인력(예: 콜센터 직원) 또는 AI 에이전트의 기술을 향상시키는 절차입니다. 이를 통해 목표 달성을 위한 시스템의 최적화를 이루고자 합니다.

**대화 생성 (Conversation Generation)**:
실제 데이터를 재구성하여 대화 내용을 생성하고, 이를 분석하여 목표 달성 여부를 평가합니다. 이를 통해 더 나은 대화 모델을 구축하는 것을 목표로 합니다.

**결론 (Conclusion)**:
본 논문은 CA의 기술적 리뷰 및 연구 발전 방향을 제시합니다. 또한, CA의 네 가지 주요 절차를 통해 대화 분석의 새로운 가능성을 탐색하며, 더 나은 비즈니스 적용을 위한 통찰을 제공합니다.

#### 2. 전체 요약

이 논문은 대규모 언어 모델(LLMs)의 발전으로 인해 대화 분석(CA)의 중요성과 가능성을 탐구합니다. 논문은 CA의 구성 요소를 네 가지 절차로 구분하고, 각 절차에 대해 상세히 설명하였습니다.

1. **장면 재구성**: 대화의 배경 정보를 추출 및 분석하여 장면을 재구성합니다.
2. **인과 분석**: 대화와 배경 요소 간의 인과 관계를 분석하여 더 깊은 의미를 도출합니다.
3. **기술 향상**: 분석 결과를 활용하여 인력 또는 AI 시스템의 기술을 향상시킵니다.
4. **대화 생성**: 기존 데이터를 바탕으로 대화를 생성하고, 이를 분석하여 개선사항을 반영합니다.

본 논문은 이러한 절차를 통해 CA가 목표 달성에 효과적으로 기여하는 방법을 설명하며, 앞으로의 연구 방향과 비즈니스 적용 가능성을 제시합니다.

이 요약은 제공된 정보를 기반으로 한국어로 작성되었으며, 발표 자료 준비에 적합한 상세 설명을 포함하고 있습니다.
47 changes: 47 additions & 0 deletions summaries/2409.14254.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,47 @@
# Instruction Following without Instruction Tuning
## TL;DR
## Summary
- [https://arxiv.org/pdf/2409.14254.pdf](https://arxiv.org/pdf/2409.14254.pdf)

## 1. 각 섹션의 요약

### Abstract (초록)
이 연구에서는 명시적인 지시 튜닝(Instruction Tuning) 없이 모델이 어떻게 지시를 따를 수 있는지에 대해 조사합니다. 지시-응답 쌍 없이 응답만으로 훈련하거나, 매우 좁은 영역의 데이터로 훈련한 경우에도 모델이 넓은 영역의 지시를 따르는 행동을 보일 수 있음을 발견했습니다.

### Introduction (서론)
지시 튜닝은 널리 사용되는 방식으로, 다양한 응답 분포를 학습해서 지시에 맞는 응답을 생성합니다. 하지만 지시 튜닝 없이도 모델이 지시를 따르는 행동을 보일 수 있는 두 가지 방법을 발견했습니다:
1. 응답 튜닝(반드시 지시에 대응하지 않아도 됨)
2. 단일 작업 미세 조정 (좁은 영역의 데이터로 훈련).

### Related Work (관련 연구)
이전 연구는 모델의 지시-응답 쌍 훈련이 적은 데이터로도 효과적임을 보여주었습니다. 또한, 특정 작업에 대한 미세 조정이 넓은 지시를 따르는 행동을 유발할 수 있음을 시사.

### Experiment Setting (실험 설정)
모델은 대규모 텍스트 코퍼스를 사용해 사전 훈련됩니다. 이후 지시 튜닝은 모델의 매개변수를 미세 조정하여 지시에 따른 유용한 응답을 제공하도록 합니다. 실험은 Nvidia GPU 머신에서 수행되었고, 다양한 하이퍼파라미터가 사용되었습니다.

### Response Tuning Yields Instruction Following (응답 튜닝이 지시를 따르게 함)
응답 튜닝만으로도 지시를 따르는 행동을 관찰할 수 있었습니다. 이는 모델이 이미 지시-응답 관계를 어느 정도 학습했음을 시사합니다. 이러한 방법은 GPT-3.5-turbo 모델과 비교했을 때도 약 43%의 승률을 기록했습니다.

### The Response Ranking Capability (응답 평가 능력)
모델은 지시 없이도 적절한 응답을 높은 확률로 생성할 수 있습니다. 이는 사전 훈련된 모델이 이미 지시와 응답 간의 관계를 어느 정도 이해하고 있음을 보여줍니다.

### Single-Task Finetuning Yields Instruction Following (단일 작업 미세 조정이 지시를 따르게 함)
단일 작업에 대한 미세 조정도 지시를 따르는 행동을 유발합니다. 이는 모델이 특정 작업에 국한되지 않고 넓은 범위의 지시에 응답할 수 있음을 보여줍니다.

### A 3-Rule Adapter for Instruction Following (지시를 따르는 3단 규칙 어댑터)
세 가지 간단한 규칙으로 응답을 생성하도록 모델을 조정하는 방법을 제안합니다:
1. EOS(End Of Sequence) 토큰의 확률을 점진적으로 증가
2. 반복 패턴을 페널티 부여
3. 15개의 단어 확률을 균일하게 변경.

### Conclusion (결론)
명시적인 지시 튜닝 없이도 모델이 지시를 따르는 행동을 보일 수 있음을 발견했습니다. 이는 모델의 배포 시 넓은 범위의 테스트와 안전성 검증이 필요함을 의미합니다.

## 2. 전체 요약

이 연구는 명시적인 지시 튜닝 없이도 모델이 지시를 따르는 행동을 보일 수 있음을 밝혀냈습니다. 중요한 기여는 다음과 같습니다:
1. **응답 튜닝**: 지시 없이 응답만으로도 모델이 지시를 따를 수 있음을 보여줍니다.
2. **단일 작업 미세 조정**: 특정 도메인에서 훈련된 모델이 넓은 도메인의 지시를 따를 수 있음을 확인했습니다.
3. **간단한 규칙 어댑터**: 세 가지 규칙을 사용해 간단하게 지시를 따르는 모델을 구현할 수 있습니다.

이 결과는 미래의 AI 연구 및 응용 프로그램에서 모델이 보다 효과적으로 지시를 따르게 하는 방법을 제공하며, 모델 배포 시 넓은 범위의 테스트와 안전성 검증이 필요함을 제안합니다.
38 changes: 38 additions & 0 deletions summaries/2409.14683.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
# Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
## TL;DR
## Summary
- [https://arxiv.org/pdf/2409.14683.pdf](https://arxiv.org/pdf/2409.14683.pdf)

### 주요 내용 요약

#### 1. 서론
최근 딥러닝 기법은 정보 검색(Retrieval) 영역에서 인기를 끌고 있습니다. 기존 문서 수준이 아닌 토큰 수준에서 벡터를 저장하는 다중 벡터 검색(Multi-Vector Retrieval) 방식인 ColBERT이 좋은 성능을 낸다고 알려져 있습니다. 그러나 ColBERT와 같은 시스템은 많은 저장 공간과 메모리가 필요하며, 이는 실제 적용을 어렵게 합니다.

#### 2. Token Pooling
본 연구에서는 Token Pooling이라는 방법을 소개합니다. 이 방법은 문서 인덱싱 시 벡터를 평균 풀링(Mean Pooling)하여 저장해야 하는 벡터의 수를 감소시킵니다. 이 방법은 어떤 ColBERT 모델에서도 추가 학습이나 구조 변경 없이 사용할 수 있습니다. 연구에서 세 가지 풀링 방법을 적용해본 결과, 계층적 클러스터링(Hierarchical Clustering) 방법이 가장 좋은 성능을 보였습니다. 이 방법은 인덱스 크기를 최대 50% 줄이면서도 성능 저하를 거의 초래하지 않았으며, 66% 이상 줄일 경우에도 3% 이하의 성능 저하를 보였습니다.

#### 2.1 풀링 방법
1. 순차 풀링(Sequential Pooling): 문서 내 토큰의 순서대로 풀링.
2. K-평균 클러스터링(K-Means Clustering): 코사인 거리 기반의 클러스터링으로, 풀링 팩터에 따라 클러스터 수를 조정.
3. 계층적 클러스터링(Hierarchical Clustering): Ward의 방법을 사용하여 클러스터를 형성, 풀링 팩터로 최대 클러스터 수를 제한.

#### 3. 실험 설정
영어 MS-Marco 데이터셋과 일본어 데이터셋에서 ColBERTv2와 JaColBERTv2 모델을 사용하여 Token Pooling의 효과를 평가했습니다. 평가 결과, 다수의 데이터셋에서 벡터 수를 줄이면서도 성능 저하가 거의 없음을 확인했습니다.

#### 4. 결과
- 비압축 결과: 풀링 팩터가 2인 경우 벡터 수가 50% 감소하면서도 성능이 평균적으로 약간 향상되었으며, 풀링 팩터가 3인 경우에도 성능 저하 없이 벡터 수를 66% 줄일 수 있었습니다.
- 압축 결과: ColBERTv2의 양자화(Quantization)와 결합해도 성능 저하가 거의 없음을 확인했습니다.
- 일본어 결과: 일본어 데이터셋에서도 유사한 패턴이 나타났으며, 풀링 팩터가 낮을 때 성능 저하가 거의 없었습니다.

### 논문의 주요 공헌과 혁신적 부분
1. **Token Pooling 접근법**: 추가 학습이나 모델 변경 없이 기존의 클러스터링 방법을 활용하여 다중 벡터 검색 모델에서 필요한 벡터 수를 효과적으로 줄이는 방법을 제안했습니다.
2. **저장 비용 감소**: 다양한 데이터셋에서 기능 저하 없이 저장 비용을 최대 50% 줄일 수 있으며, 더 많은 줄일 경우에도 소폭의 성능 저하만 초래했습니다.
3. **다양한 언어와 모델에 적용 가능**: 영어뿐만 아니라 일본어와 같은 다른 언어와 모델에서도 이 방법이 유효함을 입증했습니다.

### 전체 요약
- **기술적 도전 과제**: 다중 벡터 검색 모델의 높은 저장 및 메모리 요구사항.
- **해결 방안**: Token Pooling을 통한 벡터 수 감소로, 추가 학습이나 모델 변경 없이 성능 저하 없이 저장 비용을 대폭 절감.
- **실험 결과**: 다양한 데이터셋에서 성능 저하 없이 저장 비용을 50% 줄일 수 있으며, 심지어 일본어 데이터셋에서도 유사한 결과 확인.
- **미래 전망**: 이 접근법은 더 큰 데이터셋과 다양한 다중 벡터 검색 모델에 적용 가능성을 열어주며, 정보 검색 연구에 큰 기여를 할 것으로 기대됩니다.

이 요약을 바탕으로 프레젠테이션을 구성해 나가면 좋겠습니다. 도움이 되셨길 바랍니다!
47 changes: 47 additions & 0 deletions summaries/2409.17565.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,47 @@
# Pixel-Space Post-Training of Latent Diffusion Models
## TL;DR
## Summary
- [https://arxiv.org/pdf/2409.17565.pdf](https://arxiv.org/pdf/2409.17565.pdf)

### 1. 섹션별 요약

#### 서론

이 논문은 **픽셀 공간의 목적 함수**를 추가하여 **잠재 확산 모델 (LDM)**의 후처리를 제안합니다. LDM은 데이터의 압축된 잠재 공간에서 학습과 생성이 일어나는데, 이는 고주파수 세부사항의 손실과 왜곡을 초래할 수 있습니다. 이를 해결하기 위해 논문은 **픽셀 공간에서의 감독**을 추가하여 시각적 품질을 개선하는 방법을 실험적으로 증명합니다.

#### 관련 연구

LDM은 이미지를 잠재 공간으로 압축하여 효율적으로 처리하는 방법입니다. 기존 연구는 주로 잠재 공간에서의 목적 함수에만 의존하였고, 이로 인해 주파수 세부사항의 손실이 발생한다는 문제가 있습니다. 따라서 이 논문은 기존 LDM의 한계를 극복하기 위해 **픽셀 공간에서의 후처리 목적 함수**를 제안합니다.

#### 방법론

제안된 방법론은 다음과 같습니다:

1. **슈퍼바이즈드 픽셀 공간 후처리**: 정규화된 변수를 단계별로 디노이즈하여 데이터 분포를 학습하는 방식으로, 원래의 노이즈와 예측된 노이즈의 차이를 최소화하는 목적 함수를 사용합니다.
2. **픽셀 공간 기반의 보상 모델링**: 인간 평가 데이터를 활용해 모델의 품질을 향상시키는 보상 기반 학습을 합니다. 여기에 픽셀 공간에서의 목적 함수를 추가하여 시각적 결함과 시각적 매력을 모두 향상시킵니다.

#### 실험

실험은 주로 두 가지 모델인 DiT와 U-Net 기반 LDM에서 수행되었습니다. 결과는 다음과 같습니다:

- **시각적 결함**: 픽셀 공간 목적 함수를 추가한 경우, DiT 모델의 결함률이 크게 감소했습니다.
- **시각적 매력**: 픽셀 공간 목적 함수를 추가했을 때, 시각적 매력도 크게 향상되었습니다.
- **텍스트 정렬**: 픽셀 공간 목적 함수를 추가한 경우에 텍스트와 이미지의 정렬 또한 약간 향상되었습니다.

#### 결론

이 논문은 LDM에서 픽셀 공간 목적 함수를 추가하는 것이 시각적 품질 향상에 매우 효과적이라는 것을 증명하였습니다. 이 방법은 모델의 아키텍처를 변경하지 않고도 쉽게 통합될 수 있으며, 다양한 후처리 방법에 적용될 수 있습니다.

### 2. 종합 요약

이 논문은 기존의 **잠재 확산 모델 (LDM)**의 한계를 극복하기 위해 **픽셀 공간에서의 후처리 목적 함수**를 제안합니다. 전통적인 LDM 방식은 이미지의 고주파수 세부사항을 손실시키는 문제를 안고 있었습니다. 이를 해결하기 위해, 이 논문은 **픽셀 공간에서의 감독을 추가**함으로써 시각적 품질을 크게 향상시킵니다.

주요 내용은 다음과 같습니다:

- **픽셀 공간의 목적 함수 추가**: LDM의 후처리에 픽셀 공간 목적 함수를 추가하여 고주파수 세부사항의 손실 문제를 해결합니다.
- **실험적 증명**: 두 가지 모델(DiT 및 U-Net 기반 LDM)에서의 실험 결과, 시각적 결함과 시각적 매력이 현저히 개선되었음을 증명합니다.
- **적용 용이성**: 이 방법은 모델의 아키텍처를 변경하지 않으면서도 쉽게 통합될 수 있으며, 다양한 후처리 방법에도 적용될 수 있습니다.

이 논문의 주요 공헌은 픽셀 공간에서의 후처리 목적 함수를 통해 LDM의 시각적 품질을 혁신적으로 향상시켰다는 점입니다. 이는 이미지 생성 모델의 한계를 극복하고 향후 다양한 응용 분야에서 활용될 수 있는 중요한 기술적 발전을 제공합니다.

이 정보를 바탕으로 프레젠테이션 자료를 만들기 쉽도록 하였으며, 각 섹션의 정보가 쉽게 이해될 수 있도록 설명을 덧붙였습니다. 추가 질문이나 더 자세한 설명이 필요하면 언제든지 말씀해 주세요.
Loading

0 comments on commit e69aaa7

Please sign in to comment.