Add papers

emphasis10 · Sep 27, 2024 · e69aaa7 · e69aaa7
1 parent d4801d2
commit e69aaa7
Show file tree

Hide file tree

Showing 9 changed files with 335 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,6 +1,11 @@
 # Paper List
 ## 2409
+#### [LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness](summaries/2409.18125.md)
+#### [Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction](summaries/2409.18124.md)
+#### [Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction](summaries/2409.18121.md)
 #### [EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions](summaries/2409.18042.md)
+#### [Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study](summaries/2409.17580.md)
+#### [Pixel-Space Post-Training of Latent Diffusion Models](summaries/2409.17565.md)
 #### [MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models](summaries/2409.17481.md)
 #### [Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction](summaries/2409.17422.md)
 #### [Disco4D: Disentangled 4D Human Generation and Animation from a Single Image](summaries/2409.17280.md)
@@ -29,6 +34,9 @@
 #### [OmniBench: Towards The Future of Universal Omni-Language Models](summaries/2409.15272.md)
 #### [Boosting Healthcare LLMs Through Retrieved Context](summaries/2409.15127.md)
 #### [AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark](summaries/2409.15041.md)
+#### [Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling](summaries/2409.14683.md)
+#### [Instruction Following without Instruction Tuning](summaries/2409.14254.md)
+#### [The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends](summaries/2409.14195.md)
 #### [Present and Future Generalization of Synthetic Image Detectors](summaries/2409.14128.md)
 #### [Tabular Data Generation using Binary Diffusion](summaries/2409.13882.md)
 #### [A Case Study of Web App Coding with OpenAI Reasoning Models](summaries/2409.13773.md)

diff --git a/summaries/2409.14195.md b/summaries/2409.14195.md
@@ -0,0 +1,42 @@
+# The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.14195.pdf](https://arxiv.org/pdf/2409.14195.pdf)
+
+### 논문 요약
+
+#### 1. 각 섹션 요약 및 상세 설명
+
+**서론 (Introduction)**:
+이 섹션에서는 연구 배경과 본 논문의 목적을 전개합니다. 대규모 언어 모델(LLMs)의 발달에 따라 대화 분석(CA)의 중요성이 더욱 커지고 있음을 강조합니다. 또한, CA의 주요 구성 요소로 장면 재구성, 인과 분석, 기술 향상 및 대화 생성이 있음을 소개합니다.
+
+**개념과 공식화 (Concept and Formulation)**:
+CA는 인간-인간, 인간-기계, 기계-기계 및 다자간 대화에서 핵심 정보를 식별하고, 이러한 정보를 바탕으로 문제 해결과 목표 달성을 위한 방안을 도출하는 과정을 포함합니다. 이 과정은 장면 재구성, 인과 분석, 기술 향상 및 대화 생성의 절차로 나누어집니다.
+
+**장면 재구성 (Scene Reconstruction)**:
+대화에서 대화 내용 외의 요소(참여자, 시나리오, 감정, 의도 등)를 추출하고 분석합니다. 이를 통해 대화의 배경 정보를 재구성하며, 이는 CA의 기초 작업으로 중요한 역할을 합니다.
+
+**인과 분석 (Causality Analysis)**:
+대화 내용과 장면 요소 간의 연관성을 분석하고, 이를 기반으로 더 깊은 수준의 인과 관계를 밝히는 절차입니다. 이를 통해 대화에서 발생하는 사건들의 근본 원인을 파악할 수 있습니다.
+
+**기술 향상 (Skill Enhancement)**:
+인과 분석의 결과를 활용하여 인력(예: 콜센터 직원) 또는 AI 에이전트의 기술을 향상시키는 절차입니다. 이를 통해 목표 달성을 위한 시스템의 최적화를 이루고자 합니다.
+
+**대화 생성 (Conversation Generation)**:
+실제 데이터를 재구성하여 대화 내용을 생성하고, 이를 분석하여 목표 달성 여부를 평가합니다. 이를 통해 더 나은 대화 모델을 구축하는 것을 목표로 합니다.
+
+**결론 (Conclusion)**:
+본 논문은 CA의 기술적 리뷰 및 연구 발전 방향을 제시합니다. 또한, CA의 네 가지 주요 절차를 통해 대화 분석의 새로운 가능성을 탐색하며, 더 나은 비즈니스 적용을 위한 통찰을 제공합니다.
+
+#### 2. 전체 요약
+
+이 논문은 대규모 언어 모델(LLMs)의 발전으로 인해 대화 분석(CA)의 중요성과 가능성을 탐구합니다. 논문은 CA의 구성 요소를 네 가지 절차로 구분하고, 각 절차에 대해 상세히 설명하였습니다.
+
+1. **장면 재구성**: 대화의 배경 정보를 추출 및 분석하여 장면을 재구성합니다.
+2. **인과 분석**: 대화와 배경 요소 간의 인과 관계를 분석하여 더 깊은 의미를 도출합니다.
+3. **기술 향상**: 분석 결과를 활용하여 인력 또는 AI 시스템의 기술을 향상시킵니다.
+4. **대화 생성**: 기존 데이터를 바탕으로 대화를 생성하고, 이를 분석하여 개선사항을 반영합니다.
+
+본 논문은 이러한 절차를 통해 CA가 목표 달성에 효과적으로 기여하는 방법을 설명하며, 앞으로의 연구 방향과 비즈니스 적용 가능성을 제시합니다.
+
+이 요약은 제공된 정보를 기반으로 한국어로 작성되었으며, 발표 자료 준비에 적합한 상세 설명을 포함하고 있습니다.
diff --git a/summaries/2409.14254.md b/summaries/2409.14254.md
@@ -0,0 +1,47 @@
+# Instruction Following without Instruction Tuning
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.14254.pdf](https://arxiv.org/pdf/2409.14254.pdf)
+
+## 1. 각 섹션의 요약
+
+### Abstract (초록)
+이 연구에서는 명시적인 지시 튜닝(Instruction Tuning) 없이 모델이 어떻게 지시를 따를 수 있는지에 대해 조사합니다. 지시-응답 쌍 없이 응답만으로 훈련하거나, 매우 좁은 영역의 데이터로 훈련한 경우에도 모델이 넓은 영역의 지시를 따르는 행동을 보일 수 있음을 발견했습니다.
+
+### Introduction (서론)
+지시 튜닝은 널리 사용되는 방식으로, 다양한 응답 분포를 학습해서 지시에 맞는 응답을 생성합니다. 하지만 지시 튜닝 없이도 모델이 지시를 따르는 행동을 보일 수 있는 두 가지 방법을 발견했습니다:
+1. 응답 튜닝(반드시 지시에 대응하지 않아도 됨)
+2. 단일 작업 미세 조정 (좁은 영역의 데이터로 훈련).
+
+### Related Work (관련 연구)
+이전 연구는 모델의 지시-응답 쌍 훈련이 적은 데이터로도 효과적임을 보여주었습니다. 또한, 특정 작업에 대한 미세 조정이 넓은 지시를 따르는 행동을 유발할 수 있음을 시사.
+
+### Experiment Setting (실험 설정)
+모델은 대규모 텍스트 코퍼스를 사용해 사전 훈련됩니다. 이후 지시 튜닝은 모델의 매개변수를 미세 조정하여 지시에 따른 유용한 응답을 제공하도록 합니다. 실험은 Nvidia GPU 머신에서 수행되었고, 다양한 하이퍼파라미터가 사용되었습니다.
+
+### Response Tuning Yields Instruction Following (응답 튜닝이 지시를 따르게 함)
+응답 튜닝만으로도 지시를 따르는 행동을 관찰할 수 있었습니다. 이는 모델이 이미 지시-응답 관계를 어느 정도 학습했음을 시사합니다. 이러한 방법은 GPT-3.5-turbo 모델과 비교했을 때도 약 43%의 승률을 기록했습니다.
+
+### The Response Ranking Capability (응답 평가 능력)
+모델은 지시 없이도 적절한 응답을 높은 확률로 생성할 수 있습니다. 이는 사전 훈련된 모델이 이미 지시와 응답 간의 관계를 어느 정도 이해하고 있음을 보여줍니다.
+
+### Single-Task Finetuning Yields Instruction Following (단일 작업 미세 조정이 지시를 따르게 함)
+단일 작업에 대한 미세 조정도 지시를 따르는 행동을 유발합니다. 이는 모델이 특정 작업에 국한되지 않고 넓은 범위의 지시에 응답할 수 있음을 보여줍니다.
+
+### A 3-Rule Adapter for Instruction Following (지시를 따르는 3단 규칙 어댑터)
+세 가지 간단한 규칙으로 응답을 생성하도록 모델을 조정하는 방법을 제안합니다:
+1. EOS(End Of Sequence) 토큰의 확률을 점진적으로 증가
+2. 반복 패턴을 페널티 부여
+3. 15개의 단어 확률을 균일하게 변경.
+
+### Conclusion (결론)
+명시적인 지시 튜닝 없이도 모델이 지시를 따르는 행동을 보일 수 있음을 발견했습니다. 이는 모델의 배포 시 넓은 범위의 테스트와 안전성 검증이 필요함을 의미합니다.
+
+## 2. 전체 요약
+
+이 연구는 명시적인 지시 튜닝 없이도 모델이 지시를 따르는 행동을 보일 수 있음을 밝혀냈습니다. 중요한 기여는 다음과 같습니다:
+1. **응답 튜닝**: 지시 없이 응답만으로도 모델이 지시를 따를 수 있음을 보여줍니다.
+2. **단일 작업 미세 조정**: 특정 도메인에서 훈련된 모델이 넓은 도메인의 지시를 따를 수 있음을 확인했습니다.
+3. **간단한 규칙 어댑터**: 세 가지 규칙을 사용해 간단하게 지시를 따르는 모델을 구현할 수 있습니다.
+
+이 결과는 미래의 AI 연구 및 응용 프로그램에서 모델이 보다 효과적으로 지시를 따르게 하는 방법을 제공하며, 모델 배포 시 넓은 범위의 테스트와 안전성 검증이 필요함을 제안합니다.
diff --git a/summaries/2409.14683.md b/summaries/2409.14683.md
@@ -0,0 +1,38 @@
+# Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.14683.pdf](https://arxiv.org/pdf/2409.14683.pdf)
+
+### 주요 내용 요약
+
+#### 1. 서론
+최근 딥러닝 기법은 정보 검색(Retrieval) 영역에서 인기를 끌고 있습니다. 기존 문서 수준이 아닌 토큰 수준에서 벡터를 저장하는 다중 벡터 검색(Multi-Vector Retrieval) 방식인 ColBERT이 좋은 성능을 낸다고 알려져 있습니다. 그러나 ColBERT와 같은 시스템은 많은 저장 공간과 메모리가 필요하며, 이는 실제 적용을 어렵게 합니다.
+
+#### 2. Token Pooling
+본 연구에서는 Token Pooling이라는 방법을 소개합니다. 이 방법은 문서 인덱싱 시 벡터를 평균 풀링(Mean Pooling)하여 저장해야 하는 벡터의 수를 감소시킵니다. 이 방법은 어떤 ColBERT 모델에서도 추가 학습이나 구조 변경 없이 사용할 수 있습니다. 연구에서 세 가지 풀링 방법을 적용해본 결과, 계층적 클러스터링(Hierarchical Clustering) 방법이 가장 좋은 성능을 보였습니다. 이 방법은 인덱스 크기를 최대 50% 줄이면서도 성능 저하를 거의 초래하지 않았으며, 66% 이상 줄일 경우에도 3% 이하의 성능 저하를 보였습니다.
+
+#### 2.1 풀링 방법
+1. 순차 풀링(Sequential Pooling): 문서 내 토큰의 순서대로 풀링.
+2. K-평균 클러스터링(K-Means Clustering): 코사인 거리 기반의 클러스터링으로, 풀링 팩터에 따라 클러스터 수를 조정.
+3. 계층적 클러스터링(Hierarchical Clustering): Ward의 방법을 사용하여 클러스터를 형성, 풀링 팩터로 최대 클러스터 수를 제한.
+
+#### 3. 실험 설정
+영어 MS-Marco 데이터셋과 일본어 데이터셋에서 ColBERTv2와 JaColBERTv2 모델을 사용하여 Token Pooling의 효과를 평가했습니다. 평가 결과, 다수의 데이터셋에서 벡터 수를 줄이면서도 성능 저하가 거의 없음을 확인했습니다.
+
+#### 4. 결과
+- 비압축 결과: 풀링 팩터가 2인 경우 벡터 수가 50% 감소하면서도 성능이 평균적으로 약간 향상되었으며, 풀링 팩터가 3인 경우에도 성능 저하 없이 벡터 수를 66% 줄일 수 있었습니다.
+- 압축 결과: ColBERTv2의 양자화(Quantization)와 결합해도 성능 저하가 거의 없음을 확인했습니다.
+- 일본어 결과: 일본어 데이터셋에서도 유사한 패턴이 나타났으며, 풀링 팩터가 낮을 때 성능 저하가 거의 없었습니다.
+
+### 논문의 주요 공헌과 혁신적 부분
+1. **Token Pooling 접근법**: 추가 학습이나 모델 변경 없이 기존의 클러스터링 방법을 활용하여 다중 벡터 검색 모델에서 필요한 벡터 수를 효과적으로 줄이는 방법을 제안했습니다.
+2. **저장 비용 감소**: 다양한 데이터셋에서 기능 저하 없이 저장 비용을 최대 50% 줄일 수 있으며, 더 많은 줄일 경우에도 소폭의 성능 저하만 초래했습니다.
+3. **다양한 언어와 모델에 적용 가능**: 영어뿐만 아니라 일본어와 같은 다른 언어와 모델에서도 이 방법이 유효함을 입증했습니다.
+
+### 전체 요약
+- **기술적 도전 과제**: 다중 벡터 검색 모델의 높은 저장 및 메모리 요구사항.
+- **해결 방안**: Token Pooling을 통한 벡터 수 감소로, 추가 학습이나 모델 변경 없이 성능 저하 없이 저장 비용을 대폭 절감.
+- **실험 결과**: 다양한 데이터셋에서 성능 저하 없이 저장 비용을 50% 줄일 수 있으며, 심지어 일본어 데이터셋에서도 유사한 결과 확인.
+- **미래 전망**: 이 접근법은 더 큰 데이터셋과 다양한 다중 벡터 검색 모델에 적용 가능성을 열어주며, 정보 검색 연구에 큰 기여를 할 것으로 기대됩니다.
+
+이 요약을 바탕으로 프레젠테이션을 구성해 나가면 좋겠습니다. 도움이 되셨길 바랍니다!
diff --git a/summaries/2409.17565.md b/summaries/2409.17565.md
@@ -0,0 +1,47 @@
+# Pixel-Space Post-Training of Latent Diffusion Models
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2409.17565.pdf](https://arxiv.org/pdf/2409.17565.pdf)
+
+### 1. 섹션별 요약
+
+#### 서론
+
+이 논문은 **픽셀 공간의 목적 함수**를 추가하여 **잠재 확산 모델 (LDM)**의 후처리를 제안합니다. LDM은 데이터의 압축된 잠재 공간에서 학습과 생성이 일어나는데, 이는 고주파수 세부사항의 손실과 왜곡을 초래할 수 있습니다. 이를 해결하기 위해 논문은 **픽셀 공간에서의 감독**을 추가하여 시각적 품질을 개선하는 방법을 실험적으로 증명합니다.
+
+#### 관련 연구
+
+LDM은 이미지를 잠재 공간으로 압축하여 효율적으로 처리하는 방법입니다. 기존 연구는 주로 잠재 공간에서의 목적 함수에만 의존하였고, 이로 인해 주파수 세부사항의 손실이 발생한다는 문제가 있습니다. 따라서 이 논문은 기존 LDM의 한계를 극복하기 위해 **픽셀 공간에서의 후처리 목적 함수**를 제안합니다.
+
+#### 방법론
+
+제안된 방법론은 다음과 같습니다:
+
+1. **슈퍼바이즈드 픽셀 공간 후처리**: 정규화된 변수를 단계별로 디노이즈하여 데이터 분포를 학습하는 방식으로, 원래의 노이즈와 예측된 노이즈의 차이를 최소화하는 목적 함수를 사용합니다.
+2. **픽셀 공간 기반의 보상 모델링**: 인간 평가 데이터를 활용해 모델의 품질을 향상시키는 보상 기반 학습을 합니다. 여기에 픽셀 공간에서의 목적 함수를 추가하여 시각적 결함과 시각적 매력을 모두 향상시킵니다.
+
+#### 실험
+
+실험은 주로 두 가지 모델인 DiT와 U-Net 기반 LDM에서 수행되었습니다. 결과는 다음과 같습니다:
+
+- **시각적 결함**: 픽셀 공간 목적 함수를 추가한 경우, DiT 모델의 결함률이 크게 감소했습니다.
+- **시각적 매력**: 픽셀 공간 목적 함수를 추가했을 때, 시각적 매력도 크게 향상되었습니다.
+- **텍스트 정렬**: 픽셀 공간 목적 함수를 추가한 경우에 텍스트와 이미지의 정렬 또한 약간 향상되었습니다.
+
+#### 결론
+
+이 논문은 LDM에서 픽셀 공간 목적 함수를 추가하는 것이 시각적 품질 향상에 매우 효과적이라는 것을 증명하였습니다. 이 방법은 모델의 아키텍처를 변경하지 않고도 쉽게 통합될 수 있으며, 다양한 후처리 방법에 적용될 수 있습니다.
+
+### 2. 종합 요약
+
+이 논문은 기존의 **잠재 확산 모델 (LDM)**의 한계를 극복하기 위해 **픽셀 공간에서의 후처리 목적 함수**를 제안합니다. 전통적인 LDM 방식은 이미지의 고주파수 세부사항을 손실시키는 문제를 안고 있었습니다. 이를 해결하기 위해, 이 논문은 **픽셀 공간에서의 감독을 추가**함으로써 시각적 품질을 크게 향상시킵니다.
+
+주요 내용은 다음과 같습니다:
+
+- **픽셀 공간의 목적 함수 추가**: LDM의 후처리에 픽셀 공간 목적 함수를 추가하여 고주파수 세부사항의 손실 문제를 해결합니다.
+- **실험적 증명**: 두 가지 모델(DiT 및 U-Net 기반 LDM)에서의 실험 결과, 시각적 결함과 시각적 매력이 현저히 개선되었음을 증명합니다.
+- **적용 용이성**: 이 방법은 모델의 아키텍처를 변경하지 않으면서도 쉽게 통합될 수 있으며, 다양한 후처리 방법에도 적용될 수 있습니다.
+
+이 논문의 주요 공헌은 픽셀 공간에서의 후처리 목적 함수를 통해 LDM의 시각적 품질을 혁신적으로 향상시켰다는 점입니다. 이는 이미지 생성 모델의 한계를 극복하고 향후 다양한 응용 분야에서 활용될 수 있는 중요한 기술적 발전을 제공합니다.
+
+이 정보를 바탕으로 프레젠테이션 자료를 만들기 쉽도록 하였으며, 각 섹션의 정보가 쉽게 이해될 수 있도록 설명을 덧붙였습니다. 추가 질문이나 더 자세한 설명이 필요하면 언제든지 말씀해 주세요.