Add papers

emphasis10 · May 17, 2024 · a14a0ef · a14a0ef
1 parent 8a1fe89
commit a14a0ef
Show file tree

Hide file tree

Showing 22 changed files with 499 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,5 +1,25 @@
 # Paper List
 ## 2405
+#### [Toon3D: Seeing Cartoons from a New Perspective](summaries/2405.10320.md)
+#### [TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction](summaries/2405.10315.md)
+#### [CAT3D: Create Anything in 3D with Multi-View Diffusion Models](summaries/2405.10314.md)
+#### [Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection](summaries/2405.10300.md)
+#### [Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion](summaries/2405.09874.md)
+#### [Chameleon: Mixed-Modal Early-Fusion Foundation Models](summaries/2405.09818.md)
+#### [Many-Shot In-Context Learning in Multimodal Foundation Models](summaries/2405.09798.md)
+#### [LoRA Learns Less and Forgets Less](summaries/2405.09673.md)
+#### [BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation](summaries/2405.09546.md)
+#### [ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models](summaries/2405.09220.md)
+#### [Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model](summaries/2405.09215.md)
+#### [Naturalistic Music Decoding from EEG Data via Latent Diffusion Models](summaries/2405.09062.md)
+#### [Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding](summaries/2405.08748.md)
+#### [Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory](summaries/2405.08707.md)
+#### [Understanding the performance gap between online and offline alignment algorithms](summaries/2405.08448.md)
+#### [No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding](summaries/2405.08344.md)
+#### [SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models](summaries/2405.08317.md)
+#### [SpeechVerse: A Large-scale Generalizable Audio Language Model](summaries/2405.08295.md)
+#### [Compositional Text-to-Image Generation with Dense Blob Representations](summaries/2405.08246.md)
+#### [Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning](summaries/2405.08054.md)
 #### [Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots](summaries/2405.07990.md)
 #### [Zero-Shot Tokenizer Transfer](summaries/2405.07883.md)
 #### [RLHF Workflow: From Reward Modeling to Online RLHF](summaries/2405.07863.md)
@@ -21,6 +41,7 @@
 #### [Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond](summaries/2405.03520.md)
 #### [Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training](summaries/2405.03133.md)
 #### [Is Flash Attention Stable?](summaries/2405.02803.md)
+#### [What matters when building vision-language models?](summaries/2405.02246.md)
 #### [Customizing Text-to-Image Models with a Single Image Pair](summaries/2405.01536.md)
 #### [Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models](summaries/2405.01535.md)
 #### [FLAME: Factuality-Aware Alignment for Large Language Models](summaries/2405.01525.md)

diff --git a/summaries/2405.02246.md b/summaries/2405.02246.md
@@ -0,0 +1,21 @@
+# What matters when building vision-language models?
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2405.02246.pdf](https://arxiv.org/pdf/2405.02246.pdf)
+
+### 주요 내용 요약
+
+1. **서론 및 배경**:
+   - 이 논문은 **Idefics2**라는 비전-언어 모델(VLM)을 소개합니다. Idefics2는 8억 개의 파라미터를 가지고 있으며, 다양한 멀티모달 벤치마크에서 뛰어난 성능을 보입니다. 이 모델은 텍스트와 이미지를 입력으로 받아 텍스트를 출력할 수 있으며, 여러 실험을 통해 모델 아키텍처, 데이터, 훈련 방법 등에 대한 중요한 결정을 뒷받침하는 실험적 증거를 제공합니다.
+
+2. **방법론**:
+   - Idefics2는 시각적 입력과 텍스트 입력을 결합하는 방법으로 완전 자회귀 아키텍처를 사용합니다. 이 접근 방식은 크로스 어텐션 아키텍처보다 효율적이며, 모델의 훈련 안정성을 보장합니다. 
+   - 멀티모달 훈련 절차를 통해 모델의 훈련 안정성을 높이고, 시각적 입력을 텍스트 입력 공간으로 매핑하는 모듈을 도입하여 효율적인 추론을 가능하게 합니다. 
+   - 다양한 데이터셋을 사용하여 모델을 훈련하며, 대규모 이미지-텍스트 쌍과 PDF 문서 등을 포함하여 훈련 데이터의 다양성을 확보합니다.
+
+3. **실험**:
+   - Idefics2는 VQAv2, TextVQA, OKVQA, COCO 등의 벤치마크에서 기존의 최첨단 모델들과 비교하여 우수한 성능을 보였습니다. 특히, VQAv2에서는 70.3%, TextVQA에서는 57.9%, OKVQA에서는 54.6%, COCO에서는 116.0의 점수를 기록했습니다.
+   - 실험 결과, 시각적 입력과 텍스트 입력을 결합하는 방식에서 완전 자회귀 아키텍처가 크로스 어텐션 아키텍처보다 더 나은 성능을 보였으며, 모델의 훈련 안정성을 위해 Low-Rank Adaptation (LoRA)을 활용하는 것이 효과적임을 확인했습니다.
+
+### 혁신적인 부분
+Idefics2의 혁신성은 완전 자회귀 아키텍처를 사용하여 시각적 입력과 텍스트 입력을 결합하는 방식에서 효율성과 성능을 동시에 확보한 데 있습니다. 이 접근 방식은 크로스 어텐션 아키텍처보다 더 나은 성능을 제공하며, 모델의 훈련 안정성을 보장합니다. 또한, 다양한 데이터셋을 사용하여 훈련 데이터의 다양성을 확보하고, 이를 통해 다양한 멀티모달 작업에서 뛰어난 성능을 보입니다. Idefics2는 특히 대규모 비전-언어 모델의 성능을 극대화하면서도 효율성을 유지하는 데 중점을 둡니다.
diff --git a/summaries/2405.08054.md b/summaries/2405.08054.md
@@ -0,0 +1,20 @@
+# Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2405.08054.pdf](https://arxiv.org/pdf/2405.08054.pdf)
+
+### 주요 내용 요약
+
+1. **서론 및 배경**:
+   - 이 논문에서는 **Coin3D**라는 새로운 3D 자산 생성 프레임워크를 소개합니다. Coin3D는 기본 모양에서 조립된 조형 기하 프록시를 사용하여 3D 생성을 제어할 수 있으며, 사용자 인터페이스에서 세밀한 부분 편집 및 즉각적인 3D 미리보기를 지원하는 인터랙티브 워크플로우를 제공합니다. 
+
+2. **방법론**:
+   - **프록시 가이드 조건부 생성**: Coin3D는 기본 도형으로 구성된 프록시를 사용하여 3D 개체 생성을 제어합니다. 이 프레임워크는 3D 제어 어댑터를 통해 3D 프록시를 다중 뷰 확산 과정에 통합하여 다양한 뷰에서 일관된 이미지를 생성합니다.
+   - **인터랙티브 모델링**: 사용자는 기본 모양을 조립하고 텍스트 프롬프트를 입력하여 원하는 개체를 묘사할 수 있습니다. Coin3D는 실시간으로 결과를 미리 볼 수 있도록 기능 볼륨 캐시를 사용하여 빠른 미리보기를 지원합니다.
+   - **일관된 재구성**: 생성된 다중 뷰 이미지를 사용하여 텍스처 메쉬를 재구성할 수 있으며, 3D 컨트롤 볼륨을 재구성 단계에 통합하여 재구성 품질을 향상시킵니다.
+
+3. **실험**:
+   - 다양한 모양 프록시를 사용한 인터랙티브 생성 및 편집 실험을 통해 Coin3D의 우수한 제어 가능성과 유연성을 입증했습니다. 특히, 사용자 연구에서 Coin3D는 높은 만족도를 기록했으며, 프록시 기반 조건부 생성 방식이 기존의 이미지 기반 방법보다 우수한 성능을 보였습니다.
+
+### 혁신적인 부분
+Coin3D의 혁신성은 기본 모양으로 구성된 프록시를 사용하여 3D 생성을 제어할 수 있으며, 인터랙티브한 3D 모델링 워크플로우를 통해 사용자가 실시간으로 생성된 3D 객체를 미리보고 수정할 수 있다는 점에 있습니다. 이 방법은 기존의 텍스트 프롬프트나 이미지 기반의 3D 생성 방식보다 더 정확하고 세밀한 제어를 가능하게 하여, 3D 생성 작업의 효율성과 사용자 경험을 크게 향상시킵니다.
diff --git a/summaries/2405.08246.md b/summaries/2405.08246.md
@@ -0,0 +1,21 @@
+# Compositional Text-to-Image Generation with Dense Blob Representations
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2405.08246.pdf](https://arxiv.org/pdf/2405.08246.pdf)
+
+### 주요 내용 요약
+
+1. **서론 및 배경**:
+   - 이 논문은 복잡한 텍스트 프롬프트를 처리하는 데 어려움을 겪는 기존 텍스트-이미지 모델의 문제를 해결하기 위해 **BlobGEN**이라는 새로운 방법을 제안합니다. BlobGEN은 장면을 모듈화되고 인간이 이해할 수 있는 **Dense Blob Representations**로 분해하여 세밀한 제어가 가능한 텍스트-이미지 변환을 가능하게 합니다. 이 방법은 블랍(Blob) 표현을 사용하여 텍스트 프롬프트에서 시각적 원시 요소를 생성하고, 이를 통해 더 정확하고 일관된 이미지 생성을 달성합니다.
+
+2. **방법론**:
+   - **Dense Blob Representations**: 블랍 표현은 장면의 시각적 세부 사항을 포함하는 모듈화된 표현으로, 각 블랍은 객체의 위치, 크기, 방향 등을 나타내는 매개변수와 객체의 외관, 스타일, 시각적 속성을 설명하는 텍스트 설명으로 구성됩니다.
+   - **Blob-Grounded Text-to-Image Diffusion Model**: BlobGEN은 기존의 확산 모델에 새로운 마스크드 크로스-어텐션 모듈을 추가하여 블랍 표현과 시각적 특징 간의 결합을 분리합니다. 이를 통해 각 블랍이 해당 지역의 시각적 특징만을 참조하도록 하여, 더 모듈화되고 독립적인 생성을 가능하게 합니다.
+   - **In-Context Learning**: 대규모 언어 모델(LLMs)을 사용하여 텍스트 프롬프트에서 블랍 표현을 생성하는 새로운 학습 방법을 설계했습니다. 이를 통해 복잡한 합성 이미지 생성 작업에서 뛰어난 성능을 발휘할 수 있습니다.
+
+3. **실험**:
+   - **MS-COCO 데이터셋**에서 BlobGEN의 제로샷 생성 품질을 평가한 결과, 기존 모델보다 우수한 성능을 보였으며, 레이아웃-가이드 생성에서 더 높은 정확도와 일관성을 달성했습니다. 예를 들어, BlobGEN은 제로샷 FID 점수를 10.40에서 8.61로 개선하였으며, 레이아웃-가이드 생성에서 GLIGEN보다 더 나은 성능을 보여주었습니다.
+   - **수치 및 공간 정확성**에서, BlobGEN은 NSR-1K 벤치마크에서 LayoutGPT보다 5.7% 및 1.4% 더 높은 정확도를 나타냈습니다.
+
+### 혁신적인 부분
+BlobGEN의 혁신성은 **Dense Blob Representations**를 도입하여 텍스트-이미지 변환의 세밀한 제어를 가능하게 하고, 새로운 마스크드 크로스-어텐션 모듈을 통해 블랍 표현과 시각적 특징 간의 결합을 분리하여 모듈화된 생성을 가능하게 한다는 점입니다. 또한, 대규모 언어 모델을 활용한 인-컨텍스트 학습을 통해 복잡한 합성 이미지 생성 작업에서 뛰어난 성능을 발휘할 수 있습니다. 이를 통해 BlobGEN은 텍스트 프롬프트를 기반으로 한 더 정확하고 일관된 이미지 생성을 가능하게 합니다.
diff --git a/summaries/2405.08295.md b/summaries/2405.08295.md
@@ -0,0 +1,20 @@
+# SpeechVerse: A Large-scale Generalizable Audio Language Model
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2405.08295.pdf](https://arxiv.org/pdf/2405.08295.pdf)
+
+### 주요 내용 요약
+
+1. **서론 및 배경**:
+   - 이 논문은 **SpeechVerse**라는 대규모 일반화 가능한 오디오 언어 모델을 소개합니다. 기존의 대규모 언어 모델(LLMs)은 자연어 명령을 이해하고 다양한 작업을 수행하는 데 뛰어난 성능을 보였지만, 비텍스트 모달리티를 인식하는 데 한계가 있었습니다. SpeechVerse는 사전 훈련된 음성 및 텍스트 기초 모델을 결합하여 다양한 음성 처리 작업을 수행할 수 있는 다중 작업 훈련 및 커리큘럼 학습 프레임워크를 제공합니다.
+
+2. **방법론**:
+   - **멀티모달 모델 아키텍처**: SpeechVerse는 사전 훈련된 오디오 인코더와 1-D 컨볼루션 모듈, 그리고 사전 훈련된 LLM으로 구성됩니다. 오디오 인코더는 음성 신호를 특징 시퀀스로 인코딩하고, 1-D 컨볼루션 모듈은 이 특징 시퀀스를 단축시켜 LLM이 이를 텍스트 명령과 결합하여 필요한 작업을 수행할 수 있도록 합니다.
+   - **다중 작업 및 커리큘럼 학습**: 다양한 음성 작업을 수행하기 위해 다중 작업 학습 및 감독된 명령 미세 조정을 사용합니다. 이 접근 방식은 모델이 음성 처리 작업에서 최적의 성능을 발휘할 수 있도록 합니다.
+
+3. **실험**:
+   - **다양한 작업에서의 성능 평가**: SpeechVerse는 11개의 고유 작업에서 기존의 작업별 기준 모델보다 우수한 성능을 보였습니다. 예를 들어, 음성 인식(ASR), 음성 번역(ST), 의도 분류(IC), 슬롯 채우기(SF), 감정 인식(ER) 등의 작업에서 뛰어난 성능을 입증했습니다.
+   - **일반화 성능 평가**: SpeechVerse는 훈련되지 않은 새로운 작업과 명령어에서도 뛰어난 성능을 발휘하여, 모델의 일반화 능력을 확인했습니다. 예를 들어, 새로운 프롬프트나 보지 못한 작업에 대해서도 우수한 성능을 보였습니다.
+
+### 혁신적인 부분
+SpeechVerse의 혁신성은 사전 훈련된 음성 및 텍스트 기초 모델을 결합하여 다양한 음성 처리 작업을 수행할 수 있는 다중 작업 학습 및 커리큘럼 학습 프레임워크를 제공하는 데 있습니다. 이 접근 방식은 기존의 작업별 모델보다 더 효율적이고 일반화 가능한 모델을 만들 수 있습니다. 또한, 다양한 작업과 새로운 명령어에 대한 강력한 성능을 입증하여, 향후 인간-컴퓨터 상호작용 및 다중모달 대화 에이전트의 발전에 기여할 수 있습니다.
diff --git a/summaries/2405.08317.md b/summaries/2405.08317.md
@@ -0,0 +1,20 @@
+# SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2405.08317.pdf](https://arxiv.org/pdf/2405.08317.pdf)
+
+### 주요 내용 요약
+
+1. **서론 및 배경**:
+   - 이 논문에서는 통합 음성 및 언어 모델(SLM)의 안전성과 견고성을 조사합니다. SLM은 음성 명령을 따르고 관련 텍스트 응답을 생성할 수 있는 모델로, 최근 들어 인기를 얻고 있습니다. 그러나 이러한 모델의 안전성과 견고성은 아직 명확하지 않습니다. 이 논문은 SLM이 적대적 공격과 탈옥(jailbreaking) 공격에 취약할 수 있음을 보여주고, 이를 방지하기 위한 대책을 제안합니다.
+
+2. **방법론**:
+   - **공격 알고리즘**: 백박스(white-box) 및 블랙박스(black-box) 공격 설정에서 인간 개입 없이 적대적 예제를 생성하는 알고리즘을 설계합니다. 백박스 공격에서는 모델의 기울기에 접근하여 공격을 수행하고, 블랙박스 공격에서는 다양한 모델 간의 전이 공격을 탐구합니다.
+   - **대책**: 탈옥 공격을 막기 위한 대책으로, 입력 음성 신호에 무작위 잡음을 추가하는 방식을 제안합니다. 이 방법은 모델의 프론트엔드 음성 인코더가 무작위 잡음에 견고하도록 하여, 적대적 방해를 효과적으로 무력화합니다.
+
+3. **실험**:
+   - **음성 질의응답(Spoken QA) 작업**: 다양한 SLM을 사용하여 안전성, 유용성, 생성된 응답의 관련성을 평가합니다. 백박스 공격에서는 기울기에 접근하여 barely perceptible perturbations(거의 인식할 수 없는 방해)으로 모델을 탈옥시키는 데 성공했습니다. 전이 공격에서는 한 모델에서 생성된 방해를 다른 모델에 적용하여 탈옥 성공률을 측정했습니다.
+   - **대책 효과**: 무작위 잡음 추가 방식을 적용하여 탈옥 공격 성공률을 크게 줄일 수 있음을 보였습니다. 추가된 잡음의 신호 대 잡음비(SNR) 값에 따라 방어 효과가 달라졌습니다.
+
+### 혁신적인 부분
+이 논문의 혁신성은 통합 음성 및 언어 모델(SLM)의 안전성과 견고성을 처음으로 체계적으로 평가하고, 적대적 공격에 대한 대책을 제안한 데 있습니다. 백박스 및 블랙박스 공격 설정에서 탈옥 공격의 성공률을 분석하고, 무작위 잡음 추가 방식이 효과적인 방어 대책이 될 수 있음을 입증하였습니다. 이 연구는 SLM의 잠재적 취약성을 이해하고 이를 방지하기 위한 기초 연구로서 중요한 기여를 합니다.
diff --git a/summaries/2405.08344.md b/summaries/2405.08344.md
@@ -0,0 +1,20 @@
+# No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2405.08344.pdf](https://arxiv.org/pdf/2405.08344.pdf)
+
+### 주요 내용 요약
+
+1. **서론 및 배경**:
+   - 이 논문에서는 **SqueezeTime**이라는 모바일 비디오 이해를 위한 경량 비디오 인식 네트워크를 제안합니다. 기존의 3D CNN 또는 2D CNN 기반의 비디오 인식 방법은 시간 축을 별도의 차원으로 간주하여 큰 계산 및 메모리 비용이 발생합니다. SqueezeTime은 시간 축을 채널 차원으로 압축하여 모바일 디바이스에서도 효율적인 비디오 이해를 가능하게 합니다.
+
+2. **방법론**:
+   - **채널-시간 학습(CTL) 블록**: SqueezeTime은 시간 축을 채널 차원으로 압축하고, CTL 블록을 통해 시퀀스의 시간적 역학을 캡처합니다. CTL 블록은 시간적 중요성을 학습하는 Temporal Focus Convolution (TFC)과 시간 위치 복원 기능을 갖춘 Inter-temporal Object Interaction (IOI) 모듈의 두 가지 보완적인 분기로 구성됩니다.
+   - **경량 백본 설계**: 비디오 시퀀스의 시간 축을 공간 채널 차원으로 압축하고, 이를 기반으로 경량 백본 네트워크를 설계합니다. 이 과정에서 CTL 블록을 사용하여 시간적 역학과 객체 표현을 학습합니다.
+
+3. **실험**:
+   - **다양한 벤치마크에서 성능 평가**: Kinetics400, Kinetics600, HMDB51, AVA2.1, THUMOS14 등의 비디오 인식 및 액션 감지 벤치마크에서 실험을 수행했습니다. SqueezeTime은 기존 방법보다 더 높은 정확도와 빠른 처리 속도를 보여주었습니다. 예를 들어, Kinetics400에서 1.2% 높은 정확도와 80% 더 빠른 GPU 처리량을 달성했습니다.
+   - **성능 분석**: 다양한 구성 요소의 효과를 분석하기 위해 많은 비교 실험을 수행했습니다. 예를 들어, CTL 블록의 두 가지 분기를 모두 사용할 때 가장 높은 성능을 기록했으며, TFC와 IOI 모듈이 모두 성능 향상에 중요한 역할을 함을 확인했습니다.
+
+### 혁신적인 부분
+SqueezeTime의 혁신성은 비디오 시퀀스의 시간 축을 채널 차원으로 압축하여 모바일 디바이스에서도 효율적으로 비디오 이해를 가능하게 한 점에 있습니다. CTL 블록을 통해 시간적 역학을 학습하고 복원하는 방식은 기존의 3D CNN 또는 2D CNN 기반의 비디오 인식 방법보다 경량화되고 빠른 성능을 제공합니다. 이러한 접근 방식은 특히 모바일 환경에서 높은 정확도와 낮은 계산 비용으로 비디오 분석 작업을 수행할 수 있도록 합니다.