Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Jul 4, 2024
1 parent 8431a4d commit 6d473cf
Show file tree
Hide file tree
Showing 9 changed files with 257 additions and 0 deletions.
8 changes: 8 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,9 +1,16 @@
# Paper List
## 2407
#### [InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output](summaries/2407.03320.md)
#### [DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents](summaries/2407.03300.md)
#### [Investigating Decoder-only Large Language Models for Speech-to-text Translation](summaries/2407.03169.md)
#### [PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation](summaries/2407.02869.md)
#### [No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models](summaries/2407.02687.md)
#### [A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses](summaries/2407.02551.md)
#### [MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention](summaries/2407.02490.md)
#### [Magic Insert: Style-Aware Drag-and-Drop](summaries/2407.02489.md)
#### [Understanding Alignment in Multimodal LLMs: A Comprehensive Study](summaries/2407.02477.md)
#### [Consistency Flow Matching: Defining Straight Flows with Velocity Consistency](summaries/2407.02398.md)
#### [TokenPacker: Efficient Visual Projector for Multimodal LLM](summaries/2407.02392.md)
#### [OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation](summaries/2407.02371.md)
#### [To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models](summaries/2407.01920.md)
#### [μ-Bench: A Vision-Language Benchmark for Microscopy Understanding](summaries/2407.01791.md)
Expand Down Expand Up @@ -42,6 +49,7 @@
#### [Dataset Size Recovery from LoRA Weights](summaries/2406.19395.md)
#### [OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding](summaries/2406.19389.md)
#### [The Remarkable Robustness of LLMs: Stages of Inference?](summaries/2406.19384.md)
#### [TabReD: A Benchmark of Tabular Machine Learning in-the-Wild](summaries/2406.19380.md)
#### [Efficient World Models with Context-Aware Tokenization](summaries/2406.19320.md)
#### [LiveBench: A Challenging, Contamination-Free LLM Benchmark](summaries/2406.19314.md)
#### [From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data](summaries/2406.19292.md)
Expand Down
24 changes: 24 additions & 0 deletions summaries/2406.19380.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# TabReD: A Benchmark of Tabular Machine Learning in-the-Wild
## TL;DR
## Summary
- [https://arxiv.org/pdf/2406.19380.pdf](https://arxiv.org/pdf/2406.19380.pdf)

### 섹션별 요약

#### 1. 소개 (Introduction)
본 논문에서는 산업용 머신러닝을 위한 데이터셋의 특징을 분석하고, 기존 학술 데이터셋의 한계를 파악하였습니다. 특히 시간에 따른 데이터 변화와 다양한 특징의 중요성을 강조하며, 이를 대비하기 위한 새로운 벤치마크 데이터셋 TabReD를 소개하였습니다. TabReD는 실제 산업 데이터를 기반으로 하여 학술 데이터셋의 한계를 보완하는 것을 목표로 합니다.

#### 2. 관련 연구 (Related Work)
표형 데이터 딥러닝(탭러닝)에 대한 최신 연구를 검토하였으며, 주요 데이터 소스와 기존 벤치마크의 한계를 분석했습니다. 특히 학술 데이터셋이 산업용 데이터를 충분히 대표하지 못하는 문제점과 시간정보 부족, 데이터 유출 등의 문제를 강조하였습니다.

#### 3. TabReD 벤치마크 (TabReD Benchmark)
TabReD는 금융부터 음식 배달 서비스까지 다양한 분야를 포함하는 8개의 산업용 데이터셋으로 구성됩니다. 이 데이터셋은 시간 기반으로 데이터를 분할하여 실제 애플리케이션에 더 가까운 평가를 가능하게 합니다. 또한, 특징 엔지니어링을 통해 더 많은 예측 특징을 포함하고 있습니다.

#### 4. 실험 결과 (Experiments)
다양한 머신러닝 모델을 TabReD 데이터셋에서 평가하였고, 심플한 MLP와 GBDT 모델이 가장 우수한 성능을 보였습니다. 반면, 복잡한 딥러닝 모델은 성능이 떨어졌습니다. 이는 TabReD가 실제 산업 데이터의 특성을 잘 반영하고 있음을 시사합니다.

#### 5. 제한 사항과 향후 연구 (Limitations and Future Work)
TabReD는 대규모 데이터셋과 특징 엔지니어링을 포함하는데 주로 산업용 ML 애플리케이션에 초점을 맞추고 있습니다. 중요한 도메인인 의학, 과학, 사회적 데이터는 포함되지 않았으며, 향후 연구에서는 지속적인 학습, 점진적 시간 이동 완화, 누락 데이터 보강, 특징 선택 등 다양한 문제를 탐구할 필요가 있습니다.

### 전반적인 요약
본 논문에서는 기존 학술 데이터셋이 실제 산업용 데이터의 특성을 충분히 반영하지 못하는 문제를 지적하며, 실제 산업 데이터를 기반으로 한 새로운 벤치마크 데이터셋 TabReD를 소개하였습니다. TabReD는 시간 기반 데이터 분할의 중요성을 강조하며, 더 많은 예측 특징을 포함하여 실제 애플리케이션에 더 가까운 평가를 가능하게 합니다. 실험을 통해 단순한 모델이 더 나은 성능을 보이는 것을 확인하였고, 이는 TabReD가 실제 산업 데이터를 잘 반영하고 있음을 시사합니다. 이러한 연구는 실질적인 문제 해결을 위한 벤치마크 개발의 중요성을 강조하며, 향후 다양한 도메인에서의 탐구와 발전 가능성을 열어나갈 방향을 제시합니다.
25 changes: 25 additions & 0 deletions summaries/2407.02392.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
# TokenPacker: Efficient Visual Projector for Multimodal LLM
## TL;DR
## Summary
- [https://arxiv.org/pdf/2407.02392.pdf](https://arxiv.org/pdf/2407.02392.pdf)

### 1. 각 섹션 요약 및 주요 기여 내용

#### Introduction (소개)
이 논문은 최근 대두되고 있는 대형 언어 모델(LLM)과 멀티모달 대형 언어 모델(MLLM)의 중요성을 강조합니다. 특히 시각 정보와 언어 정보를 통합하여 더 나은 이해 및 추론 능력을 갖춘 모델을 개발하는 것이 목표입니다. MLLM의 효율성을 높이기 위해 시각적 토큰의 수를 줄이는 방법을 연구합니다.

#### Related Work (관련 연구)
멀티모달 대형 언어 모델의 발전과 시각 프로젝트의 역할을 다룹니다. 기존 접근 방식들은 시각적 정보를 언어 모델로 변환하는데 비효율적이라는 문제점이 있습니다. 논문은 이러한 문제를 해결하기 위해 새로운 접근 방식을 제안합니다.

#### Method (방법론)
논문은 새로운 시각적 프로젝터인 TokenPacker를 제안합니다. TokenPacker는 고해상도 이미지를 효율적으로 처리하기 위해 설계되었으며 저해상도 쿼리를 고해상도 키와 값으로 업데이트하는 방식을 사용하여 시각적 토큰의 수를 줄입니다. 이 방법을 통해 멀티모달 대형 언어 모델의 효율성과 정확성을 높일 수 있습니다.

#### Experiments (실험)
여러 멀티모달 벤치마크에서의 실험 결과를 통해 제안된 방법의 효율성과 정확성을 검증합니다. TokenPacker는 시각적 토큰의 수를 기존 방법보다 크게 줄이면서도 뛰어난 성능을 보여주었습니다.

#### Conclusion (결론)
논문은 제안된 TokenPacker의 장점, 예를 들어 토큰 수를 줄이면서도 높은 성능을 유지할 수 있는 점을 강조합니다. 이러한 접근 방식은 실세계의 이미지나 비디오 이해와 같은 멀티모달 응용에 유용할 수 있습니다. 하지만 여전히 모델의 견고성 문제로 인해 일어날 수 있는 잠재적 오류를 방지하기 위한 엄격한 보안 프로토콜이 필요함을 지적합니다.

### 2. 전체 요약

이 논문은 시각 정보와 언어 정보를 결합한 멀티모달 대형 언어 모델의 효율성을 높이는 방법을 연구합니다. 대표적인 기여는 새로운 시각적 프로젝터인 TokenPacker를 제안한 것입니다. TokenPacker는 저해상도 쿼리를 고해상도 키와 값으로 업데이트하여 시각적 토큰의 수를 크게 줄이면서도 높은 성능을 유지합니다. 여러 멀티모달 벤치마크 실험에서 이 방법의 효율성과 정확성이 검증되었으며, 특히 고해상도 이미지 이해에서 뛰어난 성과를 보였습니다. 이러한 연구는 멀티모달 모델의 발전에 기여하며 실세계 응용에 중요한 함의를 가지고 있습니다.
29 changes: 29 additions & 0 deletions summaries/2407.02551.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,29 @@
# A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
## TL;DR
## Summary
- [https://arxiv.org/pdf/2407.02551.pdf](https://arxiv.org/pdf/2407.02551.pdf)

### 요약:

1. **요약본 및 주요 기여 내용**

#### **Abstract**
이 논문은 대형 언어 모델(LLM)의 취약성과 이러한 모델의 응답에서 발생하는 정보 누출에 대해 다룹니다. 주로 LLM의 '탈옥(jailbreak)' 및 악의적인 공격을 방어하기 위한 정보 검열 메커니즘에 초점을 맞추고 있습니다. 연구의 주요 기여는:
1. 정보 이론적 프레임워크를 설정하여 공격자의 공격을 이해하고 방어책을 정의.
2. 무작위 응답 메커니즘을 제안하여 공격자를 막고 안전-유틸리티 트레이드를 설명.
3. AI 안전 목적 달성을 위한 검열 메커니즘 설계 및 유틸리티 비용 분석.


#### **Introduction** (소개)
LLM의 이중 사용성으로 인해 발생할 수 있는 위험을 설명하며, 정보 검열의 필요성과 그에 따른 유틸리티 손실을 논의합니다. 탈옥 기법을 통해 모델의 내장 제어를 우회할 수 있는 취약성을 강조합니다. Trojan Horse와 같은 방법이 악의적인 정보 누출을 어떻게 가능하게 하는지 예시를 통해 설명합니다.

#### **Related Work** (관련 연구)
기존의 연구는 주로 AI 모델의 보안과 프라이버시에 초점을 맞췄습니다. 이 논문은 이러한 기존 연구와 달리 정보 검열 메커니즘을 제안하여 AI 모델의 안전성을 보장하려 합니다. 다른 연구와 달리 컴포지션 공격(composition attacks)을 방어하기 위해 정보 검열 메커니즘을 활용.

#### **Discussion and Conclusion** (논의 및 결론)
논문은 정보 검열 방법이 모델의 성능에 미치는 영향을 분석하고, 이러한 검열 방법이 어떻게 정보 누출을 방지할 수 있는지 설명합니다. 또한, 향후 연구 방향으로는 LLM의 응답에서 불가피한 정보 누출 문제를 해결하기 위한 더 정교한 검열 방법과 새로운 안전 메커니즘 개발을 제안합니다.

2. **전반적인 요약**
이 논문은 LLM과 같은 대형 언어 모델의 안전성 문제와 이를 해결하기 위한 정보 검열 메커니즘에 대해 다룹니다. 주요 기여로는 정보 검열 메커니즘을 제안하고, AI 모델의 응답에서 발생할 수 있는 정보 누출을 최소화하는 방법을 제시합니다. 이것은 AI 모델의 이중 사용성 문제를 다루고, 정보 검열이 모델의 유용성에 미치는 영향을 분석합니다. 핵심적인 혁신은 무작위 응답 메커니즘을 도입하여 유틸리티와 안전성을 동시에 확보하려는 노력입니다. 향후 연구 방향으로는 더욱 정교한 검열 메커니즘과 새로운 안전 메커니즘의 개발이 제안되고 있습니다.

이 요약은 연설 자료 및 발표 준비를 도울 수 있습니다. 필요한 경우 더 구체적인 내용을 추가하거나 원문을 참고하여 깊이 있는 이해를 도울 수 있습니다.
42 changes: 42 additions & 0 deletions summaries/2407.02687.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,42 @@
# No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models
## TL;DR
## Summary
- [https://arxiv.org/pdf/2407.02687.pdf](https://arxiv.org/pdf/2407.02687.pdf)

### 1. 섹션별 요약

#### 1.1 Introduction
이 논문은 "Classifier-Free Guidance (CFG)"를 분석하고, 무조건적 모델 훈련 없이 동일한 효과를 내는 새로운 방법을 제안합니다. 이 주제로 "Independent Condition Guidance (ICG)"와 "Time-step Guidance (TSG)"를 소개합니다. ICG는 조건 벡터를 독립적으로 사용하여 무조건적 점수 함수를 추정하며, TSG는 시간 단계 정보를 이용하여 생성 품질을 향상시킵니다.

#### 1.2 Related Work
기존의 점수 기반 확산 모델과 다양한 발전 방법들이 언급되며, 특히 "Classifier Guidance"와 "Classifier-Free Guidance"의 중요성이 강조됩니다. 최근 연구들은 유넷(UNet) 기반 확산 모델의 예측을 수정하는 방법을 제안하였으며, 이는 ICG와 결합할 수 있습니다.

#### 1.3 Background
확산 모델의 기본 개념과 이론적 배경에 대한 설명이 포함되며, 확산 과정이 데이터에 노이즈를 추가하는 과정을 다룹니다.

#### 1.4 Methodology
- **Independent Condition Guidance (ICG)**: 무조건적 모델의 별도 훈련 없이 CFG의 효과를 재현합니다.
- **Time-step Guidance (TSG)**: 시간 단계 정보를 활용해 더욱 정확한 샘플링 경로를 유도하여 생성 품질을 향상시킵니다.

#### 1.5 Experiments
ICG와 TSG의 성능 평가를 위해 다양한 실험이 수행되었으며, 결과는 두 방법이 CFG와 유사한 성능을 보이는 것으로 나타났습니다. 또한, 다양한 네트워크 아키텍처에서도 적용 가능합니다.

#### 1.6 Results
ICG와 TSG의 성능은 다양한 조건과 무조건 생성 모델에서 품질 향상 효과를 보였습니다. 특히, ICG는 별도의 무조건 모델 없이도 높은 품질을 달성할 수 있습니다.

#### 1.7 Ablation Studies
ICG와 TSG의 하이퍼파라미터 조정에 따른 결과를 분석하여, 최적의 균형점을 찾기 위한 여러 설정을 테스트하였습니다.

#### 1.8 Conclusion
논문은 ICG와 TSG가 CFG의 복잡한 훈련 절차 없이도 높은 생성 품질을 달성할 수 있음을 강조하며, 향후 연구 방향으로 샘플링 비용을 줄이는 방법에 대해 언급하고 있습니다.

### 2. 전체 요약
이 논문은 "Classifier-Free Guidance (CFG)"의 문제점을 해결하기 위해 두 가지 새로운 방법, "Independent Condition Guidance (ICG)"와 "Time-step Guidance (TSG)"를 제안합니다. 이 방법들은 기존의 복잡한 훈련 절차 없이도 높은 생성 품질을 유지하면서 다양한 조건과 무조건 모델에 적용할 수 있습니다. 실험 결과, ICG와 TSG는 다양한 네트워크 아키텍처에서 탁월한 성능을 보였으며, 향후 샘플링 비용을 줄이기 위한 연구가 필요함을 시사합니다.

이 요약을 바탕으로 프레젠테이션을 준비할 수 있습니다. 논문의 주요 기여점은 다음과 같습니다:
1. "Independent Condition Guidance (ICG)"의 제안으로 무조건 모델 훈련 없이도 높은 품질의 생성 가능.
2. "Time-step Guidance (TSG)"의 제안으로 시간 단계 정보를 활용한 생성 품질 향상.
3. 두 방법 모두 구현이 쉽고, 기존의 확산 모델 아키텍처에 쉽게 적용 가능.
4. 다양한 실험을 통해 두 방법의 유효성 검증.

이 논문은 AI 생성 모델의 훈련 효율성과 생성 품질 향상에 대한 새로운 전략을 제시하며, 미래의 연구 방향에 중요한 토대를 제공합니다.
34 changes: 34 additions & 0 deletions summaries/2407.02869.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,34 @@
# PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
## TL;DR
## Summary
- [https://arxiv.org/pdf/2407.02869.pdf](https://arxiv.org/pdf/2407.02869.pdf)

### 1. 섹션별 주요 내용 요약 및 설명

#### 1.1 서론
최근 오디오 생성 작업은 상당한 연구 관심을 받고 있습니다. 특히, 텍스트 기반 오디오 생성과 스타일 전환, 장면 제어 등에서 큰 진전을 이루었습니다. 그러나 기존 모델들은 오디오 이벤트 발생 시간을 정확히 제어하는 데 어려움을 겪고 있습니다. PicoAudio는 이러한 문제를 해결하기 위해 설계되었으며, 오디오 이벤트의 시간 및 발생 빈도를 정밀하게 제어할 수 있는 프레임워크입니다.

#### 1.2 시간 제어 가능한 모델
PicoAudio는 자동으로 데이터를 수집하고 텍스트 프로세서를 통해 오디오 생성 모델의 시간 인식을 개선합니다. 이를 위해 데이터 시뮬레이션, 텍스트 처리, 오디오 표현, 확산 모델을 사용합니다.

- **데이터 시뮬레이션**: 웹에서 오디오 클립을 크롤링하고, 텍스트-오디오 매칭 모델을 통해 이벤트 발생 시간을 추출합니다.
- **텍스트 프로세서**: 입력된 텍스트 정보를 타임스탬프 형식으로 변환하여 모델에 제공합니다.
- **오디오 표현**: 변형 오토인코더(VAE)를 사용하여 오디오 스펙트로그램을 압축한 후, 복원하여 시간 인식성을 높입니다.
- **확산 모델**: 시간 매트릭스와 이벤트 임베딩을 바탕으로 예측 값을 생성하여 점진적으로 노이즈를 줄여나가며 최종 오디오를 생성합니다.

#### 1.3 실험
PicoAudio의 주요 평가 항목으로 시간 제어와 빈도 제어 정확성을 평가합니다. 주관적 평가에서는 생성된 오디오의 자연스러움, 왜곡, 이벤트 정확성을 고려합니다. 객관적 평가는 주요 지표로 FAD(Frechet Audio Distance)와 주파수 오류(Lfreq1)를 사용합니다.

#### 1.4 결과
PicoAudio는 단일 이벤트와 다중 이벤트 모두에서 높은 시간 정밀도를 보여주었습니다. 주로 주어진 텍스트 정보를 바탕으로 시간 매트릭스 케빈 버트를 통해 최종 오디오가 정밀하게 제어되었습니다. 또한, LLM의 텍스트 처리 능력 덕분에 다양한 시간 제어 기능을 가능하게 했습니다. 단점으로는 오디오 소스의 제한으로 일시적으로 제한된 수의 이벤트만 제어할 수 있다는 점이 있습니다.

#### 1.5 결론
기존 오디오 생성 모델들은 시간 제어 성능이 부족했지만, PicoAudio는 웹 크롤링, 세그먼트 추출 및 시뮬레이션을 통해 시간 제어를 개선하였습니다. 모델 설계 측면에서는 세밀한 시간 정보 처리를 통해 기존 모델들을 능가합니다. 향후 연구 방향은 이벤트 수를 확장하고 시간 외에 발생 순서와 같은 고급 제어 기능을 추가하는 것입니다.

### 2. 전체 요약

PicoAudio는 오디오 생성 작업에서 시간 및 발생 빈도 제어의 필요성에 중점을 둔 새로운 프레임워크입니다. 이를 통해 기존 모델들이 해결하지 못한 시간 제어 문제를 해결했습니다. 주요 구성 요소로는 데이터 시뮬레이션, 텍스트 처리기, 오디오 표현 및 확산 모델이 있으며, 주관적 평가와 객관적 평가 모두에서 우수한 성능을 보였습니다. 특히, LLM의 강력한 텍스트 처리 능력을 활용하여 다양한 시간 제어 기능을 구현하였고, 시간 제어의 정밀도를 대폭 향상시켰습니다. 이 연구는 오디오 생성에서 시간 및 빈도 제어의 새로운 가능성을 열어주며, 앞으로 이를 확장하는 연구가 필요합니다.

---

이 요약을 바탕으로 발표 자료를 구성할 수 있습니다. PicoAudio의 설계 원리와 성능 결과를 중심으로 설명하면 듣는 사람이 쉽게 이해할 수 있을 것입니다.
Loading

0 comments on commit 6d473cf

Please sign in to comment.