Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Jul 1, 2024
1 parent b4370dc commit 5d136e1
Show file tree
Hide file tree
Showing 3 changed files with 68 additions and 0 deletions.
2 changes: 2 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,9 +1,11 @@
# Paper List
## 2406
#### [Gemma 2: Improving Open Language Models at a Practical Size](summaries/2406.gemma2.md)
#### [Scaling Synthetic Data Creation with 1,000,000,000 Personas](summaries/2406.20094.md)
#### [Dataset Size Recovery from LoRA Weights](summaries/2406.19395.md)
#### [OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding](summaries/2406.19389.md)
#### [LiveBench: A Challenging, Contamination-Free LLM Benchmark](summaries/2406.19314.md)
#### [HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale](summaries/2406.19280.md)
#### [Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding](summaries/2406.19263.md)
#### [Aligning Teacher with Student Preferences for Tailored Training Data Generation](summaries/2406.19227.md)
#### [Simulating Classroom Education with LLM-Empowered Agents](summaries/2406.19226.md)
Expand Down
23 changes: 23 additions & 0 deletions summaries/2406.19280.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,23 @@
# HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
## TL;DR
## Summary
- [https://arxiv.org/pdf/2406.19280.pdf](https://arxiv.org/pdf/2406.19280.pdf)

### 1. 각 섹션 요약

#### Introduction
논문은 멀티모달 대형 언어 모델(MLLMs)인 GPT-4V와 같이 발전하는 모델들이 의료 멀티모달 능력에서 여전히 한계를 겪는다고 언급합니다. 데이터 프라이버시 문제와 고 비용의 주석 작업으로 인해 의료 이미지-텍스트 데이터의 양과 질이 부족하다고 설명합니다. 이러한 문제를 해결하기 위해 PubMed의 대규모 익명화된 의료 이미지-텍스트 쌍을 활용하는 시도를 소개합니다. 하지만 기존 데이터의 노이즈 문제를 해결하기 위해 GPT-4V를 활용한 'unblinded' 방식으로 데이터 정제를 통해 PubMedVision이라는 새로운 데이터셋을 개발했습니다.

#### Medical Visual Alignment in MLLMs
이 섹션은 기존 의료 시각적 질문 응답(VQA) 데이터와 주류 데이터셋 간의 비교를 다룹니다. 기존 데이터셋(VQA-RAD, SLAKE, PathVQA)은 크기와 모달리티 면에서 한계가 있으며, 'blinded' LLMs를 사용해 생성된 VQA 데이터셋은 잘못된 해석과 정렬 문제를 야기합니다. 이와 달리 PubMedVision은 더 큰 규모와 높은 품질의 의료 VQA 데이터셋으로 설명됩니다.

#### PubMedVision Dataset Construction
PubMedVision은 1.3백만 개의 의료 VQA 샘플을 포함한 대규모 데이터셋입니다. 이는 GPT-4V를 통해 자운즈된 의료 이미지-텍스트 쌍에서 생성되었습니다. 실험 결과, PubMedVision은 MLLMs의 의료 멀티모달 능력을 크게 향상시키며, 특히 MMMU Health & Medicine 트랙에서 유의미한 개선을 보여줍니다.

#### Experiment Setup
실험 설정에서는 세 종류의 벤치마크(의료 VQA, 멀티모달 벤치마크, 전통적인 의료 이미지 과업)를 사용하여 PubMedVision이 MLLMs의 성능을 어떻게 향상시키는지 평가합니다. LLaVA-v1.5-LLaMA3-8B 모델을 기반으로 PubMedVision 데이터를 추가했을 때 성능이 크게 향상됨을 확인했습니다. PubMedVision을 사용한 HuatuoGPT-Vision 모델은 여러 의료 멀티모달 벤치마크에서 뛰어난 성능을 보였습니다.

### 2. 전체 요약
이 논문은 멀티모달 대형 언어 모델(MLLMs)의 의료 응용 한계를 극복하기 위해 새로운 데이터셋인 PubMedVision을 소개합니다. 기존 데이터셋의 노이즈 문제를 해결하기 위해 GPT-4V를 활용한 'unblinded' 데이터 정제 방법을 도입하였고, 이를 통해 1.3백만 개의 고품질 의료 VQA 샘플을 포함한 대규모 데이터셋을 개발했습니다. 실험 결과, PubMedVision은 MLLMs의 의료 멀티모달 능력을 크게 향상시키며, 다양한 벤치마크 테스트에서 뛰어난 성능을 보였습니다.

이 논문의 주요 기여와 혁신점은 고품질의 대규모 의료 멀티모달 데이터셋을 구축하고 이를 통해 MLLMs의 성능을 높이는 방법을 제시한 것입니다. 이를 통해 의료 분야에서 MLLMs의 활용 가능성을 크게 확장하였습니다.
43 changes: 43 additions & 0 deletions summaries/2406.20094.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,43 @@
# Scaling Synthetic Data Creation with 1,000,000,000 Personas
## TL;DR
## Summary
- [https://arxiv.org/pdf/2406.20094.pdf](https://arxiv.org/pdf/2406.20094.pdf)

### 1. 각 섹션별 주요 내용 요약 및 설명:

#### 1.1 서론
논문은 데이터 생성에 있어 인공지능의 역할이 커지고 있음을 강조합니다. 기존에는 인간이 데이터 생성을 맡고, 대형 언어 모델(LLM)이 그 데이터를 처리하는 역할을 맡았으나, 이 연구는 LLM이 직접 데이터를 생성할 수 있는 방법론을 제시합니다.

주요 기여: Persona Hub라는 툴을 통해 LLM이 다양한 페르소나를 기반으로 새로운 데이터를 생성할 수 있는 능력을 가질 수 있습니다.

#### 1.2 Persona Hub
Persona Hub는 10억 개의 다양한 페르소나를 포함하고 있으며, 웹 데이터를 기반으로 자동으로 생성됩니다. 이 페르소나들은 각기 다른 지식과 경험을 가지고 있으며, 이를 활용하여 LLM이 다양한 관점에서 데이터를 생성할 수 있습니다.

주요 기여: 다양한 페르소나를 통해 생성된 데이터는 기존의 인간 생성 데이터와 비교했을 때 더 폭넓고 다양합니다.

#### 1.3 페르소나 기반 데이터 생성
페르소나 기반으로 데이터 생성을 할 때, 다양한 페르소나를 사용하여 더 많은 양의 데이터와 다양성을 확보할 수 있습니다. 이를 통해 수학 문제, 논리적 추론 문제, 사용자 프롬프트, 지식기반 텍스트 등 다양한 유형의 데이터를 대규모로 생성할 수 있습니다.

주요 기여: 데이터를 생성할 때 단순히 알고리즘을 통해서가 아니라, 페르소나를 활용하여 더 현실감 있는 데이터를 생성할 수 있습니다.

#### 1.4 사용 사례
- **수학 문제**: 복잡한 수학 문제를 다양한 난이도로 생성가능.
- **논리적 추론 문제**: 논리적 사고를 요구하는 문제를 생성 가능.
- **사용자 프롬프트**: 다양한 실제 시나리오에 기반한 사용자 질문을 생성 가능.
- **게임 NPC (비 플레이어 캐릭터)**: 다양한 성격과 배경을 가진 게임 캐릭터 생성 가능.

#### 1.5 윤리적 고려사항
재훈련 데이터의 보안성과 현재의 LLM 지배력에 대한 위협 등의 윤리적 문제를 다룹니다. 이 문제는 생성된 데이터가 실제 데이터와 유사할 정도로 세밀하게 만들어질 수 있어, 데이터 보안이 중요한 문제로 부각됩니다.

주요 기여: 윤리적으로 데이터를 활용할 수 있도록 가이드라인을 제시합니다.

#### 1.6 결론 및 미래 연구
논문은 Persona Hub의 첫 버전을 통해 페르소나 기반의 데이터 생성 방법론을 제안합니다. 페르소나의 세밀한 배경과 특성을 추가하여 더 현실감 있는 데이터 생성을 목표로 하고, 멀티모달 데이터 생성으로의 확장을 계획하고 있습니다.

주요 기여: Persona Hub의 발전 가능성과 향후 연구 방향을 설명합니다.

### 2. 전체 요약:

본 논문은 LLM을 활용한 페르소나 기반 데이터 생성 방법론을 제안하고, 이를 통해 다양한 유형의 데이터를 생성할 수 있는 가능성을 탐구합니다. 핵심적인 기여는 Persona Hub라는 툴을 통해 10억 개 이상의 다양한 페르소나를 기반으로 데이터를 생성함으로써 더 현실적이고 풍부한 데이터를 확보할 수 있다는 점입니다. 이를 통해 수학 문제, 논리적 추론 문제, 사용자 프롬프트, 게임 NPC 등 다양한 용도로 데이터를 생성할 수 있으며, 이는 데이터 생성의 새로운 패러다임을 제시합니다. 또한, 윤리적 이슈들을 다루며 향후 발전 방향을 제시합니다.

기술적 진보와 윤리적 고려사항을 모두 아우르는 이 연구는 AI와 데이터 과학 분야에 크게 이바지할 것으로 기대됩니다.

0 comments on commit 5d136e1

Please sign in to comment.