Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Jun 29, 2024
1 parent ed35eed commit b4370dc
Show file tree
Hide file tree
Showing 11 changed files with 387 additions and 0 deletions.
10 changes: 10 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,8 +7,10 @@
#### [Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding](summaries/2406.19263.md)
#### [Aligning Teacher with Student Preferences for Tailored Training Data Generation](summaries/2406.19227.md)
#### [Simulating Classroom Education with LLM-Empowered Agents](summaries/2406.19226.md)
#### [T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings](summaries/2406.19223.md)
#### [SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation](summaries/2406.19215.md)
#### [MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data](summaries/2406.18790.md)
#### [Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation](summaries/2406.18676.md)
#### [Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs](summaries/2406.18629.md)
#### [Symbolic Learning Enables Self-Evolving Agents](summaries/2406.18532.md)
#### [MatchTime: Towards Automatic Soccer Game Commentary Generation](summaries/2406.18530.md)
Expand All @@ -17,6 +19,7 @@
#### [WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs](summaries/2406.18495.md)
#### [A Closer Look into Mixture-of-Experts in Large Language Models](summaries/2406.18219.md)
#### [ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models](summaries/2406.18125.md)
#### [Poisoned LangChain: Jailbreak LLMs by LangChain](summaries/2406.18122.md)
#### [ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs](summaries/2406.18120.md)
#### [Octo-planner: On-device Language Model for Planner-Action Agents](summaries/2406.18082.md)
#### [Fast and Uncertainty-Aware SVBRDF Recovery from Multi-View Capture using Frequency Domain Analysis](summaries/2406.17774.md)
Expand All @@ -32,6 +35,7 @@
#### [Benchmarking Mental State Representations in Language Models](summaries/2406.17513.md)
#### [Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA](summaries/2406.17419.md)
#### [Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models](summaries/2406.17294.md)
#### [D2LLM: Decomposed and Distilled Large Language Models for Semantic Search](summaries/2406.17262.md)
#### [Unlocking Continual Learning Abilities in Language Models](summaries/2406.17245.md)
#### [Large Language Models Assume People are More Rational than We Really are](summaries/2406.17055.md)
#### [Understanding and Diagnosing Deep Reinforcement Learning](summaries/2406.16979.md)
Expand Down Expand Up @@ -80,6 +84,7 @@
#### [Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models](summaries/2406.14599.md)
#### [Model Merging and Safety Alignment: One Bad Model Spoils the Bunch](summaries/2406.14563.md)
#### [Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities](summaries/2406.14562.md)
#### [GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models](summaries/2406.14550.md)
#### [Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs](summaries/2406.14544.md)
#### [IRASim: Learning Interactive Real-Robot Action Simulators](summaries/2406.14540.md)
#### [Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps](summaries/2406.14539.md)
Expand Down Expand Up @@ -170,6 +175,7 @@
#### [Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance](summaries/2406.11139.md)
#### [WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences](summaries/2406.11069.md)
#### [THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation](summaries/2406.10996.md)
#### [AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models](summaries/2406.10900.md)
#### [The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing](summaries/2406.10601.md)
#### [From Pixels to Prose: A Large Dataset of Dense Image Captions](summaries/2406.10328.md)
#### [L4GM: Large 4D Gaussian Reconstruction Model](summaries/2406.10324.md)
Expand Down Expand Up @@ -309,6 +315,7 @@
#### [Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models](summaries/2406.04271.md)
#### [Open-Endedness is Essential for Artificial Superhuman Intelligence](summaries/2406.04268.md)
#### [Hypernetworks for Personalizing ASR to Atypical Speech](summaries/2406.04240.md)
#### [Confabulation: The Surprising Value of Large Language Model Hallucinations](summaries/2406.04175.md)
#### [AgentGym: Evolving Large Language Model-based Agents across Diverse Environments](summaries/2406.04151.md)
#### [Are We Done with MMLU?](summaries/2406.04127.md)
#### [Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation](summaries/2406.03881.md)
Expand Down Expand Up @@ -353,6 +360,7 @@
#### [Xwin-LM: Strong and Scalable Alignment Practice for LLMs](summaries/2405.20335.md)
#### [GECO: Generative Image-to-3D within a SECOnd](summaries/2405.20327.md)
#### [DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation](summaries/2405.20289.md)
#### [Grokfast: Accelerated Grokking by Amplifying Slow Gradients](summaries/2405.20233.md)
#### [MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model](summaries/2405.20222.md)
#### [Jina CLIP: Your CLIP Model Is Also Your Text Retriever](summaries/2405.20204.md)
#### [GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning](summaries/2405.20139.md)
Expand Down Expand Up @@ -483,6 +491,7 @@
#### [SpeechVerse: A Large-scale Generalizable Audio Language Model](summaries/2405.08295.md)
#### [Compositional Text-to-Image Generation with Dense Blob Representations](summaries/2405.08246.md)
#### [Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning](summaries/2405.08054.md)
#### [A Survey of Large Language Models for Graphs](summaries/2405.08011.md)
#### [Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots](summaries/2405.07990.md)
#### [The Platonic Representation Hypothesis](summaries/2405.07987.md)
#### [PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition](summaries/2405.07932.md)
Expand Down Expand Up @@ -810,6 +819,7 @@
#### [MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT](summaries/2402.16840.md)
#### [Training Neural Networks from Scratch with Parallel Low-Rank Adapters](summaries/2402.16828.md)
#### [FuseChat: Knowledge Fusion of Chat Models](summaries/2402.16107.md)
#### [OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining](summaries/2402.15810.md)
#### [MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases](summaries/2402.14905.md)
#### [Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs](summaries/2402.14740.md)
#### [Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models](summaries/2402.14714.md)
Expand Down
25 changes: 25 additions & 0 deletions summaries/2402.15810.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
# OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining
## TL;DR
## Summary
- [https://arxiv.org/pdf/2402.15810.pdf](https://arxiv.org/pdf/2402.15810.pdf)

### 섹션별 요약 및 설명:

#### 1. Introduction (소개)
이 논문은 "Open Academic Graph (OAG)"를 기반으로 한 새로운 벤치마크 "OAG-Bench"를 소개합니다. 이는 학술 그래프 마이닝을 위한 다재다능하고 포괄적인 벤치마크로, 10가지 과제, 20개의 데이터셋, 70개 이상의 기준선을 포함하고 있습니다. 주요 목표는 학술 그래프의 다양한 측면에 대해 정교하고 세밀한 주석을 제공하고, 연구자들이 쉽게 접근할 수 있도록 하는 것입니다. 이 섹션에서는 OAG-Bench의 필요성과 기존 벤치마크의 한계를 설명합니다.

#### 2. Background (배경)
이 섹션에서는 학술 지식 그래프와 관련된 개념들과 기존의 학술 데이터셋에 대해 설명합니다. 학술 지식 그래프(AKG)는 논문, 저자, 학술 회의와 같은 다양한 개체와 이들 간의 관계를 포함하며, 그 구조와 사용 사례에 대해 논의합니다.

#### 3. Benchmark Overview (벤치마크 개요)
OAG-Bench는 10개의 과제와 20개의 데이터셋을 포함하며, 각각의 과제에 대해 세밀하게 주석이 달린 데이터를 제공합니다. 다양한 과제를 해결하기 위한 새로운 데이터 주석 전략과 데이터 전처리 코드, 알고리즘 구현, 표준화된 평가 프로토콜을 함께 제공합니다. 이 섹션에서는 각 과제별 세부 내용과 사용된 데이터셋에 대해 자세히 설명합니다.

#### 4. Experimental Results (실험 결과)
각 과제에 대해 수행한 실험 결과를 요약합니다. 예를 들어, 논문 추천, 학술적 질문 응답, 리뷰어 추천 등 여러 과제에 대해 다양한 기계 학습 모델과 알고리즘을 평가하고 그 성능을 비교합니다. 이 섹션에서는 각 과제별로 사용된 평가 지표와 주요 결과를 제시합니다.

#### 5. Conclusion (결론)
OAG-Bench의 주요 공헌과 앞으로의 연구 방향을 요약합니다. 특히, 학술 그래프 마이닝 분야에서 OAG-Bench가 제공하는 다양한 가능성과 그 중요성을 강조합니다.

### 종합 요약:

OAG-Bench는 학술 그래프 마이닝을 위한 포괄적이고 정교한 벤치마크로, 10가지 과제와 20개의 데이터셋을 포함하며, 각 과제별로 세밀하게 주석이 달린 데이터를 제공합니다. 이를 통해 연구자들이 다양한 과제를 해결하는 데 필요한 데이터를 쉽게 활용할 수 있도록 지원합니다. 주요 기여는 다양한 데이터 주석 전략과 표준화된 평가 프로토콜을 통해 학술 그래프 마이닝을 크게 발전시킨다는 점입니다. OAG-Bench는 학술 데이터 세트의 다각적이고 세밀한 주석을 통해 연구자들이 새로운 알고리즘과 모델을 개발하고 평가하는 데 중요한 자원을 제공합니다.
42 changes: 42 additions & 0 deletions summaries/2405.08011.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,42 @@
# A Survey of Large Language Models for Graphs
## TL;DR
## Summary
- [https://arxiv.org/pdf/2405.08011.pdf](https://arxiv.org/pdf/2405.08011.pdf)

### 논문 내용 요약 및 분석

#### 1. 서론
- **요약:** 그래프는 소셜 네트워크, 학술 네트워크, 추천 시스템 등 다양한 도메인의 중요한 데이터 구조입니다. 최근에는 그래프 신경망(GNN)이 노드 분류와 링크 예측 등 다양한 태스크에서 큰 성과를 거두고 있습니다.
- **기여:** GNN의 구조적 정보를 활용해 모델 정확도를 높입니다.

#### 2. 기본 배경 지식 및 분류
- **요약:** 대형 언어 모델(LLM)과 그래프 학습의 기본 개념을 설명하고, 연구를 카테고리화하기 위한 새로운 분류 체계를 제안했습니다.
- **기여:** LLM과 그래프 학습의 통합을 위한 기본 틀을 제공합니다.

#### 3. 주요 프레임워크 디자인
- **요약:** GNN을 프리픽스로 사용하는 방법, LLM을 프리픽스로 사용하는 방법, LLM과 그래프를 통합하는 방법, 그리고 LLM만을 사용하는 방법 등 네 가지 주요 프레임워크 디자인을 설명합니다.
- **GNNs as Prefix:** GNN의 최종 출력을 LLM의 입력으로 사용하여 구조적 정보를 전달합니다.
- **LLMs as Prefix:** LLM의 출력을 GNN의 입력으로 사용하여 언어 정보를 전달합니다.
- **LLMs-Graphs Integration:** LLM과 GNN을 통합하여 양방향 정보 교환을 촉진합니다.
- **LLMs-Only:** 그래프 구조를 LLM으로 직접 학습합니다.
- **기여:** 각 프레임워크의 장점과 단점을 비교 분석합니다.

#### 4. 각 프레임워크의 구현 사례
- **요약:** 각 프레임워크를 기반으로 한 구체적인 구현 사례들을 소개합니다. 예를 들어, NLGraph, GPT4Graph, Beyond Text 등은 그래프 데이터를 이해하고 추론하는 LLM의 성능을 평가하는데 사용됩니다.
- **기여:** 실험 결과와 성능을 통해 모델의 실제 적용 가능성을 검토합니다.

#### 5. 미래 연구 방향
- **요약:** LLM과 그래프 학습의 통합에서 해결해야 할 주요 도전 과제들을 설명하고, 이를 해결하기 위한 미래의 연구 방향을 제시합니다. 예를 들어, 대규모 그래프 데이터에 대한 확장성 문제와 다양한 그래프 태스크에 대한 LLM의 적용 가능성을 논의합니다.
- **기여:** 향후 연구의 방향을 제시하여 커뮤니티에 기여합니다.

### 논문의 전체 요약
이 논문은 대형 언어 모델과 그래프 학습을 통합하는 다양한 접근 방식을 종합적으로 리뷰하고, 이를 분류하는 새로운 체계를 제안합니다. 각 프레임워크의 장단점을 비교하고, 실제 적용 가능한 구현 사례를 통해 성능을 검토합니다. 또한, 향후 연구 방향을 제시하여 이 분야의 발전에 기여하고자 합니다.

### 주요 기여 및 혁신 부분
- **포괄적인 리뷰:** 현재까지의 연구 성과를 종합적으로 리뷰하여 LLM의 그래프 학습에 대한 이해를 제공합니다.
- **새로운 분류 체계:** LLM과 그래프 학습을 통합하는 다양한 프레임워크를 체계적으로 분류하여 연구의 방향성을 제시합니다.
- **미래 연구 방향 제시:** 확장성 문제, 다양한 그래프 태스크에 대한 적용 가능성 등 향후 연구의 주요 과제를 식별하고 논의합니다.

이를 통해 LLM과 그래프 학습을 효율적으로 통합하는 방법을 제시하고, 커뮤니티에 미래 연구의 방향성을 제시하게 됩니다.

: PDF 내용에서 발췌하여 각 설명마다 인용 처리를 했습니다.
36 changes: 36 additions & 0 deletions summaries/2405.20233.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,36 @@
# Grokfast: Accelerated Grokking by Amplifying Slow Gradients
## TL;DR
## Summary
- [https://arxiv.org/pdf/2405.20233.pdf](https://arxiv.org/pdf/2405.20233.pdf)

### 1. 각 섹션 요약 (한국어):

#### Introduction (서론):
암묵적 연산을 고속화하기 위한 새로운 최적화 알고리즘인 "GROKFAST"를 소개합니다. 이 알고리즘은 AI 모델이 과적합 상태 이후에 일반화되는 "그래프현상(Grokking)"을 신속하게 달성할 수 있도록 돕습니다. 본 연구는 파라미터 동향을 주파수 영역에서 분석하여 느리게 변하는 성분을 증폭시킴으로써 그래프현상을 최대 50배 더 빠르게 실현할 수 있음을 입증합니다.

#### Related Work (관련 연구):
그래프현상은 여러 AI 모델과 데이터셋에서 발생할 수 있으며, 기존의 연구는 이 현상과 "더블 디센트(double descent)" 현상 및 최적화 기법들 간의 관계를 탐구했습니다. 대표적인 연구로는 모델의 일반화 성능을 향상시키기 위한 가중치 감쇠와 다양한 최적화 기법이 언급됩니다.

#### Methodology (방법론):
GROKFAST 알고리즘은 SGD와 같은 기존의 1차 최적화 알고리즘을 보완하여 느리게 변하는 그래디언트 성분을 증폭시키는 방식을 채택합니다. 알고리즘은 두 가지 방식(GROKFAST-MA와 GROKFAST-EMA) 중 하나를 사용하여 파라미터 업데이트를 진행합니다.

#### Experiments (실험):
다양한 네트워크 아키텍처와 데이터셋(예: Transformer, MLP, RNN, Graph-ConNet)에서 GROKFAST의 성능을 실험했습니다. MNIST 분류, QM9 분자 데이터셋 등의 실험에서 GROKFAST가 일반화 속도를 크게 단축시키는 결과를 보였습니다. 또한 가중치 감쇠 및 다른 최적화 기법과의 시너지 효과도 확인되었습니다.

#### Results (결과):
GROKFAST를 적용한 모델의 경우, 일반화를 달성하는 속도가 최대 50배까지 빨라졌으며, 이로 인해 학습에 필요한 리소스가 대폭 절감되었습니다. 주파수 분석을 통해 저주파 성분이 모델의 일반화에 중요한 역할을 한다는 가설을 실험적으로 입증했습니다.

#### Conclusion (결론):
본 연구는 그래프현상을 신속하게 달성하기 위한 GROKFAST 알고리즘을 제안했습니다. 주파수 영역에서의 파라미터 동향 분석을 통해 느리게 변하는 성분을 증폭함으로써 일반화 속도를 효과적으로 향상시킬 수 있었으며, 이는 다양한 데이터셋과 AI 모델에 적용 가능함을 입증했습니다.

---

### 2. 전체 요약 (한국어):

본 논문에서는 모델이 과적합 상태를 지나 일반화 단계에 도달하는 그래프현상(Grokking)을 신속하게 달성하기 위한 최적화 알고리즘 "GROKFAST"를 제안하였습니다. 이 알고리즘은 기존의 1차 최적화 알고리즘에 느리게 변하는 성분을 증폭시키는 필터링을 추가하여, 일반화 속도를 최대 50배 빠르게 할 수 있습니다.

기본 아이디어는 학습 과정에서 발생하는 파라미터 업데이트를 주파수 영역에서 분석하여, 저주파 성분이 일반화에 중요한 역할을 한다는 것입니다. 이를 실험적으로 증명하기 위해 다양한 네트워크 아키텍처(예: Transformer, MLP, RNN, Graph-ConNet)와 데이터셋(MNIST, QM9 등)을 이용한 실험을 수행하였고, 모두에서 일반화 속도의 큰 향상이 확인되었습니다.

GROKFAST는 작은 수정만으로도 기존의 최적화 알고리즘에 적용 가능하며, 가중치 감쇠와 같은 다른 기법들과도 시너지 효과를 발휘하여 더욱 빠르게 일반화를 달성할 수 있음을 보였습니다.

이 연구는 그래프현상의 신속한 일반화 달성뿐 아니라, 다양한 AI 모델과 데이터셋의 실용적이고 효율적인 학습을 위한 중요한 기여를 합니다.
Loading

0 comments on commit b4370dc

Please sign in to comment.