Add papers

emphasis10 · Aug 3, 2024 · 2f9bc85 · 2f9bc85
1 parent 538eefd
commit 2f9bc85
Show file tree

Hide file tree

Showing 13 changed files with 431 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -29,6 +29,8 @@
 #### [TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods](summaries/2407.21630.md)
 #### [Data Contamination Report from the 2024 CONDA Shared Task](summaries/2407.21530.md)
 #### [Fine-gained Zero-shot Video Sampling](summaries/2407.21475.md)
+#### [Cost-Effective Hallucination Detection for LLMs](summaries/2407.21424.md)
+#### [Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning](summaries/2407.21139.md)
 #### [Apple Intelligence Foundation Language Models](summaries/2407.21075.md)
 #### [ThinK: Thinner Key Cache by Query-Driven Pruning](summaries/2407.21018.md)
 #### [Matting by Generation](summaries/2407.21017.md)
@@ -43,18 +45,23 @@
 #### [MindSearch: Mimicking Human Minds Elicits Deep AI Searcher](summaries/2407.20183.md)
 #### [Theia: Distilling Diverse Vision Foundation Models for Robot Learning](summaries/2407.20179.md)
 #### [Diffusion Feedback Helps CLIP See Better](summaries/2407.20171.md)
+#### [rLLM: Relational Table Learning with LLMs](summaries/2407.20157.md)
+#### [ByteCheckpoint: A Unified Checkpointing System for LLM Development](summaries/2407.20143.md)
 #### [ImagiNet: A Multi-Content Dataset for Generalizable Synthetic Image Detection via Contrastive Learning](summaries/2407.20020.md)
 #### [Mixture of Nested Experts: Adaptive Processing of Visual Tokens](summaries/2407.19985.md)
 #### [FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention](summaries/2407.19918.md)
 #### [Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models](summaries/2407.19914.md)
 #### [ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation](summaries/2407.19835.md)
+#### [ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2](summaries/2407.19832.md)
+#### [Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost](summaries/2407.19825.md)
 #### [VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks](summaries/2407.19795.md)
 #### [SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages](summaries/2407.19672.md)
 #### [Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge](summaries/2407.19594.md)
 #### [Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture](summaries/2407.19593.md)
 #### [SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain](summaries/2407.19584.md)
 #### [Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle](summaries/2407.19548.md)
 #### [Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models](summaries/2407.19474.md)
+#### [A Generic Review of Integrating Artificial Intelligence in Cognitive Behavioral Therapy](summaries/2407.19422.md)
 #### [Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification](summaries/2407.19340.md)
 #### [MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains](summaries/2407.18961.md)
 #### [WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds](summaries/2407.18946.md)
@@ -70,6 +77,7 @@
 #### [Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic](summaries/2407.18129.md)
 #### [Efficient Inference of Vision Instruction-Following Models with Elastic Cache](summaries/2407.18121.md)
 #### [LKCell: Efficient Cell Nuclei Instance Segmentation with Large Convolution Kernels](summaries/2407.18054.md)
+#### [Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption](summaries/2407.18003.md)
 #### [BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation](summaries/2407.17952.md)
 #### [Very Large-Scale Multi-Agent Simulation in AgentScope](summaries/2407.17789.md)
 #### [Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing](summaries/2407.17722.md)
@@ -93,6 +101,7 @@
 #### [MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence](summaries/2407.16655.md)
 #### [Course-Correction: Safety Alignment Using Synthetic Preferences](summaries/2407.16637.md)
 #### [Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?](summaries/2407.16607.md)
+#### [Enhancing LLM's Cognition via Structurization](summaries/2407.16434.md)
 #### [Cross Anything: General Quadruped Robot Navigation through Complex Terrains](summaries/2407.16412.md)
 #### [PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing](summaries/2407.16318.md)
 #### [MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning](summaries/2407.16312.md)
@@ -113,6 +122,7 @@
 #### [SIGMA: Sinkhorn-Guided Masked Video Modeling](summaries/2407.15447.md)
 #### [Local All-Pair Correspondence for Point Tracking](summaries/2407.15420.md)
 #### [MAVEN-Fact: A Large-scale Event Factuality Detection Dataset](summaries/2407.15352.md)
+#### [LLMExplainer: Large Language Model based Bayesian Inference for Graph Explanation Generation](summaries/2407.15351.md)
 #### [ThermalNeRF: Thermal Radiance Fields](summaries/2407.15337.md)
 #### [VideoGameBunny: Towards vision assistants for video games](summaries/2407.15295.md)
 #### [MIBench: Evaluating Multimodal Large Language Models over Multiple Images](summaries/2407.15272.md)
@@ -187,6 +197,7 @@
 #### [Click-Gaussian: Interactive Segmentation to Any 3D Gaussians](summaries/2407.11793.md)
 #### [Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development](summaries/2407.11784.md)
 #### [VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models](summaries/2407.11691.md)
+#### [CCoE: A Compact LLM with Collaboration of Experts](summaries/2407.11686.md)
 #### [Scaling Diffusion Transformers to 16 Billion Parameters](summaries/2407.11633.md)
 #### [FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models](summaries/2407.11522.md)
 #### [Animate3D: Animating Any 3D Model with Multi-view Video Diffusion](summaries/2407.11398.md)
@@ -1304,6 +1315,7 @@
 #### [Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying](summaries/2311.09578.md)
 #### [PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning](summaries/2311.08711.md)
 #### [Transfer Learning for Structured Pruning under Limited Task Data](summaries/2311.06382.md)
+#### [Prompt Sketching for Large Language Models](summaries/2311.04954.md)
 #### [S-LoRA: Serving Thousands of Concurrent LoRA Adapters](summaries/2311.03285.md)
 #### [Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants](summaries/2311.01398.md)
 #### [FlashDecoding++: Faster Large Langauge Model Inference on GPUs](summaries/2311.01282.md)

diff --git a/summaries/2311.04954.md b/summaries/2311.04954.md
@@ -0,0 +1,29 @@
+# Prompt Sketching for Large Language Models
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2311.04954.pdf](https://arxiv.org/pdf/2311.04954.pdf)
+
+### 1. 섹션별 주요 내용 요약
+
+#### 소개 (Introduction)
+이 논문에서는 대형 언어 모델(LLM)을 여러 번 연속으로 질의하여 중간 결과를 도출하고 최종 답변을 생성하는 최근 프롬프트 전략을 다룹니다. 하지만 이러한 방법은 디코더와 모델이 후속 프롬프트를 예측하지 못하여 중간 응답이 분절되고 불필요하게 길어지는 문제를 초래합니다. 이를 해결하기 위해 프롬프트 스케치라는 새로운 프롬프트 방식을 제안합니다. LLM이 프롬프트를 완성하는 것뿐만 아니라 템플릿에서 여러 변수를 예측하도록 하여 더 나은 결과를 도출하는 방식입니다. 실험을 통해 프롬프트 스케칭이 직접 질의나 체인 오브 생각(Chain-of-Thought)보다 8개의 LLM 벤치마크 테스트 중 7개에서 더 나은 성능을 보여준다고 밝혔습니다.
+
+#### 배경 (Background)
+이 섹션에서는 프롬프트와 디코딩에 대한 배경지식을 설명합니다. 대부분의 최신 언어 모델은 왼쪽에서 오른쪽으로만 작동하며, 입력 시퀀스와 이전에 예측된 토큰을 기반으로 다음 토큰의 확률 분포를 예측합니다. 이를 해결하기 위해 다양한 디코딩 전략이 도입되었습니다.
+
+#### 연구 방법론 (Methodology)
+프롬프트 스케칭을 통해 LLM의 디코딩 절차를 템플릿을 통해 여러 변수로 분할하여 최적화된 템플릿 가능성을 찾습니다. 이 접근법은 기존의 매우 긴 질의 응답 방식보다 효율적입니다. 알려진 템플릿을 사용하여 LLM의 응답을 제어할 수 있습니다. 이 섹션에서는 템플릿 예측과 여러 변수에 대한 스코어를 제공하고 이를 통해 정확한 예측을 위한 디코딩 전략을 소개합니다.
+
+#### 실험 (Experiments)
+실험에서는 프롬프트 스케칭이 다양한 LLM 추론 과제에서 성능을 향상시키는지 평가합니다. 다양한 벤치마크 테스트를 통해 기존의 비-템플릿, 순차적 추론 방식과 비교합니다. 또한 프롬프트 스케칭을 통해 새로운 애플리케이션을 실험합니다. 결과적으로 프롬프트 스케칭이 기존 방식보다 최대 10%의 성능 향상을 보여줍니다.
+
+#### 결과 및 토론 (Results and Discussion)
+프롬프트 스케칭은 기존의 체인 오브 생각보다 일관된 추론 구조를 제공하여 더 나은 성능을 보입니다. 특히, 작은 규모의 모델에서 더 큰 효과를 나타냈습니다. 디코더를 결합하여 성능을 더욱 향상시킬 수 있으며, 새로운 애플리케이션에도 적용될 수 있습니다. 예를 들어, 스도쿠 풀기나 인터랙티브 환경에서도 성능이 향상되었습니다.
+
+#### 결론 (Conclusion)
+프롬프트 스케칭을 통해 답변뿐만 아니라 여러 변수를 함께 예측하는 새로운 프롬프트 방식을 제시했습니다. 이는 기존의 순차적 질의 응답 방식보다 더 일관된 추론 구조를 제공하여 최대 10%의 성능 향상을 보였습니다. 앞으로 프롬프트 스케칭을 활용한 새로운 응용 프로그램을 통해 더 많은 연구가 이루어질 것입니다.
+
+### 2. 전체 요약
+이 논문은 LLM의 효율적이고 일관된 응답 생성을 위해 프롬프트 스케칭 기법을 제안했습니다. 기존 방식이 각 질의마다 분절되고 길어진 반면, 프롬프트 스케칭은 템플릿을 통해 여러 변수를 예측하여 일관성을 유지합니다. 이는 벤치마크 테스트에서 최대 10% 향상된 성능을 보여줬으며, 스도쿠 같은 복잡한 문제와 인터랙티브 환경에서도 성능을 향상시켰습니다. 프롬프트 스케칭은 작은 모델에서도 큰 효과를 보이며, 다양한 응용 프로그램을 통해 더 많은 연구와 발전이 기대됩니다.
+
+이 요약서를 바탕으로 프레젠테이션을 만드는 데 도움이 될 것입니다. 궁금한 점이 있으면 언제든지 말씀해 주세요!
diff --git a/summaries/2407.11686.md b/summaries/2407.11686.md
@@ -0,0 +1,28 @@
+# CCoE: A Compact LLM with Collaboration of Experts
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2407.11686.pdf](https://arxiv.org/pdf/2407.11686.pdf)
+
+### 1. 각 섹션별 중요한 내용 요약
+
+#### Introduction
+이 논문은 대규모 언어 모델(LLMs)이 다양한 도메인 작업에서 큰 발전을 이루었음을 설명합니다. 그러나 기존의 LLM이 전문 분야의 지식을 포함하지 못하거나 수학적 추론, 코드 생성과 같은 작업에서 성과가 낮다는 한계가 있다는 점을 지적합니다. 이를 개선하기 위한 방법으로 전문가 레이어를 추가하여 모델 성능을 향상시키는 연구를 제안합니다.
+
+#### Main Contribution
+CCoE (Collaboration of Experts) 프레임워크는 여러 전문 레이어를 하나의 LLM에 결합하여 모든 도메인에서 성능을 향상시키는 방법을 제안합니다. 이 프레임워크는 여러 전문 레이어를 추가하여 모델의 성능을 개선하고, 각 쿼리에 따라 필요한 레이어만 활성화하기 때문에 리소스 활용 면에서도 효율적입니다. 또한, 전문가 레이어의 지속적인 학습과 새로운 전문가 추가를 통해 모델 성능을 유지하며 확장성도 뛰어나다는 장점이 있습니다.
+
+#### Innovative Part
+- 기존의 여러 LLM을 결합하는 연구 방향에서 더 나아가, CCoE는 하나의 LLM에 여러 전문가를 결합하는 새로운 프레임워크를 제안합니다.
+- CCoE는 각 쿼리에 필요한 레이어만 활성화하여 리소스 낭비를 최소화합니다.
+- 이 프레임워크는 계속되는 트레이닝 및 전문가 레이어 추가를 간편하게 지원하여 모델의 전반적인 성능을 지속적으로 향상시킬 수 있습니다.
+
+#### Experiments and Results
+CCoE 프레임워크는 수학, 코드, 법률, 의료, Text-to-SQL 등의 도메인에서 기존의 기본 모델 대비 약 10-20%의 성능 향상을 이루었습니다. 이는 적은 트레이닝 시간과 자원으로 이루어졌습니다. 실험 결과, CCoE는 모델의 총체적 성능을 향상시키는 동시에 확장성과 인터프리터빌리티를 유지할 수 있음을 입증하였습니다.
+
+### 2. 전체 요약
+
+이 논문은 CCoE (Collaboration of Experts) 프레임워크를 제안하며, 이는 여러 전문 레이어를 각기 다른 도메인 작업에 최적화된 언어 모델로 결합하여 전체 성능을 향상시키는 방법입니다. 이 프레임워크는 수학, 코드 생성, 의료 등 다양한 분야에서 기존 모델에 비해 성능이 크게 향상되었음을 증명합니다. CCoE 프레임워크는 초기 도입에 적은 자원으로도 큰 성능 향상을 이루며, 지속적인 학습과 전문가 추가가 용이하여 실용성이 높습니다. 이 논문은 LLM의 한계를 극복하고 다양한 도메인에서 활용될 수 있는 보다 효율적인 방법을 제시합니다.
+
+---
+
+위 요약은 발표 자료를 만들기 위한 기반으로 사용할 수 있습니다. 각 섹션의 내용을 기반으로 슬라이드를 구성하고, 핵심 내용을 강조하여 발표 자료를 준비할 수 있습니다.
diff --git a/summaries/2407.15351.md b/summaries/2407.15351.md
@@ -0,0 +1,29 @@
+# LLMExplainer: Large Language Model based Bayesian Inference for Graph Explanation Generation
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2407.15351.pdf](https://arxiv.org/pdf/2407.15351.pdf)
+
+### 섹션별 요약 및 주요 기여 정리
+
+#### 1. 서론
+이 논문은 그래프 뉴럴 네트워크(GNN)의 해석 가능성을 높이기 위해 신뢰성과 설명력, 프라이버시 보호를 다루는 새로운 프레임워크를 제시합니다. Principal 기여는 여러 가지 문제를 해결하기 위해 LLM(대형 언어 모델)을 사용하여 설명의 신뢰성을 높이는 것입니다. 이 논문은 GNN의 해석력에 대한 학습 편향 문제를 처음으로 탐구하고, 이를 해결할 방법으로 LLM을 Bayesian 추론 모듈에 통합하는 혁신적인 접근법을 제시합니다.
+
+#### 2. 관련 연구
+GNN과 관련해 다양한 해석 방법이 제안되었으며, 이 연구는 이러한 기존 방법들을 LLM을 통합하여 성능을 개선하고 해석력을 높이는 방향으로 확장합니다. LLM 기반의 Bayesian 추론을 통해 기존의 GNN 해석 모델의 문제점을 보완하는 방법을 탐구합니다.
+
+#### 3. 사전 준비
+논문에서 사용되는 주요 표기법과 문제 정의를 포함합니다. 그래프의 노드, 엣지 및 특징 행렬에 대한 정의와 그래프 분류 및 회귀 작업에 대해 설명합니다. 이 섹션은 논문의 후속 섹션을 이해하기 위한 기초적인 내용을 다룹니다.
+
+#### 4. 방법론
+Bayesian Variational Inference를 사용한 GNN 설명 생성기를 제안합니다. 이 방법론은 GNN 모델에 LLM을 통합하여 학습 편향 문제를 완화하고, 설명 성능을 높이며, 최적화 과정에서 빠른 수렴을 보장합니다. 주요 기여는 Bayesian 추론을 이용한 새로운 설명 생성기 프레임워크를 제시하고 이로써 기존 해석 모델들의 편향 문제를 해결합니다.
+
+#### 5. 실험
+다양한 데이터 세트를 사용한 실험을 통해 제안된 모델의 성능을 평가합니다. 정량적 평가와 정성적 평가를 수행하여 모델이 기존 모델보다 우수한 성능을 보임을 입증합니다. 또한, 실험 연구를 통해 제안된 모델의 효용성을 다양한 측면에서 검증합니다.
+
+#### 6. 결론
+이 연구는 GNN 설명 문제에서 학습 편향을 완화하여 모델 해석력을 높이는 새로운 프레임워크를 제안합니다. Bayesian 추론과 LLM의 통합을 통해 우수한 성과를 보였으며 학습 편향 문제를 효과적으로 해결합니다. 이는 GNN 해석 가능성 연구에 중요한 기여를 제공합니다.
+
+### 전체 요약
+이 논문은 그래프 뉴럴 네트워크(GNN)의 해석 능력을 높이기 위해 Bayesian 추론을 이용한 설명 생성기(L′MExplainer)를 제안합니다. 이 프레임워크는 LLM(대형 언어 모델)을 통합하여 GNN의 해석 가능성을 향상시키고 학습 편향 문제를 해결합니다. 주요 기여는 GNN 해석 과정에서의 신뢰성과 설명 성능을 높이는 새로운 방법을 제안한 것입니다. 다양한 실험을 통해 제안된 모델이 기존의 모델보다 월등히 우수한 성능을 보임을 입증하였으며, 이는 GNN 해석 가능성 연구 분야에 큰 혁신을 가져옵니다.
+
+이 요약과 각 섹션의 요약을 사용하여 발표 자료를 준비할 수 있을 것입니다. 필요한 경우 각 섹션의 주요 내용을 더 세부적으로 분석하고 설명하는 부분을 추가하면 좋습니다.