Skip to content

Commit

Permalink
Add paper
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed May 13, 2024
1 parent 1962f05 commit fae6918
Show file tree
Hide file tree
Showing 3 changed files with 42 additions and 0 deletions.
2 changes: 2 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,7 @@
# Paper List
## 2405
#### [Linearizing Large Language Models](summaries/2405.06640.md)
#### [Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval](summaries/2405.06545.md)
#### [You Only Cache Once: Decoder-Decoder Architectures for Language Models](summaries/2405.05254.md)
#### [ChuXin: 1.6B Technical Report](summaries/2405.04828.md)
#### [xLSTM: Extended Long Short-Term Memory](summaries/2405.04517.md)
Expand Down
20 changes: 20 additions & 0 deletions summaries/2405.06545.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval
## TL;DR
## Summary
- [https://arxiv.org/pdf/2405.06545.pdf](https://arxiv.org/pdf/2405.06545.pdf)

### 주요 내용 요약

1. **서론 및 배경**:
- 대형 언어 모델(LLMs)은 다양한 분야에서 뛰어난 능력을 보여주지만, 현실 세계의 사실과 일치하지 않는 응답을 생성하는 '환각' 문제로 인해 특히 의료, 금융, 법률과 같은 중요 분야에서의 활용에 어려움이 있습니다. 이 연구에서는 의료 분야에서 LLM의 응답 사실성을 높이기 위해 적은 검색 노력으로 지식 그래프를 활용하는 자체 정제 강화 지식 그래프 검색(Re-KGR)을 제안합니다.

2. **방법론**:
- Re-KGR 방법은 응답 생성 후 외부 지식을 통합하는 정제 후 검색 패러다임을 따릅니다. 토큰의 다음 토큰 예측 확률 분포의 속성을 활용하여 환각이 발생할 가능성이 높은 토큰을 식별하고, 이와 관련된 지식 트리플을 정제하여 검색 횟수를 줄입니다.

3. **실험 및 평가**:
- 의료 데이터셋(MedQuAD)과 최신 대조 디코딩 기술(DoLa)을 사용하여 실험을 수행했습니다. 실험 결과, 제안한 방법이 LLM의 응답 사실성을 향상시킬 수 있음을 보여주며, 특히 DoLa 모델과 함께 사용할 때 가장 높은 진실성 점수를 달성했습니다.

### 혁신적인 부분
Re-KGR의 혁신성은 의료 QA 작업에서 지식 그래프를 통해 구조화된 외부 지식을 효율적으로 통합함으로써 LLM의 환각을 줄이고 사실 검증 과정을 간소화한다는 점입니다. 이 접근 방식은 직접 지식을 LLM에 주입하는 기존 방식의 문제점을 해결하고, 실제 응용에서 LLM의 이용 가능성을 크게 향상시킬 수 있습니다.

이 연구는 특히 의료 분야에서 LLM의 사실성과 응답 품질을 개선하는 방법을 제시하며, 향후 다양한 시나리오에서 이 방법의 일반화 가능성을 탐구할 계획입니다.
20 changes: 20 additions & 0 deletions summaries/2405.06640.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# Linearizing Large Language Models
## TL;DR
## Summary
- [https://arxiv.org/pdf/2405.06640.pdf](https://arxiv.org/pdf/2405.06640.pdf)

### 주요 내용 요약

1. **서론 및 배경**:
- 이 논문에서는 대규모 언어 모델(LLMs)을 순환 신경망(RNNs)으로 변환하는 새로운 접근 방식인 Scalable UPtraining for Recurrent Attention (SUPRA)를 제안합니다. 이 방법은 기존 LLM의 강력한 사전 훈련 데이터와 성능을 활용하면서 훈련 비용의 5%만을 요구합니다.

2. **방법론**:
- SUPRA는 기존 트랜스포머를 RNN으로 변환하는 과정을 설명하며, 이를 위해 softmax 정규화 대신 GroupNorm을 사용하고, 쿼리와 키에 소규모 MLP를 도입합니다.

3. **실험**:
- 1B에서 7B 범위의 모델을 RNN으로 변환하여 언어 이해 벤치마크와 긴 문맥 평가에서 평가합니다. 실험 결과는 변환된 모델이 일반적으로 기존 순환 LLM과 경쟁력 있는 성능을 보여줍니다.

### 혁신적인 부분
SUPRA의 혁신성은 기존의 강력한 LLM을 효율적으로 RNN으로 전환하여, 향상된 성능과 감소된 훈련 비용의 이점을 동시에 제공한다는 점에 있습니다. 이는 특히 메모리 효율성이 중요한 언어 및 다모달 모델에서 추론 비용을 절감할 수 있는 방법을 제공합니다.

이 연구는 대규모 언어 모델의 잠재력을 더욱 확장하며, 특히 긴 문맥 작업에서 순환 모델의 한계를 극복하고자 하는 새로운 방법론을 탐구합니다.

0 comments on commit fae6918

Please sign in to comment.