-
Notifications
You must be signed in to change notification settings - Fork 3
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
410f31d
commit a49117e
Showing
3 changed files
with
41 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,18 @@ | ||
# BitNet: Scaling Transformers for Large Language Models | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2310.11453.pdf](https://arxiv.org/pdf/2310.11453.pdf) | ||
|
||
이 논문은 대형 언어 모델(LLMs)의 비용 문제를 해결하기 위해 다양한 LLM들을 융합하여 새로운 LLM을 생성하는 '지식 융합' 방법론에 대해 소개합니다. 주된 내용은 다음과 같습니다. | ||
|
||
1. **서론**: 현재 대형 언어 모델들은 많은 자원을 소모하며, 유사한 기능을 가진 모델이 중복되어 생성될 수 있는 문제점이 있습니다. 이를 해결하기 위해 이미 존재하는 모델들을 융합하여 새로운 모델을 만드는 방법이 제시되었습니다【4†source】. | ||
|
||
2. **관련 연구**: 모델 융합, 모델 합병, 지식 증류 등 다양한 기존 방법론들을 살펴보며, 각각의 장단점을 분석합니다. 이를 바탕으로 FUSELLM 방법론이 도입되었으며, 이는 소스 LLM의 확률 분포 행렬을 이용하여 지식을 전달하는 방식입니다【4†source】. | ||
|
||
3. **지식 융합의 채팅 모델**: 새로운 'FUSECHAT' 프레임워크는 여러 채팅 LLM들의 지식을 융합하여 목표 LLM을 생성하는 두 단계로 구성됩니다. 첫 번째로, 다양한 구조와 크기를 가진 소스 LLM들의 지식을 융합하고, 두 번째로, 이를 파라미터 공간에서 합병하여 최종 모델을 만듭니다. 이 과정에서 VARM(Variation Ratio Merge)이라는 새로운 방법을 도입하여 파라미터의 변화율을 기반으로 합병 가중치를 결정합니다【4†source】. | ||
|
||
4. **실험**: FUSECHAT을 사용하여 여러 채팅 LLM들을 융합한 결과, 다양한 채팅 도메인에서 우수한 성능을 보여주며, 기존 모델들을 능가하는 성과를 달성하였습니다. 이는 FUSECHAT이 다양한 소스 모델들의 장점을 효과적으로 통합할 수 있음을 입증합니다【4†source】. | ||
|
||
5. **결론**: FUSECHAT은 다양한 구조와 규모를 가진 채팅 LLM들을 융합하여 보다 강력한 채팅 LLM을 생성하는데 성공했습니다. 이 연구는 LLM의 지식 융합이 모델 앙상블과 합병 기술을 넘어서는 새로운 가능성을 제시합니다【4†source】. | ||
|
||
이 논문은 LLM의 효율적인 융합을 통해 성능을 개선하고 비용을 절감할 수 있는 새로운 방법론을 제시하며, 이는 향후 LLM 개발의 중요한 방향이 될 수 있습니다. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,21 @@ | ||
# FuseChat: Knowledge Fusion of Chat Models | ||
## TL;DR | ||
## Summary | ||
- [https://arxiv.org/pdf/2402.16107.pdf](https://arxiv.org/pdf/2402.16107.pdf) | ||
|
||
**[1장 소개]** | ||
인공지능 대형 언어 모델(LLM)들은 다양한 자연어 처리 작업에서 뛰어난 성과를 보여주고 있습니다. 이 모델들을 처음부터 훈련시키는 것은 큰 비용이 들지만, 기존의 LLM들을 결합하여 새로운 모델을 만드는 '지식 융합(Knowledge Fusion)' 방법이 비용을 절감하고 여러 모델의 강점을 활용할 수 있는 대안이 될 수 있습니다. 이 연구에서는 다양한 구조와 규모를 가진 채팅 LLM들을 융합하는 새로운 프레임워크인 FUSECHAT을 소개합니다. | ||
|
||
**[2장 관련 연구]** | ||
기존의 모델 융합 방법들은 주로 결과물을 직접 결합하거나 파라미터 공간에서 모델들을 통합하는 방식을 사용했습니다. 그러나 이런 방법들은 여러 모델을 동시에 운용해야 하는 비효율성이 있거나 동일한 아키텍처의 모델들에만 적용 가능했습니다. 이에 비해 FUSELLM 방법은 다양한 구조의 LLM들의 지식을 타깃 LLM으로 전달하는 새로운 접근법을 제공합니다. | ||
|
||
**[3장 채팅 모델의 지식 융합]** | ||
FUSECHAT은 두 단계로 구성됩니다. 첫 번째로, 다양한 소스 LLM들의 지식을 타깃 LLM으로 전달하고, 이를 통해 동일한 구조와 크기를 가진 여러 타깃 LLM을 생성합니다. 두 번째로, 이러한 타깃 LLM들을 파라미터 공간에서 결합하여 최종적인 융합된 LLM을 생성합니다. 특히, 파라미터 변경 비율을 기반으로 결합 가중치를 결정하는 VARM 방법론을 소개합니다. | ||
|
||
**[4장 실험]** | ||
실험에서는 FUSECHAT의 유효성을 검증하기 위해 NH2-Mixtral-8x7B, NH2-Solar-10.7B, OpenChat-3.5-7B 등 세 가지 대표적인 채팅 LLM을 사용하였습니다. 결과적으로 FUSECHAT은 기존 모델들과 조정된 베이스라인들을 초월하는 성능을 보였습니다. | ||
|
||
**[5장 결론]** | ||
이 연구에서는 채팅 LLM들의 지식과 강점을 통합하여 보다 강력한 채팅 LLM을 생성하는 FUSECHAT 프레임워크를 제안합니다. 이는 다양한 구조와 규모를 가진 모델들을 유연하고 효율적으로 통합할 수 있는 가능성을 보여줍니다. | ||
|
||
이 연구는 채팅 모델을 융합하여 더 강력하고 효율적인 모델을 개발하는 새로운 방법론을 제시하며, 이는 향후 다양한 채팅 LLM의 개발에 기여할 수 있을 것입니다. |