Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Sep 19, 2024
1 parent 47fa982 commit 7771d2c
Show file tree
Hide file tree
Showing 14 changed files with 435 additions and 0 deletions.
19 changes: 19 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -1832,11 +1832,13 @@
#### [MOFI: Learning Image Representation from Noisy Entity Annotated Images](summaries/2306.07952.md)
#### [SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression](summaries/2306.03078.md)
#### [TIES-Merging: Resolving Interference When Merging Models](summaries/2306.01708.md)
#### [The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only](summaries/2306.01116.md)
#### [AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration](summaries/2306.00978.md)
#### [Bytes Are All You Need: Transformers Operating Directly On File Bytes](summaries/2306.00238.md)
## 2305
#### [LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning](summaries/2305.18403.md)
#### [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](summaries/2305.18290.md)
#### [Scaling Data-Constrained Language Models](summaries/2305.16264.md)
#### [Manifold Diffusion Fields](summaries/2305.15586.md)
#### [QLoRA: Efficient Finetuning of Quantized LLMs](summaries/2305.14314.md)
#### [Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization](summaries/2305.14152.md)
Expand All @@ -1853,6 +1855,7 @@
## 2304
#### [Visual Instruction Tuning](summaries/2304.08485.md)
## 2303
#### [A Survey of Large Language Models](summaries/2303.18223.md)
#### [Sigmoid Loss for Language Image Pre-Training](summaries/2303.15343.md)
#### [Sparks of Artificial General Intelligence: Early experiments with GPT-4](summaries/2303.12712.md)
#### [ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation](summaries/2303.08302.md)
Expand Down Expand Up @@ -1895,34 +1898,50 @@
#### [A Survey of Multi-Tenant Deep Learning Inference on GPU](summaries/2203.09040.md)
## 2202
#### [cosFormer: Rethinking Softmax in Attention](summaries/2202.08791.md)
## 2112
#### [Scaling Language Models: Methods, Analysis & Insights from Training Gopher](summaries/2112.11446.md)
## 2110
#### [Scalable Smartphone Cluster for Deep Learning](summaries/2110.12172.md)
## 2106
#### [LibShalom: Optimizing Small and Irregular-Shaped Matrix Multiplications on ARMv8 Multi-Cores](summaries/2106.libshalom.md)
#### [LoRA: Low-Rank Adaptation of Large Language Models](summaries/2106.09685.md)
#### [XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation](summaries/2106.04563.md)
## 2105
#### [A Survey of Data Augmentation Approaches for NLP](summaries/2105.03075.md)
## 2104
#### [RoFormer: Enhanced Transformer with Rotary Position Embedding](summaries/2104.09864.md)
## 2101
#### [Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity](summaries/2101.03961.md)
## 2010
#### [Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks](summaries/2010.08240.md)
#### [TurboTransformers: An Efficient GPU Serving System For Transformer Models](summaries/2010.05680.md)
## 2009
#### [Flexible Performant GEMM Kernels on GPUs](summaries/2009.12263.md)
## 2007
#### [Soft Labeling Affects Out-of-Distribution Detection of Deep Neural Networks](summaries/2007.03212.md)
## 2005
#### [Language Models are Few-Shot Learners](summaries/2005.14165.md)
#### [BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based Quantized DNNs](summaries/2005.09904.md)
## 2004
#### [MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices](summaries/2004.02984.md)
## 2003
#### [Transformer++](summaries/2003.04974.md)
## 2002
#### [GLU Variants Improve Transformer](summaries/2002.05202.md)
## 1910
#### [Depth-Adaptive Transformer](summaries/1910.10073.md)
#### [DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter](summaries/1910.01108.md)
## 1909
#### [ALBERT: A Lite BERT for Self-supervised Learning of Language Representations](summaries/1909.11942.md)
#### [TinyBERT: Distilling BERT for Natural Language Understanding](summaries/1909.10351.md)
## 1908
#### [Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks](summaries/1908.10084.md)
## 1907
#### [RoBERTa: A Robustly Optimized BERT Pretraining Approach](summaries/1907.11692.md)
## 1906
#### [How multilingual is Multilingual BERT?](summaries/1906.01502.md)
## 1905
#### [HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization](summaries/1905.06566.md)
## 1810
#### [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](summaries/1810.04805.md)
## 1805
Expand Down
30 changes: 30 additions & 0 deletions summaries/1905.06566.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
# HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization
## TL;DR
## Summary
- [https://arxiv.org/pdf/1905.06566.pdf](https://arxiv.org/pdf/1905.06566.pdf)

### 1. 섹션 요약

#### 초록 (Abstract)
초록에서는 문서 요약을 위한 계층적 양방향 변환기(Hierarchical Bidirectional Transformers, HIBERT)의 사전 학습 방법을 제안합니다. HIBERT는 라벨이 없는 데이터로 사전 학습을 통해 문서 요약 성능을 크게 향상시킵니다. CNN/Dailymail과 New York Times 데이터셋에서 최첨단 성과를 달성했습니다.

#### 서론 (Introduction)
자동 문서 요약은 중요한 내용을 유지하면서 문서를 짧게 요약하는 작업입니다. 기존의 중요한 접근 방식은 추출적 요약과 생성적 요약으로 나뉩니다. 추출적 요약은 원본 문서의 일부(주로 문장)를 추출하여 요약을 생성하는 반면, 생성적 요약은 원본 문서에 없는 새로운 단어를 생성할 수 있습니다. 본 논문에서는 변환기 모델을 사용해 계층적 문서 인코더를 사전 학습하여 추출적 요약의 성능을 개선했습니다.

#### 관련 연구 (Related Work)
본 섹션에서는 추출적 요약과 생성적 요약, 사전 학습된 자연어 처리 모델에 대한 연구를 소개합니다. 학습된 추출적 요약 모델은 문장의 점수화 문제로 다루어지며, 생성적 요약 모델은 주로 시퀀스 투 시퀀스(seq2seq) 학습에 기반합니다. 최근의 연구는 추출적 모델과 생성적 모델을 결합하여 성능 향상을 시도하고 있습니다.

#### 모델 (Model)
HIBERT 모델은 문서 내 문장을 인코딩하며, 사전 학습된 계층적 변환기 인코더를 사용합니다. 문서 내 문장들을 순차적으로 라벨링하여 중요한 문장을 추출합니다. HIBERT는 문장 레벨과 문서 레벨에서 변환기를 사전 학습하여 최종적으로 문서 요약에 적용합니다.

#### 실험 (Experiments)
HIBERT 모델의 성능을 CNN/Dailymail 및 New York Times 데이터셋에서 평가했습니다. 사전 학습과 미세 조정 과정을 통해 모델의 성능을 검증했으며, 다양한 기존 모델들과 비교하여 우수한 성능을 보였습니다. HIBERT 모델은 ROUGE 점수에서도 높은 성과를 기록했습니다.

#### 결론 (Conclusion)
HIBERT는 문서 요약을 위한 강력한 사전 학습된 계층적 양방향 변환기 인코더를 제안합니다. 사전 학습된 변환기를 추출적 요약 모델에 적용하여 요약 성능을 크게 향상시켰습니다. 향후 작업으로는 문서 질문 응답 등 다른 문서 인코딩이 필요한 작업에 모델을 적용하고, 계층적 문서 인코더의 아키텍처와 학습 목표를 개선할 계획입니다.

### 2. 전체 요약

이 논문은 HIBERT라는 문서 요약을 위한 계층적 양방향 변환기 인코더를 제안합니다. 추출적 요약 모델의 성능을 크게 향상시키기 위해 라벨이 없는 데이터를 활용하여 모델을 사전 학습합니다. HIBERT는 CNN/Dailymail과 New York Times 데이터셋에서 최첨단 성과를 기록했으며, 실험 결과 높은 ROUGE 점수를 달성했습니다. 모델은 문서 내 중요 문장을 추출함으로써 요약을 생성합니다. 향후 작업으로는 문서 질문 응답 등 다양한 작업에 HIBERT를 적용하고, 인코더의 아키텍처와 학습 방법을 지속적으로 개선할 예정입니다.

이 내용들을 바탕으로 프레젠테이션을 준비하면 AI와 머신 러닝 분야에서의 최신 혁신을 공유할 수 있을 것입니다.
29 changes: 29 additions & 0 deletions summaries/1908.10084.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,29 @@
# Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
## TL;DR
## Summary
- [https://arxiv.org/pdf/1908.10084.pdf](https://arxiv.org/pdf/1908.10084.pdf)

## 종합 요약 및 주요 기여

이 논문은 BERT를 사용한 문장 임베딩 기법을 개선한 Sentence-BERT(SBERT)를 소개합니다. 이 기법은 기존의 BERT를 시아미즈(siamese)와 트리플릿(triplet) 네트워크로 변형시켜, 문장 임베딩을 통해 문장 간 유사성을 효과적으로 비교할 수 있게 합니다. SBERT는 기존 BERT보다 훨씬 적은 계산량으로 문장 유사성 검색과 클러스터링 작업을 수행할 수 있습니다. 이를 통해 문장 임베딩의 계산 효율성을 크게 향상시키고, BERT를 사용한 새로운 응용 가능성을 제시합니다.

## 섹션별 요약

### 1. 도입 (Introduction)
이 섹션에서는 문장 임베딩을 효율적으로 생성할 수 있도록 BERT를 변형한 Sentence-BERT(SBERT)를 소개합니다. SBERT는 시아미즈와 트리플릿 네트워크 구조를 사용하여 문장 간 유사성 비교를 위한 의미 있는 임베딩을 생성합니다. SBERT는 기존 BERT 대비 훨씬 더 빠른 속도로 큰 규모의 텍스트 데이터를 처리할 수 있습니다.

### 2. 관련 작업 (Related Work)
BERT를 시작으로 다양한 문장 임베딩 기법들을 소개합니다. BERT는 NLP 작업에서 높은 성능을 보여주지만, 독립적인 문장 임베딩을 제공하지 않아 문장 유사성 검색과 같은 작업에 한계가 있습니다. 기존 연구들은 BERT의 이러한 한계를 극복하려 노력했지만, SBERT는 시아미즈 네트워크를 활용해 이 문제를 효율적으로 해결합니다.

### 3. SBERT 모델 설명 (SBERT Model Description)
SBERT는 BERT의 출력에 풀링(pooling)을 추가하여 고정 크기의 문장 임베딩을 생성합니다. 이 문장 임베딩은 코사인 유사도와 같은 유사도 측정을 통해 효율적으로 비교할 수 있습니다. SBERT는 다양한 풀링 전략을 실험하며, 이를 통해 최적의 문장 임베딩 생성 방식을 도출합니다.

### 4. 실험 및 평가 (Experiments and Evaluation)
SBERT와 SRoBERTa를 다양한 STS(Semantic Textual Similarity) 작업과 전이 학습 작업에서 평가하여, 다른 최신 문장 임베딩 기법보다 더 높은 성능을 발휘함을 보였습니다. SBERT는 특히 문장 클러스터링과 같은 작업에서 뛰어난 계산 효율성을 자랑합니다.

### 5. 결론 (Conclusion)
결론에서는 SBERT가 문장 임베딩의 품질과 계산 효율성을 크게 향상시켰음을 요약합니다. SBERT는 BERT를 사용한 많은 응용 작업에서 적용할 수 있으며, 특히 문장 유사성 검색과 클러스터링 작업에서 놀라운 성능 향상을 보입니다. 이 연구는 SBERT가 기존의 문장 임베딩 기법들보다 우수한 성능을 발휘함을 증명합니다.

## 전반적 요약

이 논문은 BERT 기반 문장 임베딩 기법의 한계를 극복하고, 효율적이며 성능 좋은 SBERT를 제안합니다. SBERT는 시아미즈 네트워크를 사용하여 큰 데이터셋에서도 빠르고 정확하게 문장 간 유사성을 비교할 수 있습니다. 실험 결과, SBERT는 다른 최신 문장 임베딩 기법을 능가하는 성능을 보였으며, 특히 문장 유사성 검색과 클러스터링 작업에서 뛰어난 계산 효율성을 제공합니다. 이는 인공지능과 기계학습 연구 분야에서 큰 기여를 할 수 있는 중요한 연구 결과입니다.
36 changes: 36 additions & 0 deletions summaries/1909.10351.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,36 @@
# TinyBERT: Distilling BERT for Natural Language Understanding
## TL;DR
## Summary
- [https://arxiv.org/pdf/1909.10351.pdf](https://arxiv.org/pdf/1909.10351.pdf)

### 논문 요약 및 분석

#### 1. 각 섹션 요약

##### Introduction
논문은 사전 학습된 언어 모델(PLM)인 BERT가 자연어 처리(NLP) 작업에서 뛰어난 성능을 보이나, 큰 모델 크기와 긴 추론 시간이 문제라고 지적합니다. 이를 해결하기 위해, 저자들은 새로운 Transformer 기반 지식 증류 방법과 두 단계 학습 프레임워크를 제안하여, 작은 크기의 TinyBERT 모델을 개발했습니다. TinyBERT는 BERT와 유사한 성능을 유지하면서도 크기와 속도에서 더 효율적입니다.

##### Related Work
모델 압축 기법으로는 양자화, 가중치 프루닝, 지식 증류가 있습니다. 지식 증류는 큰 "선생님" 모델의 지식을 작은 "학생" 모델로 전이시키는 방법입니다. TinyBERT 연구는 특히 지식 증류와 관련된 최신 연구들에 중점을 두고 있으며, BERT를 예제로 하여 큰 PLM을 다루기 위한 방법론을 제시합니다.

##### Methodology
저자들은 BERT를 추출하는 새로운 방법론을 제안합니다. 모델은 두 단계로 학습됩니다: 사전 학습과 작업 특정 학습. 각 과정에서 Transformer 층을 통해 지식을 증류합니다. 이는 TinyBERT가 일반 도메인과 작업 특정 지식을 모두 포함하도록 돕습니다.

##### Experiments
TinyBERT의 효과성과 효율성을 다양한 작업에서 평가합니다. GLUE 벤치마크를 사용해 성능을 평가하며, 4층과 6층 TinyBERT 모델이 선생님 모델(BERT) 및 다른 최신 모델들과 비교됩니다. 결과적으로, TinyBERT는 크기와 추론 시간은 줄이면서도 성능은 거의 유지하는 것을 보여줍니다.

##### Results
TinyBERT는 GLUE 벤치마크에서 선생님 모델의 96.8% 이상의 성능을 달성합니다. TinyBERT의 6층 모델도 BERT와 비슷한 성능을 보이며, 작은 모델로 상당한 효율성을 유지합니다.

##### Ablation Studies
이 절에서는 다양한 학습 절차와 증류 목표가 TinyBERT 학습에 미치는 영향을 조사합니다. 모든 제안된 증류 목표가 유용하며, Transformer 층 증류가 특히 중요한 역할을 한다는 것을 발견했습니다.

##### Conclusion
저자들은 Transformer 기반 증류 방법과 두 단계 프레임워크를 제안하여 TinyBERT를 도입했습니다. 실험을 통해 TinyBERT가 BERT 모델의 크기와 추론 시간을 크게 줄이면서도 경쟁력 있는 성능을 유지할 수 있음을 보여줬습니다. 향후 연구 방향으로는 더 넓고 깊은 모델들로부터의 지식 전이와 증류와 양자화/프루닝 결합이 제시되었습니다.

#### 2. 전체 요약

이 논문은 BERT와 같은 사전 학습된 언어 모델의 크기와 추론 시간 문제를 해결하기 위해, 새로운 Transformer 기반 지식 증류 방법과 두 단계 학습 프레임워크를 제안하여 TinyBERT를 개발했습니다. TinyBERT는 BERT 대비 크기와 속도에서 훨씬 효율적이며, 성능 유지에 있어서도 뛰어난 성과를 보입니다. 이 연구는 지식 전이 방법론을 최적화하고, 작은 모델이 큰 모델의 지식을 효과적으로 습득할 수 있도록 돕는 두 단계 학습 전략을 통해 NLP 모델 배포 효율성을 극대화했습니다. 향후 연구는 더 복잡한 모델들로부터의 지식 전이와 결합량 압축 기법을 탐구할 것입니다.

---
이 요약은 프레젠테이션을 준비하는 데 충분한 정보를 제공하길 바랍니다. 추가적으로 필요한 사항이 있으면 언제든지 문의해주세요!
25 changes: 25 additions & 0 deletions summaries/1910.01108.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
# DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
## TL;DR
## Summary
- [https://arxiv.org/pdf/1910.01108.pdf](https://arxiv.org/pdf/1910.01108.pdf)

### 1. Section Summaries

#### Introduction
이 논문은 Natural Language Processing (NLP) 분야에서 큰 영향력을 발휘하고 있는 대규모 사전 학습 모델의 한계를 극복하기 위해 DistilBERT라는 경량화된 언어 표현 모델을 제안합니다. DistilBERT는 BERT 모델의 크기를 약 40% 줄이면서 97%의 성능을 유지하고, 속도는 60% 빠릅니다. 또한 이 모델은 모바일 기기에서도 효율적으로 작동할 수 있습니다.

#### Knowledge Distillation
지식 증류는 큰 모델(교사 모델)이 생성한 예측을 작은 모델(학생 모델)이 학습하는 과정을 포함합니다. 이 방법은 모델의 복잡도를 줄이면서도 성능을 유지하는 데 유용합니다. 지식 증류를 통해, 학생 모델은 교사 모델의 예측 분포를 복제하여 더 나은 일반화 성능을 얻을 수 있습니다. 이 논문에서는 distillation loss(증류 손실), masked language modeling loss(마스킹 언어 모델링 손실), cosine-distance loss(코사인 거리 손실)를 결합하여 최적의 결과를 도출했습니다.

#### DistilBERT: a Distilled Version of BERT
DistilBERT는 BERT 모델의 축소 버전으로, 레이어 수를 절반으로 줄이고, 토큰 타입 임베딩과 풀러(pooler)를 제거하여 효율성을 극대화했습니다. 초기화는 교사 모델에서 나온 가중치를 사용하여, 학생 모델이 빠르게 수렴하도록 했습니다.

#### Experiments
DistilBERT는 GLUE 벤치마크에서 다양한 태스크에 대해 BERT와 거의 동일한 성능을 보이며, 파라미터 수는 40% 적고 속도는 60% 빠릅니다. IMDb 감정 분류와 SQuAD v1.1 질의 응답 태스크에서도 BERT에 비해 약간의 성능 저하만 있었습니다. 추가적인 지식 증류 단계는 SQuAD 태스크에서 성능을 높이는 데 기여했습니다.

#### Conclusion and Future Work
DistilBERT는 효율적이고 경량화된 NLP 모델로, BERT의 97% 성능을 유지하면서도 크기와 속도를 대폭 줄일 수 있음을 입증했습니다. 향후 연구 방향으로는 더 다양한 태스크와 데이터셋에 대한 검증이 필요합니다.

### 2. Overall Summary

이 논문은 DistilBERT라는 경량화된 언어 모델을 소개합니다. BERT 모델의 크기를 줄이면서도 성능을 거의 유지하도록 지식 증류 기법을 사용했습니다. DistilBERT는 BERT 대비 40% 작고, 60% 더 빠르며, 모바일 기기에서도 효과적으로 작동합니다. 다양한 실험 결과에서 DistilBERT는 거의 동일한 성능을 보였으며, 추가적인 지식 증류 단계는 일부 태스크에서 성능을 향상시켰습니다. 이 연구는 큰 모델을 효율적으로 줄이면서도 성능을 유지하는 방법을 제안하여, 미래의 NLP 연구와 응용에 큰 기여를 할 수 있습니다.
Loading

0 comments on commit 7771d2c

Please sign in to comment.