kkang09 / KoChatGPT Public

Notifications You must be signed in to change notification settings
Fork 112
Star 1

ChatGPT의 RLHF를 학습을 위한 3가지 step별 한국어 데이터셋

1 star 112 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
colossalai_ChatGPT_230319		colossalai_ChatGPT_230319
data_kochatgpt		data_kochatgpt
img		img
README.md		README.md
kochatgpt_code_230320.ipynb		kochatgpt_code_230320.ipynb
kochatgpt_data_230320.ipynb		kochatgpt_data_230320.ipynb

Repository files navigation

kochatgpt 데이터 구축 코드

chatgpt의 RLHF를 학습하기 위한 3가지 step의 한국어 데이터셋

data_kochatgpt/kochatgpt_1_SFT.jsonl : Step1) SFT(지도학습) 학습 데이터셋
data_kochatgpt/kochatgpt_1_SFT_conversation.jsonl : Step1) SFT 학습 데이터셋(대화)
data_kochatgpt/kochatgpt_2_RM.jsonl : Step2) RM(보상모델) 학습 데이터셋
data_kochatgpt/kochatgpt_3_PPO.jsonl : Step3) PPO(강화학습) 학습 데이터셋
data_kochatgpt/kochatgpt_seed_data.txt : 한국어 질문 수집 데이터셋

kochatgpt 실습코드

Open In Colab

한국어 chatgpt 데이터셋으로 ChatGPT-replica를 만드는 실습코드 RLHF(Reinforcement Learning from Human Feedback)의 3단계

Step1) SFT(지도학습)
Step2) RM(보상모델)
Step3) PPO(강화학습)

About

ChatGPT의 RLHF를 학습을 위한 3가지 step별 한국어 데이터셋

Report repository

Releases

No releases published

Packages

No packages published

Languages