Skip to content

大模型RLHF(ppo奖励模型)训练偏好数据排序助手(支持ollama本地模型)

Notifications You must be signed in to change notification settings

zjrwtx/preference_databuilder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

概述:

大模型RLHF(ppo奖励模型)训练偏好数据排序助手(支持ollama本地模型)

简单来说就是你经过sft微调后,想通过RLHF(ppo奖励模型)训练怎么样的模型,就给你的模型生成回答进行排序,最后再导出偏好数据去训练奖励模型,再用奖励模型去训练sft模型

演示视频地址

大模型RLHF(ppo奖励模型)训练偏好数据排序助手(ollama本地模型版)_哔哩哔哩_bilibili
image.png
image.png

本项目遵循GPL许可证,欢迎贡献代码或提出改进建议。项目地址:
https://github.com/zjrwtx/preference_databuilder

如何运行

1、克隆到本地

git clone https://github.com/zjrwtx/preference_databuilder.git

2、安装依赖

poetry install

3、配置ollama环境与模型或云端模型

4、复制.env.example文件为.env 填写大模型的环境变量等

5、streamlit run main.py

贡献

欢迎贡献。请先 fork 仓库,然后提交一个 pull request 包含你的更改。

联系我

微信:

agi_isallyouneed

微信公众号:正经人王同学

X(推特)正经人王同学:https://twitter.com/zjrwtx

许可证

本项目遵循GPL许可证,欢迎贡献代码或提出改进建议。项目地址:https://github.com/zjrwtx/preference_databuilder

非商业用途:本项目的所有源代码和相关文档仅限于非商业用途。任何商业用途均被严格禁止。

出处声明:任何个人或实体在修改、分发或使用本项目时,必须清楚地标明本项目的原始来源,并且保留原始作者的版权声明。

特别感谢

代码参考:
https://github.com/HarderThenHarder/transformers_tasks

About

大模型RLHF(ppo奖励模型)训练偏好数据排序助手(支持ollama本地模型)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages