概述：

大模型RLHF（ppo奖励模型）训练偏好数据排序助手（支持ollama本地模型）

简单来说就是你经过sft微调后，想通过RLHF（ppo奖励模型）训练怎么样的模型，就给你的模型生成回答进行排序，最后再导出偏好数据去训练奖励模型，再用奖励模型去训练sft模型

演示视频地址

大模型RLHF（ppo奖励模型）训练偏好数据排序助手（ollama本地模型版）_哔哩哔哩_bilibili

本项目遵循GPL许可证，欢迎贡献代码或提出改进建议。项目地址：
https://github.com/zjrwtx/preference_databuilder

如何运行

1、克隆到本地

git clone https://github.com/zjrwtx/preference_databuilder.git

2、安装依赖

poetry install

3、配置ollama环境与模型或云端模型

4、复制.env.example文件为.env 填写大模型的环境变量等

5、streamlit run main.py

贡献

欢迎贡献。请先 fork 仓库，然后提交一个 pull request 包含你的更改。

联系我

微信：

agi_isallyouneed

微信公众号：正经人王同学

X（推特)正经人王同学:https://twitter.com/zjrwtx

许可证

本项目遵循GPL许可证，欢迎贡献代码或提出改进建议。项目地址：https://github.com/zjrwtx/preference_databuilder

非商业用途：本项目的所有源代码和相关文档仅限于非商业用途。任何商业用途均被严格禁止。

特别感谢

代码参考：
https://github.com/HarderThenHarder/transformers_tasks

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
preference_databuilder		preference_databuilder
tests		tests
.gitignore		.gitignore
README.md		README.md
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

概述：

演示视频地址

如何运行

贡献

联系我

微信：

微信公众号：正经人王同学

X（推特)正经人王同学:https://twitter.com/zjrwtx

许可证

特别感谢

About

Releases

Packages

Languages

zjrwtx/preference_databuilder

Folders and files

Latest commit

History

Repository files navigation

概述：

演示视频地址

如何运行

贡献

联系我

微信：

微信公众号：正经人王同学

X（推特)正经人王同学:https://twitter.com/zjrwtx

许可证

特别感谢

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages