Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

自有的底座模型,自有的SFT权重,重新训练RM,可行么 #38

Open
camposs1979 opened this issue Dec 11, 2023 · 1 comment

Comments

@camposs1979
Copy link

作者大佬您好,感谢您的贡献和输出,因为我对RLHF的这部分比较陌生,所以想咨询您几个问题,希望得到您的指点:

  1. 如果我底座模型是其他的模型,比如:Baichuan2,或者ChatGLM2,然后SFT的时候是自定义的训练数据,这种模式是可以使用你们的发布的RLHF的代码么
  2. 如果1可以的话,那么意味着我需要重新训练RM,然后PPO,我想了解这种场景,你们当前的代码是否可以支持
  3. 如果1.2 都可行的话,具体的操作方式应该是怎么做呢
    非常期待您的指导。
@Ablustrund
Copy link
Collaborator

您好。

  1. 我们的代码支持llama和llama2,但是很容易扩充成其他decoder-only模型,例如bloomz,baichuan。只需要修改llama/下面对应的llama model和llama tokenizer即可。
  2. 对于reward model我们暂时不支持,但是应该在月末我们会开源第二版本技术报告,包含对reward model的训练。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants