Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于微调格式的询问 #31

Open
ryx103 opened this issue Jun 18, 2024 · 2 comments
Open

关于微调格式的询问 #31

ryx103 opened this issue Jun 18, 2024 · 2 comments
Labels
question Further information is requested

Comments

@ryx103
Copy link

ryx103 commented Jun 18, 2024

您好,感谢您们优秀的工作。我想请问关于微调Yi-1.5-34B有没有输入格式上的要求?
我在Yi-01 finetuning demo数据中看到一些特殊tag(https://github.com/01-ai/Yi/blob/main/finetune/yi_example_dataset/data/train.jsonl
如果想更好地微调Yi-1.5,我的数据是否应该遵循Yi-01 demo里面的格式呢?
感谢回答

@Haijian06
Copy link
Contributor

Haijian06 commented Jun 25, 2024

你好感谢肯定😊,是的微调的时候需要遵守Yi模型微调的格式,但现在其实不用这么复杂,你可以参考https://github.com/01-ai/Yi-1.5?tab=readme-ov-file#fine-tuning 里面的提及的微调框架,使用这些微调框架会自动转换成该模型需要的数据集格式。

@nuoma
Copy link

nuoma commented Jul 1, 2024

你好ryx103,

您提到的‘数据中的特殊tag’并不是必要的,实际上要看训练代码对于数据集是如何进行处理的。比如针对于'chosen'的处理:
https://github.com/01-ai/Yi/blob/11d140d641d18e1190caad2d5170da3b76c9e4f6/finetune/utils/data/raw_datasets.py#L24

当然了,我们提供的finetune并没有持续的维护。在现在这个时间点,很多的训练框架都更新/维护的非常好,比如 https://github.com/hiyouga/LLaMA-Factory 。一般来说,SFT数据集会采用ShareGPT格式是更加通用的做法。

希望这能解答你的疑惑 :-)

@Haijian06 Haijian06 added the question Further information is requested label Aug 2, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants