Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

复现问题 #72

Open
Smile-L-up opened this issue Aug 5, 2021 · 4 comments
Open

复现问题 #72

Smile-L-up opened this issue Aug 5, 2021 · 4 comments

Comments

@Smile-L-up
Copy link

Smile-L-up commented Aug 5, 2021

您好,感谢您关于预训练的解答。但在我复现您的成果时碰到两类疑问:
1、msra数据集的复现效果好像不佳,不知道是不是我batch_size设置不够大的原因;另外想问一下msra的测试验证数据集划分为什么是2:1?最后还想问您一下git上提供的数据是完整的么?
2、我尝试让每次的结果都固定,但是即使是您提供的源代码,每次跑的结果仍然是不同的。不知道要怎么解决。期待您的回复。

@Kittyuzu1207
Copy link

请问楼主复现效果大致是什么样的呢?我也有类似问题,直接跑msra或者medicine数据集都达不到预期的F1值,比作者提供的低10%-20%,batch size试了4、8、16,都没有解决,不知道哪里出问题了

@Smile-L-up
Copy link
Author

楼主复现效果模拟用户的呢?我也有问题,直接msra或者医学数据集都达不到预期的F1值,比作者提供的低10%-20%,批量试了4次、 8、16,都没有解决,不知道哪里出问题了

我倒是没有太注意这个,因为我的目标是精准NER,我希望验证 的是加入了知识对模型好就OK了,完全复现的话,设备不允许,原文使用的Batch_size应该是16,而我最大只能设置10。

@autoliuweijie
Copy link
Owner

您好,感谢您关于预训练的解答。但在我复现您的成果时碰到两类疑问:
1、msra数据集的复现效果好像不佳,不知道是不是我batch_size设置不够大的原因;另外想问一下msra的测试验证数据集划分为什么是2:1?最后还想问您一下git上提供的数据是完整的么?
2、我尝试让每次的结果都固定,但是即使是您提供的源代码,每次跑的结果仍然是不同的。不知道要怎么解决。期待您的回复。

  1. 直接按照指引执行即可,我刚刚又跑了一遍msra, p=0.952, r=0.957, f1=0.954. msra数据集划分是按照百度ernie 1.0来的.
  2. 可以尝试固定随机种子。

@xianyu-123
Copy link

我也遇见了这个问题,在book-review上差20%,在weibo上又一样...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants