Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

论文中rm对比学习训练方法疑问 #45

Open
yhhh777 opened this issue Jan 24, 2024 · 4 comments
Open

论文中rm对比学习训练方法疑问 #45

yhhh777 opened this issue Jan 24, 2024 · 4 comments

Comments

@yhhh777
Copy link

yhhh777 commented Jan 24, 2024

hi请问论文中关于对比学习两种方式具体是怎么实现的呢,他们在学习时分别的正负例各是什么?看了论文还是不太理解,特别是Preference Difference中的公式看起来就是简单转置了一下。
最后问一下相关代码什么时候会开源呢?谢谢

@yata0
Copy link

yata0 commented Feb 29, 2024

我也同问,想知道只是把choose和reject两种响应做对比吗,那么所有choose response及其增强都互为正例,然后正例和所有reject response及其增强都互为负例?

@yata0
Copy link

yata0 commented Feb 29, 2024

@Ablustrund 麻烦回答下?

@Ablustrund
Copy link
Collaborator

@yata0 @yhhh777, 我们构建了一个新的数据集,这个数据集对于同一个prompt,采样得到多个respones。我们的meta目标是增加在这个数据集上对同一个prompt的多个responses的区分度。而打分的acc仍然来自于original的优化目标。所以两个loss其实长得很像。只不过一个是original的目标(good>bad),一个是meta的目标(response1 > response2)。

@yata0
Copy link

yata0 commented Mar 4, 2024

@Ablustrund 谢谢你的回答。
这里是想问对比学习的一些细节。
在建模过程中,pairwise的数据为(x, good, bad), 然后我们对比学习的过程是将(x,good)拼接起来过两遍dropout得到的特征为正例,然后同batch中所有其他的(x,good)和(x,bad)得到的特征表达为负例吗

想知道一些这样具体建模的细节。另外就不太理解怎么直接对diff做对比学习。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants