论文中rm对比学习训练方法疑问 #45

yhhh777 · 2024-01-24T15:41:02Z

hi请问论文中关于对比学习两种方式具体是怎么实现的呢，他们在学习时分别的正负例各是什么？看了论文还是不太理解，特别是Preference Difference中的公式看起来就是简单转置了一下。
最后问一下相关代码什么时候会开源呢？谢谢

yata0 · 2024-02-29T03:38:04Z

我也同问，想知道只是把choose和reject两种响应做对比吗，那么所有choose response及其增强都互为正例，然后正例和所有reject response及其增强都互为负例？

yata0 · 2024-02-29T03:39:05Z

@Ablustrund 麻烦回答下？

Ablustrund · 2024-03-03T04:49:38Z

@yata0 @yhhh777, 我们构建了一个新的数据集，这个数据集对于同一个prompt，采样得到多个respones。我们的meta目标是增加在这个数据集上对同一个prompt的多个responses的区分度。而打分的acc仍然来自于original的优化目标。所以两个loss其实长得很像。只不过一个是original的目标（good>bad）,一个是meta的目标（response1 > response2）。

yata0 · 2024-03-04T09:13:22Z

@Ablustrund 谢谢你的回答。
这里是想问对比学习的一些细节。
在建模过程中，pairwise的数据为（x, good, bad）, 然后我们对比学习的过程是将（x,good）拼接起来过两遍dropout得到的特征为正例，然后同batch中所有其他的（x,good)和(x,bad)得到的特征表达为负例吗

想知道一些这样具体建模的细节。另外就不太理解怎么直接对diff做对比学习。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

论文中rm对比学习训练方法疑问 #45

论文中rm对比学习训练方法疑问 #45

yhhh777 commented Jan 24, 2024

yata0 commented Feb 29, 2024

yata0 commented Feb 29, 2024

Ablustrund commented Mar 3, 2024

yata0 commented Mar 4, 2024

论文中rm对比学习训练方法疑问 #45

论文中rm对比学习训练方法疑问 #45

Comments

yhhh777 commented Jan 24, 2024

yata0 commented Feb 29, 2024

yata0 commented Feb 29, 2024

Ablustrund commented Mar 3, 2024

yata0 commented Mar 4, 2024