Refactor reward-modeling likelihood #200

runame · 2024-06-15T16:22:06Z

Suggested refactor of the reward-modeling likelihood, let me know if I missed something. Advantages:

Simplicity and readability. We get rid of self.reward_modeling and self._fitting (actually self._fitting was not even used before, not sure if you had a future use case in mind?).
When a user calls la.likelihood it will always return "reward_modeling" which should be the expected behavior.

(Unrelated: I also removed a superfluous loss_with_var argument.)

wiseodd

LGTM. Thanks for the refactor, definitely makes things cleaner now!

…ce into reward-modeling-refactor

Refactor reward-modeling likelihood

ecd5220

runame added the enhancement New feature or request label Jun 15, 2024

runame requested a review from wiseodd June 15, 2024 16:22

runame self-assigned this Jun 15, 2024

runame mentioned this pull request Jun 15, 2024

Remove try-except from gridsearch #199

Merged

wiseodd approved these changes Jun 17, 2024

View reviewed changes

runame and others added 3 commits June 23, 2024 09:22

Merge branch 'grid-search' into reward-modeling-refactor

15f7c79

Merge branch 'grid-search' into reward-modeling-refactor

48f4f8e

Merge branch 'reward-modeling-refactor' of github.com:aleximmer/Lapla…

d6ff3b2

…ce into reward-modeling-refactor

runame merged commit 98779a8 into grid-search Jun 23, 2024
3 checks passed

runame deleted the reward-modeling-refactor branch June 23, 2024 13:26

Provide feedback