使用neat_packing进行sft训练，模型性能指标下降明显 #5426

muziyongshixin · 2024-09-12T15:33:27Z

Reminder

I have read the README and searched the existing issues.

System Info

None

Reproduction

neat_packing： True

Expected behavior

有人遇到过使用neat_packing训练后的模型，性能指标下降明显吗？
我尝试使用neat_packing，差不多可以加速3倍，但是训练完的模型比不开neat_packing的效果要差很多。所有benchmark上都掉点。

想请教一下如果训练集有多个文件，在训练时会首先进行全局shuffle吗？
neat_packing在数据打包的时候是随机挑选不同的任务数据进行组合的吗？还是挑选相邻的sample进行组合？

Others

No response

hiyouga · 2024-09-13T02:24:07Z

@YeQiuO 和你有类似的问题

YeQiuO · 2024-09-13T02:30:10Z

收到作者召唤 ૮꒰ ˶• ༝ •˶꒱ა
我的提问在 PR 里，但暂无结论 #4224

YeQiuO · 2024-09-13T02:44:39Z

针对你的问题

我的尝试结果是，微调后的效果不用 packing > 用 packing >>> neat_packing
data_args.mix_strategy 参数给了三种不同的多数据源融合方法，可以按照你的需求选
目前 packing 基于贪心背包算法实现高效打包（为了不切分数据），所以可以看作随机挑选

neat_packing 方法在 axolotl、swift、functionary 内均有实现，但我只试了 lf 的，指标确实降低很多，和你说的一样

为了查明原因，我 Debug 了 Qwen2 的 _get_unpad_data() 方法（neat 实现方法就是替换该方法，实现 4D 掩码）并没有发现问题，按照 attention 计算逻辑，每个 batch 内的每个序列在 mask 后，Software 的结果不会关注到相邻元素，且 RoPE 使其不受packing 后的位置影响【所以按道理不应该由此问题】

我很想要搞明白原因，希望大佬们不吝赐教

muziyongshixin · 2024-09-13T07:04:28Z

针对你的问题

我的尝试结果是，微调后的效果不用 packing > 用 packing >>> neat_packing

data_args.mix_strategy 参数给了三种不同的多数据源融合方法，可以按照你的需求选

目前 packing 基于贪心背包算法实现高效打包（为了不切分数据），所以可以看作随机挑选

neat_packing 方法在 axolotl、swift、functionary 内均有实现，但我只试了 lf 的，指标确实降低很多，和你说的一样

为了查明原因，我 Debug 了 Qwen2 的 _get_unpad_data() 方法（neat 实现方法就是替换该方法，实现 4D 掩码）并没有发现问题，按照 attention 计算逻辑，每个 batch 内的每个序列在 mask 后，Software 的结果不会关注到相邻元素，且 RoPE 使其不受packing 后的位置影响【所以按道理不应该由此问题】

我很想要搞明白原因，希望大佬们不吝赐教

而且我还试过调整lr，按理说neat_packing后相当于增大的batchsize，所以我调大的lr到5e-5，发现训练loss和eval loss都确实比lr=1e-5的时候低。

但是实际在各个benchmark上lr=1e-5 效果反而更高，但是依然不如不pack的。

AlongWY · 2024-09-17T20:11:54Z

我可能找到了问题所在，解决方案在 #5458

2. update mistral format function call 3. fix knapsack, may cause hiyouga#5443 4. avoid supervised examples wrongly truncation hiyouga#5426

2877992943 · 2024-10-15T10:14:44Z

Reminder

I have read the README and searched the existing issues.

System Info

None

Reproduction

neat_packing： True

Expected behavior

有人遇到过使用neat_packing训练后的模型，性能指标下降明显吗？我尝试使用neat_packing，差不多可以加速3倍，但是训练完的模型比不开neat_packing的效果要差很多。所有benchmark上都掉点。

想请教一下如果训练集有多个文件，在训练时会首先进行全局shuffle吗？ neat_packing在数据打包的时候是随机挑选不同的任务数据进行组合的吗？还是挑选相邻的sample进行组合？

Others

No response

find the same issue, just

针对你的问题

我的尝试结果是，微调后的效果不用 packing > 用 packing >>> neat_packing

data_args.mix_strategy 参数给了三种不同的多数据源融合方法，可以按照你的需求选

目前 packing 基于贪心背包算法实现高效打包（为了不切分数据），所以可以看作随机挑选

neat_packing 方法在 axolotl、swift、functionary 内均有实现，但我只试了 lf 的，指标确实降低很多，和你说的一样
为了查明原因，我 Debug 了 Qwen2 的 _get_unpad_data() 方法（neat 实现方法就是替换该方法，实现 4D 掩码）并没有发现问题，按照 attention 计算逻辑，每个 batch 内的每个序列在 mask 后，Software 的结果不会关注到相邻元素，且 RoPE 使其不受packing 后的位置影响【所以按道理不应该由此问题】
我很想要搞明白原因，希望大佬们不吝赐教

而且我还试过调整lr，按理说neat_packing后相当于增大的batchsize，所以我调大的lr到5e-5，发现训练loss和eval loss都确实比lr=1e-5的时候低。

但是实际在各个benchmark上lr=1e-5 效果反而更高，但是依然不如不pack的。

直接用的原始仓库的代码效果好，LF太笨重找问题都要找好几个月

Hiiamein · 2024-12-07T06:56:49Z

同样发现packing一般好于neat_packing，packing和不packing在不同的实验中各有胜负。

Alwin4Zhang · 2024-12-09T09:39:55Z

同样发现packing一般好于neat_packing，packing和不packing在不同的实验中各有胜负。

请问你当前用的是哪个版本的llamafactory？

github-actions bot added the pending This problem is yet to be addressed label Sep 12, 2024

hiyouga mentioned this issue Sep 13, 2024

training 'Num examples' is not equal to the size of the dataset #5362

Closed

AlongWY mentioned this issue Sep 17, 2024

Flatting Packing / maybe fix #5443 and #5426 #5458

Open

2 tasks

AlongWY added a commit to AlongWY/LLaMA-Factory that referenced this issue Sep 17, 2024

1. support flatting_packing

558b983

2. update mistral format function call 3. fix knapsack, may cause hiyouga#5443 4. avoid supervised examples wrongly truncation hiyouga#5426

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用neat_packing进行sft训练，模型性能指标下降明显 #5426

使用neat_packing进行sft训练，模型性能指标下降明显 #5426

muziyongshixin commented Sep 12, 2024

hiyouga commented Sep 13, 2024

YeQiuO commented Sep 13, 2024

YeQiuO commented Sep 13, 2024

muziyongshixin commented Sep 13, 2024

AlongWY commented Sep 17, 2024

2877992943 commented Oct 15, 2024

Reminder

System Info

Reproduction

Expected behavior

Others

Hiiamein commented Dec 7, 2024

Alwin4Zhang commented Dec 9, 2024

使用neat_packing进行sft训练，模型性能指标下降明显 #5426

使用neat_packing进行sft训练，模型性能指标下降明显 #5426

Comments

muziyongshixin commented Sep 12, 2024

Reminder

System Info

Reproduction

Expected behavior

Others

hiyouga commented Sep 13, 2024

YeQiuO commented Sep 13, 2024

YeQiuO commented Sep 13, 2024

muziyongshixin commented Sep 13, 2024

AlongWY commented Sep 17, 2024

2877992943 commented Oct 15, 2024

Reminder

System Info

Reproduction

Expected behavior

Others

Hiiamein commented Dec 7, 2024

Alwin4Zhang commented Dec 9, 2024