[FlashMask] Add FlashMask for Qwen2 #9264

DrownFish19 · 2024-10-14T06:39:37Z

PR types

New features

PR changes

Others

Description

Add FlashMask for Qwen2.

对齐验证步骤：

修改shuffle为False

PaddleNLP/paddlenlp/trainer/trainer.py

Lines 1326 to 1345 in 0e96b0f

    
           def _get_train_sampler(self) -> Optional[paddle.io.Sampler]: 
        
               if self.train_dataset is None or not has_length(self.train_dataset): 
        
                   return None 
        
               if self.args.world_size <= 1: 
        
                   return paddle.io.BatchSampler( 
        
                       dataset=self.train_dataset, 
        
                       shuffle=True, 
        
                       batch_size=self.args.per_device_train_batch_size, 
        
                       drop_last=self.args.dataloader_drop_last, 
        
                   ) 
        
               return DistributedBatchSampler( 
        
                   self.train_dataset, 
        
                   batch_size=self.args.per_device_train_batch_size, 
        
                   shuffle=True, 
        
                   num_replicas=self.args.dataset_world_size, 
        
                   rank=self.args.dataset_rank, 
        
                   drop_last=self.args.dataloader_drop_last, 
        
               )

验证指令

2.1 验证单卡与流水线并行的一致性

# pipeline parallel
python -m paddle.distributed.launch  \
--devices 6,7  \
run_finetune.py  \
config/qwen/sft_argument.json \
--model_name_or_path Qwen/Qwen2-0.5B \
--gradient_accumulation_steps 1 \
--zero_padding true \
--flash_mask true \
--pipeline_parallel_degree 2

# data parallel
python -m paddle.distributed.launch  \
--devices 7  \
run_finetune.py  \
config/qwen/sft_argument.json \
--model_name_or_path Qwen/Qwen2-0.5B \
--gradient_accumulation_steps 1 \
--zero_padding true \
--flash_mask true \
--pipeline_parallel_degree 1

对齐验证结果：

modeling + flashmask vs. modeling_pp + flashmask 前4步训练loss无diff，后续逐渐出现随机误差，误差范围在1e-3，符合bf16精度。

2.2 验证flashmask开关前后正确性
验证指令

# pipeline parallel
python -m paddle.distributed.launch  \
--devices 6,7  \
run_finetune.py  \
config/qwen/sft_argument.json \
--model_name_or_path Qwen/Qwen2-0.5B \
--gradient_accumulation_steps 1 \
--zero_padding true \
--flash_mask true \
--pad_to_max_length true
--pipeline_parallel_degree 2

数据类型为bf16时，训练loss误差范围为1e-3
数据类型为fp16时，训练loss误差范围为1e-4

…en2_add_flashmask

paddle-bot · 2024-10-14T06:39:42Z

Thanks for your contribution!

codecov · 2024-10-14T07:12:02Z

Codecov Report

Attention: Patch coverage is 20.37037% with 43 lines in your changes missing coverage. Please review.

Project coverage is 52.62%. Comparing base (220cc95) to head (b4a0ba5).
Report is 1 commits behind head on develop.

Files with missing lines	Patch %	Lines
paddlenlp/transformers/qwen2/modeling_pp.py	9.52%	38 Missing ⚠️
paddlenlp/transformers/qwen2/modeling.py	58.33%	5 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #9264      +/-   ##
===========================================
- Coverage    52.84%   52.62%   -0.22%     
===========================================
  Files          661      661              
  Lines       107783   107365     -418     
===========================================
- Hits         56955    56501     -454     
- Misses       50828    50864      +36

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

lugimzzz · 2024-10-16T03:54:15Z

后续验证flashmask和fa2，可以直接用加上,能够所有loss逐位对齐即可
export FLAGS_cudnn_deterministic=1
export FLAGS_embedding_deterministic=1

lugimzzz

LGTM

…mask

ZHUI · 2024-10-18T03:36:34Z

paddlenlp/transformers/qwen2/modeling_pp.py

+    @classmethod
+    def _prepare_pipeline_inputs_func(cls, inputs):
+
+        first_stage_keys = ["input_ids", "attention_mask", "attn_mask_startend_row_indices", "position_ids"]


todo：attn_mask_startend_row_indices 这个参数可以加内置函数里面吧

ZHUI · 2024-10-18T04:02:24Z

paddlenlp/transformers/qwen2/modeling_pp.py

+        last_stage_keys = ["labels"]
+
+        def get_expected_keys(inputs, keys):
+            ret = tuple([inputs.pop(k) if k in inputs else None for k in keys])


PaddleNLP/paddlenlp/trainer/trainer.py

Line 1978 in 2b975b1

ret = tuple([inputs.pop(k) for k in keys if k in inputs])

会有None是不是？

…mask

lugimzzz

LGTM

…mask

DrownFish19 and others added 3 commits October 7, 2024 08:16

add flashmask

ed3f12c

Merge remote-tracking branch 'paddlenlp/develop' into dev_20241007_qw…

450a280

…en2_add_flashmask

update

90f1c66

DrownFish19 requested review from ZHUI and lugimzzz October 14, 2024 07:24

add flashmask in modeling_pp

0d872f1

DrownFish19 force-pushed the dev_20241007_qwen2_add_flashmask branch from 4c38433 to 0d872f1 Compare October 14, 2024 08:44

lugimzzz previously approved these changes Oct 16, 2024

View reviewed changes

DrownFish19 dismissed lugimzzz’s stale review via b810626 October 16, 2024 08:12

DrownFish19 force-pushed the dev_20241007_qwen2_add_flashmask branch 2 times, most recently from 336c241 to 0d872f1 Compare October 16, 2024 09:07

DrownFish19 mentioned this pull request Oct 16, 2024

[Tokenizer] Unify tokenizer _pad #9280

Merged

DrownFish19 force-pushed the dev_20241007_qwen2_add_flashmask branch from d34af01 to 0d872f1 Compare October 18, 2024 02:19

Merge branch 'PaddlePaddle:develop' into dev_20241007_qwen2_add_flash…

f209df3

…mask

ZHUI approved these changes Oct 18, 2024

View reviewed changes

ZHUI reviewed Oct 18, 2024

View reviewed changes

Merge branch 'PaddlePaddle:develop' into dev_20241007_qwen2_add_flash…

05ec1ba

…mask

lugimzzz approved these changes Oct 18, 2024

View reviewed changes

Merge branch 'PaddlePaddle:develop' into dev_20241007_qwen2_add_flash…

b4a0ba5

…mask

ZHUI merged commit 76a118b into PaddlePaddle:develop Oct 21, 2024
9 of 12 checks passed

DrownFish19 deleted the dev_20241007_qwen2_add_flashmask branch October 21, 2024 07:05

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[FlashMask] Add FlashMask for Qwen2 #9264

[FlashMask] Add FlashMask for Qwen2 #9264

DrownFish19 commented Oct 14, 2024 •

edited

Loading

paddle-bot bot commented Oct 14, 2024

codecov bot commented Oct 14, 2024 •

edited

Loading

lugimzzz commented Oct 16, 2024 •

edited

Loading

lugimzzz left a comment

ZHUI Oct 18, 2024

ZHUI Oct 18, 2024

lugimzzz left a comment

	def _get_train_sampler(self) -> Optional[paddle.io.Sampler]:
	if self.train_dataset is None or not has_length(self.train_dataset):
	return None

	if self.args.world_size <= 1:
	return paddle.io.BatchSampler(
	dataset=self.train_dataset,
	shuffle=True,
	batch_size=self.args.per_device_train_batch_size,
	drop_last=self.args.dataloader_drop_last,
	)

	return DistributedBatchSampler(
	self.train_dataset,
	batch_size=self.args.per_device_train_batch_size,
	shuffle=True,
	num_replicas=self.args.dataset_world_size,
	rank=self.args.dataset_rank,
	drop_last=self.args.dataloader_drop_last,
	)

[FlashMask] Add FlashMask for Qwen2 #9264

[FlashMask] Add FlashMask for Qwen2 #9264

Conversation

DrownFish19 commented Oct 14, 2024 • edited Loading

PR types

PR changes

Description

paddle-bot bot commented Oct 14, 2024

codecov bot commented Oct 14, 2024 • edited Loading

Codecov Report

lugimzzz commented Oct 16, 2024 • edited Loading

lugimzzz left a comment

Choose a reason for hiding this comment

ZHUI Oct 18, 2024

Choose a reason for hiding this comment

ZHUI Oct 18, 2024

Choose a reason for hiding this comment

lugimzzz left a comment

Choose a reason for hiding this comment

DrownFish19 commented Oct 14, 2024 •

edited

Loading

codecov bot commented Oct 14, 2024 •

edited

Loading

lugimzzz commented Oct 16, 2024 •

edited

Loading