[Inference] Add cutlass gemm dequant op #8909

gzy19990617 · 2024-08-09T06:20:12Z

PR types

New features

PR changes

Add new cutlass op

Description

Add cutlass gemm dequant op

精度测试
参数：--decode_strategy greedy_search --mode dynamic --quant_type a8w8 --inference_model 1 --batch_size 2 --src_length 128 --max_length 256
Use block atta输出：

Not use block atta输出：(不增加该PR时，第二条输出就有乱码)

性能测试：平均耗时44.9ms -> 42.6ms
测试配置 L20 、batch_size 2、block atta
gemm dequant 未融合：

gemm dequant 融合：

3.尝试qkv_out后接dequant，但出现报错
详细见这里：
https://ku.baidu-int.com/knowledge/HFVrC7hq1Q/pKzJfZczuc/TK3hw_mluo/1-4J_hgwU8mmJN

paddle-bot · 2024-08-09T06:20:17Z

Thanks for your contribution!

codecov · 2024-08-09T06:56:18Z

Codecov Report

Attention: Patch coverage is 0% with 13 lines in your changes missing coverage. Please review.

Project coverage is 53.76%. Comparing base (a18e220) to head (aa0fdd0).
Report is 216 commits behind head on develop.

Files with missing lines	Patch %	Lines
...erimental/transformers/fused_transformer_layers.py	0.00%	13 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #8909      +/-   ##
===========================================
+ Coverage    53.58%   53.76%   +0.18%     
===========================================
  Files          652      652              
  Lines       105169   104513     -656     
===========================================
- Hits         56354    56193     -161     
+ Misses       48815    48320     -495

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

…utlass_gemm_dequant_op

csrc/gpu/cutlass_kernels/gemm_dequant.cu

paddlenlp/experimental/transformers/fused_transformer_layers.py

csrc/gpu/cutlass_kernels/gemm_dequant.cu

csrc/setup_cuda.py

DrownFish19

LGTM

* change gpu name * add cutlass gemm_dequant op * add cutlass gemm_dequant op * fix format * fix fused_transformer_layers * fix layer * fix layer * fix format * fix format * fix review * fix review * fix review * fix review * fix review * fix review * fix review

gzy19990617 added 4 commits August 9, 2024 02:30

change gpu name

91dc1b3

add cutlass gemm_dequant op

c40509f

add cutlass gemm_dequant op

ab875c7

fix format

4200518

gzy19990617 added 7 commits August 9, 2024 08:04

fix fused_transformer_layers

4720477

fix layer

23b8f70

fix layer

d41275a

Merge branch 'develop' of github.com:gzy19990617/PaddleNLP into add_c…

d5ad5b6

…utlass_gemm_dequant_op

fix format

b4df2ee

fix format

d4ecffc

Merge branch 'develop' into add_cutlass_gemm_dequant_op

bb2fe8a

yuanlehome reviewed Aug 12, 2024

View reviewed changes

csrc/gpu/cutlass_kernels/gemm_dequant.cu Outdated Show resolved Hide resolved

yuanlehome reviewed Aug 12, 2024

View reviewed changes

paddlenlp/experimental/transformers/fused_transformer_layers.py Outdated Show resolved Hide resolved

yuanlehome reviewed Aug 12, 2024

View reviewed changes

csrc/gpu/cutlass_kernels/gemm_dequant.cu Outdated Show resolved Hide resolved

csrc/gpu/cutlass_kernels/gemm_dequant.cu Outdated Show resolved Hide resolved

gzy19990617 added 5 commits August 12, 2024 14:34

fix review

6634fa5

fix review

68bf546

fix review

7b6f384

fix review

67d31c9

fix review

a98ddb3

yuanlehome approved these changes Aug 14, 2024

View reviewed changes

DrownFish19 reviewed Aug 16, 2024

View reviewed changes

csrc/setup_cuda.py Show resolved Hide resolved

gzy19990617 added 5 commits August 21, 2024 07:15

fix review

e62d3ff

fix review

421bcf5

Merge branch 'develop' into add_cutlass_gemm_dequant_op

d81548c

Merge branch 'develop' into add_cutlass_gemm_dequant_op

ae410b4

fix conflict

aa0fdd0

DrownFish19 approved these changes Aug 29, 2024

View reviewed changes

DrownFish19 changed the title ~~Add cutlass gemm dequant op~~ [Inference] Add cutlass gemm dequant op Aug 29, 2024

wawltor merged commit c28caf7 into PaddlePaddle:develop Aug 29, 2024
10 of 12 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Inference] Add cutlass gemm dequant op #8909

[Inference] Add cutlass gemm dequant op #8909

gzy19990617 commented Aug 9, 2024 •

edited

Loading

paddle-bot bot commented Aug 9, 2024

codecov bot commented Aug 9, 2024 •

edited

Loading

DrownFish19 left a comment

[Inference] Add cutlass gemm dequant op #8909

[Inference] Add cutlass gemm dequant op #8909

Conversation

gzy19990617 commented Aug 9, 2024 • edited Loading

PR types

PR changes

Description

paddle-bot bot commented Aug 9, 2024

codecov bot commented Aug 9, 2024 • edited Loading

Codecov Report

DrownFish19 left a comment

Choose a reason for hiding this comment

gzy19990617 commented Aug 9, 2024 •

edited

Loading

codecov bot commented Aug 9, 2024 •

edited

Loading