Add DeBERTa model #8227

w5688414 · 2024-04-03T04:00:00Z

PR types

New features

deepset/deberta-v3-large-squad2
microsoft/deberta-v2-xlarge
microsoft/deberta-v3-base
microsoft/deberta-v3-large
microsoft/deberta-base

PR changes

Description

borrow from previous PR: #5414

import numpy as np
import paddle
import torch
from paddlenlp.transformers import DebertaV2Tokenizer

def test_precision(model_name):
    pp_model = PaddleDebertaModel.from_pretrained(model_name)
    # pp_model = PaddleDebertaModel.from_pretrained(model_name.split('/')[-1])
    

    hf_model = HuggingfaceModel.from_pretrained(model_name)
    input_ids = np.random.randint(1, 1000, size=(2, 10))
    pp_inputs = paddle.to_tensor(input_ids)
    hf_inputs = torch.tensor(input_ids)
    pp_model.eval()
    hf_model.eval()
    with paddle.no_grad():
        pp_output = pp_model(pp_inputs, output_hidden_states=True, return_dict=True)
    with torch.no_grad():
        hf_output = hf_model(hf_inputs, output_hidden_states=True)

    if "start_logits" in hf_output.keys():
        for key in ['start_logits', 'end_logits']:
            diff = abs(hf_output[key].detach().numpy() - pp_output[key].numpy())
            print(f"{key} max diff: {np.max(diff)}, min diff: {np.min(diff)}")

    for i in range(pp_model.config.num_hidden_layers + 1):
        diff = abs(hf_output["hidden_states"][i].detach().numpy() - pp_output["hidden_states"][i].numpy())

        print(f"layer {i} max diff: {np.max(diff)}, min diff: {np.min(diff)}")


from transformers import AutoModelForQuestionAnswering as HuggingfaceModel
from paddlenlp.transformers import DebertaV2ForQuestionAnswering as PaddleDebertaModel
model_name = "deepset/deberta-v3-large-squad2"
test_precision(model_name)

output is:

start_logits max diff: 5.0067901611328125e-06, min diff: 1.862645149230957e-08
end_logits max diff: 3.3080577850341797e-06, min diff: 8.940696716308594e-08
layer 0 max diff: 9.5367431640625e-07, min diff: 0.0
layer 1 max diff: 2.86102294921875e-06, min diff: 0.0
layer 2 max diff: 4.291534423828125e-06, min diff: 0.0
layer 3 max diff: 7.152557373046875e-06, min diff: 0.0
layer 4 max diff: 5.7220458984375e-06, min diff: 0.0
layer 5 max diff: 6.198883056640625e-06, min diff: 0.0
layer 6 max diff: 8.106231689453125e-06, min diff: 0.0
layer 7 max diff: 6.67572021484375e-06, min diff: 0.0
layer 8 max diff: 6.198883056640625e-06, min diff: 0.0
layer 9 max diff: 8.106231689453125e-06, min diff: 0.0
layer 10 max diff: 1.0728836059570312e-05, min diff: 0.0
layer 11 max diff: 9.775161743164062e-06, min diff: 0.0
layer 12 max diff: 1.1086463928222656e-05, min diff: 0.0
layer 13 max diff: 9.298324584960938e-06, min diff: 0.0
layer 14 max diff: 8.106231689453125e-06, min diff: 0.0
layer 15 max diff: 1.3113021850585938e-05, min diff: 0.0
layer 16 max diff: 1.2874603271484375e-05, min diff: 0.0
layer 17 max diff: 3.4332275390625e-05, min diff: 0.0
layer 18 max diff: 1.9073486328125e-05, min diff: 0.0
layer 19 max diff: 1.1682510375976562e-05, min diff: 0.0
layer 20 max diff: 1.52587890625e-05, min diff: 0.0
layer 21 max diff: 2.384185791015625e-05, min diff: 0.0
layer 22 max diff: 2.5510787963867188e-05, min diff: 0.0
layer 23 max diff: 3.337860107421875e-05, min diff: 0.0
layer 24 max diff: 1.71661376953125e-05, min diff: 0.0

其中模型的参数是fp16，会产生一些微小的差别，是由于torch是基于fp32加载的（变成fp16会报错，有算子不支持），paddle是基于fp16加载的，计算出来的结果会稍有不同

加入文档：

跟huggingface的源代码有如下两个区别：

XSoftmax和XDropout， XSoftmax缺少_softmax_backward_data算子，Paddle无法直接实现反向，已提issue：_softmax_backward_data Paddle#63387

这两个算子不影响推理，可能会影响训练对齐。

paddle-bot · 2024-04-03T04:00:05Z

Thanks for your contribution!

codecov · 2024-04-11T00:58:32Z

Codecov Report

Attention: Patch coverage is 72.99509% with 495 lines in your changes are missing coverage. Please review.

Project coverage is 55.23%. Comparing base (7b493a8) to head (78af468).
Report is 9 commits behind head on develop.

Files	Patch %	Lines
paddlenlp/transformers/deberta_v2/modeling.py	65.83%	234 Missing ⚠️
paddlenlp/transformers/deberta/modeling.py	76.26%	155 Missing ⚠️
paddlenlp/transformers/deberta_v2/tokenizer.py	62.17%	101 Missing ⚠️
paddlenlp/transformers/deberta/tokenizer.py	97.36%	4 Missing ⚠️
paddlenlp/transformers/deberta_v2/configuration.py	97.36%	1 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #8227      +/-   ##
===========================================
+ Coverage    55.15%   55.23%   +0.08%     
===========================================
  Files          601      609       +8     
  Lines        91764    94218    +2454     
===========================================
+ Hits         50611    52040    +1429     
- Misses       41153    42178    +1025

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

seetimee · 2024-04-29T15:53:51Z

请问能加入中文版的deberta吗？

w5688414 · 2024-04-30T06:59:56Z

中文哪个版本？

seetimee · 2024-04-30T07:44:03Z

好像只有二郎神的v2

w5688414 · 2024-04-30T09:50:02Z

可以给出对应的hf的deberta链接

seetimee · 2024-04-30T10:07:35Z

https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese

w5688414 · 2024-05-12T04:57:41Z

欢迎开发者贡献:

PaddleNLP/paddlenlp/transformers/deberta_v2/modeling.py

Line 787 in f27fdb4

def _get_name_mappings(cls, config):

Add DeBERTa model

0d2b7ee

w5688414 requested a review from sijunhe April 3, 2024 09:23

w5688414 self-assigned this Apr 3, 2024

w5688414 added 16 commits April 3, 2024 10:13

trigger unitest

b90480a

Add hf mirror

2c016da

fix unitest

9c44e48

Update deberta v2 model

62b06c0

Update debertav2

e07beca

Update deberta config

740863b

Update deberta docs

5064970

Update docs

52e7c2d

support stabledropout

fb73e13

refine tokenizer and comments

11981bf

fix tokenizer

ba06eba

try to fix connection error

92f5292

Update deberta unitest

513eb1e

Add deberta doc

a1a5fca

removev useless comments

f51a43e

Add deberta contents.rst

78af468

w5688414 requested a review from JunnYu April 11, 2024 03:22

sijunhe approved these changes Apr 11, 2024

View reviewed changes

sijunhe merged commit 814e9c4 into PaddlePaddle:develop Apr 11, 2024
7 of 10 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add DeBERTa model #8227

Add DeBERTa model #8227

w5688414 commented Apr 3, 2024 •

edited

Loading

paddle-bot bot commented Apr 3, 2024

codecov bot commented Apr 11, 2024

seetimee commented Apr 29, 2024

w5688414 commented Apr 30, 2024

seetimee commented Apr 30, 2024

w5688414 commented Apr 30, 2024

seetimee commented Apr 30, 2024

w5688414 commented May 12, 2024

Add DeBERTa model #8227

Add DeBERTa model #8227

Conversation

w5688414 commented Apr 3, 2024 • edited Loading

PR types

PR changes

Description

paddle-bot bot commented Apr 3, 2024

codecov bot commented Apr 11, 2024

Codecov Report

seetimee commented Apr 29, 2024

w5688414 commented Apr 30, 2024

seetimee commented Apr 30, 2024

w5688414 commented Apr 30, 2024

seetimee commented Apr 30, 2024

w5688414 commented May 12, 2024

w5688414 commented Apr 3, 2024 •

edited

Loading