[Tokenizer] Support for loading added_tokens_decoder #8997

DrownFish19 · 2024-08-23T06:50:12Z

PR types

Bug fixes

PR changes

Others

Description

The new tokenizer_config.json now includes the added_tokens_decoder, and we load them in the PretrainedTokenizer _pre_init.

解决llama、gemma、mamba无法添加token的问题。
当前添加的token和原始的added_token_decoder最后都会保存在added_token_decoder:dict中，可下次加载并且序号不变。
当前added_token_decoder可被from_pretrained加载，保证tokenizer_config.json中序号不变。

paddle-bot · 2024-08-23T06:50:17Z

Thanks for your contribution!

…x_added_tokens_decoder_load

codecov · 2024-08-28T06:58:26Z

Codecov Report

Attention: Patch coverage is 94.87179% with 2 lines in your changes missing coverage. Please review.

Project coverage is 53.89%. Comparing base (9f6b486) to head (d6f2f38).
Report is 239 commits behind head on develop.

Files with missing lines	Patch %	Lines
paddlenlp/transformers/gemma/tokenizer.py	81.81%	2 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #8997      +/-   ##
===========================================
- Coverage    54.51%   53.89%   -0.63%     
===========================================
  Files          648      652       +4     
  Lines       103473   104388     +915     
===========================================
- Hits         56406    56255     -151     
- Misses       47067    48133    +1066

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

DrownFish19 · 2024-08-28T07:18:31Z

paddlenlp/transformers/mamba/tokenizer.py

@@ -158,6 +158,12 @@ def vocab_size(self):
        """
        return len(self.encoder)

+    def __len__(self):


mamba tokenizer的added_tokens_decoder中包含 [0,1]两个重复tokens，之前的计算方式会重复计算这两个token

DrownFish19 · 2024-08-28T07:18:54Z

paddlenlp/transformers/llama/tokenizer.py

@@ -80,6 +80,18 @@ def vocab_size(self):
        """Returns vocab size"""
        return self.sp_model.get_piece_size()

+    def __len__(self):


解决无法添加token的问题

DrownFish19 · 2024-08-28T07:19:11Z

paddlenlp/transformers/gemma/tokenizer.py

@@ -111,6 +111,18 @@ def vocab_size(self):
        """Returns vocab size"""
        return self.sp_model.get_piece_size()

+    def __len__(self):


解决无法添加token的问题

JunnYu

Mamba OK

* fix added_tokens_decoder load * fix decode * fix saving and loading added_token_decoder * fix mamba * fix special_tokens_map_file load * fix gemma tokenizer * fix llama tokenzier * revert llama tokenizer * fix _decode

fix added_tokens_decoder load

f8d0347

DrownFish19 changed the title ~~[tokenizer] fix added_tokens_decoder load~~ [Tokenizer] fix added_tokens_decoder load Aug 23, 2024

DrownFish19 added 9 commits August 23, 2024 09:57

fix decode

8af6aeb

Merge remote-tracking branch 'paddlenlp/develop' into dev_20240823_fi…

5c0d201

…x_added_tokens_decoder_load

fix saving and loading added_token_decoder

c2e8689

fix mamba

f669c10

fix special_tokens_map_file load

a0efe46

fix gemma tokenizer

228f9ed

fix llama tokenzier

45925e2

revert llama tokenizer

8388aec

fix _decode

d6f2f38

DrownFish19 commented Aug 28, 2024

View reviewed changes

DrownFish19 changed the title ~~[Tokenizer] fix added_tokens_decoder load~~ [Tokenizer] support added_tokens_decoder load Aug 28, 2024

DrownFish19 changed the title ~~[Tokenizer] support added_tokens_decoder load~~ [Tokenizer] Support for loading added_tokens_decoder Aug 28, 2024

JunnYu approved these changes Aug 28, 2024

View reviewed changes

ZHUI approved these changes Aug 28, 2024

View reviewed changes

DrownFish19 merged commit 3e7c5ca into PaddlePaddle:develop Aug 28, 2024
10 of 12 checks passed

DrownFish19 deleted the dev_20240823_fix_added_tokens_decoder_load branch August 28, 2024 12:38

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Tokenizer] Support for loading added_tokens_decoder #8997

[Tokenizer] Support for loading added_tokens_decoder #8997

DrownFish19 commented Aug 23, 2024 •

edited

Loading

paddle-bot bot commented Aug 23, 2024

codecov bot commented Aug 28, 2024 •

edited

Loading

DrownFish19 Aug 28, 2024

DrownFish19 Aug 28, 2024

DrownFish19 Aug 28, 2024

JunnYu left a comment

[Tokenizer] Support for loading added_tokens_decoder #8997

[Tokenizer] Support for loading added_tokens_decoder #8997

Conversation

DrownFish19 commented Aug 23, 2024 • edited Loading

PR types

PR changes

Description

paddle-bot bot commented Aug 23, 2024

codecov bot commented Aug 28, 2024 • edited Loading

Codecov Report

DrownFish19 Aug 28, 2024

Choose a reason for hiding this comment

DrownFish19 Aug 28, 2024

Choose a reason for hiding this comment

DrownFish19 Aug 28, 2024

Choose a reason for hiding this comment

JunnYu left a comment

Choose a reason for hiding this comment

DrownFish19 commented Aug 23, 2024 •

edited

Loading

codecov bot commented Aug 28, 2024 •

edited

Loading