Remove empty tokens from whitespace tokenizer #6119

dakshvar22 · 2020-07-01T17:52:21Z

Proposed changes:

Since, we shifted away from re to regex, it looks like the .sub method introduces a few null unicode chars in the resultant string. These needed to be cleaned up.

Status (please check what you already did):

… empty_unicode_token

tabergma

Looks great 🚀 Thanks!

tests/nlu/tokenizers/test_whitespace_tokenizer.py

rasa/nlu/tokenizers/whitespace_tokenizer.py

Co-authored-by: Tanja <tabergma@gmail.com>

rasa/nlu/tokenizers/whitespace_tokenizer.py

fix

bdfb49d

dakshvar22 requested a review from tabergma July 1, 2020 17:52

dakshvar22 and others added 7 commits July 1, 2020 19:53

remove unused import

0308b29

add changelog

67a2849

fix index

3b62515

remove emoji

fde21bc

Merge remote-tracking branch 'origin/whitespace-tokenizer-tanja' into…

332fe4c

… empty_unicode_token

add emoji removal

c21f27f

update changelog

16b80ae

tabergma approved these changes Jul 2, 2020

View reviewed changes

tests/nlu/tokenizers/test_whitespace_tokenizer.py Outdated Show resolved Hide resolved

tabergma reviewed Jul 2, 2020

View reviewed changes

rasa/nlu/tokenizers/whitespace_tokenizer.py Outdated Show resolved Hide resolved

dakshvar22 and others added 2 commits July 2, 2020 10:02

added return types

94003db

Update tests/nlu/tokenizers/test_whitespace_tokenizer.py

c8b1c08

Co-authored-by: Tanja <tabergma@gmail.com>

tabergma reviewed Jul 2, 2020

View reviewed changes

rasa/nlu/tokenizers/whitespace_tokenizer.py Show resolved Hide resolved

remove re.pattern type

75328fd

dakshvar22 merged commit 3823811 into 1.10.x Jul 2, 2020

dakshvar22 deleted the empty_unicode_token branch July 2, 2020 09:22

Provide feedback