文本以'\n'开头会引起高亮错位BUG #34

AnyListen · 2018-08-27T03:21:13Z

在HighLighterTest.java测试文件中，将索引的文本内容最开始加上一个'\n'即可复现BUG。

我的测试文本：

String text2 = "\n朗坤智能云平台—LiCP\nLuculent intelligent/industrial Cloud Platform\n白皮书\n\n——跨行业跨领域工业互联网平台 ";

String keyword = "朗坤智能云平台";

The text was updated successfully, but these errors were encountered:

AnyListen · 2018-08-27T03:22:05Z

测试结果

【
】【朗】【坤智】【能】【云平】台—LiCP
Luculent intelligent/industrial Cloud Platform
白皮书

——跨行业跨领域工业互联【网平】台
测试回测换行符 , 0.47491124

AnyListen · 2018-08-27T03:23:59Z

仔细看了一下是应该是 SegmentWrapper 中 Scanner scanner 的问题，在使用scanner.next();时，默认忽略了第一个 \n符号。

hankcs · 2018-08-27T04:52:08Z

是的，Java的Scanner和BufferedReader处理换行符时都在做多余的事情，必须自己写个Reader。请测试刚提交的补丁，如果没问题的话就发新版本。

AnyListen · 2018-08-27T05:05:25Z

已集成到ES分词插件测试，没问题啦

hankcs closed this as completed in 8d8fe5c Aug 27, 2018

hankcs added the bug label Aug 27, 2018

Provide feedback