分词疑问：“钱管家中怎么绑定网银” #633

iwaller · 2017-09-21T08:58:10Z

注意事项

请确认下列注意事项：

我已仔细阅读下列文档，都没有找到答案：
我已经通过Google和issue区检索功能搜索了我的问题，也没有找到答案。
我明白开源社区是出于兴趣爱好聚集起来的自由社区，不承担任何责任或义务。我会礼貌发言，向每一个帮助我的人表示感谢。
我在此括号内输入x打钩，代表上述事项确认完毕。

版本号

当前最新版本号是：1.3.4
我使用的版本是：1.3.4

我的问题

分词疑问，添加了自定义词，但是没有分词出来，而是人名识别依然起效果，但感觉人名识别也不对。

复现问题

步骤

触发代码

    public void testIssue1234() throws Exception
    {
        CustomDictionary.add("钱管家");
        System.out.println(HanLP.segment("钱管家中怎么绑定网银"));
    }

期望输出

[钱管家/n,  中/, 怎么/ryv, 绑定/gi, 网银/n]

实际输出

[钱管/nr, 家中/s, 怎么/ryv, 绑定/gi, 网银/n]

其他信息

从分词结果看，钱管分词为一个人名了，添加自定义分词后，没有任何影响。
然后，我关闭人名识别功能，发现还是没有作用，必须要向CoreNatureDictionary.ngram.txt中
添加

钱管家@中 10

并且，将钱管家添加到CoreNatureDictionary.txt中才行。

The text was updated successfully, but these errors were encountered:

AnyListen · 2017-09-22T01:15:25Z

你只需要在添加自定义词典的时候添加词频即可，例如使用下面代码
CustomDictionary.add("钱管家", "nz 2000");
分词结果为：
[钱管家/nz, 中/f, 怎么/r, 绑定/gi, 网银/n]

hankcs · 2017-09-23T14:47:47Z

感谢反馈。这是个友好的issue，所以应当得到妥善处理。
事实上，用户词典优先级已经是个老生常谈的问题了。绝大多数人认为用户词典中的词语绝对应该分出来，他们没有统计学的概念。
为了避免人们反复提问，我决定加这么一个开关，请参考上面的commit。

ps @AnyListen 使用的是98年的模型，那份语料虽然古老，但比14年的质量高出不少。

iwaller · 2017-09-27T00:04:24Z

非常感谢大神回复，用户词典词语优先级高了，可能会影响统计分词，目前我们在用户词典的添加不可控，也不期望绝对按用户词典优先，所以目前我是直接针对这个特例做处理，暂时还没有设置用户词典优先级的开关。

hankcs · 2020-01-01T11:08:01Z

感谢您对HanLP1.x的支持，我一直为没有时间回复所有issue感到抱歉，希望您提的问题已经解决。或者，您可以从《自然语言处理入门》中找到答案。

时光飞逝，HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本，代号为最后的武士。此后1.x分支将提供稳定性维护，但不是未来开发的焦点。

值此2020新年之际，我很高兴地宣布，HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此，HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型，通过精心设计的框架支撑下游NLP任务，在海量语料库上取得了最前沿的准确率。作为第一个alpha版本，HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且，这些功能并不仅限中文，而是面向全人类语种设计。HanLP2.0提供许多预训练模型，而终端用户仅需两行代码即可部署，深度学习落地不再困难。更多详情，欢迎观看HanLP2.0的介绍视频，或参与论坛讨论。

展望未来，HanLP2.0将集成1.x时代继承下来的高效率务实风范，同时冲刺前沿研究，做工业界和学术界的两栖战舰，请诸君继续多多指教，谢谢。

hankcs added a commit that referenced this issue Sep 23, 2017

新增一个提高用户词典优先级的开关：#633

c57895f

hankcs added the improvement label Sep 23, 2017

hankcs mentioned this issue Sep 23, 2017

添加用户自定义词典后没起作用 #635

Closed

1 task

hankcs closed this as completed Jan 1, 2020

hankcs added ignored and removed improvement labels Jan 1, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

分词疑问：“钱管家中怎么绑定网银” #633

分词疑问：“钱管家中怎么绑定网银” #633

iwaller commented Sep 21, 2017

AnyListen commented Sep 22, 2017

hankcs commented Sep 23, 2017

iwaller commented Sep 27, 2017

hankcs commented Jan 1, 2020

分词疑问：“钱管家中怎么绑定网银” #633

分词疑问：“钱管家中怎么绑定网银” #633

Comments

iwaller commented Sep 21, 2017

注意事项

版本号

我的问题

复现问题

步骤

触发代码

期望输出

实际输出

其他信息

AnyListen commented Sep 22, 2017

hankcs commented Sep 23, 2017

iwaller commented Sep 27, 2017

hankcs commented Jan 1, 2020