-
Notifications
You must be signed in to change notification settings - Fork 10.1k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
1.7.2 版本中 CustomDictionary.insert 对 NLPTokenizer 无效? #1143
Labels
Comments
任何产品级的工具都需要一定的复杂度去面对复杂的现实问题,HanLP也不例外。特别是对NLP这个复杂的问题,不可能依靠一套算法通吃。 |
@hankcs
|
|
👍👍👍 受教了! |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
注意事项
请确认下列注意事项:
版本号
当前最新版本号是:1.7.2
我使用的版本是:1.7.2
我的问题
非常感谢这个项目,对NLP的理解深入了很多,我之前用的版本是1.6.4,基本只用了我认为最核心稳定的以统计模型(StandardTokenizer「ViterbiSegment」)为主,规则(CustomDictionary)为辅的中文分词服务。
这样虽然高效、稳定,但随着遇到问题复杂性的提高,我逐渐发现已不能满足我nlp任务上一些需求,比如对未 insert 到 CustomDictionary 的「机构名」、「人名」识别较差,再比如没能好好利用到 parseDependency。
在看到HanLP 公开了在线演示的1亿级语料训练的分词模型后,非常兴奋想要好好的利用起来。虽然我已经看过好几遍首页及wiki、FAQ、以及相关 issues,但可能由于基础较差,对 HanLP 的诸多「特性」理解不深,不知道该如何用好,总感觉各个功能间总是“鱼与熊掌不可兼得”。
于是想在这里集中整理一下我的问题:
dictionary/custom/机构名词典.txt
后确实会生效,相关代码在下面。复现问题
步骤
触发代码
期望输出
实际输出
其他信息
The text was updated successfully, but these errors were encountered: