Release v1.3.5新特性、优化与维护 · hankcs/HanLP

大幅优化CRF分词和二阶HMM分词，重构CharacterBasedGenerativeModelSegment @TylunasLi
自定义词典支持热更新：#563 ，ngram模型支持热加载：#580
新增一个提高用户词典优先级的开关：#633
支持98年人民日报的复合词语料格式，如"[中央/n 人民/n 广播/vn 电台/n]nt"
开放TextRank关键词提取中的最大迭代次数参数：#577
为Term添加equal方法 @AnyListen
TextRankKeyword 提取窗口相近词的强化 @tiandiweizun
文本摘要方法支持自定义句子分隔符 @wangdong
提高AC自动机健壮性，添加hasKeyword接口 @fnaith
修复BinTrie.remove不存在的key时导致的问题：#540
解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题：#542
CharTable.txt 添加上下标字符的对应关系 @AnyListen
将“\t”等不可打印的字符视作分隔符：#584
中文数词与阿拉伯数词切分开 @jian.li
修正全角年份识别中字符串长度错误，修正数字识别工具的错误，增加测试代码。支持读取包含BOM的文本文件。 @TylunasLi
校对CoreNatureDictionary.txt，删除以分号开头的错误词语:#221 (comment)
修复CoNLLWord中toString方法的bug @xu2333
微调人名识别模型：#562 删除人名识别模型中的高频动词D标签，降低误命中率，音译人名识别取消外国地名触发
修复Nature.fromString和IOUtil.loadDictionary：#626
修正简繁一多对应校验表，拼音等
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.5</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

v1.3.5新特性、优化与维护