We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
有博友微博发私信来问,那我就说说日文人名的清洗过程吧。
首先是语料的来源 日语人名的来源是日文维基百科,日语维基大概有100万词条,包含人名20万+。可以从维基官网免费下载到。其实也可以去几个日文人名网站抓取,不过会费劲些。
数据清洗工具 主力工具是MS SQL Server,其次用到了Excel,EmEditor。需要用到SQL和正则表达式。去除杂质时,也用到了tf-idf思想。由于日文人名的特殊性,没有用贝叶斯概率也能取到较好效果。
数据准备工作 1、日文维基百科词条; 2、日文姓氏3000个; 3、分词字典(我自己用的是500万词,网上能找到的一般是50万词左右,看缘分),交叉对比用; 4、萌名项目之前标注的一些内容。
以下为微博内容 日本的姓氏比较多,有2万多个好像,以2字3字的居多,1字的也不少,还有少数4字以上的。在网上找到了一个比较全的姓氏表(前缀),这样就省下了很多时间。为了方便处理,4字和以上的姓氏,就直接丢弃不用了。提取名(后缀)的时候,1字的姓不参与。
将2字和3字的姓分别作为前缀,从那100万维基词条中拉取一遍数据,将数据手动切分成 人名,姓(前缀),名(后缀)。并导入到一张新表中,对后缀进行group by,并导入新表,然后删除低频词。用清洗后的后缀,再从维基词条那拉取一遍数据。重复迭代两到三次即可,此时将数据合并,大概有26万左右,杂质较多。
对姓进行group by,少于5个结果的,就直接删除掉。对名进行group by,注意高频部分,如町、駅,主要用于地名,可以直接删了。查询本数据和分词词库的交集部分,按词频倒序,手工删除非人名。此时大约还剩20万词,剩下的badcase以地名居多。
然后在GitHub上找到了一个日本妹子分享的日本地名大全,https://github.com/ledyba/PlaceNameParser ,利用此数据清洗掉上万地名。此时大概剩余18万,也即我分享的那个日本人名数据。
用时大概2天半。主要原因有1、使用了网上已有的3000个日本姓氏;2、使用了萌名项目的部分成果,如不能用于人名的汉字标注;3、对于低频词/字,直接删除;4、使用了百万级的分词字典做数据参照对比;5、日本人名的特殊性。
如果没有这些,完全从头再来,大概要2个月。
如果是中文人名,上面的方法就要大打折扣了,因为中文的大姓多是单姓。tf-idf方法作用不大,建议直接上贝叶斯。
The text was updated successfully, but these errors were encountered:
”随机删除了部分名人姓名(一点点小私心)“ 路过,好奇删除名人姓名为什么是小私心
Sorry, something went wrong.
分词总库中约有150W人名,开源了120W; 中间相差的30W,有部分属于质量较差,还有部分就是特意没放出来。囧
No branches or pull requests
有博友微博发私信来问,那我就说说日文人名的清洗过程吧。
首先是语料的来源
日语人名的来源是日文维基百科,日语维基大概有100万词条,包含人名20万+。可以从维基官网免费下载到。其实也可以去几个日文人名网站抓取,不过会费劲些。
数据清洗工具
主力工具是MS SQL Server,其次用到了Excel,EmEditor。需要用到SQL和正则表达式。去除杂质时,也用到了tf-idf思想。由于日文人名的特殊性,没有用贝叶斯概率也能取到较好效果。
数据准备工作
1、日文维基百科词条;
2、日文姓氏3000个;
3、分词字典(我自己用的是500万词,网上能找到的一般是50万词左右,看缘分),交叉对比用;
4、萌名项目之前标注的一些内容。
以下为微博内容
日本的姓氏比较多,有2万多个好像,以2字3字的居多,1字的也不少,还有少数4字以上的。在网上找到了一个比较全的姓氏表(前缀),这样就省下了很多时间。为了方便处理,4字和以上的姓氏,就直接丢弃不用了。提取名(后缀)的时候,1字的姓不参与。
将2字和3字的姓分别作为前缀,从那100万维基词条中拉取一遍数据,将数据手动切分成 人名,姓(前缀),名(后缀)。并导入到一张新表中,对后缀进行group by,并导入新表,然后删除低频词。用清洗后的后缀,再从维基词条那拉取一遍数据。重复迭代两到三次即可,此时将数据合并,大概有26万左右,杂质较多。
对姓进行group by,少于5个结果的,就直接删除掉。对名进行group by,注意高频部分,如町、駅,主要用于地名,可以直接删了。查询本数据和分词词库的交集部分,按词频倒序,手工删除非人名。此时大约还剩20万词,剩下的badcase以地名居多。
然后在GitHub上找到了一个日本妹子分享的日本地名大全,https://github.com/ledyba/PlaceNameParser ,利用此数据清洗掉上万地名。此时大概剩余18万,也即我分享的那个日本人名数据。
用时大概2天半。主要原因有1、使用了网上已有的3000个日本姓氏;2、使用了萌名项目的部分成果,如不能用于人名的汉字标注;3、对于低频词/字,直接删除;4、使用了百万级的分词字典做数据参照对比;5、日本人名的特殊性。
如果没有这些,完全从头再来,大概要2个月。
如果是中文人名,上面的方法就要大打折扣了,因为中文的大姓多是单姓。tf-idf方法作用不大,建议直接上贝叶斯。
The text was updated successfully, but these errors were encountered: