-
Notifications
You must be signed in to change notification settings - Fork 290
About
Toshinori Sato (@overlast) edited this page Mar 9, 2015
·
1 revision
-
I record
-
MeCab の標準のシステム辞書(今回はipadic-2.7.0)を使った時に、分割されてしまう語のみ収録する。
- MeCab が正しく分割できる語については、収録を見合わせている
-
解析前に複雑な正規化処理をしなくても、この辞書中の語とマッチするようにする。
- この場合の複雑さとは、文字の正規化処理で文字列に含まれる意味を破壊する可能性を考えることである。
- 例 : 'LINE'と'line'は同じ実体を指す言葉と考えて大丈夫だろうか
- この辞書データは故意に冗長になるようにしている。
- 必要ならも'LINE'と'line'の両方のエントリを生成する。
- この場合の複雑さとは、文字の正規化処理で文字列に含まれる意味を破壊する可能性を考えることである。
-
表層と読みがなの組を取得できた語だけ収録する
- 闇雲にエントリを増やすならあらゆる資源の見出し語を全部突っ込めば良い
- そして、それを行うモチベーションが個人的に無い
- 闇雲にエントリを増やすならあらゆる資源の見出し語を全部突っ込めば良い