自然言語処理チーム(pkg-nlp-ja)とパッケージ
2015/05/23
野首貴嗣
knok@debian.org/@knok
*NOTICE*
私は専門家ではありません
間違いがあれば容赦なくご指摘ください
pkg-nlp-ja
管理パッケージ
その他のNLPパッケージ
何ができるか
形態素解析
ChaSen, MeCab, Juman
応用例
動作原理
解析の手がかり
アルゴリズム
ref: 日本語形態素解析入門(pdf)
辞書探索
Common Prefix Search
アルゴリズム
トライ(Trie)
文字単位の木構造
漢
音
字
語
化
Double Array
ref: ダブル配列の実装方法
辞書
単語の追加: KAKASI
# よみ [空白] 漢字
けいさんしょう 経産省
けいざいさんぎょうしょう 経済産業省
$ echo '日本の経産省' | kakasi -w -iutf8 -outf8 ./extdic
日本 の 経産省
$ echo '日本の経産省' | kakasi -w -iutf8 -outf8
日本 の 経 産 省
単語の追加: ChaSen
注: スコアを計算するツールが付属していない
単語の追加: MeCab
参考
自然言語処理ツール
http://www.phontron.com/nlptools.php?lang=ja
日本語で読める自然言語処理のチュートリアルスライドまとめ
http://blog.unnono.net/2015/04/nlp-tutorial.html