読者です 読者をやめる 読者になる 読者になる

mecabのユーザー辞書をつくってみる

mecabを社内でいじることがあったので、備忘録

mecabのユーザー辞書をつくる

なぜか「せなか」とう単語がmecabになかったので、辞書を更新する

$ echo "おやじのせなか" | mecab
おやじ   名詞,一般,*,*,*,*,おやじ,オヤジ,オヤジ
の 助詞,格助詞,一般,*,*,*,の,ノ,ノ
せ 動詞,自立,*,*,サ変・スル,未然ヌ接続,する,セ,セ
なか  名詞,非自立,副詞可能,*,*,*,なか,ナカ,ナカ
  • ディレクトリに移動 $ cd /home/foo/bar

  • 追加したい言葉をCSVに追記 $ echo "せなか,1285,1285,5965,名詞,一般,*,*,*,*,背中,セナカ,セナカ" > user.csv

  • 辞書を作成(コンパイル

$  /home/foo/bar/libexec/mecab/mecab-dict-index -d   /home/foo/bar -u user.dic -f utf-8 -t utf-8 user.csv
reading user.csv ... 1
emitting double-array: 100% |###########################################|

done!
  • mecabrcを修正(コメントをはずす)
$ vim  /usr/local/lib/mecab/dic/ipadic/dicrc
userdic = /home/foo/bar/user.dic 

$ echo "おやじのせなか" | mecab おやじ 名詞,一般,,,,,おやじ,オヤジ,オヤジ の 助詞,連体化,,,,,の,ノ,ノ せなか 名詞,一般,,,,,背中,セナカ,セナカ

参考

MeCab: 単語の追加方法