広告/統計/アニメ/映画 等に関するブログ

広告/統計/アニメ/映画 等に関するブログ

【忘備録】MeCabの辞書に新しい単語を登録するまで

WindowsMeCabに、新しい単語を登録するに至るまでのトラップ
かれこれ4時間は、時間を取られたので、数々のトラップをメモする

■作業するフォルダに環境PATHを通す必要がある
PATHを通していないとすぐにこんなエラーが出てしまう筈だ
「'mecab'は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチファイルとして認識されていません。」
これについては、こちらのサイトを参照しました
Windowsの環境パスを通す(path)
詳細は、こちらを見て下さい。

自分の場合は、このフォルダ「C:\Program Files\MeCab」ごとアクセスできるようにしました。

■単語の登録
本家単語の追加方法の「エントリのフォーマット (活用しない語)」のパラグラフを参考にしました
辞書のあるフォルダ「C:\Program Files\MeCab\dic\ipadic」にCSVファイルを作って入れます。
元々MeCabのインストールの時にShift-jisを選んでいましたので、メモ帳で「ANSI」の文字コードを選んで保存しました。

■システム辞書への登録方法
正直ユーザー辞書への登録の方が難しかったので、システム辞書に加えました。
最終的にこのサイトMeCab辞書へ単語の追加してみたが大変参考になりました。

コマンドプロンプトで、
C:\Program Files\MeCabまで移動し、mecab-dict-indexを実行するために、
C:\Program Files\MeCab\>mecab-dict-index -d"C:\Program Files\MeCab\dic\ipadic" -f shift-jis -t shift-jisと入力して、辞書のコンパイルをします。
C:\Program Files\MeCab\dic\ipadicが辞書のファイル(csvファイル)が入っているフォルダです。
ダブルクオーテーションで囲ってフルパスを入れないと上手く生きませんでした。

■できたファイルを辞書のあるフォルダまで移動が必要
こちらのサイトが参考になった。
windows版mecabにutf-8のシステム辞書を追加するの3と4

コンパイルした後に、4つ新しいファイルができる
これは、自分がコマンドを入力した時のディレクトリに配置されるので、
さっきの場合は、「C::\Program Files\MeCab」のフォルダにできる。
・char.bin
・sys.dic
・unk.dic
・matrix.bin
の4つを辞書のあるフォルダ「C:\Program Files\MeCab\dic\ipadic」に移動させて上書きする


これで上手く行きました!