PythonとMeCabで形態素解析
最近,作ってるモノで形態素解析が必要になったのでMeCabを入れてみたメモ.
最初はChaSenを見てたんだけど,Pythonとのbindが面倒そうだなーと調べてた過程でMeCabを発見.
必要なモノはすべてココからDLできます.
ドキュメントはこちら.
まず,MeCabをDLしてきてインストール.
mecab-0.97.tar.gzをDLして解凍.
文字コードで苦しみたくないので,UTF-8で統一.
bash-3.2$ cd mecab-0.97 bash-3.2$ ./configure --with-charset=utf-8 bash-3.2$ make bash-3.2$ chmod 700 ./install-sh bash-3.2$ sudo make install
次に,コーパスのインストール
mecab-ipadic-2.7.0-20070801.tar.gzをDLして解凍.
bash-3.2$ cd mecab-ipadic-2.7.0-20070801 bash-3.2$ ./configure --with-charset=utf-8 bash-3.2$ make bash-3.2$ sudo make install
最後に,Pythonとbindさせる.
mecab-python-0.97.tar.gzをDLして解凍.
bash-3.2$ cd mecab-python-0.97 bash-3.2$ python setup.py build bash-3.2$ sudo python setup.py install
ドキュメント通りにサンプルコードを動かしてみる.
# coding: utf-8 # samplecode.py import MeCab m = MeCab.Tagger("-Ochasen") print m.parse("ねことペンギンは本質的にかわいいのである.")
実行結果.
bash-3.2$ python samplecode.py ねこ ネコ ねこ 名詞-一般 と ト と 助詞-並立助詞 ペンギン ペンギン ペンギン 名詞-一般 は ハ は 助詞-係助詞 本質 ホンシツ 本質 名詞-一般 的 テキ 的 名詞-接尾-形容動詞語幹 に ニ に 助詞-副詞化 かわいい カワイイ かわいい 形容詞-自立 形容詞・イ段 基本形 の ノ の 名詞-非自立-一般 で デ だ 助動詞 特殊・ダ 連用形 ある アル ある 助動詞 五段・ラ行アル 基本形 . . . 名詞-サ変接続 EOS
あまりの素晴らしさに涙がでました.