PythonとMeCabで形態素解析

最近,作ってるモノで形態素解析が必要になったのでMeCabを入れてみたメモ.

最初はChaSenを見てたんだけど,Pythonとのbindが面倒そうだなーと調べてた過程でMeCabを発見.


必要なモノはすべてココからDLできます.
ドキュメントはこちら.


まず,MeCabをDLしてきてインストール.
mecab-0.97.tar.gzをDLして解凍.
文字コードで苦しみたくないので,UTF-8で統一.

bash-3.2$ cd mecab-0.97
bash-3.2$ ./configure --with-charset=utf-8
bash-3.2$ make
bash-3.2$ chmod 700 ./install-sh
bash-3.2$ sudo make install


次に,コーパスのインストール
mecab-ipadic-2.7.0-20070801.tar.gzをDLして解凍.

bash-3.2$ cd mecab-ipadic-2.7.0-20070801
bash-3.2$ ./configure --with-charset=utf-8
bash-3.2$ make
bash-3.2$ sudo make install


最後に,Pythonとbindさせる.
mecab-python-0.97.tar.gzをDLして解凍.

bash-3.2$ cd mecab-python-0.97
bash-3.2$ python setup.py build
bash-3.2$ sudo python setup.py install


ドキュメント通りにサンプルコードを動かしてみる.

# coding: utf-8
# samplecode.py

import MeCab

m = MeCab.Tagger("-Ochasen")
print m.parse("ねことペンギンは本質的にかわいいのである.")


実行結果.

bash-3.2$ python samplecode.py
ねこ	ネコ	ねこ	名詞-一般		
と	ト	と	助詞-並立助詞		
ペンギン	ペンギン	ペンギン	名詞-一般		
は	ハ	は	助詞-係助詞		
本質	ホンシツ	本質	名詞-一般		
的	テキ	的	名詞-接尾-形容動詞語幹		
に	ニ	に	助詞-副詞化		
かわいい	カワイイ	かわいい	形容詞-自立	形容詞・イ段	基本形
の	ノ	の	名詞-非自立-一般		
で	デ	だ	助動詞	特殊・ダ	連用形
ある	アル	ある	助動詞	五段・ラ行アル	基本形
.	.	.	名詞-サ変接続		
EOS


あまりの素晴らしさに涙がでました.