StreamLDAで日本語

もともとのStreamLDAは正規化、文字列のパースを行う部分でアルファベット以外の文字を取り除く仕様(128行目付近)。
つまり、このままでは日本語が使えない。
streamlda.py at master from jessykate/streamLDA - GitHub

そこで、正規化とパースを行う関数を登録できるようにすれば(日本語使いたい奴は勝手に関数を作る)良さそうなので該当部分を関数化して分離。
streamlda.py at master from ukyo/streamLDA - GitHub

日本語でパースに使うものといったらMeCab。
perl製のMeCab辞書正規化ツールで生成した辞書を使うためのツールのpythonバインディングを作ったのでよかったらどうぞ。
pybin/mecab_sample.pyをみれば使い方がわかるかと思います。
(実はまだStreamLDAで試していなかったりする)
ukyo/mecab-dic-overdrive - GitHub


posted by 右京 | Python
blog comments powered by Disqus
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。