ローマ字のnグラム作るやつ #python

https://github.com/ukyo/roman-ngram

コーパスを青空文庫からとってくる場合(bigram)はこんな感じでやればOKだね。
cat *.txt | iconv -f shift_jis -t utf-8 > aozora-utf8.txt
text2ngram aozora-utf8.txt 2

https://github.com/ukyo/roman-ngram/tree/master/example
にあるのはtwitterのsample streamから一晩くらい落としてきたやつから作ったもの。


posted by 右京 | Python
blog comments powered by Disqus
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。