テキストを全てひらがなに変換する #python

textconverterはテキストのエンコードを変換するUtility #python :右京webを参照。

なぜかeuc_jpに変換しているのはお察しください。
#coding: utf8

import sys
import re
from textconverter import convert
import MeCab

p_ruby = re.compile('《.+?》')
p_hira = re.compile('[ぁ-ゞー]+')
sub = p_ruby.sub
match = p_hira.match
m = MeCab.Tagger()
kigou = set(['「','」','、','・','?','…',' '])

argvs = sys.argv

if len(argvs) != 3:
print 'error'
quit()

input_name = argvs[1]
output_name = argvs[2]

input_file = open(input_name, 'r')
output_file = open(output_name, 'w')

for line in input_file:
tmp = sub('', line)
tmp = m.parse(convert.utf8_to_eucjp(tmp))
tmp = convert.eucjp_to_utf8(tmp)
sq = tmp.split('\n')
for _line in sq[:len(sq)-2]:
yomi = _line.split(',')[5]
if yomi == '。':
output_file.write('\n')
elif yomi in kigou:
pass
elif match(yomi):
output_file.write(yomi)
output_file.write('\n')

output_file.close()



posted by 右京 | Python
blog comments powered by Disqus
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。