tesseractで日本語OCR
問題
tesseractで日本語OCR、できる?
答え
まだちょっと厳しいんじゃないかなぁ。。。 という結果でした。
以下の画像を読み取らせた結果が、
株式会ネ土 ソ フ テ丿 レ
でした。
チューニングの余地があるのか、読み取り結果をさらに調整するのがよいのか、読み取りやすいように加工した画像を渡すべきなのか、何かしらの方法で改善しないと、このまま使うのは無理な感じです。
導入手順例
CentOSで使ってみたときの手順メモします。
GoogleCodeからソースを持ってきて、解凍して、コンパイルします。
# wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz # tar zxf tesseract-ocr-3.02.02.tar.gz # cd tesseract-ocr # ./configure # make # make install
configureで、「leptonica がないよ(configure: error: leptonica not found)」と言われたら、leptonicaをインストールしてから、makeする。
# wget http://leptonica.googlecode.com/files/leptonica-1.69.tar.bz2 # tar jxf leptonica-1.69.tar.bz2 # cd leptonica-1.69 # ./configure # make # make install
日本語、英語…など各種言語に対応するには、言語データを追加する。
デフォルトで /usr/local/share/tessdata/ に言語データをおけばよいようなので、tesseract-ocr-3.02.eng.tar.gz や tesseract-ocr-3.02.jpn.tar.gz などを取得、解凍して、jpn.traineddata などのファイルを /usr/local/share/tessdata/ に置く。
動作確認例
1、どこかのスクリーンショットかペイントソフトなどで文字入りの画像を作る。
2、tiffにする
convert sample.png sample.tiff
3、設定があれば tess.conf に書いて
4、tesseractする
tesseract sample.tiff out -l jpn -psm 7 tess.conf
-lオプションは言語、-psmオプションは1行か、1単語かなどの読み取り方の指定。
5、結果を確認する
cat out.txt
take 2013年6月27日 12:15
某大規模掲示板を意識したかのような読み取り結果ですね~
yoshimura 2013年6月27日 12:28
決してふざけているわけではないんですけど!あのような結果になってしまいました。
名刺管理などに使えないかなと思ったのですが、まだ無理そうですね。