tesseractで日本語OCR

Category software 2013/06/25

問題

tesseractで日本語OCR、できる？

答え

まだちょっと厳しいんじゃないかなぁ。。。　という結果でした。

以下の画像を読み取らせた結果が、

株式会ネ土 ソ フ テ丿 レ

でした。

チューニングの余地があるのか、読み取り結果をさらに調整するのがよいのか、読み取りやすいように加工した画像を渡すべきなのか、何かしらの方法で改善しないと、このまま使うのは無理な感じです。

導入手順例

CentOSで使ってみたときの手順メモします。

GoogleCodeからソースを持ってきて、解凍して、コンパイルします。

# wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
# tar zxf tesseract-ocr-3.02.02.tar.gz
# cd tesseract-ocr
# ./configure
# make
# make install

configureで、「leptonica がないよ（configure: error: leptonica not found）」と言われたら、leptonicaをインストールしてから、makeする。

# wget http://leptonica.googlecode.com/files/leptonica-1.69.tar.bz2
# tar jxf leptonica-1.69.tar.bz2
# cd leptonica-1.69
# ./configure
# make
# make install

日本語、英語…など各種言語に対応するには、言語データを追加する。

デフォルトで /usr/local/share/tessdata/ に言語データをおけばよいようなので、tesseract-ocr-3.02.eng.tar.gz や tesseract-ocr-3.02.jpn.tar.gz などを取得、解凍して、jpn.traineddata などのファイルを /usr/local/share/tessdata/ に置く。

動作確認例

１、どこかのスクリーンショットかペイントソフトなどで文字入りの画像を作る。

２、tiffにする

convert sample.png sample.tiff

３、設定があれば tess.conf に書いて

４、tesseractする

tesseract sample.tiff out -l jpn -psm 7 tess.conf

-lオプションは言語、-psmオプションは1行か、1単語かなどの読み取り方の指定。

５、結果を確認する

cat out.txt

コメント（2）

take 2013年6月27日 12:15

某大規模掲示板を意識したかのような読み取り結果ですね～

yoshimura 2013年6月27日 12:28

決してふざけているわけではないんですけど！あのような結果になってしまいました。
名刺管理などに使えないかなと思ったのですが、まだ無理そうですね。

SOFTELメモ Developer's blog

tesseractで日本語OCR

問題

答え

導入手順例

動作確認例

関連するメモ

コメント（2）

Tags

Categories

Archives

Link

Meta