OCRソフトを試してみた

OCRソフト(画像から文字を認識するソフト)を、探してみました。
「Capture2Text」(フリーウェア)

「RealReader Lite」というシェアウェアと、比較してみます。

※PDFファイルに入っているテキスト情報を読み取るものは、「OCR」ではないので、
「PDFをOCRするソフト」の類は、調べていません。

======================================

1.Capture2Textのインストールと設定

SourceForgeの「Capture2Text」ページから、最新版をダウンロード。

解凍してできた「Capture2Text.exe」を、実行するだけです。

最初に起動したときに、↓のようなメッセージが出ます。
「タスクトレイ・アイコンを右クリックして、「Preferences…」を見てみな」
みたいなことが書いてあります。

言われたとおり、タスクトレイ・アイコンを右クリック→「Preferences…」。
「Hotkeys」タブに、ホットキーの登録情報が書いてあります。

初期設定では、

・OCR起動/終了=Windowsキー+Q
・言語変更=Windowsキー+1~3 (後述)

もちろん、自分流に変更もできます。

残念ながら、ボクの環境では、
・Toggle text direction(タテ書き/ヨコ書き変更)
・Speech Recognition(音声認識)
は、使えませんでした。

言語変更の1~3は、「OCR」タブに書いてあります。
Japaneseには、「NHocr」と「Tesseract」の2つがありますが、
2種類のOCRプログラムの使い分けのようです。

2.実験
CNNのサイトから、最近のニュースを画像としてキャプチャしました。

↓英語のニュース

↓日本語のニュース

OCRの手順は、
(1)画面上に、読み取りたいものを表示させる。
(2)読み取り範囲の左上にマウスカーソルを置いて、「Winキー+Q」。
(3)カーソルを範囲左下に移動して、解析時間(10秒ほど?)待ってから、
 「Winキー+Q」(または左クリック)。

これで、クリップボードにコピーされます。
メモ帳などを開いて、貼り付ければOK。

まずは、言語を英語モード(初期設定では「Winキー+3」)にして、
英語ニュースを読み取らせました。

結果は・・・
=================================
(CNN) — My mother-in-law and I talk about nearly everything.
But when I mentioned to her recently that I was working on a story about
emergency preparedness, I realized that’s one thing we’ve never discussed
— even though she lives nearby and would certainly  factor into our family plan.
=================================
パーフェクトでした  (゜∀゜ノノ゛パチパチ

次に、日本語ニュース。
「NHocr」「Tesseract」を、それぞれ何度か試しましたが、
毎回、微妙に違う結果になります。
=================================
(CNN) コーヒ-.に及ぼす影響についてはきまぎまな説があるか
米国の医学者ちがこのほど、 55歳末満の年齢層でコーヒ一を大量に
飲み続ける人は死亡率が高いとの研究結果を発表した。
=================================
(C N N) コーヒーが健康に及ぼす影馨につし丶てはさまざまな説があるが、
米の医学者らがこのほと、 5 5歳宋満の年齢眉でコーヒーを大量に
飲み続ける人は死亡率が高いとの研究藁吉果を発表した。
=================================
こんな感じで、よく読み取ってはいますが、結果が安定しません。

ほかにもいくつか試しましたが、英語はかなり精度が高いものの、
日本語は、ポツリポツリとミスが出ます。

3.RealReader Lite
Vectorのページからダウンロード→インストール。
インストール後、2週間はお試しで使えます。

基本的な使い方は、カンタン。
(1)「読み込み」をクリックして、画像を読みこませる。
(2)「結果保存」をクリックして、テキストファイルとして保存。
 (または、エディタウィンドウ(右側)のテキストをドラッグしてコピー。)

日本語ニュースを読み取らせた結果は・・・
=================================
(CNN)コーヒーが健康に及ぼず影響についてはさまざまな
説があるが、米国の医字者らがこのほど、55歳末満の年齢層で
コーヒーを大量に飲み涜ける人は死亡率が高いとの研究結果を発
表した。
=================================
1文字間違えただけでした。

ほかもいくつか試しましたが、さすがに「Capture2Text」よりは良い結果でした。
タテ書きも、自動で認識します。