OCRソフト(画像から文字を認識するソフト)を、探してみました。
「Capture2Text」(フリーウェア)
「RealReader Lite」というシェアウェアと、比較してみます。
※PDFファイルに入っているテキスト情報を読み取るものは、「OCR」ではないので、
「PDFをOCRするソフト」の類は、調べていません。
======================================
1.Capture2Textのインストールと設定
SourceForgeの「Capture2Text」ページから、最新版をダウンロード。
解凍してできた「Capture2Text.exe」を、実行するだけです。
最初に起動したときに、↓のようなメッセージが出ます。
「タスクトレイ・アイコンを右クリックして、「Preferences…」を見てみな」
みたいなことが書いてあります。
言われたとおり、タスクトレイ・アイコンを右クリック→「Preferences…」。
「Hotkeys」タブに、ホットキーの登録情報が書いてあります。
初期設定では、
・OCR起動/終了=Windowsキー+Q
・言語変更=Windowsキー+1~3 (後述)
もちろん、自分流に変更もできます。
残念ながら、ボクの環境では、
・Toggle text direction(タテ書き/ヨコ書き変更)
・Speech Recognition(音声認識)
は、使えませんでした。
言語変更の1~3は、「OCR」タブに書いてあります。
Japaneseには、「NHocr」と「Tesseract」の2つがありますが、
2種類のOCRプログラムの使い分けのようです。
2.実験
CNNのサイトから、最近のニュースを画像としてキャプチャしました。
↓英語のニュース
↓日本語のニュース
OCRの手順は、
(1)画面上に、読み取りたいものを表示させる。
(2)読み取り範囲の左上にマウスカーソルを置いて、「Winキー+Q」。
(3)カーソルを範囲左下に移動して、解析時間(10秒ほど?)待ってから、
「Winキー+Q」(または左クリック)。
これで、クリップボードにコピーされます。
メモ帳などを開いて、貼り付ければOK。
まずは、言語を英語モード(初期設定では「Winキー+3」)にして、
英語ニュースを読み取らせました。
結果は・・・
=================================
(CNN) — My mother-in-law and I talk about nearly everything.
But when I mentioned to her recently that I was working on a story about
emergency preparedness, I realized that’s one thing we’ve never discussed
— even though she lives nearby and would certainly factor into our family plan.
=================================
パーフェクトでした (゜∀゜ノノ゛パチパチ
次に、日本語ニュース。
「NHocr」「Tesseract」を、それぞれ何度か試しましたが、
毎回、微妙に違う結果になります。
=================================
(CNN) コーヒ-.に及ぼす影響についてはきまぎまな説があるか
米国の医学者ちがこのほど、 55歳末満の年齢層でコーヒ一を大量に
飲み続ける人は死亡率が高いとの研究結果を発表した。
=================================
(C N N) コーヒーが健康に及ぼす影馨につし丶てはさまざまな説があるが、
米の医学者らがこのほと、 5 5歳宋満の年齢眉でコーヒーを大量に
飲み続ける人は死亡率が高いとの研究藁吉果を発表した。
=================================
こんな感じで、よく読み取ってはいますが、結果が安定しません。
ほかにもいくつか試しましたが、英語はかなり精度が高いものの、
日本語は、ポツリポツリとミスが出ます。
3.RealReader Lite
Vectorのページからダウンロード→インストール。
インストール後、2週間はお試しで使えます。
基本的な使い方は、カンタン。
(1)「読み込み」をクリックして、画像を読みこませる。
(2)「結果保存」をクリックして、テキストファイルとして保存。
(または、エディタウィンドウ(右側)のテキストをドラッグしてコピー。)
日本語ニュースを読み取らせた結果は・・・
=================================
(CNN)コーヒーが健康に及ぼず影響についてはさまざまな
説があるが、米国の医字者らがこのほど、55歳末満の年齢層で
コーヒーを大量に飲み涜ける人は死亡率が高いとの研究結果を発
表した。
=================================
1文字間違えただけでした。
ほかもいくつか試しましたが、さすがに「Capture2Text」よりは良い結果でした。
タテ書きも、自動で認識します。