何年かぶりのOCRソフト、e.Typist v.12

以前のエントリで、非マンガ書籍をKindle用PDFについて試行錯誤していた訳ですが、その際ネックになったOCRを、別途専用ソフトでやったらよくね?ってことで、何年かぶりにOCRソフトに手を出してみました。というか単体パッケージを買うのは初めてかも。元々OCRとかディクテーションとか翻訳といった自然言語系のソフト技術は学生の頃に絶望していらいあんま信用しておらず、その後あまり注目したこともありませんでした。でも、先日ScanSnap Organizerの認識率はまずまずだったし、PDFの検索用に透明テキストを作る位なら一字一句正確でなくてもまぁ諦められるかなと。

で、ScanSnap Organizerの認識エンジンを調べると、ABBYY FineReader for ScanSnap™ 4.0となっています。海外製のソフトをOEMで買って来て使っているもよう。おそらくScanSnap以外で取り込んだPDFを認識しないのは、ライセンス上の制限なんでしょう。なら、その製品のフルパッケージを買えばよくね?と思った訳ですが、体験版の申し込みをした後、さっぱりメールが来ない。まぁ、迷惑メールフォルダをあされば出てくる可能性大ですが、とりあえず放置。日本語は辞書を利用した認識はしてくれないみたいですし。

で、次に同社のエンジンを(英文に)利用しているらしいPanasonicの「読取革命」に注目。しかし体験版のインストーラーすら起動せず。64bit非対応でしたorz。

調べてみると64bit完全対応を謳う製品はなく、「動作未保証」になっているのが「e.Typist」と「読んでココ」辺り。このあたりは1万円台後半で、ドキュメント管理やOffice文書(への)変換など統合ソフト的になってきていて、ぶっちゃけ画像PDFに透明テキストが載っけられれば良いσ(^^)にはやや無駄も多かったんですが、老舗なりの精度を期待したのと、「e.Typist」のオーバーレイ表示が認識精度のチェックに良さげだと思ったので決めました。

64bitで動くか不安だったので体験版を探すも見つからず諦めて店頭へ。で、パッケージをみるとやっぱり「体験版は公式サイトにあるから、動作確認はそっちでよろしく」と書いてある。仕方なく店頭では買わず、無駄に駐車場代を払って帰宅。で、公式サイトで体験版一覧のページを見つけて開いてみると「現在配布配布している体験版はありません」ときやがる!なめとんのかゴルァですよ。結局Vectorで買いました。

■やっとレビュー

認識率は変に凝ったフォントでない限り問題なさげです。認識速度も爆速。ただ、画像PDFの読み込みが若干もっさりします。

本製品はScanSnap連携機能もあり、直接ScanSnapのボタンでスキャンした結果を取り込むことができます。が、しかしこれを使うと結局前のエントリで問題になった点をすべて引きずることが判明。さらにTIFF形式で渡してるみたいなんですが、これもやっぱり読み込みがもっさり。結局この機能はさっくり殺しました。

結局JPEGで喰わせるのが一番速いようで、JPEGで取り込み、eTilTranで傾きとガンマ補正して再度JPEG保存。それをe.Typistに読み込むという手順がいいみたいです。KindleDXに最適化したピクセル数だとPC上で読むのにやや粗いので、リサイズはしない方向で。前回のものに比べサイズが3倍以上(178ページで30MB->110MB)になりましたが、動画などに比べたら屁でもないのでクオリティ優先で。できあがったPDFはPCで見ても綺麗で検索もでき、KindleDXでもそれなりに読めるので、満足しています。

ユーサビリティとしては、全体にやや煩雑です。フォルダで喰わせられず、百単位の画像ファイルを全選択して渡す必要があったり(フォルダ指定はできました)、レイアウト調整、認識もデフォルトでは選択しているファイルしかしてくれなかったり。色々マクロ的な機能を使いこなせば一発変換もできるみたいですが、なんかそこまでするのもまためんどくさそうな微妙な作りです。あと開いてるファイルの閉じ方も不明。別の書籍データを取り込もうとすると、同名ファイルが既にあると怒られる。よくわからないので毎回一旦アプリを終了してます。保存メニューから透明テキスト付きPDFを保存できるかどうかもよくわからなくて、いつも「ワンタッチ転送」機能でAcrobatに渡してそっちで保存しています。Acrobat持ってない人はどうなんだろう?とか。

そういう応用力と試行錯誤する根気がある人には精度と速度的には充分オススメでしますが、例えば実家の父親にホイっと渡して使える気はあんまりしない、という感じ。逆に業務で定型文書を扱う時なんかには、テンプレート設定機能を使って最適化してやれば、父親の会社の事務員さんなんかには使ってもらえるかなという気もします。その辺りの機能はまた機会があれば試してみたいと思います。プログラミング系のリファレンス本なんかにはいいかも。>テンプレ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)