将来的に小説なども電子化することを視野に、来週参加予定の読書会で使う書籍を電子化試行してみたんですが、なかなか一筋縄ではいきませんでした。
ScanSnap Organizerで直接PDFにする方法と、マンガ同様に一旦JPEGでスキャンしてeTilTranにかけてからPDF出力する方法があるのですが、一長一短なんです。
■ScanSnap OrganizerによるPDF化
- OCRの処理速度と精度が良い
- 画質がイマイチ
解像度自体はスーパーファインで問題ないんですが、「グレースケール」で取り込むと濃度がやや薄めでKindle上ではかなり読みづらくなります。で何故か手動の濃度調整は「自動」か「白黒」の時にしか使えない。「白黒」は図版が潰れるので論外として、「自動」では図版のあるページとないページで濃度セッティングが変わってしまい、ページによって文字の濃さ(太さ)がまちまちになってしまうという問題発生。「グレースケール」で手動濃度調整できれば試したなかでもっともバランスの良い自炊結果が得られそうなんですが残念無念。
■JPEG –> eTilTranでPDF化
- 画質は良い(少なくともセッテイングを追い込める余地がある)
- 角度補正も効く
- AcrobatのOCRがイマイチ
この手順で作ったPDFをScanSnap Organizerに食わせてOCR処理させると「ScanSnapで作成したものじゃない」と怒られます。ケチ~。しかたないのでAcrobat9内蔵のOCRにかけてみたんですが、処理が1.5~2倍程度かかる上に、精度が低い。ScanSnap Organizerで拾えていた単語がこちらでは拾えないということが多々あります。
現状の結論として、
- ScanSnap Organizerのグレースケールモードで手動濃度調節ができるようになるのが理想
- Acrobat内蔵以外で良いPDF用OCRツールを物色するとよいかも
という感じ。
■KindleDX側の制約
もっとも、KindleDX側のPDFリーダーもあまりイケてる訳ではなく、そもそもせっかくOCRによる透明テキストを埋め込んでも、日本語検索(入力)に対応していないので意味なしです。まぁ、透明テキストはPC上での閲覧用にあるといいなということでこだわってみてます。
また、PDF内のしおりもKindleでは扱えません。ページ番号指定によるジャンプのみです。Kindle上のみの独自のBookmark機能はあって、1冊のデータに何カ所でも打てますが、名前をつけ変えたりはできません(一覧画面ではページ番号で表示)。
更にページ内の部品を認識して勝手に外周のマージンを削るように拡大表示してくれます。解像度の制約が大きいこの手のデバイスとしてはなるべく有効コンテンツ部分の解像度を高くして見せようという努力は評価できますが、結果としてページ毎に文字サイズがバラバラになるばかりか無駄にリサイズすることで文字が潰れたりギザったりしてくれやがります。ZIP/JPEGならできるDot-by-Dot表示もなぜか不可。
「なら、いっそZIP/JPEGでよくね?」って話になりますよね?ところがこっちも問題があるんです。ページ指定ジャンプができない。マンガや小説を頭から順に読んでく位ならあまり必要ないんですが、ランダムアクセスするような書籍だとさすがに1ページずつめくってられないです。「Go to Location…」というメニューはあるんですが、ページ番号入れてもファイル番号入れても何も起きない。マニュアルみても「特定のロケーションにジャンプできます」って書いてあるだけ…。そもそもZIP/JPEGがネイティブ対応してることはマニュアルには書かれていないので、あまり期待はできないかも。先頭ジャンプも効かないし、スリープ復帰後に最後に見ていたページはまとも表示されないし(めくると次ページからはちゃんと見える)、色々とバギーです。
ままならないものです…
何年かぶりのOCRソフト、e.Typist v.12
e.Typist v.12.0 製品版 以前のエントリで、非マン…
まだKindle情報があまりないのでかなり参考になりました。
SnapScanからそのままPDF化すると確かにKindleでは読みにくいですね。
自分で試してみて良く分かりました。
完成度の高さと作業の簡単さのバランスを取るのが難しいですね。
どうもありがとうございました。