非マンガ書籍自炊のためのメモ

将来的に小説なども電子化することを視野に、来週参加予定の読書会で使う書籍を電子化試行してみたんですが、なかなか一筋縄ではいきませんでした。

ScanSnap Organizerで直接PDFにする方法と、マンガ同様に一旦JPEGでスキャンしてeTilTranにかけてからPDF出力する方法があるのですが、一長一短なんです。

■ScanSnap OrganizerによるPDF化

  • OCRの処理速度と精度が良い
  • 画質がイマイチ

解像度自体はスーパーファインで問題ないんですが、「グレースケール」で取り込むと濃度がやや薄めでKindle上ではかなり読みづらくなります。で何故か手動の濃度調整は「自動」か「白黒」の時にしか使えない。「白黒」は図版が潰れるので論外として、「自動」では図版のあるページとないページで濃度セッティングが変わってしまい、ページによって文字の濃さ(太さ)がまちまちになってしまうという問題発生。「グレースケール」で手動濃度調整できれば試したなかでもっともバランスの良い自炊結果が得られそうなんですが残念無念。

■JPEG –> eTilTranでPDF化

  • 画質は良い(少なくともセッテイングを追い込める余地がある)
  • 角度補正も効く
  • AcrobatのOCRがイマイチ

この手順で作ったPDFをScanSnap Organizerに食わせてOCR処理させると「ScanSnapで作成したものじゃない」と怒られます。ケチ~。しかたないのでAcrobat9内蔵のOCRにかけてみたんですが、処理が1.5~2倍程度かかる上に、精度が低い。ScanSnap Organizerで拾えていた単語がこちらでは拾えないということが多々あります。

 

現状の結論として、

  • ScanSnap Organizerのグレースケールモードで手動濃度調節ができるようになるのが理想
  • Acrobat内蔵以外で良いPDF用OCRツールを物色するとよいかも

という感じ。

■KindleDX側の制約

もっとも、KindleDX側のPDFリーダーもあまりイケてる訳ではなく、そもそもせっかくOCRによる透明テキストを埋め込んでも、日本語検索(入力)に対応していないので意味なしです。まぁ、透明テキストはPC上での閲覧用にあるといいなということでこだわってみてます。

また、PDF内のしおりもKindleでは扱えません。ページ番号指定によるジャンプのみです。Kindle上のみの独自のBookmark機能はあって、1冊のデータに何カ所でも打てますが、名前をつけ変えたりはできません(一覧画面ではページ番号で表示)。

更にページ内の部品を認識して勝手に外周のマージンを削るように拡大表示してくれます。解像度の制約が大きいこの手のデバイスとしてはなるべく有効コンテンツ部分の解像度を高くして見せようという努力は評価できますが、結果としてページ毎に文字サイズがバラバラになるばかりか無駄にリサイズすることで文字が潰れたりギザったりしてくれやがります。ZIP/JPEGならできるDot-by-Dot表示もなぜか不可。

「なら、いっそZIP/JPEGでよくね?」って話になりますよね?ところがこっちも問題があるんです。ページ指定ジャンプができない。マンガや小説を頭から順に読んでく位ならあまり必要ないんですが、ランダムアクセスするような書籍だとさすがに1ページずつめくってられないです。「Go to Location…」というメニューはあるんですが、ページ番号入れてもファイル番号入れても何も起きない。マニュアルみても「特定のロケーションにジャンプできます」って書いてあるだけ…。そもそもZIP/JPEGがネイティブ対応してることはマニュアルには書かれていないので、あまり期待はできないかも。先頭ジャンプも効かないし、スリープ復帰後に最後に見ていたページはまとも表示されないし(めくると次ページからはちゃんと見える)、色々とバギーです。

 

ままならないものです…

Kindle DXの隠し操作というかキーボードショートカット

閲覧中、たまたまキーボードに触れてしまったりして、いくつかショートカットとして機能するキーがあることに気付きました。

User’s Guideにも載っておらず、ググっても出てくるのは前モデルのものが多く、ほとんどはDXでは使えないようです。

以下、とりあえず手元で確認できたもの。他にも画面更新など反応はあるものの、何が起きているのかわからないもの多数。どこかにまとめられてないかなぁ。

どこでも、

Alt + G: 画面再表示(前ページのゴーストが残っている場合などに)

Alt + ↑ + G: スクリーンショット撮影(documentsフォルダ下にGIFで保存される)

Home画面で、

ALT + Shift + M: マインスイーパ―起動 (イラネーw)

MENU: タイトルバーに時計を表示(Whispernet切ってるせいか時刻はズレまくり)

PDF閲覧中に

Alt + B: ブックマーク ON/OFF

ZIP/JPG閲覧中に、

F: Full Screenモード ON/OFF

R: Rotate(2方向のみ?)

C: Actual Size を trueに(=Dot-by-Dot表示)

Q: 拡大

W: 縮小

(拡大・縮小はAa –> Actual Sizeがnoにしてある時のみ)

 

 

 

というか、いじってるウチに画面下部に定規みたいな目盛りと数字が出てきたんですが、これが消せないorz。(再起動したら一応消えた)。

ひさびさKindleDXいじり

届いて数日で某所に貸してしまっていたので、その後あんまり触れていなかったKindleDXですが、今日無事返ってきました。

■傾き補正の半自動化

ScanSnap S1500でスキャン作業が効率化したといっても、若干気になるのが微妙な傾き。単ページ表示なら気になるほどではないんですが、MangaMeeya等で見開きにすると、コマ割線がVの字やハの字になるので結構目に付いてしまいます。今までにも手作業で修正をするツールは試してみたんですが面倒で挫折。最近は諦めてました。

が、最近になってeTilTranというツールを発見。画像を解析して自動で傾き補正値をしてくれ、1枚1枚グラフィカルに確認しつつ手動調整もできるという優れものです。自動補正の精度もなかなかのもので、劇的に効率があがりました。

ただ、コマ割線がほとんど無く唯一のものが斜めになっているようなレイアウトだとさすがに誤認識します。ScanSnap S1500の場合、1度を超えるような修正が必要になることはほとんどないので、それ以上の修正をしようとしてるページだけ目視でチェック、修正してやればいい感じです。一括保存時にリサイズ指定もできるので更に便利です。またカラーページとグレーページを自動判別し、それぞれ別のガンマ補正をかけたりと自炊のためのツボをよくおさえたツールです。

現状、“薄い御本”(©貴島煉瓦)1冊が裁断からZIP圧縮までで概ね6分で処理できています。

■書庫内ファイル名の2バイト文字問題

早速色々作り貯めておいたZIP/JPEGファイルを放り込んでみたんですが、なぜか表示されないまま固まる(Homeボタンで戻れるので本当にフリーズしているのではない)。色々条件を変えて検証した結果、

ZIP書庫内のフォルダ名に2バイト文字があるとダメ

ということが判明。試してないですが、おそらくJPEGファイル自体のファイル名も同様でしょう。

ここ最近は書名のフォルダに入れた形でZIP圧縮していたので全部ヒットorz。全部圧縮し直しです。

unzip –> cd –> zip * みたいな感じで簡単にバッチが組めそうな気もしたんですが、そもそもたくさんあるzipの中からフォルダ入りで圧縮してあるものを判別するのも大変なので、結局VBで簡単なアプリを作ってしまいました。zipファイルをドラッグ&ドロップすると、指定ファイルに解凍し、フォルダ入りだったらその階層をスキップして再圧縮。フォルダがないものはスルー。またフォルダが複数あったり多階層のものはとりあえずスルー(対応めんどいから)。これで、自炊書庫内のファイルをまとめてドロップすれば、必要なものだけ再圧縮されます。やれやれ。

(超ニッチだと思うのでとりあえず公開はしません。希望があればお知らせ下さい。)

KindleDX用代替ケーブル、Hack導入

■携帯用ケーブル

前エントリで上げたmicroUSB-miniB変換ケーブルを買いにビックカメラに行ったら、こちらのコネクタタイプのものを見つけました。手持ちのmini-B超ショートケーブルUSB-MBM5と組み合わせて、PCでマウントできたのを確認。

もともとmini-Bケーブルは汎用性が高く常時携帯していることを考えると、プラスワンとしてはかなり有効な選択肢だと思います。

kindle_cable

■Unicodeハック + 壁紙変更ハック

また海外の有志により二種類のハックが公開されています。どちらも公式アップデータを装う形式で、Kindleにコピーして、本体のメニューからアップデートを実行するだけで簡単に導入できました。同じ形式でアンインストール用のファイルも同梱されており、元に戻すこともできるようです(未テスト)。国外に持ち出した時点でサポートは期待していないので、思い切って導入してみました。

Unicodeハック

内蔵フォントを日本語を含むものに置き換えるハックです。PDFにフォント埋め込みしなくてもよくなり、日本語のテキストファイル(UTF-8限定?)も読めるようになるとのことですが、そこら辺は未テスト。ただHome画面で日本語ファイル名が表示できるようになったのが何よりのメリットです。

日中韓フォントを含むdroidと含まないliberationの二種類のパッチが公開されています。droidだと英字フォントがセリフ無しになってしまうようです。実際書籍の表示は導入前の方が好みでした。まぁ、英語コンテンツはこの後あまり増えない(買えない)ので、妥協します。

ScreenSaverハック

開発したのが別のサイトのようですが、手順説明がわかりやすいのでこちらをリンクしておきます。先にこちらで操作手順をつかんでから、上記Unicodeハックを導入すると簡単かも知れません。

Kindleは電源をオフした時に、ランダムで著名な文豪の顔写真や鳥などのイラストが表示されます(表示維持に電力を必要としないe-Inkなので、次に電源入れるまでずっと表示したまんまです)。最初は有名な作家の顔が見られて面白いんですが、慣れるとぶっちゃけ、オッサン&オバハンの写真じゃなぁ、という気がしてきます。

このハックを導入すると、指定フォルダに置いた画像ファイルがランダムで使われるようになります。痛Kindleの完成ですw。

ただ、フルカラーCGを単純に放り込むだけだと16階調グレースケール化された時に綺麗に表示されないケースがありました。それなりに明るさ、コントラスト、ガンマ値などを自分でいじらないと、こだわり派の人は満足できないかも知れません。

KindleDX到着。ZIP/JPGを中心にレビュー。

待ちに待ったKindleDXが届きました。

■ZIP/JPGアーカイブのハンドリング

これまでのあらすじ。

ZIP圧縮したJPEG(以下ZIP/JPG)アーカイブが使えると聞いて自炊マンガ用に発注

オンラインマニュアルによるとKindleサーバーによる変換が必要と聞いてガックリ

試したら普通にUSB直置きでも行けた(←今ここ)

 

てことで、以前スキャンしたZIP/JPGなファイルをUSB経由でコピーしたらあっさり開けました。ただ、コピー時間からしてもフラッシュメモリの書き換えが遅いらしく、表紙などのカラーページは重い、というか上から何段かに分かれて徐々に表示される感じになります。グレースケールのページはPDFと遜色ない印象(というかカラーのPDFはまだ試してない)。連続でパカパカめくるとつらいですが、読んでる間に先読みキャッシュしているっぽくて、それができてる状態なら割とサクっと切り替わります。逆にページ指定で一気に跳んだりする時はやけに時間がかかる場面があります。

まぁ、パラパラ~っとめくるには遅いですが、普通にマンガとして読むなら実用レベルだと思います。小説などテキスト中心のドキュメントなら楽勝でしょう。

■ハード面

プロダクトとしてはかなり綺麗なデバイスですね。惚れ惚れします。キーボードは数字列があると良かったかな。ページ指定ジャンプで数字は結構使いそうですが、今はQWERTY列+ALTしないとならず面倒。

今んとこ、とりあえずマンガ用(通しで順に見てくだけ)には概ね満足です。ランドスケープで見開き表示にならないのは惜しいですが。画質は自炊する時に最適な濃度やガンマ値を試行錯誤すればかなり綺麗に出る予感(実際スクリーンセーバー の写真とか綺麗ですし)。

ファイル名が化けるのはUnicodeハックで解決するのかなぁ。さすがに初日からつっこむ気になれない(^^;)。

USBポートはminiB(PSPなので使うアレ)かと思ったら違った。あれならどこにでもケーブル転がってるから便利だったのに。多分PlantronicsのBTヘッド セットと同じ。micro-USBという規格みたいですね。WILLCOM-03用のコレ→が使えるかも知れないので、現在手配中。電池自体はワイヤレスをオフにしてやれば二週間もつとのことですが、出先でふとPDFファイルを入れてみたくなる場合があるだろうということで、VAIOと一緒に持ち歩いておこうと。そういう意味では、初期モデルにあったSDカードスロットが廃止されたのは惜しいですね。microSDでもいいからついてたら便利だろうと思います。

■ソフト面

とりあえず付属USBでのマウントはドライバ無しで普通にマスストレージで認識(Vista)。documentsフォルダの下にPDFもZIP/JPGも置けばいいんですが、フォルダ階層掘ってもKindle上ではフラットに表示されるので、たくさんつっこむ時は不便。しかも一覧画面上で最近読んだのが上にくるので、毎回並びがかわって探しづらい。 設定でファイル名順に固定できました。

あと、オートローテートがウザイのはiPhoneと全く同じ。なんでオフにできねぇんだと小一時間問いたいこれも設定できました。横画面では、PDFの場合は1ページが横幅一杯で縦が欠け、NEXT PAGEボタンで半分ずつ表示される感じ。ZIP/JPGの場合は縦合わせでちんまり表示です。どちらもほとんど実用性はないので、オートでローテートされてもイラっとくる場面の方が多いです。ただページ送りボタンは片側にしかないので、手が疲れて左手に持ち替える時はクルっと180°ひっくり返すだけで切り替わるのは便利です。ランドスケープモードだけDisableできれば理想的。

またパスワード認証とかはないので、業務関連のファイルを入れて紛失したりするとヤバいです(パスワード付きPDFもダメでした)。