MeTilTranで行認識誤爆を防ぐ為の覚え書き

SDIM0943小説などをスキャンした画像から文字を認識してより低解像度のビットマップ上に再配置してくれる神ツールMeTilTranですが、たまにルビ付きの行を誤認識して、写真のように真ん中で真っ二つにぶった切ってしまうことがあります(5行目。クリックで拡大)。今回SONY Reader用に久しぶりに使い出して気になったので研究してみました。

実際に当該ページの認識状態をMeTilTranで見てみると、このように、1行+ルビが2行として誤認識されてしまっています。手動で分割したりルビ分離したりすれば直せますが、全ページこれが発生してないかチェックする訳にもいきません。

で、設定画面にそれらしいパラメーターがないか探したところ、「分布_行間隣接しきい値」がぁゃιぃ。初期値0.35だったところを0.4にしてみたらかなり改善。でもちょい取りこぼし。なんでとりあえず0.5にしてみました。今のところ副作用はないようです。

2010.12.16追記:

0.5でもまだ誤爆発生。もういっそ思い切って1.0にして副作用が出ないか検証することに。

before settings after
設定修正前 設定項目 設定修正後

 

MeTilTranのほぼ唯一気になっていたところなので、これが改善されればかなり快適なSONY Readerライフが送れそうです。

(強いて言えば、後は禁則処理がおかしくて、行頭に「、」が来たりする点が気になりますが、中身が読めない訳でもなし。これもどっかパラメーターをいじれば改善するんですかねぇ。)

「MeTilTranで行認識誤爆を防ぐ為の覚え書き」への2件のフィードバック

  1. 久々の神認定電子書籍リーダーアプリ「bREADER」

    久しぶりに電子書籍自炊ライフに衝撃をもたらすiPhoneアプリを発見しました。その名は「bREADER」。青空文庫向けだとばかり思ってスルーしていたんです…

  2. eTilTran補正でノンブル領域を活用するメモ

    bREADERが便利すぎ、『境界線上のホライゾン』が面白すぎて自炊率が上がっている今日この頃です。同シリーズの文庫は900ページ近くある巻も多く、とても紙…

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)