LynxTips 使い方ガイド

カスタム言語モデルを設定する

カスタム言語モデルとは?

言語モデルとはIBM側で言語毎に用意される認識テンプレートのようなものです。当然日本語の言語モデルも用意されていますが、例えば製品名や画面上のボタン文言などUTの会話の中には一般的な日本語会話にはない言葉が含まれがちで、これは標準の言語モデルでは正しく書き起こしができません。そこで文字通りこの標準言語モデルをカスタムして利用できる仕組みが提供されています。カスタム言語モデルはいくつでも作成することができ、書き起こしの度にどのモデルを使うかを選択することができます。なので案件毎に新規カスタム言語モデルを作成して、そこに固有の単語登録をして利用する、という使い方になります。

カスタム言語モデルを作成する

  1. 「管理...」ボタンをクリックし「カスタム言語モデル管理」ウインドウを開く
  2. 「新規」ボタンをクリックしてモデルの名前を設定(ベースモデルはJA_JP_BROADBANDMODELのままでOK)
  3. 右側の表に登録単語を記入(「項目説明」ボタンで項目毎の説明をご覧いただけます)
  4. 「学習実行」をクリックし、ステータスバーに「学習に成功」と出るまで待つ(通常30秒以内)
  5. 管理ウインドウを閉じ、メインウインドウで利用するカスタム言語モデルをプルダウンメニューから選択

動画、音声ファイルをドラッグ&ドロップする

書き起こしたい動画や音声ファイルをリスト部分にドラッグ&ドロップします(複数可能)。

動画ファイルの場合

一般的な動画形式であれば対応可能のはずです。処理が開始されると動画ファイルと同じフォルダ下に同名拡張子違いのFLACファイルが生成されます。FLACは可逆圧縮形式の1つで音質を損なわずにサイズを小さくできる形式です。また現状ではステレオ収録の音声もモノラルに変換し、Watsonに最適な16kHzにします。

音声ファイル

Watsonが入力として受け付けるFLAC、MP3、WAV、OGGなどの形式であればそのまま使用可能です。それ以外の場合は動画の場合と同様にFLAC変換を試みます。

「音声最適化」チェックボックス

例えばWatsonが受け入れ可能な形式であってもWatsonが必要とする16kHz以上の音質だと通信量の無駄遣いとなります。特にリニアPCMレコーダーで録音したWAVファイルなどはファイルサイズも大きくなりがちです。そういう場合、このチェックボックスを選択しておくことで強制的にMP3に変換します。動画から抽出したFLACの場合でもMP3にしてさらにサイズを圧縮します。それでどれくらいの認識精度の差になるか不明ですが、モバイルルーターなどで通信速度が遅い環境でご利用の場合などにお試しください。

書き起こしを実行する

準備が整ったら「実行」ボタンで書き起こしを行います。書き起こしにはおおむね実時間がかかります(60分のファイルなら60分)。進捗はグリーンのプログレスバーでシメされます。また複数ファイルを同時にドロップした場合は並行して処理されますので、60分+60分が60分くらいで処理できると期待されます。ただしPCのストレージ処理や通信帯域の制約があるので、徐々に効率は落ちていくと思われます(未検証)。

また途中でアプリケーションがクラッシュするなどした場合、処理途中だったファイルのそれまでの処理費用は無駄になってしまいます(現状、続きからの継続処理は未対応です)。あまり欲張らず、様子を見ながらご利用ください。

結果を活用する

抽出音声ファイル同様、書き起こしたタブ区切りファイルは元ファイルと同じフォルダに拡張子違いで保存されます。拡張子は.txtなのでメモ帳などテキストファイルを扱えるアプリケーションやExcelなどでそのまま開く事ができます。

動画眼で利用する場合は、そのまま動画とテキストファイルが同じ階層に拡張子違いで存在する状態で、動画を開けばテキストも自動で読み込まれます。

不具合を報告する

本ツールはベータ版となっております。動作の不具合や使いにくい点、機能要望などは是非古田まで報告いただけると有り難いです。