7月に予定していた仕事がことごとく延期になったヒマになったので、以前から取り組もうと思っていたUT支援ツール2本に本格的に着手しました。
一般公開まではもうちょっとテストを重ねてからと思っていますが、だいぶ動くようになっているので動画でチラ見せです。
■UT音声書き起こしツール
以前にもトライアルを記事にしてますが、IBM CloudのSpeech to Text(音声からのAIテキスト起こし)サービスを使ってユーザテストの音声を書き起こすツールです。IBM CloudのAIサービス(いわゆるWatson)は有料サービスですが、ユーザ辞書登録的なことができるので、ユーザテストのような業務文脈の対話では有用です。例えば会話の中に出てくる固有製品名や部位名などをあらかじめ学習しておくことで認識精度を上げることができます。一応簡単なWeb UIは提供されていますが、本ツールの優位点として、
- 動画から音声を自動抽出してアップロードする(Watsonは音声データしか受け付けない)
- 複数のファイルを一括処理できる
- 辞書学習周りもGUIで行える
- 後述の動画眼で読み込めるタブ区切りテキストファイルで書き出す(標準の出力はJSON形式で扱い辛い)
以下、少し古いバージョンですが動いている様子。
■動画眼2
2004年から公開しているビデオインデックス付けツール「動画眼」を完全フルスクラッチで作り直しています。本ツールは動画の特定タイムコードに対してメモを記入し、そのメモを選択することでタイムコードの位置を頭出し再生するというものです。UTなどの記録と分析、プレゼンにと開発してきました。
現行版はVisual Basic.NET/Windowsフォームで作っておりもはや設計も古い為、メンテナンスがしづらくなっていました。今ならもう少し腕前も上がってるぞということでC#/WPFでゼロから作り直しています。
また分析工程でゼロからインデックスメモを書き込んでいくのも大変で現実の業務でもなかなかやらないだろうということで、先のクラウド書き起こしした全発話インデックスをとりこんで、それをみて当該箇所を探してジャンプする、というユースケースを優先した作りになっています。
こちらも動いている様子を動画に録ってみました。
どちらもそう遠からずリリースできると思うのでご興味のある方はこちらのブログかTwitterアカウントをウォッチしておいていただければと思います。