ユーザテストの音声録音品質を研究してみる(2)〜音声収録の基礎知識

前回、ユーザテストではどんな収録ニーズ、要件があるのかをまとめました。それに対して、本稿ではどんな機材や設定、テクニックが有効そうか経験とリサーチでわかったことをまとめます。一部はデスクリサーチに基づき、今後注意したらよさそうと思っている、実地体験を伴わない知識もあるので、勘違いなどあれば是非ご指摘いただければと思います。個人だとそう高価な機材を扱う機会もないし、より多くの現場で適用可能な知見をまとめる意味では現実的なコスパで賄うことも考えなければならないので、マイクだけでン万円とか十数万円といった世界はちょっと除外して考えたいと思います。同様にビデオカメラなども業務用のものは範疇外としたいです(いや「業務」で使うんだけども)。

■マイクの種類

・原理の違い

大きくダイナミックマイクとコンデンサマイクがあります。ダイナミックマイクはカラオケとかで見るハンドマイクなんかで使われてて、安くて電源が要らないし、音源に近い分には十分音が拾える。

コンデンサは小さく感度が高く微細な音も拾えるが、高い、湿気の影響を受けやすい、電源が必要というデメリットも。

・使途別の形状の違い

(写真はイメージ用で、個々のリンク先商品が特別オススメということではありません。典型的な形状のものを選んでいます)

CUSTOMTRY カスタムトライ ダイナミックマイク CM-2000 (マイクケーブル付き)ハンドマイク

マイクのアイコンにも使われる棒の先端にボールがついたようなのがいわゆるハンドマイク。手に持ったりスタンドで固定して口の直近で録る前提。UTではあまり使われないです。

 

audio-technica ステレオマイクロホン(バウンダリー) AT9920バウンダリーマイク

底面がフラットで卓上に置いて使う形状のマイク。背も低くて存在感が低いのでUTではよく使います。単一指向性(後述)のものを二人の間の卓上に置けばちょうど良いでしょう。注意したいのは卓上の振動がダイレクトに響いてしまう為、キーボードやマウスの操作音、スマートフォンを置いたりもったりするゴトリ音などを大きく拾ってしまい場合があること。そんな時はハンカチを敷くなど緩衝材的なものを挟むと良いでしょう。

 

audio-technica ラベリア・マイクロホン AT829H/Pラベリアマイク

タイピンマイクとかピンマイクという親指〜小指大の小さなマイクで、文字通りタイピン型クリップなどでネクタイやシャツの合わせ目など胸元に装着して使う個人用マイクです。個々人の音がはっきり録りやすいですが、UTではいちいち了解をとって取り付けてもらうのも負担ですし、セーターなど不向きな服装もあるのであまり現実的ではないでしょう。紐(コード)がぶらさがるのもなにかとトラブルになったり行動を制限してしまいます。テレビ収録などでよくみるワイヤレストランスミッターをベルトやポケットに装着してもらうものもやはり大袈裟になって現実的ではないと思います。

FOTGA mic-01 ガンマイク スタジオ 指向性 マイク 録音/宅録/生放送/インタビュー 適用ガンマイク

少し離れたところから遠くの音を録るマイク。野外インタビューや野鳥観察などフィールドレコーディングで、周りの騒音を抑えてド真ん前の音だけ拾う超指向性をもっています。被験者の声を非装着で離れたところから拾えますが、感度によっては進行役の声が拾えなくなってしまいます。一人1本用意できればアリかも知れません。

AVANTEK コンデンサーマイク 高音質 単一指向性 3.5mmミニプラグ スタジオ 録音 生放送 ゲーム実況 PC用 MP-9ラージダイアフラムマイク

形状はハンドマイクに似ていますが、コンデンサマイクなので手持ちで乱雑に扱うものではなく、逆にショックマウントという振動を吸収する仕組みのついたスタンドで卓上やアームに固定して使います。ダイアフラムというのはコンデンサマイクの中核となる集音部品でこいつがデカイ=感度が高い、という意味の名前です。形状を表す名前が別途あるかも知れません。最近はYouTuberや歌い手など配信用ニーズが高まっているので種類も豊富です。ショックマウントが付属あるいは一体化したものもあります。

多少設置の配慮が必要ですが基本的にはバウンダリーマイクが手軽で「録ってる感」が希薄で良いと思います。ただし後述の指向性に注意してください。

・指向性の違い

指向性とはマイクがどんな範囲の音を録れるかを指す特徴です。無指向性>単一指向性>超指向性、といった順に音が拾える範囲が狭くなっていきます。双極指向性みたいな8の字的に前と後ろに感度をもつものもあります。

無指向性は全方位区別なく録れます。テーブルの両側に人がいる会議などを録ったりするのに良いですし、うっかり実際中にマイクの向きがズレてしまっても全く音が録れないというリスクは減りますが、逆に余計な背景ノイズ(空調音とか)も容赦なく広いますので良し悪しです。片側に並んで座るUTではもう少し範囲の狭い単一指向性の方が良いでしょう。ただし実際にはもう少し細かい区分(90°とか120°とか)がありますので、並んで座るか、テーブルの角をまたいで座るかによっても最適なマイクは変わってきますし、設置する向きも気をつけなければなりません。90°ならマイク正面に向かって左右に45°ずつの範囲の音しか録れないということになります。しっかり声を拾いたいからといってあまり前に近づけすぎると範囲から外れてしまう可能性もあるので気をつけたいところです。きちんとした商品には指向性を図解したものが仕様表に載っていますので確認しましょう。また少し高くなりますがシチュエーションで指向性を切換できるものもあるので候補に入れても良いかも知れません。

あと英語というかカタカナ語表記でオムニとあったら無指向性、カーディオイドは指向性を意味します。カーディオイドにはサブとかスーパーとか接頭辞がついて指向性の強さを示します。こちらが参考になります。

http://www.shureblog.jp/shure-notes/マイクの指向性:-何を、どこで、どう使う?/

・電源種別

コンデンサマイクには電源が必要です。本体に電池ボックスやバッテリーを内蔵していたり、外付けの電池ボックスが付属しているものもありますが、規格としてはプラグインパワーとファントム(ファンタム)電源があります。

プラグインパワーはビデオカメラやPCの3.5mmジャックのマイク端子から電源を供給できるものです。プラグインパワー対応端子かどうかは見た目で区別できず、カタログや仕様表でしかわからないので注意が必要です。プラグインパワー供給が必要なマイクを、プラグインパワー非対応マイク端子に挿しても音は録れません。電池式はその辺のややこしさはないですが、電池切れのリスクもあります。購入時に気をつけてプラグインパワーのマイクとカメラ(PC)を選ぶのが一番良いんじゃないんでしょうか。最近のマイク端子付きビデオカメラはほぼプラグインパワー対応な気がします。むしろ廉価機種だとマイク端子自体がないモデルがあるので、ビデオカメラ選びの段階でそこを気にしておくと良いでしょう。

audio-technica キャノンケーブル ATL458A/3.0

ファントム電源は写真のようなXLR端子(キャノン端子)を通じて電源を供給するものです。この端子/ケーブルを使うマイクの方がノイズに強いと言われますが、利用できるビデオカメラもマイクも業務用クラスのものになりますので、会議室などでゲリラ的に設営するUTでは、やや非現実的かも知れません。常設型のUTラボを設計する際はテストルームから観察室へとケーブルが長距離になるのでノイズ対策もより重要になり、XLR対応機器で組まれることが多いです。ファントム電源の電圧は何種類かあり48Vが基本ですが9Vや12Vといったものもあるので、マイクの仕様にあわせて供給機器側の設定もあわせてやる必要がある点に注意が必要です。

・マイク配置

ソニー SONY ステレオICレコーダー ICD-SX2000 : 16GB ハイレゾ対応 可動式マイク ブラック ICD-SX2000 B2本以上のマイクでステレオ録音をする時の指向性マイクの配置で、X-YとかA-BとかMSとかいう表記を見ることがあります。基本的には音楽など臨場感をどう出すかといったテクニックの話なのですが、最近のICレコーダー、リニアPCMレコーダー、外付けマイクなどでこれらの言葉が使われていることがあります。これは見た目にわかりづらいですが内部に複数のマイクがついていてステレオ録音できる場合に絡んできます。正直私もこれらをきちんと使い分けて録り比べたことがないのですが、UTの記録としてはそんなに気にすることでもないかなと思っています。そもそもインタビューなどの音声は基本的に下手に響いてしまうステレオよりモノラルで録るのが一般的だと思います。ただせっかく二人の人物を2chステレオで録れるなら、左右に定位が分かれていると、どちらがしゃべった内容か聞き分けやすくていいのかなとも思っていて、この辺りは色々試して見極めをしていきたいテーマです。

・録音機材

マイクからの音声信号を何で記録するかについてですが、まぁUTではビデオカメラで映像と一緒に記録するのが基本でしょう。映像と一緒に見てナンボのものですし。ただしより明瞭に録音した場合や、万一ビデオカメラがトラブったりした時の保険として音声レコーダーを使うことがあります。音声レコーダーにはいわゆるICレコーダーというカテゴリのものと、リニアPCMレコーダーとかフィールドレコーダーいうややお高いカテゴリのものがあります。厳密な区別は難しいですがICレコーダーは主に会議や講演など人の声を録音します。人の声の記録に高音や低音はさほど重要でない為、ファイルサイズの小ささを優先してMP3などの不可逆圧縮フォーマットを使うことが多いです。リニアPCMレコーダーはそれに対して音楽や野鳥、電車の音など芸術的、趣味的なものを対象によりリアルに収録することを目的としているのでリニアPCM、つまり無圧縮のWAVやFLAC形式、それもサンプリングレートの高いハイレゾ対応のものが多いです。マイクもそれなりに良いものや上記のX-YやMSといった臨場感高くまた自分でそれが調整できるようになってたりします。ちなみにビデオカメラも基本的には不可逆圧縮で音声を記録します。基本的にはICレコーダーカテゴリの十分でしょう。ただハイレゾが音質のリアルさ意外の面で役立つとしたら、小さい音でもノイズに埋もれず録れるという面です。万一声がすごく遠くて何いってるか聞きづらい時でも、ソフトウェアで音質を保ったまま音量を上げられます。デジタル録音では既定のレベルを振り切った大きな音はクリップといって切り取られてしまいます。これを防ぐためには一番大きな音でもクリップしない範囲に録音レベルを下げて録音しますが、これをやりすぎると今度は小さすぎて聞き取れないということになります。ハイレゾ録音ではこの音量方向の解像度が高いので、低めのレベルで録っても後で調整が聞くわけです。ちょうどデジカメで高画素数のカメラで撮った写真は、一部を拡大しても綺麗に見えるのと同じです。この音量方向の解像度を示すのが量子化ビット数という数値になります。例えば16bitだと音楽CDと同じ。ハイレゾだと24bitとかです。パット見そんなに違わないようですが1bitの違いは解像度が2倍になることを意味してるので、16->24bitでは2の8乗=256倍の解像度をもってることになります。つまり24bit収録してあれば256倍に拡大(音量増幅)しても16bit収録相当の音質を保っていられるわけです。後工程で大きくする手間を厭わなければ、もう録音レベルとか気にしなくて良いとすら言えそうです。社内で内製のUTで、万が一取り損ねたセッションや区間があっても「まぁいっか」で済むプロジェクトなら正直そこまで気にすることもないでしょうが、納品物として万一にもミスは許されない場合や、あとでしっかり書き起こししたい場合などにはハイレゾやリニアPCM録音、そして後述のノイズ対策にこだわってみてもいいかも知れません。

・ノイズ対策

UTやインタビューの記録では基本的に人の声以外はノイズです(製品が出す効果音や音声など一部例外はあるでしょうが)。できれば排除したいです。声がノイズに埋もれて聞き取りづらいと聞き返していてストレスになります。特に後でしっかり書き起こしもするようなケースではしっかりノイズ対策して聞き取りやすい収録を心がけたいものです。

UTは基本室内録りなのでありがちなノイズ源としては空調音や打鍵音/クリック音などの操作ノイズ、あとはケーブルを長く引き回した時にのりやすい電気的信号的なノイズ(ホワイトノイズとかヒスノイズといわれる「サー」という音)があります。良いマイク/録音状態で声だけが大きく録れていればこれらはあまり気にならないですが、声の録音レベルが小さくなればなるほど、これらのノイズと相対的に音量差が小さくなり聞き取りづらくなります。再生音量を上げてもノイズも一緒に大きくなるだけであまり聞きやすくはなりません。しかもクシャミや咳、爆笑といった突発的な音で耳を痛めるリスクすらあります。声は大きく、ノイズは小さく録る(S/N比を高める)工夫が重要です。

今はデジタル加工ソフトも進化していて後からノイズを消すことはある程度、というかかなり綺麗に消せますが、手間を考えると最初からS/N比が高く無加工ですぐ分析や書き起こしに使えるに越したことはありません。ただどうしても重要なセッションで手間暇掛けてでも聴ける状態に加工した場合はそういう手段もあると憶えておくと良いでしょう。個人的に最近使い始めてるのはAdobeのAudition CCというツールです。またCUIでフリーのSoXというソフトもコマンドラインからかなりの加工ができるので、10セッション分の音声データを一括加工、とかいった場合に憶えておいて損はないと思います。

さて、話を戻して録音時のノイズ排除について。まず空調音のノイズはICレコーダーなどだったらローカットフィルター(もしくはハイパスフィルター)をオンにしておくと良いです。

打鍵音などの操作音はテーブルの振動を通して伝わる部分もあるので、バウンダリーマイクなら下にハンカチや防振マットのようなものを敷くと良いでしょう。三脚ネジ穴のついたマイクやICレコーダー用には、最近こういうショックマウントを見つけました。

これは上側が三脚ネジ(1/4インチねじ)になっているので、ねじ穴がついているICレコーダーなら取り付けられます。ただし下側がビデオカメラのシューマウントになっているので、これを外し、別途下記のネジ後継変換アダプタが必要になります。

HAKUBA カメラネジアダプター H-SA8

HAKUBA カメラネジアダプター H-SA8

149円(11/25 02:13時点)
Amazonの情報を掲載しています

効果の程は次の実査で試してみたいと思います。

以上、マイクにまつわる専門用語や規格について、UT文脈で向き不向きをまとめてみました。

ユーザテストの音声録音品質を研究してみる(1)〜そもそもどんな音を録るのか

最近、音声ファイルを書き起こしするフロントエンドアプリの開発している関係でこの本を買って読んでみたところ、色々とビョーキが出て音声収録機材を刷新したくなりましたw。この本、雑誌連載をまとめたもので、区切りが短く基礎的なことからまとまってて、普段なんとなく使っていた用語や概念の再整理ができてとても参考になりました。映像作品やライブ収録する人だけでなく、今だとインタビュー収録や自撮りネット素材作りなど幅広いニーズがあると思います。

■普段撮る/録るもの

さて、今の仕事でσ(^^)が収録機材を直接用意する必要はないので、どちらかというと普段のUT(ユーザテスト)やインタビューを撮るためのものです。UTだと映像も画面収録などで合わせて行います。その意味で、ビデオカメラの位置が被験者さん(モニターさん)の背後からディスプレイを撮ることも多いのですが、カメラ内蔵マイクだと遠くなってしまうので、外付けでマイクだけ卓上に置いたりするのが望ましいです。PCなどで直接画面収録ソフトで録画する場合は(ノートPCの内蔵マイクはいまいちなので)Webカメラのマイクを使ったりもします。お気に入りは先日も紹介したYAMAHA PJP-10URやLogicoolのWebカメラなど。

ヤマハ 会議用マイクスピーカー PJP-10UR

ヤマハ 会議用マイクスピーカー PJP-10UR

16,000円(11/25 02:13時点)
Amazonの情報を掲載しています

(このPJP-10UR、生産完了が発表されました。近日中に入手不可能になるので代替推奨品を探すことも特集の目的としたいです)。

また最近はクラウドサービスによる書き起こし(Speech-to-Text)が発達してきて、完璧とまでは言わないまでもそこそこの精度の書き起こしが、安く速く利用できるようになってきたので、分析や納品物としてテキスト化も視野に入れていきたいと考えており、収録音声の品質に気を配っていくというのを今年のテーマにしようと考えました。

一般的なUTでは1-on-1つまり被験者さんと進行役(私)の二人が並んで座り、被験者さんがPCまたはスマートフォンを操作している様子と会話を録ります。部屋はクライアント社内の一般的な会議室を使うことが多く、ほぼほぼ静かですが、場合によって隣室からの音が漏れ聞こえてきたり、空調音が気になったりします。またバウンダリーマイクやICレコーダーを卓上に設置すると、キーボードやマウスの操作音がやたらうるさく入って煩わしさを感じたりすることもあります。

今関わってるプロジェクトでは個々人の発言にフォーカスを当てるので話者別トラック収録が重要になっていて、一人一人の話者にマイクとつけたりしますが、UTでは今のところそこまでの必要はありません。ただもしテープ起こし業者に投げるならステレオでなんとなく二人が左右に分かれて聞こえると喜ばれるかな、くらい。WatsonなどのSTTサービスがそういう定位情報を話者特定に利用しているかどうかは不明ですが、もし効果があるならそういうことも重視した方がいいのかも知れません。ともあれ現状ではインカムやラベリアマイク(タイピンマイク)で一人ずつ収録ということは希です。60分や90分で次々被験者がかわるので、その都度マイクを身につけてもらったりするのも面倒ですし、そもそもあまりそういう録音を意識させない方が率直にくだけてしゃべってくれるような、収録慣れしていない人が相手ですので。その意味で、手持ち機材ではSONYのICレコーダーICD-SX2000が2つの単一指向性マイクを個別に角度調整できるので、二人の真ん中においてそれぞれに向ける、というセッテイングくらいが手頃な感じ。

今までメインで使ってきたのは、

・背後から三脚に乗せたビデオカメラでディスプレイを撮る場合

歴代のHandyCamを使い、アクセサリシューに取り付ける純正オプションのBluetoothワイヤレスマイクを使います。

ソニー SONY ワイヤレスマイクロホン ECM-W1M C

ソニー SONY ワイヤレスマイクロホン ECM-W1M C

36,000円(11/25 06:09時点)
Amazonの情報を掲載しています

マイクだけを正面の卓上に置いておけば、背後からの撮影でも声はよく拾えます。私はこれの前々モデルくらいのを使っていますが、現行モデルはマイクユニットに外付けマイク端子がついてるので、更にバウンダリーマイクやラペリアマイクをつけられるのも良いですね(あまり指向性の高いマイクを使うと、二人のうち一人の声しか拾えなくなるので注意が必要です)。なおアクセサリーシューがない他社カメラでも、マイク入力があればこっちが使えます。

ソニー SONY ワイヤレスマイクロホン ECM-AW4 C

ソニー SONY ワイヤレスマイクロホン ECM-AW4 C

18,827円(11/25 08:05時点)
Amazonの情報を掲載しています

これらはさほどメカに強くないインタビューワーでも簡単に扱えるのでオススメなのですが、最大の欠点はマイク側の電池がいつのまにか切れていて音声が途中から全く録れてないという状況がしばしば起きるということです。節電のためにセッションの合間にスイッチを切っておいたりすると、これまた入れ忘れたまま始めちゃうことも…

親機側で電波が拾えない時は自動でカメラ内蔵マイクに切り替わってくれたり、せめてアラート音でも鳴らしてくれればいいのですが、少なくとも私がもっている世代のマイクとカメラの組み合わせでは、マイクが切れていても文句もいわず黙々と無音映像を撮り続ける仕様です。

・書画カメラでスマホ画面を撮る

モバイルデバイスのUTでは背後からの三脚撮影は難しいのです。被験者の姿勢変化に追従しないとなので。そこでオススメなのがiZiggiのような小型のUSB書画カメラです。

IPEVO Ziggi-HD Plus 高画質USB書画カメラ 800万画素/マイク内蔵

IPEVO Ziggi-HD Plus 高画質USB書画カメラ 800万画素/マイク内蔵

29,800円(11/25 01:52時点)
Amazonの情報を掲載しています

「このカメラの下で操作してください」とか、カメラ画角範囲を示す紙テープをテーブルに貼って「この四角の中で」などとお願いしておけば万事OKですUSBでつながったツール画面上で露出やフォーカスがあわせられるのも便利。

以前はWi-Fiで映像をとばせるモデルもあったんですが、残念ながらなくなってしまったようです。

・画面キャプチャー収録をする場合

感想戦などで被験者さんが「ここに気付いてませんでした!」とかって画面を指さしたりする様子が録れないという欠点がありますが、最近はPCやスマホ自体で画面キャプチャーをしたり、スマホ画面をAirPlayや外部モニタ出力でとばしてそれを録画することもあります。AirPlayやMiracastならPC/Macの仮想レシーバーソフトがあるので、リアルタイムでPC画面に映し、それをPCの画面キャプチャーで録ったりできます。iPhoneとMacの組み合わせならUSBケーブルでつなげばQuickTime Playerで追加投資なしで録画/録音までできちゃいますね。端末からケーブルを生やしたくない場合はAirPlayでとばして、AirServerReflectorといったソフトで受けて録画するのも便利です。

そういう際でもマイクはノートPC内蔵マイクは排除したいです。経験上MacBookのマイクなら比較的マシですがWindows機は千差万別。また打鍵音クリック音などがダイレクトに入りまくってしまうものも多いです。以前書いた本でも今書いてる本でも各種セミナーでも「マイクはケチるな」を強調しています。

と、なんだか機材紹介アフェリエイト記事みたいになってしまいましたが、私がやっている規模のUTだと概ねこんなセッテイングパターンが多いです。もしくはきちんとした天井カメラやバウンダリーマイクが固定設置された専門ラボを使うか、ですね。

録りたいのはほぼ人の音声のみなので、映像作品やライブ/コンサート/舞台収録ともちょっと目的が違います(ググるとこういう用途でも機材レビューや解説が圧倒的に多い)。また人の声も忠実に再現するというよりは「何て言ったかはっきり聞き取れる」「何時間も聞いて疲れない」ことが大事だったりする気がします。まぁ感心したとか驚いた、困ったといった感情的なトーンはキャプチャーできるに越したことはないですが。あと出張UTでは手軽に設営できることや、バッテリーマネジメントが簡便なこと、安定して録れること(電波環境で途切れたりしないとか)、撮って出しですぐファイルで納品できること、などが理想としてある感じですかね。

その(2)では、そういう収録に特化した機材や技術についてリサーチした結果をまとめ、その(3)で実感的に購入してみた機材のレビューをしたいと思います。

動画眼のソースコードをGitHubで公開しました

久しぶりに要望があったので動画眼のソースコードをGitHubに公開しました。

https://github.com/do-gugan/Do-gagan

Issue(機能要望やバグ報告)なども書き込めますのでよろしければご利用くださいませ。

急ごしらえしたのでファイルが足りているかわかりませんが、新規クローンでビルドできたので多分大丈夫だと思います。

15年も前のVB.NETコードに継ぎ足し、というかツギハギしてきたものなので小っ恥ずかしいですが、、、

そろそろC#にしてXamarin.FormとかでmacOSでも動くようにできたらなぁとは思いつつ、なかなか本業が忙しくて着手できずにいます。どれくらいニーズがあるのかもあんまりよくわからないので、本気で欲しいという方はお知らせいただければと思います。声が多ければ腰を上げる可能性が高まります(笑)。

 

動画眼に検索機能を追加しました

初期バージョンリリースから13年を経て今更ながら動画眼に検索機能をつけました。今までなかったのかよ!と(笑)。今回Watsonによるテキスト起こしデータを流し込んでみて初めて気付きました。本来は自分でテキストを入力していくものというイメージだったのが、そうでないテキストデータを流し込んでビューワー的に使うコンテクストになって、これは検索ないと不便だぞと。

一応逐次検索と一括全選択(件数報告付き)ができるようにしてみました。

その他、.NET Frameworkを4.7にしてHiDPI(高解像度)なモニタの機種でフォントが綺麗になったかも知れません(実感できておらず)。またWindows10でフォーカス色が濃い青になり黒い文字と相性悪かったので色を薄くして水色にしてみました。

アップデートはCliceOnceでお願いします。手順がよくわからない方はこちらを参考にしてください。証明書は相変わらずついてないです、ごめんなさい。

IBM Watsonを使ってUT発話記録を書き起こして動画眼で眺めてみた

普段、自分の業務ではあまり必要になったことないんですが、先日業界の飲み会で割とUT記録の書き起こしして、そして苦労してるんだなと感じたので、ちょうどいま別件でWatsonを活用する仕事に関わってるのでAPIの勉強がてらツールをプロトタイピングしてみました。
UTの動画ファイルから音声を分離し、Wasonにアップ、返ってきたJSON形式のテキストを見やすいタブ区切りテキストに変換し、拙作のフリーソフト動画眼(タイムスタンプ付きテキストをクリックすると動画の頭出しをしてくれる)に元の動画といっしょに食わせるところまで成功。

その様子がこちら(文字が読めるよう全画面表示でご覧いただくことをオススメします)。

精度としては感覚的に6割以下ってところですかね。モデレーターの「よろしくお願いします」みたいなはっきりかつ頻出なフレーズはちゃんと拾えるけど、被験者の思考発話は途中で途切れたり文章として成立しない場合も多いので、AI補完が入って語尾が勝手にかわったりしがち。単語も全然違ったりしてます。アスキングのコメントは少しマシですかね。まぁ、それでも、

  • 動画からあるシーンを探し出して見返したいというスポッティング作業の効率向上
  • ゼロから手で起こすより、これを直していった方が早いのでは仮説(対応してくれる業者いるのかしら)

とか場面を限定すれば実用性はありそう。

費用感ですが、本ツールを無償で公開したとして、WasonのSpeech To Text APIの利用料が(辞書登録など音声モデルのカスタマイズをした場合で)$0.03/分なので、60分のセッションを丸起こしさせたとして200円くらい?音声ファイルの長さで計算されるのか、変換にかかった時間なのか不明あやふやですが、実際変換はほぼ実時間くらいかかるのでどちらでもそう変わらないかと。結果がいまいちで、そのタスクや業界固有の用語を辞書に追加したりして何度かやり直しかけたりしてもまぁそんなにスゴい値段にはならないかと。

以下ざっくりステップ毎に解説。

0. WatsonのID取得

先日無償化が発表されましたがSpeech-to-Textは対象に含まれず。執筆時点で30日無料体験もあります。

1. 音声ファイルの用意

ICレコーダーで録ったならそのまま使える。ビデオカメラやスマホカメラの場合、音声だけ抽出してwavやmp3、ogg、WebM、flacなどにする必要があります。後述のCurlを使うアップロード方法(Sessionless)だと100MBまでしか一度に送れないので、mp3やflacのような圧縮率の高い形式にするのがヨサゲ。可逆の方が精度は出るだろうからflacがいいかも知れない(そういえばFLACで直接録音できるICレコーダーってないのかな?)。まぁコーデックやビットレートでどれくらい差が出るかはちゃんと検証できてないです。

今回は1万円ちょっとするPegasysのTMPGEnc Video Mastering Works 6を使用しましたが、カット編集が不要ならフリーでいくらでもあると思います。>音声分離

2.音声ファイルをWasonにアップロード

専用ツールを開発しない場合、黒い画面で使うCurlというテキストブラウザが使える(ブラウザからでもできると思うけど一括自動かという意味で)。CurlはmacOSなら標準搭載。Windowsだと自分でダウンロード&インストールが必要。そしてコマンドラインオプションとして、アップするファイル名、モデルと言語指定、出力ファイル名、タイムスタンプをつけるオプション、話者識別記号をつけるオプションだと、100文字以上の呪文になる(コード例1)ので、今回ツール1として、Windows向けフォームアプリを作成(画面写真1)。ちょうやっつけGUIですが、音声ファイルをドラッグ&ドロップし、IBM CloudのID&PWを設定したら送信ボタンを押すだけで、結果がテキストファイルに保存されます。認識にはほぼ実時間かかるので、複数ファイルをまとめて逐次処理できるようにしています。

コード例1. Curlによる送信例

↑これが↓こう。

画面写真1. 作成したプロトアプリ

CurlのフロントエンドUIを作っただけなので、Sessionlessなままで100MB制限が残る。もうちょっと真面目に作ってSessionあり(常時通信)で実装しなおせばそこら辺はとっぱらえるし、その気になればリアルタイムでテキストが落ちてくるような形もできるはず。

また辞書登録は未実装。WatonのAPIとしては、例えばサンプルでは「安藤」が「&」に認識いされちゃってるけど、そういうのを狙った表記に寄せられる。また「アイトリプルイー」とか出てきたら「IEEE」と書け、いったことにも使える(とマニュアルに書いてある)。

あと作ってからlibcurlの存在に気付く。これを使う用にすれば別途Curlをインストールすることなしに配布できるのかな?ちょっとライセンス周りを勉強しておきます。C#用のラッパーも見つけました

3. JSON形式からの変換

Watsonからの戻りデータはWebエンジニアさんにはお馴染みのJSONなので普通に眺めるには辛い。

こんな感じ。

単純にtranscriptを抜き出せば良さそうですが、これにはタイムスタンプがついてきません。ので手前の「よろしく」についてる17.8秒という情報を使います。またそのタイムスタンプで誰がしゃべってるかをspeaker_labelsオブジェクトから探してきて、speakerプロパティを抽出する必要がありました。ちなみにcondidenceは信頼度、つまりWatsonの自信度合いで0〜1の値がつきます。

で、これを自動でタブ区切りテキストに変換するため、ツール2としてC#でコマンドラインツールを作成。Visual Studio for Macで作ってmacOSで動いてますが、まぁ前後ツールの関係で実質はWindowsで使うことになりますかね?ただ自分でWatsonに投げられて、Excelで読めればいいやって向きにはMac版のニーズもあるかも知れません。VS for Macが吐いた.exeファイルをVS無しで単体で実行可能にする方法をまだ調べてない…(それよかツール1をMacに対応させた方が早いかもしれません。Xamarin.Formとか使えば両方で動くものにできるんじゃないかと)

ツール2はコマンドラインツールですが、使い方は変換するファイル名をオプションでつけるだけ。ただ後も先も.txtファイルなのでファイル名をどうしようか思案中。今は末尾に.txtをついかしてるので、hoge.txt.txtみたいになってしまう。動画眼で使うなら動画ファイル名と同名拡張子違いが一番都合がいいので、アップローダーで保存するファイル名を、hoge.watson.txtになるようにして、こっちで.watsonを抜く、とかがいいかな。

・タイムスタンプ

Watsonに投げる時に timestamps=true オプションをつけると、上記例の通り単語というか音節ごとにタイムスタンプがついてきます。残念ながら文章単位ではない。そこでひとまとまりの文章の中の最初の固まりの先頭タイムスタンプをとってきて文章とセットにする、という処理をしている。

・話者認識

同様に speaker_labels=trueオプションをつけると話者情報(speaker_label)がついてきます。デモ動画の中では「」の前にある0とか2が話者コードです。最初の登場人物から順に0からふられてくぽい。この動画では二人しか出てこないはずなんですが、なにかが一瞬1と誤認され、以降0さん(被験者)と2さん(モデレーター)になってしまいました。これも文章単位ではなく音節単位でしかも末尾にまとめて付加されるので処理が面倒でした。また全体としては1つの文章として認識してるのに、話者コードが途中で入れ替わることもあります。片方の発話を遮るようにもう一人がしゃべりだしたりするとそうなりがち。結局transcroptionプロパティを捨てて、alternative1つずつを拾ってつないでいきつつ、話者コードを調べて切り替わった時点で手動で文章も切り離すという処理にし、実装にえらい苦労しました…
数字を名前に置換する機能とかあるといいんでしょうけど、認識してみないと誰が何番になるかわからないので、このJSON変換ツールでというより動画眼なり後段階のツールの仕事にするのがいいかなと思っています。

4. 動画眼(既存ツール)

動画眼はタイムコードとメモがタブ区切りペアになったテキストファイルと、動画または音声ファイルをセットで読み込んで、メモ(発話内容や行動)をダブルクリックすると、そのシーンが頭出し再生される、もしくは再生しながらメモを書き込むとタイムスタンプ付きで記録してくれる、というUT見返し用の拙作フリーソフトウェアで、こちらで配布しています。

今回3.のツール2の出力はこれと互換性があるので、元になった動画/音声ファイルとツール2が出力したタブ区切りテキストを読み込ませることで、サンプル動画のようなことが可能になる。なお、青いフォーカス行が移動してるのは手動で操作してるからです。動画の進行にあわせて自動で進んでくわけではありませんのであしからず。

あとこうなってくると検索機能が欲しいよなってことで、初リリースから十余年を経てついに実装しました(何故か考えたことすらなかったw)。近日リリースします。

まとめ

とまぁ書き起こしてみると大変そうだけれど、一度セットアップしてしまえばそれなりの手軽さでここまでできるよっていう技術デモです。驚愕するほどの認識精度ではないですが、実際にセッションを見ていたモデレーターや見学者が、概要思い出したり、特定のシーンを探す手助けくらいにはなるんじゃないかと。また書き起こしをする際のドラフトに使ったらゼロから手で起こすよりは楽になるんじゃないかとか。精度は録音状態にも大きく左右されますね。今回は10年以上前にとったもので撮影機材は定かではないですが、DVだったような気がします。取り込んだ動画の音声はPCMでしたが途中不可逆圧縮を経たか不明。いずれにせよアップロード段階でMP3にしちゃいました。WAVのままで短い区間で試したサンプルはもうちょいマシだったような気もしますが定量的には比べてないです。別件で携わっている教室のディスカッション起こしは別グループの声とかノイズが多いので話者毎に口元マイクを使って別トラックでとるということをして、精度を追求していますが、UTの実務現場ではなかなか現実的ではないかなと。なるべく高音質に録って、そのままWatsonにいれるのが良さそう。その意味でツール2をセッションレスからセッション通信に再実装して100MB以上のアップができるようにしておきたいところです。

ツール1、2はもう少し整備してから公開しようと思っています。コードが汚いと叩かれそうだけどソースごとGitHubにあげましょうかね。誰かが活用&改善してくれることを願って。まずは多少のセットアップはいとわないので試してくれるクローズドβテスターさんがいたらお声がけください。

謝辞

本記事のトライアルにあたっって、羽山さん(@storywriter)の記事を大変参考にさせていただきました。この場を借りてお礼申し上げます。また今度是非Watsonトークしましょう!

ユーザーテストの被験者やモデレーターの負担を図解する資料

以前からセミナー資料とかに使いたかった図解資料を作成しました。絵心がないので、いつか誰かにお願いして描いてもらおうと思ってたんですが、ふと思い立ってとりあえずいらすとやさんのグラフィックを使わせていただきPowerPointの吹き出しパーツでお手軽に。いやぁ、いらすとやさんはなんでもあるなぁ。

ユーザテスト(UT)をしている時に、被験者の人はこんなに様々な不安と負担を追っているんで、モデレーターさんや実験計画立てる人はそれを意識して軽減してあげるよう気配りをしましょう、という啓蒙の図です。解決方法はケースバイケースで、調査目的とのトレードオフを図りながあら考える必要があるので、あえて触れていません。問題提起、問いかけのみです。あなたならどうしますか?

%e8%a2%ab%e9%a8%93%e8%80%85%e3%81%ab%e3%81%ae%e3%81%97%e3%81%8b%e3%81%8b%e3%82%8b%e4%b8%8d%e5%ae%89%e3%81%a8%e8%b2%a0%e6%8b%85

ついでにこちらはモデレーター(進行役)もこんなに同時に色々気にしなくちゃならなくて大変なんです。周りがカバーして負荷分散しましょう的なバージョン。

 

うっかり16:9で作ってしまいちょっぴり汎用性に難アリですが、とりあえず公開。どうぞご自由にお使いください。出典として「道具眼」をクレジットしてもらえると嬉しいです。また改変、翻訳などもご自由に。いいのが出来たら是非教えてください。

元のパワポデータはGitHubに置いてみました。

憧れのアイトラッカーが2.5万円で!OBS Studio導入編

前回のエントリーでSENTRY GAMING EYE TRACKERの概要を紹介しましたが、引き続き詳細として録画/配信ツールであるOpen Broadcaster Software (以下OBS)の最新版、OBS Studioを使ったセットアップの概要と注意点を紹介します。

その前に、ごたくはいいからサンプルを、って方の為に最新の録画サンプルを。

前回は出力フォーマットや解像度設定がイケてなかったのでやや低画質のものになりましたが、今回はドットバイドット解像度、mp4出力したものをトリミングして掲載します。時節柄iPhoneのケースを探してみました。あんまりつぶやけなかったので音声は無しです。

今回の知見としては、

  • OBS Classicに比べ新しいOBS Studioでも充分使える(これから導入するならStudioでよさげ)
  • ウインドウキャプチャではブラウザのハードウェア支援をOFFにしないとキャプチャできない
  • さらに、視線キャプチャレイヤーとの位置ズレが上手く解消できないので、基本全画面キャプチャがよさげ
  • しっかり視線を捉えるには、画面の向きと顔の距離に注意

など。

 

■OBS Studio の使い方

まずSENTRY GAMING EYE TRACKER(以下トラッカー)の基本設定を済ませます。そっちも付属マニュアルでは情報が乏しくて、慣れないと苦労しそうですが、それはまた機会があれば別途ということで。概略としては、

  1. SENTRYのSteel Series Engine 3(以下SSE3)をインストール
  2. トラッカーを付属USBケーブルでUSB3.0ポートに接続
  3. SSE3がトラッカーを認識すると追加ソフトとしてTobii EyeX(以下EyeX)のインストールを促されるので従います。場合によってはトラッカーのファームウェア更新も行われます。
  4. トラッカーの取り付けガイドが表示されるので従ってモニター下部に貼り付けます
  5. EyeXでユーザを作成しキャリブレーションを行います

たぶんこんな感じだったかと。

たくさん製品名が出てくるのでもう一度まとめておきます。


・SENTRY GAMING EYE TRACKER

販売商品としてのアイトラッカー製品の名称です。Tobii社のEyeXトラッカーにSteel Seriesのソフトウェアを組み合わせたパッケージです。

・Steel Series Engine 3

ゲーマー用品ブランドSteel Seriesの統合管理ツール。同社のゲーミングマウスやキーボードなども設定できます。SENTRYGAMING EYE TRACKERも同社製品の1つなので、このSSE3を使ってドライバーなどを管理します。

・Tobii EyeX

Tobii製ハードウェアとしての付属ソフトです。SSE3を入れてトラッカーを接続すると自動的にダウンロード/インストールが促されます。ユーザ毎の視線計測のキャリブレーションを行います。またこのツールだけでも画面に視線マーカーを表示することができます。ただそれだとユーザーテスト時に被験者が自分のマーカーをリアルタイムで見てしまうことになりますので、動作確認用という感じです。

なおSSE3もOBS StudioもMac版があるんですが、このEyeXがないばかりに現状Windows専用となっているようです。

・SENTRY STREAING OVERLAY

トラッカーの設定が終わるとSSE3の上に表示されるアプリです。EyeXが検出した視線を直接画面に表示せずOBSなどの対応ソフトにレイヤーとして渡す役割をもちます。マーカーの見た目の設定などもここが担当です。

・OBS Studio

通常の画面キャプチャーとSETNRY STREMING OVERLAYからの視線レイヤーを重ねて、録画や配信をするビデオミキサソフトです。上記ツール群との直接の関係はなく、他にも選択肢はあります。ただこちらがフリーで機能も充分そうなので取り上げています。


さて、初期設定が完了したSSE3はこんな感じ↓。SENTRY STREAMING OVERLAYという項目が表示されています。

1

それを開くと設定画面が現れます↓。

2

残念ながら「チュートリアルを見る」をクリックしてもNot Foundページが表示されるだけです。「視覚化」のところでマーカーのデザインを選び、左のプレビューで確認できます。

「ゲームキャプチャー」でモニタ全体か特定アプリかを選択します。ここでは「モニター」をチョイス。

「ロゴの配置」では透かしの位置が選べますが、透かし自体不要なので「透かしの無効化」をチェックし、「保存」。

最後に右上の「ストリーミングのオーバーレイ」スイッチをオンにしてウインドウを閉じます。SSE3のウインドウも邪魔なので閉じておきます。

ようやくOBS Studioの準備に入ります。原稿執筆時点のダウンロードページはこんな感じ。左側のWindows用OBS Studioをダウンロードし、インストールします。

5

初期起動画面はこんな↓。

6

とりあえず「シーン」は忘れて最初からあるものを使います。その下の「ソース」という部分に画面キャプチャーと視線レイヤーを追加します。まず「ソース」の白枠の中で右クリックし、「追加」から「画面キャプチャ」を選択。

7

こんなダイアログが出るので、そのまま「OK」。8

画面キャプチャの詳細画面が出ます。マルチモニタ環境の時は、トラッカーを取り付けたモニタを選択します。「カーソルをキャプチャ」は文字通りの意味です。ユーザテストなら入れておいが方がいいでしょう。

9

同様に「ソース」の「追加」から「ゲームキャプチャ」を選びます。今度はわかりやすいように名前を「視線キャプチャ」とでも変更します(しなくてもいいです)。

10

するとまた「ゲームキャプチャ」の詳細設定画面になります↓。

11

ここではまず「Mode」を「Capture specific windows」に変更。すると「ウインドウ」欄が選べるようになるので、「[SSOverlay.exe]: SteelSeries Sentry Streaming Overlay」にします。さきほどSSE3上に出ていて、マーカーのデザイン設定をしていたアプリ名ですね。他には「透過を許可」にチェック。こっちでは「カーソルをキャプチャ」はオフでいいでしょう。

ここまで終えると、OBS Studioのメイン画面がこんな感じになっているんじゃないでしょうか↓。「ソース」には「視線キャプチャ」と「画面キャプチャ」が並び、上に視線マーカー入りで画面全体のプレビューが映っている感じ。ソースは重ね順を示していいるので、画面キャプチャより視線キャプチャの方が上にいる必要があります。

15

また「マイク」は被験者の声のレベル、「デスクトップ音声」はWindows自体が発する音(動画の再生音など)のレベルを示しています。適切にレベル調整しましょう。「シーントランジション」はここでは放置でOKです。

プレビューが正しく表示されない場合は、ここまでの設定を見直してみてください。上手く表示されていたら次は録画や配信の「設定」に進みます。

「映像」設定画面で保存/配信される「出力(スケーリング)解像度」を選択します。基本(キャンバス)解像度」と同じにしておけばドットバイドットです。下のふたつは画質と負荷のトレードオフで色々調整の余地がありますが、とりあえずそのままで。

14

今回は配信は置いておいて、録画についてだけ。「出力」設定画面に行きます↓。

13

まぁ、お好みやニーズ次第なんですが、とりあえず「録画フォーマット」は標準のflvよりもmp4が良いでしょう。HLSストリーミングサーバーにアップロードできるm3u8形式もあります。ファイルの保存先として残量が充分にある場所を「録画ファイルのパス」で指定します。

エンコーダーは「x264」、「ハードウェア(QSV)」、「ハードウェア(NVEnc)」などが環境によってあったりなかったりだと思います。ざっと違いを説明すると、

・x264

どんな環境でも利用可能。ソフトウェア(CPU)で圧縮します。画質は良いですがCPU負荷が高いです。非力なPCだったり録画対象が高負荷の3Dゲームだったりすると動作に支障が出るかも知れません。発熱量なども増えがちなので長時間安定して稼働できるかしっかり事前に検証しましょう。

・QSV

ここ数年くらいのIntel製CPU(CoreシリーズやCeleronなど)に搭載されたハードウェア支援機能です。感覚的にはWindows8世代くらいならまず対応してるんじゃないでしょうか。逆にAMD製CPUのPCだったりすると使えません。

・NVEnc

こちらもここ何年かのNVidia製グラフィックボード/チップGeForce搭載機で利用できるハードウェア支援機能です。比較的お高い目のものならノートPCでも対応していたりします。まぁ、そういうクラスならそもそもQSVにも対応してますが。もしお使いのデスクトップ機のCPUが古いIntel製だったりAMD製だったりしてなおかつx264では充分な性能が得られない場合、グラフィックボードをNVenc対応のGeForceにしてみるのも手かも知れません。なおGeForceならなんでもいいわけではないのでご注意ください。

ということで、まぁQSVやNVEncが使えるなら使っておいた方がCPUの負荷が抑えられてオススメです、というところです。

さて、ついにここまでで一通りの設定が完了です。OBSは設定を記憶してくれるようなので、最初に設定を決めてしまえば、後は楽だと思います。さぁ後は「録画開始」を押せばOKです。

■視線が上手く捉えられない時のTips

基本的な設定ができていて視線マーカーも出る時は出るんだけれど、やってるとちょいちょい行方不明になる、という不安定さがある場合は、EyeXでのキャリブレーションに問題があるのを疑ってみます。

タスクトレイのEyeXアイコンが白丸2つの時は両眼がきっちり計測できています↓。

16

これが白丸1つ(片眼のみ認識)や「××」になってるとトラッカーが目を見つけられていないということになります↓。頻繁にこれが起きてるようだと再調整が必要です。17

再調整の入り口はちょっとわかりづらいです(最初はウィザードでなんとなくできてしまうんですが…)。EyeXアイコンをダブルクリックすると、こんな画面がニョキっと出てきます↓。

18

一番下の濃い黒の部分をクリックすると今度は左にニョキっとサブメニューが出てきます↓。

19

ここで「Test your calibration」を選び、全画面のテスト画面になったら右下の「Recalibration」を選びます。ここで黒い枠に目を表す2つの円が出ますが、この色がグレーの時は距離が遠いです。くっきり真っ白くなる距離に近づいてみます。また画面をまっすぐに見た時に円の位置が極端に端に寄っている場合はモニタの角度を変えてみると良いようです。視線の向きに対して画面が垂直になるようにしてみてください。普通は液晶って机上面に対して垂直にしがちですが、少し上向けにするか、モニタ自体を高い位置にすると良いでしょう。

憧れのアイトラッカーが2.5万円で!steelsseries SENTRY GAMING EYE TRACKERレビュー

■長い前振り〜アイトラッカーとは?(読み飛ばし可)

ユーザビリティ業界やWeb界隈にいれば、アイトラッカー/アイマークレコーダーについて一度は耳にしたことがあると思います。文字通り視線をセンシングしてモニタのどこを見ているかを判別するデバイスです。心理学レベルでいえば、視線が向いていることと“見て”いることとはまた別なんですが、まぁそれでも「ここのボタンは一瞬たりとも視線が向いてないな」的なことはユーザーテストで調べられるので、UI評価手法として一定の認知度はあります。ただあんまり一般的でない理由として装置がお高い、というのがありました。老舗Tobiiの製品なんかはシステム一式でン百万するんですよね。そのくせソフトが専門的でちょっと難しかったり、なにより出てくるデータの扱いが難しい。視線の座標ログが生で出てきてもHuman Readableではないので、ヒートマップと言われる画面写真に視線対流位置を可視化した映像を出力してくれたりはするんですが、じゃぁそれをどう扱ったらいいか悩ましい。先に書いたように「ここのボタンは一瞬たりとも視線が向いてないな」は見ていて言えるんだけれども、じゃぁ何秒滞留してればいいんだとかあまり根拠のある定量化が難しい。専門でやってる方に言わせればなにかしらの指標があるかも知れませんが、個人的には冒頭に書いたように究極的には身体レベルの視線と認知レベルの注意の相関ってそんなには高くないと思うので、やっぱり「ふーん」位の納得感しか得られないんじゃないかと。そして、この「ふーん」という微妙な納得感にン百万とかなかなか出せないのが実情でした。また、ユーザ毎にキャリブレーションという初期設定作業が必要で、貴重なセッション時間が数分消費されるというデメリットもあります。

σ(^^)も長いユーザビリティ屋人生の中で、アイトラッカーを使った評価は2,3度しか経験がありません。クライアントが持ち込んだ機材を使ってデータはとったけど、あとはクライアントが持ち帰ってゴニョゴニョした、とか、それこそ「ふーん」で終わったもののみです。

ただじゃぁ被験者に「ここのボタン見てました?」って聞くのもビミョーで、見てなかったけど見たって言っちゃったりその逆もあったりと精度に限界があります。これは被験者が故意にウソをつくってことではなく、ヒトの記憶の精度の限界というか、人間はそういうことを正確に思い出して言葉にすることがそもそもあんまり得意じゃないということが心理学的にわかっています。「一昨日のお昼ご飯のメニューを思い出すまでの過程をあまさず説明してください」と言われても難しいですよね。無意識でやってることを言葉で説明するのは大変だし、仮にできてるつもりでも結構あやふやで不正確である、ということを示す心理学研究はたくさんあります。

あとはまぁ、「見てたか否か」のクローズドな再認課題ではなく、「ここになにがあったか」をオープンな再生課題として聞くという手もあります。以前、事後アスキングで肝心な部分にボカしを入れた画面写真を見せて、なにがあったか/なんて書いてあったか、を問うという手法を考案したことがありました。アイトラッカーよりもう少し認知レベルに踏み込んで、理解や記憶も込みで測定できる点が優れていると思います。

poormanseyemark

ただいつ聞くのかが悩ましいですね。一度聞いたら次から「あ、そういうこと後でテストされるのね。次から意識して憶えとこう」と警戒されてしまうかも知れません。

さてまぁ色々なやり方にそれぞれ一長一短あるわけですが、ともかくアイトラッカーは長年コスパが大きな障壁でした。そこに颯爽と登場したのが今回ご紹介するSteelSeries社のSENTRY GAMING EYE TRACKERというわけです。

■製品概要

サムネイル写真みてもなんだこりゃって感じですが、ありもののモニター下部に貼り付けて使うUSB接続のアイトラッカーデバイスです。SteelSeriesは知る人ぞ知るゲーミングデバイスの海外ブランドです。ガチゲーマー/eスポーツ向けのマウスとかマウスパッドとかマニアックな製品を作っています。そこが入力デバイスの1つとして発売したのが本製品です。ゲーム用品と聞くとオモチャ的な響きがありますが、競技ゲームはミリ秒のレスポンスを競う世界で、マウスにCPU搭載してたり、摩擦抵抗を究極まで減らしたマウスパッドとか、BUFFAL○やサンワ○プライとは次元が違うもの作りをしている界隈です。そんなブランドが出した製品なので、なんとセンシングエンジンやドライバーはあの老舗Tobiiが担当しています。というかたぶんTobii自身が開発社向けに販売していたTobii EyeX ControllerのOEM品にゲーム用ソフトをバンドルしたものでしょう。EyeXはGoogle Glassなどと同じ開発者向けという位置づけでついぞ一般向け販売はされていなかったと記憶しています。その同等品がいつのまにやら日本のAmazonでも気軽に買えるようになっていた、ということで、これはレビューせねばと脊椎反射的に購入してしまいました。

原理的にはKinnectとほぼ同じです。アレの焦点距離が短くなった感じでしょうか。ハードウェアとしてはWindows向けで、USB3.0とCore i5程度の処理性能が必要とされています。逆にいうとそれを満たしていればノートPCでもOKということですね。対応モニタサイズは27インチまでとされています。

ただしソフトウェアは基本ゲーマー向けのもので、即ユーザテストに使えるヒートマップツールが付属しているわけではないので注意が必要です。標準のTobiiドライバーで視線位置を画面上に表示はできますが、それだとユーザテストでは被験者自身にも見えてしまい違和感ありまくりです。こっそり録画または配信する画面にだけ合成するには適切なソフトと組み合わせる必要があります。その辺りは後述。

現在Amazon.co.jpの価格は2.5万円ほど。本家公式では€139.99に値下がりしているようなので、海外取引を厭わない人は個人輸入も有りかも知れません。

■ハード周り

背面はこんな感じ↓。中央の膨らんだ部分が斜めになっていて、この面でモニタ下部につきます。つまりレンズが顔を見上げる形になるわけです。実は最初なかなかσ(^^)の目を拾ってくれなかったんですが、モニタがデスクに垂直になっててカメラが顔を向いていませんでした。視線に対して液晶画面が垂直になるくらいにすると、このセンサーも顔の辺りを見てくれるようになるイメージです。

dsc01077

左右の濃い色の部分がマグネットで、付属の金属プレートをモニタ側に貼り付けておけば、簡単につけはずしができます。スリムとはいえ、更にスリムな最近のノートPCの狭額縁液晶では表示部分にかってしまうのは否めません。小さいスタンド穴らしきものが2つありますが規格は不明です。

こちら↓がその金属プレート。裏面に粘着テープ付き。2枚付属。あちこちで使うにはちと心許ないです。まぁいざとなれば両面テープとかでも問題ないと思います。

dsc01079

端子はなんとminiUSB↓(PSPとかPS3コントローラーで使うヤツ)。最近あまり手元にないことが多いですね。できればmicroUSB(AndroidやPS4コントローラーで使うヤツ)にしてほしかった。というかminiUSBでUSB3.0なケーブルなんて存在するんですかね。とりあえず付属ケーブルはかなり長い上に太くて曲がりにくくて扱いづらいです。そして市販品では2本ほど試した限りでは認識しませんでした。付属ケーブルはたぶん無理矢理USB3.0で認識するようカスタマイズされてるのかも知れません。

dsc01075

そして装着した状態ドン↓。机汚いってツッコミは無しで…

dsc01073

27インチまでとのことでしたが34インチ超ワイドでも一応キャリブレーションできました。ただし湾曲モニタなのでマグネット板のくっつきがいまいち。お手持ちのモニタの額縁下部の平滑さをチェックしておくと良いでしょう。たいていロゴバッチがついてるところです。このモニタも結構額縁細いのでちょっとはみ出してる(画面に食い込んでる)感あります。やはり前述のネジ穴を使ったスタンドなど欲しいところです。

ちなみにWindows10に搭載された生体認証基盤のWindows Helloに対応しており、普段は顔認証カメラとしても利用可能です。Windows Helloの顔認証は顔写真で不正アクセスされないよう、立体物としてデプス計測が行えるカメラが必須なので、普通のWebカメラではダメなんですよね。Windows10が出て1年余、ようやく試すことができました。

■とりあえずのサンプル動画

てことでとりあえずそれっぽい動画を作って見ました。先に書いた通り、録画や配信機能があるソフトが付属されていません。もちろんデータ解析なんかもできません。しかしフリーソフトでもとりあえずこんなことはできますよ、っていうサンプルとして、今回はOpen Broadcaster Software(以下OBS)Classicを使ってみました。詳しい手順やオススメ設定などはもう少し検証してから別途記事にしたいと思います。

OBSはこれまたゲーム配信用のビデオミキサー的なフリーソフトで、こいつからみると本機のドライバーが吐き出すマーカーが透明レイヤーとしてインポートできます。これを画面キャプチャと重ねて配信したり録画したりするわけです。配信はTwitchやYouTube Liveなどに送信したり、自前のRTSPサーバーを用意して使うこともできます。録画はmp4やflvなど配信でよく使う系のフォーマットが選べます。エンコーダーはソフトエンコーダーのx264に加え、Nvidia NVEncやIntel QSVのようなハードエンコダーが使えます。なので、最近めのGeForceやIntel Core系CPUを使っていればCPU性能が劣るノートPCなどでも比較的負荷を抑えて動かすことができるでしょう。フリーなのにスゴい!

お待ちかねの動画がこちら。自分で少しの間適当にWebをブラウジングしたものです。設定間違えてflvで録画したせいか画質がイマイチですが、ボリュームなどのUI部品を操作している時はちゃんとそこを見ていることになってたり、精度はまずまずじゃないでしょうか?一度画面外にバヒューンと飛び出していくのは、そこにある操作パネルを見てしまったからです。それ以外はちゃんと追えてる気がします。ほとんどしゃべってませんが、Windowsが出力する動画再生音と、マイクの音がミックスして録画できています(これって普通の画面録画ソフトでやろうとすると結構面倒くさかったりするんですよね)。

もちろんこれは操作者の画面には表示されていません。録画を開くと入ってるという感じなので、ユーザーテストの被験者にも見えてしまうなんてことはないです。

とりあえず、標準モノで完結はできないものの、追加費用なしでこんな映像は撮れますよ、というデモでした。OBSには最近ゼロから新規で開発されているOBS Studioというバージョンもあったりなので、そこら辺を追々検証していきたいと思います。また今回はCore i7/GeForce GTX1080級のデスクトップ機で試しましたが、より非力なノートPCでも動かしてみたいと思います。乞うご期待。

ClickOnce形式で配布するアプリのセットアップ手順

開発ツールの都合で、動画眼はじめ当サイトで配布するWindows向けツールの配布方法を従来のSetup.exeインストーラーを利用する形式から、ClickOnceというブラウザからインストールする形式にシフトしていこうと思います。そこで、馴染みのない方向けに簡単な説明をば。

ClickOnceの特徴

ClickOnceはMicrosoftの開発ツールVisual Studioに含まれる配布形態で、以下のような特徴があります。

■配布者側

  • 開発ツールからメニュー一発で直接配布サーバーに登録でき、圧縮やアップロードの手間が省ける。

■ユーザ側

  • ブラウザ上の「インストール」ボタンからインストールでできる(後述のブロック解除手順は必要)
  • 更新版の自動確認機能がある
  • 前バージョンに戻す機能もある

など双方にメリットがある方法となっています。

インストール手順

動画眼を例にとって説明します。配布ページのインストールリンクを辿っていただくとこんなページが出ると思います。

clickone1

「インストール」ボタンをクリックするとsetup.exeがダウンロードされ実行されます(ブラウザの設定によっては警告が出ると思いますが、実行を許可してください)。

続いてこれまたWindowsのバージョンやセキュリティ設定、対策ソフトの状況にもよるのですが、未署名配布なので警告がでると思われます。Windows10の場合を例にとると、こんなダイアログが出るはずです。

clickone2

「詳細情報」リンクをクリックしてもらうと、下のように「実行」ボタンが現れます。

clickone3

インストーラーであるsetup.exeと、インストール後の実アプリの初回実行時の計2回この操作が発生します。お手数ですがご勘弁ください。2回目の実行を許可していただくと、従来通りの画面が起動すると思います。

更新手順

アップデート版がサーバーに公開された場合、起動時に「利用可能な更新があります」というダイアログが表示され、「OK」ボタンを押せば最新版がダウンロードされます。いちいちブラウザで当サイトにアクセスして最新版をダウンロードする手間がありません。もちろんそこで「スキップ」もできます。

ロールバック手順

一度最新版にしたものの不具合があるので前バージョンに戻したいという場合、Windowsのコントロールパネル「プログラムと機能」から1つ前のバージョンに戻すことができます。下のように「道具眼」を右クリックして「アンインストールと変更(U)」を選びます。

clickone4

そうするとこんなダイアログが出ます。この例では前バージョンが保存されていないのでグレーアウトしてますが、存在する場合は「アプリケーションを以前の状態に復元します。が」が選択可能になっているはずです。

clickone5

当面、問題が指摘されてない限り、順次このClickOnce方式にしていこうと思います。

マイク録り比べ2016

昨年共著で機材周りのことを書かせてもらった「マーケティング/商品企画のためのユーザインタビューの教科書」でも「マイクをケチるべからず」ということを強く書かせていただきました。UTにせよインタビューにせよ、(映像はまだしも)音声が聞き取りやすくないと分析のストレスが半端ないです。また実査中の観察者、記録者、翻訳者、クライアント、そして「もっと大きな声で」と言われる被験者、それを言わされるモデレーターと全員が不幸になる。それがマイクです。

たまたま我が家に新しい洗濯乾燥機が届いて、いい感じに乾燥中の音がしていた上に、上面がまだ片付いていたので、機材をありったけ持ち込んでWebページを朗読する声を録り比べて見ました。

      iPhone6s
iOS標準の「ボイスメモ」アプリで録音。マイクを話者に向けてあります。洗濯機に直置きなせいもあるでしょうが、かなり動作音を拾ってますね。実査でも机上の紙のワシャワシャやマウス、キーボードの操作音が入りがちなので、スマフォ平置きは推奨しかねます。

声もちょっと歪んでて聴きにくい気がします。

      ICレコーダー SONY ICD-SX2000
この2月に出たばかりの最新モデルです。三脚穴がついているので写真左奥のように机上から持ち上げて話者に向けて設置が可能。また本機種の特徴としてBluetooth経由でスマフォアプリから操作(録音/停止、マーカー打ち、レベル確認)ができる点に惚れて購入。

モードはおまかせから会議、音楽など色々なモードがあり、今回はインタビューモードで収録。AGCというレベル自動調整はオン。LPCM録音もできますが今回はMP3/320Kbpsです。

思ったより環境ノイズを拾います。ハイレゾ対応ICレコーダーとしては環境音まで忠実に拾うのは正しい姿ですが、「インタビューモード」としてはもう少し人間の声に絞ってくれるといいなと思います。ただ再生時にはクリアボイスというノイズキャンセル機能があったり、付属のWindowsソフトでも同様の処理をして再生できます。残念ながらノイズを除去した状態で保存はできなそげ(かなり不満)。

さすがに声に歪みはなく聴きやすい方かなと。

      SONY_HDR-CX670.aac
これだけやや不公平ですが、UTを想定して背後に設置した状態で録っています。ゲインはとても高いですがその分環境ノイズも拾いまくり。また脱衣所の反響音で聞きづらいです。一番情景が浮かぶという意味で、ビデオカメラ内蔵マイクとしては正しい仕様だと言えます。が、人の声の内容をしっかり聞きたい、というケースではやや不向き。多くの現場でまずはこういう形で録ってみるところも多いと思いますが、是非他と比べてみてください。

SONYのビデオカメラは外部マイクがつなげられるので純正のBluetoothマイクを愛用していますが、これはいつのまにかひっそりバッテリーが切れてて無音状態になりがちなので、それを回避したくて先日SX2000を購入しました。単にバックアップとして録音しておくも良し、CX670はマイク端子もあるので、内蔵マイクの代わりにSX2000をつないでミキシングすることもできます。この辺りの使い勝手は次の実査で試してみたいと思っています。

      MacBook Pro 15’ Retina Late2013 内蔵マイク
ノートPCの内蔵マイクです。Windowsノートは千差万別ですが、Macのマイクは昔から比較的優秀です。キーボードをタイプしてもあまり音が拾われないです。今回の洗濯機の音もいい感じに抑えられてると思います。ただ聞きづらいとまでいうレベルじゃないですが、微妙に声が歪んでる気がしなくもないです。ビットレート絞りすぎた時みたいなワキャクチャいう感じ。

Windowsノートはもっとずっとヒドいものもあるので、実査に先立ってよくテスト録音してみてください。

      Logibool WebCap Pro9000(同上)
「インタビューの教科書」でもコスパ高いとオススメしたLogicool c270の系列の最上位モデル(当時)です。

やはりゲインは高め。ノートPCのマイクでは拾えない小さい声もしっかり拾います。ただし環境音もそれなりに入りますね。Macで使う場合専用ドライバを使わないので、Windowsでドライバを入れた上で使う場合に比べるとノイズ除去が弱いのかも知れません。ちょっと今回はそこが比べ切れてません。下位機種のc270は相変わらず2,000円しないでコスパ高いので、なかなか予算ないけどWidnows内蔵マイクもちょっと、という人にはまずオススメ。下手なアナログマイクより少なくともゲインの面では有利です。

      YAHAMA PJP-10UR(同上)
ドライバいらずでWindowsでもMacでも使えるマイク&スピーカーです。本来は電話会議用の製品ですが、マイク単体としてみてもノイズカットが優秀です。最近購入して電話会議に活用してますがハンズフリーでも会話がすごく楽です。

さすがにノイズカットはほぼ完璧。反響音もせず「狭い部屋で録ってるな」という風景が綺麗さっぱり断絶されています。ビデオカメラCX670と対極の音作りというか、とにかく電話会議専用ですね。これだけ加工しまくってるのに声として不自然さが感じられないのがスゴい。すべてハードウェアで処理しているので、USB通って出てくる音がこの音質で、CPU処理の負荷もないし専用ソフトウェアのセッテイングも不要。できれば後継モデルではこのサイズ感のままアナログ出力をつけてほしいです。そしたらビデオカメラの外部マイクとしても使えるのに。
 
いかがでしょう?どれも短時間だし原稿が同一なので、一旦内容を把握してしまえばトップダウン認知で聞き取れてしまうとは思いますが、これが長時間になってくると疲労度合いが違ってきたりすると思います。またこれははっきり聴きやすいペースで意識して朗読していますが、たまたま話者の声が小さかったり早口だったりすると更に聞き取りは難しくなると思います。また環境音的に狭くて反響音が入りやすく、”机”自体が盛大にノイズを出しているという劣悪な環境ですが、実際にも空調の音なんかがやたらうるさい会議室で実施することもあったりするので、あながちあり得ないセッティングでもないんじゃないかと思います。

というわけで、個人的イチオシはYAMAHAのPJP-10URです。PCで録画する場合は迷い無くこれ。電源もUSBバスパワーでとれるので、増える荷物はこれとUSBケーブルだけです。ただビデオカメラなどにアナログで入れたい時は使えないので、コストとサイズが問題ならなければ上位機種のYVC-300なんていいんじゃないでしょうか。複数話者の声の大きさも平均化してくれたりするそうで、個人的にもいつか欲しいです。