結果として問題だったのは各機種固有の遅延時間でした。Wireless ProとLark Max Duoとで音声の伝送時間に差があり、結果的にMacに入力される声がズレるのでエコーのようになってしまうというわけです。基本的には1人1人の口元で音を拾うわけですが、多少の漏話(隣の人の声を拾ってしまう)がある距離だったというのもあります。
3系統のマイク(左端上からLark Max Duo、Wireless Pro、内蔵マイク)のうち、もっとも遅延が大きいのがLark Max Duoでした。厳密に録音して波形をみて合わせるまではせず、モニターイヤホンで声や拍手を聴いて感覚であわせた限りですが、Wireless Proに80msの遅延をかけてやっとLark Max Duoとのズレがなくなった感じです。同様に(あまり遅れなさそうな)内蔵マイクにも50ms遅延を入れています。
Hollylandからの出走者はLark Duo Maxではなくより新しいLark M2ですが、やはりWireless Proよりは遅延が大きい。さらに安価なBOYA製品はもっとヒドい、という結果だったようです。大変参考になりました。やはりTx側でデジタルエンコードしてRxでデコードするというプロセルが生じる以上、プロセッサの処理能力が如実に出るという感じでしょうか。最近のLarkはノイズキャンセル機能もあるので、そちらも負荷として遅延原因になり得るのかも知れません。またRODEが全般に優秀なのか特に上位モデルのWireless Pro故の結果なのかも気になります。
実はまた来月同じく5名の音声をミックスする案件があるんですが、Lark Max Duoは引退させてWireless Proをもう1組買うか借りるかしようかなと思案中です。というのも前回は自分のMacBook Pro+ Audio Hijackで帳尻を合わせられたんですが、次回は別のモデレーターが使用する場面があるんですよね。なのでPCに入れる前の状態でハードウェア処理で遅延まで解決している必要があります。
なので最近使ってなかった6chミキサー+オーディオI/FのZOOM F6を起こしてきてワイヤレスマイク4台+固定マイク1台を入れてやろうかと。これなら本体前面のフェーダーツマミを別個にひねるだけでバランス調節ができます。ただF6内蔵のディレイは30msまでなのでLark Duo Maxだと厳しい可能性があります。
されこれらのマイクの共通の特徴として、マイク子機(トランスミッター)2台とPCやビデオカメラに有線でつなぐ親機(レシーバー)から成り立っています。レシーバーにはリアルタイムの音量(レベル)やバッテリー残量など重要な情報が表示されています。これをごちゃつきがちなモデレーターのデスクに見やすい位置に置いて、ステータス確認したい時にat a glance(チラ見)でチェックできるようにしておきたい、というのが本記事のトライアルです。
そこで今回の記事ではSileroVADでの下処理→Whipserで書き起こしをまとめてやってくれるstable-tsというツールを試して見ることにしました。正式名称は「Stabilizing Timestamps for Whisper」みたいです。文章だけでなく単語レベルで正確なタイムスタンプを生成するのが主目的ぽいですが、その過程でSileroVADやWhisperも処理してくれます。