RODECaster Videoをテストしてわかったことメモ

RODECaster Video(以下RCV)が液晶保護フィルム製作から返ってきたので色々検証を始めています。

実査投入の時のために色々判明したことをメモしていこうと思います。

■ストレージ周り

本機は内蔵ストレージ、microSDカードスロット、USBポート3にSSD接続という3つのストレージがあります。マニュアルによると内蔵ストレージは基本的に設定を保存したりファームウェア更新に使用するためで、挿入用のメディアファイルはSDカード、録画はUSBストレージにしてね、ということぽいです。microSDに録画できないのは残念ですが、書き込みスピード的に難しいのでしょう。今は1TBのmicroSDとかもあるのでISOは無理にしてもPROGRAM出力だけでも録画できたら良かったんですが。逆に挿入用メディアファイルはmicroSDからしか読み出さないようです。

ATEM MINIでは相性があってSanDiskのSSDが認識しなくて(途中まで使えてた気もするけどどこかのアップデートでNGになった記憶j)、SamsungのT5やT7 Touchを買い足すなどしていました。そこら辺の動作検証をしておきたいと思います。

本機はATEM MINI Extreme ISOと同様、合成後のPROGRAM映像と別に各映像ソース、音声ソースの生ストリームを個別に録画しておくこともできます。あとで編集で映像切換をしたり、音声のリバランスをしたりができるわけです。特にUTでは参加者毎の音量差がある時にあとで補正できるのは安心材料です。

このISO記録を有効にすると当然ながら書き込み速度は何倍も必要になるので、こちらでテストをしておけば、ISO OFF時は余裕と考えてよいでしょう。

なお録画用ストレージはexFATでフォーマットしてある必要があります。今のところPCでフォーマットしたものが普通に使えているようです。

テストに使ったSSDは、

  • SanDisk Extreme Pro 500GB (Model No.SDSSDE80-500G)
  • Samsung T5 2TB (Model: MU-PT2TB0B)
  • Samsung T7 Touch 500GB(Model: MU-PC500K)

の3モデル。

(↑リンク先は1TBモデル。今はもっと後継モデルが安く手に入るはず)

(↑リンク先は2TBモデル)

特にATEMで使えなかったものの速度は最も速いSanDiskと、指紋認証ロックがかけられるT7 Touchの挙動が気になります。PCレスで指紋認証がかけられるT7 Touchは録画して持ち帰る時に紛失しても安心なので、引き続きメイン録画ストレージとして使いたいものです。

結果としてはどれも大丈夫そうです。T7 TouchはATEMの時と同じで、USB接続して電力供給された後で指紋センサーにタッチすればランプがグリーンになり録画可能になります。

映像のISO録画オンの状態で、500GBのT7 Touchの録画可能時間は12時間以上と出ます。これだけあれば通常のUT実査では問題なさそう。少なくとも1日分撮れないということはないでしょう。そもそもUTでは映像のISOはオンにすることはあまりないですし。

2時間くらい録画して、PROGRAM出力のmp4が7GB位でした。Windows11のExplorer読みで8Mbpsくらいのようです(1080@30p)。ちょっとそのまま納品ってサイズじゃないですね。編集耐性も考えるとまずまず良いバランスかなと思います。

■音声遅延周り(映像 vs 音声)

RCVでは遅延しがちな映像に対して、音声を揃えるために意図して遅延を入れる設定があります。さすがに音声ソース毎は無理ですが、Mix音声に対してフレームまたはミリ秒単位で遅延をさせて映像とあわせることができます。この辺りも自前のカメラ、マイクで最適値を探っておきたいと思います。

テスト環境はRCVに直接ペアリングしたRODE Wireless Proです。XLRなど有線マイクなら更に遅延が少なく映像と差が開くのかも知れませんが、現状自分の利用シーンではほぼWireless Proを使うことになると思うので、当面それ基準で行きます。

映像デバイスとして使ったのは、Webカメラ2台とHDMI出力のついた書画カメラです。

  • Logicool Brio
  • OBSBot Tiny2
  • iPEVO VZ-R

RCVはUVC準拠のWebカメラが使えるといっても非圧縮(YUV)伝送ができるものに限られるので、国内で手に入る対応Webカメラは10種類に満たないレベルで、ややお高いものが多いのは仕方ないです。

書画カメラはスマホを操作する手も含めて画面収録するのに使います。これもUSB(UVC)出力がありますが非圧縮ではないのでHDMIで接続する必要があります。

VZ-Rはフリッカー防止スイッチを60Hzにすると1080@60p、50Hzにすると1080@50pになりました。GoProみたいですね。フリッカー観点だと関東だと50Hzにするべきなんですが、1080@60pで撮ったり最終的に15や30フレームに落とすのであれば60Hzにしておきたところ。どのみち今時はLED照明器具なので、関東関西はあまり関係なく、その場でチラつかない方を選ぶ感じになるかとも思います。

さて遅延としては24フレーム/秒止まりのBrioがもっとも大きく、Tiny2と並べると明らかに1テンポ遅れがある感じです。どうしてもカメラが足りない時でないとBrioは使わないかな。

で、Wireless Pro音声との差ですが、HDMI入力のVZ-Rは0遅延といって良いレベル。Tiny2は1フレームだけ音声を遅延させると合う感じ。ただ1フレームなんて波形を見なければ気にならないレベルです。

次にマイク入力のあるFX30にRode Wireless Proを3.5mmアナログケーブルで接続し、映像と音をHDMIソースとして入力した時は2フレの遅延がありミックス音声はエコーのような状態になってダメでした。そこでRCVの遅延設定で+2フレームにしてやったところ改善。これは全ての音声ソースにかかるものの、HDMIソースの音声は対象外で、結果としてHDMI経由の音声とそれ以外の音声のタイミングが揃えられるみたいです。HDMI音声はLRをスプリットして独立音声トラック扱いにできるので、本体操作パネルで個別に音量調整ができたり、ISO録音ファイルも別個になるので、RODE Wirelessシリーズのように2子機の音がステレオで入るケースではこの遅延設定でズレを解消しつつ活用できそう。

現時点の結論として、

  • UVCはモデルによるが、Tiny2は実質気にしなくて良いレベル
    • Webカメラにマイクが内蔵されていても音は入らなそう(未確認)
  • HDMIは音声ともども遅延があるが、本機のディレイ設定でほぼ解消できる

という感じ。ちなみにたぶんデフォルト状態だと思うんですが+5フレームの遅延が設定されていました。

■音声遅延周り(音声ソース間)

続いて、音声をマルチトラックで録音して、トラック間のズレがどうなるか実験してみました。機材構成は、

  • XLR接続のガンマイク(ベリンガーC-2)
  • 直接ペアリングしたWireless Pro x2
  • USB接続のWireless Pro x2

の4トラック。USB接続のWireless Proはステレオトラックとして認識されました。ATEMのように設定でセパレートトラックとして扱えないかと思ったんですが見当たりませんでした(HDMIとコンボのみ可能ぽい)。Premiere Proで個別調整する時は手動で左右分離をしないとならずひと手間かかりそうです。今回はステレオペアのままで比較しました。ちなみに表示上「Wireless Pro」と表示されるので、USBデバイス名などから認識はしてるらしいです。もしかしたら同機種固有にチューニングもなにかしらされてるかも?

また音声ディレイは0設定です。

結果はこんな感じ。青いトラックの上側がミックスされたPROGRAM OUTの音声、その下はISO録画された映像トラックに入る音声。緑のトラックが個別トラックで、上からXLR、直接ペアリングしたWireless Pro、USB接続のWireless Proです。USB接続したWireless Proはステレオ扱いになり、ATEMのようにモノラルスプリットはできなそうです。Premiere Pro等で個別バランス調整したい時はトラック分割のひと手間が必要です。

パンっと拍手をした瞬間を撮っており、マーカー(縦線)がPROGRAM映像でみて両手のひらが当たったと思えるフレーム位置です。まず前後の誤差は30fpsで1フレーム程度。個別に聞けば違和感は感じない程度です。それでもミックスした音声を聞くと「パンッ」が「パパンッ」とか「パララッ」という感じで聞こえます。

不思議なのはISO録画された個別映像トラックに入る音声の方がミックス音声よりも1フレームほど早い点。ISO録画にはミックス音声がそのまま入るということだったような?ただ映像も1フレームずれている気がするので、ISO録画は開始が1フレ遅れるということなのかも知れません(Premire上で先頭を揃えて配置している)。

次に直接ペアリングしたWireless ProはXLRに対してほぼ遅延がありません。この2トラックだけをONにして聞いてもほぼ違和感はないレベル。それに対してUSBで親機を接続したWireless Pro(一番下のステレオTr)はほんの少しだけ遅延があります。1フレ以下なので補正もできないレベルですが、やはり同時に聞くと多少のズレは感じます。気にしなければ気にならないレベルかも知れませんが、音声を長時間聞き取るユーザーテストやインタビューだと聞き疲れはどうかなというところです。3台以上のRODEワイヤレスマイクを使う時は、両方の親機(Tx)をUSBか両方アナログ(コンボジャック使用)で揃えた方が無難かも知れません。もしくは直接ペアリングとコンボジャックならさほど気にならないと思います。この辺りはまた実際にグルイン等の案件があった時に検証しようと思います。

とりあえず1on1のユーザーテストならWireless Proの直接ペアリング2台か、Wireles Pro + XLRマイクで同期処理いらずで問題なさそうなのは安心です。

■まとめ

現状、セッテイングとしてはこんな感じを基本にしていけそうです。

・PC Webのユーザーテスト

  • PCのHDMI出力をRCVに
  • 音声はWireless Pro
  • 表情カメラはTiny2、またはOBSBot Tail AirをHDMI入力
  • 遅延設定は±0

・スマホWeb/アプリのユーザーテスト

  • VZ-RのHDMI出力をRCVに
  • 音声はWireless Pro
  • 表情カメラはTiny2、またはOBSBot Tail AirをHDMI入力
  • 遅延設定は±0

・カーナビ等のユーザーテスト

  • FX30に距離に応じたレンズをつけてHDMI出力をRCVに
  • 音声はWireless Pro
  • 表情カメラはTiny2、またはOBSBot Tail AirをHDMI入力
  • 遅延設定は±0

・グループインタビュー

  • 4名までなら2台のWireless Pro。ただし直接ペアリングは使わず、親機をUSB接続して遅延を揃える。コンボジャックだと充電時に(グラウンドループ)ノイズが心配。ただUSB接続しても親機が充電されないっぽいので、定期的に外して充電する必要がある。だったらアナログノイズ対策をした上で充電しながらコンボジャック入力もありかなぁ。カメラがFX30ならそちらのマイク入力に入れて、HDMI音声をスプリットすればRCVで個別音量調整もできそう。その場合の遅延設定を2フレームとか入れると良さそう。
  • 5名以上ならXLRかUAC経由でマイクを追加。時間差が出るようなら音声はZOOM F6でまとめて遅延補正してUACで本機へ入力(オートスイッチは使えない)F6は認識しませんでした
    • おそらく直接ペアリングした場合はXLRと比較して実用上問題になる遅延は発生しなさそう。親機をUAC接続した場合の遅延をテストしておく。いっそアナログの方がマシ?
    • ただUSBマイク入力がUACならなんでもなのか、Webカメラのように要件があるか不明。RODE製マイク以外でも使えるかは別途確認。→Zoom F6はダメでした
  • 映像は必要に応じてチョイス。オートスイッチ機能を活用して話者の映像に自動切り替えしてみるのも実験したい。

・ストレージ周り

録画ストレージは手元のどのSSDでも良さそう。セキュリティを考えるとT7 Touchをメインに。容量が不足しそうな案件ならT5 2TB。

・安定性

現状、映像3、音声2のISO録画程度ではなんの不具合もなく収録できてそうでひと安心です。発熱も底面もほんわり温かい程度で、これなら普通に室温が維持された室内ならなんの問題もなさそうです。プロセッサーは不明ですがATEM MINI Extreme ISOの時代から進んでよりプロセスルールの細かいものに進化して電力効率上がってるのかも知れません。とりあえずここまで書いたあと、録画回しっぱなしで2時間くらい出かけてみたいと思います。>問題ありませんでした。

Blackmagic Design UltraVideo Recorder 3G導入とHDMIキャプチャの遅延検証

最近、UTではリモート見学者向けに中継をすることがほとんどです。その際、Webカメラやビデオカメラの映像をそのままZoomなどのWeb会議ツールにカメラ入力として流すのではなく、一旦OBS Studioに入れて、PinP合成などをした映像をウインドウプロジェクタで別ウインドウに映し、それをWeb会議ツールの画面共有で流すことが多いです。カメラ入力は多くの場合、参加者の顔を写すことを主目的としている為、あまり解像度が出ないことが多いのです。一方画面共有は解像度が高く出せるかわりにフレームレートが落とされることが多いようです。一長一短で悩ましいところですが、Web会議ツールによって録画のレイアウトも違ってくるので、ケースバイケースで対応します。あえてPinPにせず、画面共有で操作手元映像を、カメラ入力で参加者の表情を送ることも多いです。その際に気になるのが手元映像と顔映像の時間的なズレです。基本的にほぼ遅延がないと思われるマイク音声とのズレも問題になることがあります。基本的に画面共有が一番遅れがちでヒドい時には1秒近くズレることも。OBS StudioやWeb会議プラットフォーム、ネットワークなど様々な要因が絡むので切り分けが難しいのですが、まずは入り口としてHDMIキャプチャユニットによる違いがあるのか調べてみました。

■普段使っているHDMIキャプチャ機材たち

AverMedia BU110

AVerMedia UVCキャプチャーデバイス BU110 DV456

AVerMedia UVCキャプチャーデバイス BU110 DV456

18,500円(01/23 13:46時点)
Amazonの情報を掲載しています

2018年に初めて買ったUSBタイプのHDMIキャプチャです。当時はこういう電源不要のボックス型はとてもレアでした。UBS3.0接続。フルHDまでの対応。

Elgato CamLink 4K

OBS Studioであれこで合成することが増えてBU110だけでは足りなくなってきて買い足したもので、4Kまで対応しています。UBS3.0接続。

Blackmagic Design ATEM Mini Extreme ISO

HDMI 8入力で各種合成も単独でできてしますビデオミキサー/スイッチャーです。USB端子でUVCデバイスとして認識されるので、上記機器やWebカメラのように使うこともできるので比較対象に挙げます。またこれを使っていた時に遅延が気になると言われ実際に調べると遅延が大きいという指摘もあったりで、実際にどうなのか気になるところです。ストレージ用も兼ねたUSBポートはUSB3.1 gen 2ですが、UVCモードで活用されているかは不明です。

OBSBot Tiny 4K

HDMIキャプチャではなくWebカメラの部類ですが、顔映像を撮るのによく使うのでベンチマークとして参加です。接続はUSB2.0なので不利が予想されます。まもなく新型のTiny2が届く予定ですが、そちらはUSB3.1で非圧縮転送対応だそうで楽しみです。

[最近購入] ClassicPro CHD312

ClassicProは映像音響機材ショップのサウンロハウスのプライベートブランドです。電池やマイクスタンドなど幅広く扱っている中で最近HDMIキャプチャ製品までラインナップするようになりました。CHD312はHDMIパススルーがついていて、キャプチャと同時にモニタやプロジェクターに映せるのが1つほしくて最近購入しました。HDMIパススルー付きはキャプチャしつつ遅延のない画面でゲームをしたいゲーミングカテゴリの製品に多く、やや高価なものが多いんですがこちらはその中では割とお手頃価格で、USB3.0。入力とパススルーは4K対応ですが、キャプチャできる映像はフルHDになります。

1回実務で使いましたが、ちょっとだけ不安定な気もしています。一度だけ映像が途切れて触ったら結構熱くなってたので、そこからファンで風を当てながら使用して無問題でした。継続評価中。

[新規購入] Blackmagic UltraStudio Recorder 3G

今回の比較のために色々レビューを調べて遅延が少なそうなもの、業務用として信頼度が高そうなものとして新規購入してみました。インターフェイスはThunderbolt 3です。形状はUSB-Cですが、規格上の伝送速度は桁違いに速いはずなので期待。

BMD UltraStudio Recorder 3G (写真中央)

ガチ映像業界でしか使わないSDI入力が備わっており、HDMIしか使わない自分にとっては無駄にお高いイメージがあって手を出していなかったですが、今回冷静にスペックを調べてみると、写真右のBU110とさほど変わらないんじゃね?ということに気付いて特攻してみました。やや厚みがありますが頑強な感じが業務用という感じがしてアガります。

■遅延比較方法

iPhoneで1/100秒まで表示する時計アプリ「原子時計(AtomicClock)」をカメラ(FX30)で映し、HDMI経由でOBS Studioに表示された画面と見比べて1/100秒(0.01秒)単位でズレを調べました。フレームによって0.02秒ほど揺らぎがある機種もありましたが、最悪ケースとして最大値を計測レコードとしました。

解像度などはデフォルト状態。

UltraStudio Recorder 3GはOBSにソースとして入力する際、通常の「映像出力デバイス」から選択する方法と別に、「Blackmagicデバイス」というソースクラス経由で取りこめますので、別個に計測しています。

計測PCはMacBook Pro 2021 (M1 Max)で、USB AポートのCamLink 4Kだけハブを経由。あとはUSB-C to Cケーブルで本体直結です。

■検証結果

ブランド機種ドライバ遅延秒数
Blackmagic DesignUltraStudio Recorder 3GUVC0.08-0.12秒
ClassicProCHD312UVC0.08-0.12秒
ElgatoCamLink 4KUVC0.12秒
OBSBotTiny 4KUVC0.12秒
Blackmagic DesignUltraStudio Recorder 3GBlackmagicデバイス0.11-0.13秒
AverMediaBU110UVC0.16秒
Blackmagic DesignATEM Mini Extreme ISOUVC0.20秒

思ったほど差がない結果となりました。6機種中4機種は同じ0.12秒の遅延となりました。UltraStudi Recorder 3G(UVC)は速い時は0.08秒と最少誤差を叩き出してくれたんですが、今回のルールでは最長誤差で採ることにしたので同率となりました。専用ドライバよりUVC(「映像キャプチャデバイス」)経由の方が速いのも意外でした。

0.12秒というのがOBS StudioやUVCドライバを使う上での限界値ということなのかも知れません。USB2.0のTiny 4Kでも実現できていることに驚きです。

そして思ったほどの差ではなかったものの、やはりATEM Mini Extreme ISOが一番遅延が大きいという結果になりました。一番高額な機材ですが、やはり内部的な処理が複雑なせいもあるかも知れません。ATEM Mini内で合成を完結させる(つまり各映像と音声の同期が取れている)分には、問題ないですが、OBS StudioやWeb会議ツール側で他のソースと混在して使うのには向かないかも知れません。

今回UltraStudio Recorder 3Gを導入したことで、古株のBU110は予備役に移行してもいいのかなと思いました。4Kが必要な時はCamLink 4K。地味にコンパクトだし4Kにも対応できると思うと非常にコスパも良い機種だと再認識しました。やや高い部類ですがこれから業務用に1つ買うという方にはオススメできる機種だと思います。>CamLink 4K

全体にこれだけ差が出ないと逆に1,000円クラスの安い中華キャプチャを買って計測してみたくなりますねw。近日、OBSBot2も含めて追加検証してみたいと思います。

■まとめ

Web会議プラットフォームに中継する際、カメラや音声に対する画面共有の遅延を最低限にしたくてHDMIキャプチャーで差が付くか検証してみました。結果としてはそれほど致命的な差はつかなくて、機材面の問題というよりはWeb会議ツール側やネットワーク状況によるものが大きいのかもという考察になりました。

全ソースが揃ってさえいれば、絶対的な遅延はあまり問題ではないので、最終的にはOBS上でディレイをかけるなどすればいいんですが、問題はカメラだけWeb会議のカメラ入力に入れざるを得ないケースなんですよねー。例えば某M社のオンラインインタビューシステム使う案件とか本当に苦労が多いです…