ドキュメント

サポート

Vivox Unity SDK

Vivox Unity SDK

音声区間検出

Understand voice activity detection in Vivox.
読み終わるまでの所要時間 1 分最終更新 23日前

音声区間検出は、アプリケーション内の音声の有無を検出します。ほとんどの場合、お客様は Vivox SDK のデフォルトの音声区間検出 (VAD) 設定を調整する必要はありません。 自動調整 VAD は、
VivoxService.Instance.EnableAutoVoiceActivityDetectionAsync()
を使用して有効にすることができます。これにより、SDK で VoiceActivityDetection の設定が自動的に設定されます。これによって、
VivoxService.Instance.SetVoiceActivityDetectionPropertiesAsync()
の手動設定がすべてオーバーライドされます。
VivoxService.Instance.DisableAutoVoiceActivityDetectionAsync()
を使用して自動調整 VAD が無効にされた場合、
VivoxService.Instance.SetVoiceActivityDetectionPropertiesAsync(int hangover, int noiseFloor, int sensitivity)
を呼び出してそのプロパティを具体的に設定するか、それらをデフォルトのレベルにリセットできます。

パラメーターの詳細

hangover
パラメーターは、最後の音声認識フレームが検出された後に VAD が音声認識モードから静音に切り戻されるまでにかかる時間 (ミリ秒単位) を定義します。デフォルト設定は 2000 です。
noiseFloor
パラメーターは、VAD が音声を背景ノイズから分離する方法を制御する、0 から 20000 までの無次元量です。小さい値では、オーディオが音声のみである静かな環境にユーザーがいることが想定されます。大きい値では、ノイズの多い背景環境が想定されます。初期値は 576 です。
sensitivity
パラメーターは、VAD の感度を示す 0 から 100 までの無次元量です。この値を増やすと VAD の感度が下がります (0 は最も感度が高く、100 は最も感度が低くなります)。感度の値が高いほど、VAD をトリガーするためにより大きなオーディオが必要となります。初期値は 43 です。
デフォルトの VAD を使用し、vad_sensitivity をスライダーとして公開するアプリケーションでは、可能な設定を 0 (すべてのマイクアクティビティを伝送) から 70 (非常に選択的) までの間に制限する必要があります。

音声区間検出 • Vivox Unity SDK • Unity Docs