音声区間検出
音声区間検出は、アプリケーション内の音声の有無を検出します。ほとんどの場合、お客様は Vivox SDK のデフォルトの音声区間検出 (VAD) 設定を調整する必要はありません。
ヒント: VAD 設定を手動で調整する前に、自動調整 VAD を使用して設定をテストします。自動調整 VAD は、デフォルトの VAD 設定よりも発話しているプレイヤーの検出に秀でています。
自動調整 VAD は、VivoxService.Instance.EnableAutoVoiceActivityDetectionAsync()
を使用して有効にすることができます。これにより、SDK で VoiceActivityDetection の設定が自動的に設定されます。これによって、VivoxService.Instance.SetVoiceActivityDetectionPropertiesAsync()
の手動設定がすべてオーバーライドされます。
VivoxService.Instance.DisableAutoVoiceActivityDetectionAsync()
を使用して自動調整 VAD が無効にされた場合、VivoxService.Instance.SetVoiceActivityDetectionPropertiesAsync(int hangover, int noiseFloor, int sensitivity)
を呼び出してそのプロパティを具体的に設定するか、それらをデフォルトのレベルにリセットできます。
パラメーターの詳細
hangover
パラメーターは、最後の音声認識フレームが検出された後に VAD が音声認識モードから静音に切り戻されるまでにかかる時間 (ミリ秒単位) を定義します。デフォルト設定は 2000 です。
noiseFloor
パラメーターは、VAD が音声を背景ノイズから分離する方法を制御する、0 から 20000 までの無次元量です。小さい値では、オーディオが音声のみである静かな環境にユーザーがいることが想定されます。大きい値では、ノイズの多い背景環境が想定されます。初期値は 576 です。
ノート: VAD ノイズフロア設定を変更しても、現在参加しているチャンネルには影響しません。エンドユーザーが VAD 設定を変更できる場合は、ノイズフロアの変更が以下の音声セッションでのみ有効になるように指定するか、クライアントがチャンネル内にない場合にのみノイズフロアチャンネルの変更を許可するように指定します。
sensitivity
パラメーターは、VAD の感度を示す 0 から 100 までの無次元量です。この値を増やすと VAD の感度が下がります (0 は最も感度が高く、100 は最も感度が低くなります)。感度の値が高いほど、VAD をトリガーするためにより大きなオーディオが必要となります。初期値は 43 です。
デフォルトの VAD を使用し、vad_sensitivity をスライダーとして公開するアプリケーションでは、可能な設定を 0 (すべてのマイクアクティビティを伝送) から 70 (非常に選択的) までの間に制限する必要があります。