음성 활동 탐지
음성 활동 탐지는 애플리케이션에서 스피치의 존재 여부를 탐지합니다. 대부분의 경우 고객은 Vivox SDK의 기본 VAD(Voice Activity Detection) 설정을 조정할 필요가 없습니다.
팁: VAD 설정을 직접 조정하기 전에 자동으로 조정된 VAD를 사용하여 설정을 테스트하십시오. 자동으로 조정된 VAD는 기본 VAD 설정보다 플레이어가 말하는 것을 더 잘 탐지합니다.
자동으로 조정된 VAD는 VivoxService.Instance.EnableAutoVoiceActivityDetectionAsync()
를 사용하여 활성화할 수 있습니다. 이렇게 하면 SDK가 VoiceActivityDetection 설정을 자동으로 구성할 수 있습니다. 또한 VivoxService.Instance.SetVoiceActivityDetectionPropertiesAsync()
의 모든 수동 설정을 오버라이드합니다.
VivoxService.Instance.DisableAutoVoiceActivityDetectionAsync()
를 사용하여 자동으로 조정된 VAD를 비활성화한 경우 VivoxService.Instance.SetVoiceActivityDetectionPropertiesAsync(int hangover, int noiseFloor, int sensitivity)
를 호출하여 프로퍼티를 별도로 설정하거나 기본 수준으로 재설정할 수 있습니다.
파라미터 세부 정보
hangover
파라미터는 마지막 스피치 프레임이 감지된 후에 VAD가 스피치 모드에서 무음으로 전환되는 데 소요되는 시간(밀리초 단위)을 정의합니다. 기본 설정은 2000입니다.
noiseFloor
파라미터는 VAD가 배경 잡음으로부터 스피치를 어떻게 구분하는지 제어하는 0과 20000 사이의 무차원 값입니다. 값이 작을수록 사용자가 스피치만 들리는 조용한 환경에 있다고 가정합니다. 값이 클수록 배경 환경이 시끄럽다고 가정합니다. 기본값은 576입니다.
참고: VAD noiseFloor 설정을 변경해도 현재 참여한 채널에는 영향을 주지 않습니다. 최종 사용자가 VAD 설정을 변경할 수 있는 경우, 노이즈 플로어 변경이 다음 음성 세션에만 적용된다는 사실을 표시해 두거나, 클라이언트가 채널에 참여하지 않은 상태에서만 노이즈 플로어 채널을 변경하도록 해야 합니다.
sensitivity
파라미터는 VAD의 감도를 나타내는 0과 100 사이의 무차원 값입니다. 이 값이 증가하면 VAD의 감도가 감소합니다. 값이 0인 경우 가장 감도가 높고 100은 감도가 가장 낮습니다. 감도 값이 높을수록 VAD를 트리거하는 데 더 큰 소리의 오디오가 필요합니다. 기본값은 43입니다.
기본 VAD를 사용하고 vad_sensitivity를 슬라이더로 조정할 수 있는 애플리케이션은 가능한 설정을 0(모든 마이크 활동 전송)에서 70(매우 선택적인 소리만 전송)까지로 제한해야 합니다.