感觉一段音频,你把播放音量调大一点,就有有声音。如果调到很小(或者就是0),就没有声音了。那 静音,是如何被定义的呢?谢谢
另外,有好的识别静音的库推荐吗?目前用
audio, sample_rate = torchaudio.load(mp3_loud_new,format="mp3")
print("sample_rate=",sample_rate)
# 创建VAD对象
vad = Vad(sample_rate=sample_rate)
# 使用VAD进行语音活动检测
vad_waveform = vad(audio)
# 打印原始音频和去除静音部分后的音频长度
print(mp3_loud_new + ",原始音频长度:", audio.size(1)) ####mp3_loud_new file.filename
print(mp3_loud_new + ",去除静音部分后的音频长度:", vad_waveform.size(1))
duration = vad_waveform.size(1) / sample_rate
print("vad_waveform的播放时长:", duration, "秒")
然后,判断,如果duration 大于1.1秒,就不算是静音。否则,就当静音处理。但是效果不好,感觉有的经验,duration还是会超过1.1,怎么办?
--
FROM 39.146.79.*