提纲挈领webrtc之vad检测

　　顾名思义，VAD（Voice Activity Detection）算法的作用是检测是否是人的语音，它的使用

范围极广，降噪，语音识别等领域都需要有vad检测。vad检测有很多方法，这里我们之介绍一

下webrtc里面的vad检测。

　　webrtc的vad检测原理是根据人声的频谱范围，把输入的频谱分成六个子带

（80Hz~250Hz，250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K。）分别计算这六个子带的、

能量。然后使用高斯模型的概率密度函数做运算，得出一个对数似然比函数。对数似然比分为

全局和局部，全局是六个子带之加权之和，而局部是指每一个子带则是局部，所以语音判决会

先判断子带，子带判断没有时会判断全局，只要有一方过了，就算有语音。

　　webrtc的vad检测代码比较简洁，核心代码只在三个文件中。

webrtc_vad.c 该文件是用户调用的API函数，使用vad一般只需要调用该里面的函数即可。

使用函数：WebRtcVad_Create WebRtcVad_Init 申请内存和初始化一些参数。

使用函数：WebRtcVad_set_mode 设置vad要处理的采样率，一般是8000或16000

使用函数：WebRtcVad_Process 核心函数，完成检测是否有人声的核心。

vad_core.c 该文件是webrtc_vad.c 文件中函数的实现代码，也是vad最深层的核心代码，

有兴趣的话可以研究一下。这里不做展开。

　　使用方法：

　　初始化调用：

　　WebRtcVad_Create（）；

　　WebRtcVad_Init（）；

　　WebRtcVad_set_mode（）；

　　处理调用：

　　WebRtcVad_Process（）；

注意事项：

　　这里共有三种帧长可以用到，分别是80/10ms，160/20ms，240/30ms。其它采样率

的48k，32k，24k，16k会重采样到8k来计算VAD。之所以选择上述三种帧长度，是因为语

音信号是短时平稳信号，其在10ms~30ms之间可看成平稳信号，高斯马尔科夫等比较

的信号处理方法基于的前提是信号是平稳的，在10ms~30ms，平稳信号处理方法是可

以使用的。

　　从vad的代码中可以看出，实际上，系统只处理默认10ms,20ms,30ms长度的数据，

其它长度的数据没有支持，笔者修改过可以支持其它在10ms-30ms之间长度的帧长度

发现也是可以的。

　　vad检测共四种模式，用数字0~3来区分，激进程度与数值大小正相关。

0: Normal，1：low Bitrate， 2：Aggressive；3：Very Aggressive 可以根据实际的使用

在初始化的时候可以配置。

　　自问自答：

　　问题一：为什么子带是从80HZ开始的？

　　答复：我国交流电标准是220V~50Hz，电源50Hz的干扰会混入麦克风采集到的数据中且物理震动也会带来影响，所以取了80Hz以上的信号。

提纲挈领webrtc之vad检测的更多相关文章

WebRTC的VAD 过程解读
摘要: 在上一篇的文档中,分析unimrcp中vad算法的诸多弊端,但是有没有一种更好的算法来取代呢.目前有两种方式 1. GMM 2. DNN. 其中鼎鼎大名的WebRTC VAD就是采用了GM ...
提纲挈领webrtc之NS(noise suppression)模块
Noise suppression,就是大家说的降噪.这种降噪是把人声和非人声区分开来,把非人声当成噪声. 一段包含人声和噪声的音频经过该模块处理,从理论上讲,只剩下人声了. webrtc的NS在业内 ...
提纲挈领webrtc音频处理算法之写在前面的话
最近工作用到了webrtc,发现webrtc是个宝库,里面有很多东西值得好好研究. 搜了这方面不少资料,发现介绍使用webrtc的不少,但是针对里面一些算法研究的不多.特别是能把算法说的简洁明了的更 ...
常用有话帧检测技术（VAD）
作者:桂. 时间:2017-05-31 17:43:22 链接:http://www.cnblogs.com/xingshansi/p/6925355.html 前言总结一下基本的有话帧检测(Vo ...
单独编译使用WebRTC的音频处理模块
块,每块个点,(12*64=768采样)即AEC-PC仅能处理48ms的单声道16kHz延迟的数据,而 - 加载编译好的NS模块动态库接下来只需要按照此文的描述在 android 的JAVA代码 ...
【单独编译使用WebRTC的音频处理模块 - android】
更新 [2015年2月15日] Bill 这段时间没有再关注 WebRTC 以及音频处理的相关信息,且我个人早已不再推荐单独编译 WebRTC 中的各个模块出来使用.实际上本文的参考价值已经很小了,甚 ...
WebRTC中的NetEQ
NetEQ使得WebRTC语音引擎能够快速且高解析度地适应不断变化的网络环境,确保了音质优美且缓冲延迟最小,其集成了自适应抖动控制以及丢包隐藏算法. WebRTC和NetEQ概述 WebRTC Web ...
替换unimrcp的VAD模块
摘要: unimrcp vad 模块voice activity dector一直认为比较粗暴,而且unimrcp的社区也很久没有更新了.使用原始unimrcp如果只是用来做Demo演示,通过手动调整 ...
详解 WebRTC 高音质低延时的背后 — AGC（自动增益控制）
前面我们介绍了 WebRTC 音频 3A 中的声学回声消除(AEC:Acoustic Echo Cancellation)的基本原理与优化方向,这一章我们接着聊另外一个 "A" - ...

随机推荐

Word直接发布新浪博客（以Wo…
原文地址:Word直接发布新浪博客(以Word 2013为例)作者:paulke2011 注意:这篇博客直接由Word 2013发出!这虽然也算是一个教程,但更多的是一个试验品. 老早就知道Word有 ...
201521123100 《Java程序设计》第5周学习总结
1. 本周学习总结 1.1 尝试使用思维导图总结有关多态与接口的知识点. 1.2 可选:使用常规方法总结其他上课内容. 1.接口不是类,不能使用new进行实例化 2.使用instanceof运算符,可 ...
201521123030《Java程序设计》第2周学习总结
本周学习总结 String常量,创建之后不能再进行修改使用+连接字符串会产生新字符串,要大量使用重复性连接应用StringBuilder,检测字符串相等应用equal方法. 枚举类型变量的取值在一个 ...
java程序设计----学生基本信息管理系统
1. 团队课程设计博客链接 http://www.cnblogs.com/hyy786030686/p/7063890.html 2. 个人负责模块或任务说明 --登录界面的设计 --用户名和密码验证 ...
201521123099 《Java程序设计》第10周学习总结
1. 本周学习总结 2. 书面作业本次PTA作业题集异常.多线程 finally 题目4-2 1.1 截图你的提交结果(出现学号) 1.2 4-2中finally中捕获异常需要注意什么? final ...
phpcms图文总结（转）
转自:http://www.cnblogs.com/Braveliu/p/5074930.html 在实现PHPCMS网站过程中,根据业务需求,我们遇到很多问题,特此总结如下,以便大家参考学习. [1 ...
eclipse: eclipse创建java web项目
Eclipse创建java web工程 eclipse版本:eclipse-jee-4.5-win32-x64 tomcat版本:apache-tomcat-7.0.63-windows-x64 jd ...
Java实现Map集合二级联动
Map集合可以保存键值映射关系,这非常适合本实例所需要的数据结构,所有省份信息可以保存为Map集合的键,而每个键可以保存对应的城市信息,本实例就是利用Map集合实现了省市级联选择框,当选择省份信息时, ...
Java 简单实用方法二
整理以前的笔记,在学习Java时候,经常会用到一些方法.虽然简单但是经常使用.因此做成笔记,方便以后查阅这篇博文先说明构造和使用这些方法. 1,判断String类型数据是否包含中文可以通过正则表达 ...
Zabbix通过SNMP监控多核CPU使用率时, 计算CPU平均使用率
环境:没有Agent,只能通过SNMP监控时,需要获取多核CPU的平均使用率. ZABBIX的使用SNMP监控CPU使用率时,由于设备都是多核CPU,监控的都是单独某一核心的使用率,但单独某一核使用率 ...

提纲挈领webrtc之vad检测

提纲挈领webrtc之vad检测的更多相关文章

随机推荐

热门专题