一:LLDs特征和HSFs特征
(1)首先区分一下frame和utterance,frame就是一帧语音。utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本。utterance由多帧语音组成,通常对一个utterance做分帧来得到多帧信号。
(2)LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征。
(3)HSFs(high level statistics functions)是在LLDs的基础上做一些统计而得到的特征,比如均值,最大值等等。HSFs是对utterance上的多帧语音做统计,所以是用来表示一个utterance的特征。
(4)后面讲的一些特征集,是由一些专家设计的一些特征,包括了LLDs和HSFs。


二:GeMAPS特征集
(1)GeMAPS特征集总共62个特征,这62个都是HSF特征,是由18个LLD特征计算得到。下面先介绍18个LLD特征,然后介绍62个HSF特征。这里只简单介绍每个特征的概念,不涉及具体计算细节。
(2)18个LLD特征包括6个频率相关特征,3个能量/振幅相关特征,9个谱特征。
(3)基音F0的概念:先理解一个常用的概念,基音,通常记作F0(F0一般也指基音频率),一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。
(4)6个频率相关特征包括:Pitch(log F0,在半音频率尺度上计算,从27.5Hz开始);Jitter(单个连续基音周期内的偏差,偏差衡量的是观测变量与特定值的差,如果没有指明特定值通常使用的是变量的均值);前三个共振峰的中心频率,第一个共振峰的带宽。
(5)3个能量/振幅的特征包括:Shimmer(相邻基音周期间振幅峰值之差),Loudness(从频谱中得到的声音强度的估计,可以根据能量来计算),HNR(Harmonics-to-noise)信噪比。
(6)9个谱特征包括,Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和),Hammarberg Index(0-2kHz的最强能量峰除以2-5kHz的最强能量峰),Spectral Slope 0-500 Hz and 500-1500 Hz(对线性功率谱的两个区域0-500 Hz和500-1500 Hz做线性回归得到的两个斜率),Formant 1, 2, and 3 relative energy(前三个共振峰的中心频率除以基音的谱峰能量),Harmonic difference H1-H2(第一个基音谐波H1的能量除以第二个基音谐波的能量),Harmonic difference H1-A3(第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量)。
(7)对18个LLD做统计,计算的时候是对3帧语音做symmetric moving average。首先计算算术平均和coefficient of variation(计算标准差然后用算术平均规范化),得到36个统计特征。然后对loudness和pitch运算8个函数,20百分位,50百分位,80百分位,20到80百分位之间的range,上升/下降语音信号的斜率的均值和标准差。这样就得到16个统计特征。上面的函数都是对voiced regions(非零的F0)做的。对Alpha Ratio,Hammarberg Index,Spectral Slope 0-500 Hz and 500-1500 Hz做算术平均得到4个统计特征。另外还有6个时间特征,每秒loudness峰的个数,连续voiced regions(F0>0)的平均长度和标准差,unvoiced regions(F0=0)的平均长度和标准差,每秒voiced regions的个数。36+16+4+6得到62个特征。


三:eGeMAPS特征集
(1)eGeMAPS是GeMAPS的扩展,在18个LLDs的基础上加了一些特征,包括5个谱特征:MFCC1-4和Spectral flux(两个相邻帧的频谱差异)和2个频率相关特征:第二个共振峰和第三个共振峰的带宽。
(2)对这扩展的7个LLDs做算术平均和coefficient of variation(计算标准差然后用算术平均规范化)可以得到14个统计特征。对于共振峰带宽只在voiced region做,对于5个谱特征在voiced region和unvoiced region一起做。
(3)另外,只在unvoiced region计算spectral flux的算术平均,然后只在voiced region计算5个谱特征的算术平均和coefficient of variation,得到11个统计特征。
(4)另外,还加多一个equivalent sound level 。
(5)所以总共得到14+11+1=26个扩展特征,加上原GeMAPS的62个特征,得到88个特征,这88个特征就是eGeMAPS的特征集。


四:ComParE特征集
(1)ComParE,Computational Paralinguistics ChallengE,是InterSpeech上的一个挑战赛,从13年至今(2018年),每年都举办,每年有不一样的挑战任务。
(2)从13年开始至今(2018年),ComParE的挑战都会要求使用一个设计好的特征集,这个特征集包含了6373个静态特征,是在LLD上计算各种函数得到的,称为ComParE特征集。
(3)可以通过openSmile开源包来获得,另外前面提到的eGeMAPS也可以用openSmile获得。


五:2009 InterSpeech挑战赛特征
(1)前面说的6373维特征集ComparE是13年至今InterSpeech挑战赛中用的。(2)有论文还用了09年InterSpeech上Emotion Challenge提到的特征,总共有384个特征,计算方法如下。
(3)首先计算16个LLD,过零率,能量平方根,F0,HNR(信噪比,有些论文也叫vp,voice probability 人声概率),MFCC1-12,然后计算这16个LLD的一阶差分,可以得到32个LLD。
(4)对这32个LLD应用12个统计函数,最后得到32x12 = 384个特征。
(5)同样可以通过openSmile来获得。


六:BoAW
(1)BoAW,bag-of-audio-words,是特征的进一步组织表示,是根据一个codebook对LLDs做计算得到的。这个codebook可以是k-means的结果,也可以是对LLDs的随机采样。
(2)在论文会看到BoAW特征集的说法,指的是某个特征集的BoAW形式。比如根据上下文“使用特征集有ComparE和BoAW”,可以知道,这样的说法其实是指原来的特征集ComparE,和ComparE经过计算后得到的BoAW表示。
(3)可以通过openXBOW开源包来获得BoAW表示。


七:YAAFE特征
(1)使用YAAFE库提取到的特征,具体特征见YAAFE主页。


八:参考资料
[1] 论文:eGeMAPS特征集(2016 IEEE trans on Affective Computing)
[2] 论文:2013 InterSpeech ComparE挑战赛(2013 InterSpeech)
[3] 论文:2009 InterSpeech情感挑战(2009 InterSpeech)
[4] 论文:BoAW用于语音情感识别(2016 InterSpeech)
[5] YAAFE主页

论文笔记:语音情感识别(五)语音特征集之eGeMAPS,ComParE,09IS,BoAW的更多相关文章

  1. 论文笔记:语音情感识别(四)语音特征之声谱图,log梅尔谱,MFCC,deltas

    一:原始信号 从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果 ...

  2. 论文笔记:语音情感识别(三)手工特征+CRNN

    一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...

  3. 论文笔记:语音情感识别(二)声谱图+CRNN

    一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 Inte ...

  4. INTERSPEECH2020 语音情感分析论文之我见

    摘要:本文为大家带来InterSpeech2020 语音情感分析25篇论文中的其中8篇的总结. 本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:T ...

  5. 论文笔记:Emotion Recognition From Speech With Recurrent Neural Networks

    动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...

  6. AI语音验证码识别

    欢迎使用AI语音验证码识别v4.0程序程序调用方法:http://code.hbadmin.com/?url=http://code.hbadmin.com/demo/2118534.wav [试听] ...

  7. 论文笔记(1):Deep Learning.

    论文笔记1:Deep Learning         2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...

  8. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  9. Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

    看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...

随机推荐

  1. Egret动态设置按钮的图片

    参考: 动态设置Button按钮的状态图片 按钮有3个状态,up down disabled.这里区别于source,source.down,source.disabled,而是每个状态单独一个ima ...

  2. python nose测试框架全面介绍三

    三.nose的测试工具集 nose.tools模块提供了一系列的小工具,包括测试执行时间.异常输出及unittest框架中所有的assert功能. 为了使写用例更加容易,nose.tools提供了部分 ...

  3. C++类继承示例

    C++的子类与孙子类都实现了虚函数时,孙子类的实现会覆盖掉子类的实现. 继承的最主要的应用就是把不同的类放到一个数组中,然后遍历调用同名函数. 实例如下: #include <iostream& ...

  4. linux消息队列编程实例

    转自:linux 消息队列实例 前言: 消息队列就是一个消息的链表.可以把消息看作一个记录,具有特定的格式以及特定的优先级.对消息队列有写权限的进程可以向其中按照一定的规则添加新消息:对消息队列有读权 ...

  5. App开发如何制作测试数据

    OHHTTPStubs 使用第三方请求库模拟返回json数据 https://github.com/AliSoftware/OHHTTPStubs 使用青花瓷maplocal制造假数据 https:/ ...

  6. NEFU 84 - 五指山 - [exgcd求解一元线性同余方程]

    题目链接:http://acm.nefu.edu.cn/JudgeOnline/problemShow.php?problem_id=84 Time Limit:1000ms Memory Limit ...

  7. svn冲突的解决

    svn文件冲突的解决 冲突后,会产生三个多余的文件. ①文件名.扩展名.mine 这是你的文件,在你更新你的工作副本之前存在于你的工作副本中--也就是说,没有冲突标志.这个文件 除了你的最新修改外没有 ...

  8. pandas2

    1.Series创建的方法统一为pd.Series(data,index=)(1,2,3)Series可以通过三种形式创建:python的dict.numpy当中的ndarray(numpy中的基本数 ...

  9. 02 - nginx - 反向代理、限速

    一.Nginx反向代理 代理服务器,客户机在发送请求时,不会直接发送给目的主机,而是先发送给代理服务器. 代理服务接受客户机请求之后,再向主机发出,并接收目的主机返回的数据,存放在代理服务器的硬盘中, ...

  10. Redis、Mongo - 目录

    redis redis字典取数据.列表取数据(数据量大) redis 实现栈 - python mongodb - 可视化工具 / pymongo - 使用方法