论文笔记：语音情感识别（二）声谱图+CRNN

一：An Attention Pooling based Representation Learning Method for Speech Emotion Recognition（2018 InterSpeech）
（1）论文的模型如下图，输入声谱图，CNN先用两个不同的卷积核分别提取时域特征和频域特征，concat后喂给后面的CNN，在最后一层使用attention pooling的技术，在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的unweighted accuracy (UA)，WA就是平时说的准确率，而UA是求各类的准确率然后做平均。比state-of-art多了3%的WA和4%的UA。
（2）实验中的其中一篇baseline刚好也看了一下（就是下一篇要提到的论文），baseline用的是五折交叉而且带验证集的，而本论文用的是十折交叉只带测试集的，所以直接对比应该是不太科学的。
（3）我在复现这篇论文模型的时候一直都达不到论文中的结果，反复看了一下，最后是注意到论文在attention pooling合并前对bottom-up attention的feature map先做了一个softmax，这个softmax我觉得很奇怪，把它去掉后发现准确率飙升，可以达到论文中的实验结果，甚至可以超出。可能具体实现细节上有一些其它的出入。
（4）复现的时候我用的python_speech_feature库，其中有三种声谱图可以选择，振幅图，能量图，log能量图，debug的时候发现振幅和能量值的range还是挺大的，用log可以把range很大的值压到比较小的范围，所以我用的是log能量图。论文中提到对声谱图做一个预处理，说是可以让训练过程更加稳定，我在实现论文的时候有发现不加这个预处理结果会比较高。预处理的做法是先归一化到[-1, 1]然后做一个u为256的u率压扩，看到这里的256我估计论文是把声谱图直接保存成图像后做的归一化，而我是保存成声谱图矩阵来作为输入。

二：Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms（2017 InterSpeech）
（1）这篇论文是上一篇论文的其中一个baseline，于是也看了一下。模型结构图如下图，输入的也是声谱图，和上一篇稍微不同的是预处理方面，上篇是切割成小于2s的样本，本文是小于3s。数据集用的也是IEMOCAP。
（2）论文还探讨了几种预处理（频率分辨率用10HZ还是20HZ）和网络结构（几个卷积层，LSTM用多少隐藏单元）的实验影响，以及评估了模型的噪音免疫能力。
（3）论文还介绍了一种两步预测的方法，先经过1个四分类器（4个情感），如果是中立类，则要另外通过3个二分类器来判定最后的情感。这么做可以提升UA，其背后直觉的解释是，一个非中立情感的大部分性质都是中立的，情感性质只占一小部分，所以对于中立类，需要进一步判定。

三：Deep Spectrum Feature Representations for Speech Emotion Recognition（2018 ACM MM workshop——ASMMC-MMAC）
（1）输入的是梅尔尺度的声谱图（可以用librosa库调包得到），论文没有详细介绍输入部分和网络的衔接，CNN这边如何处理变长语音不明确，BLSTM则是把很多帧当成一个序列来输入。数据集用的也是IEMOCAP。
（2）论文也探讨了几种预处理和网络结构的实验影响。比较了声谱图特征和其它两个特征集（eGeMAPS和ComParE）的效果（喂给SVM），声谱图特征会稍微好一点。

四：An Image-based Deep Spectrum Feature Representation for the Recognition of Emotional Speech（2017 ACM MM）
（1）输入声谱图，放缩裁剪成227x227，送进caffe中预训练好的AlexNet训练，然后从第二个全连接层取出特征向量，跟两种传统特征集eGeMAPS，ComParE和BoAW（bag-of-audio-words，对LLDs特征的一种组织，LLDs指那些人工设计的低水平描述符）进行比较（喂给SVM），论文简单介绍了这三种特征。数据集用的是FAU-AIBO，有两种分类方式，一种是五分类，一种是二分类。
（2）做特征比较的时候使用了三个版本的FAU-AIBO数据比较，分别是clean，noisy和de-noised。其中de-noised是对noisy数据做了一个去噪，使用了一个三层LSTM模型，输入是100个Mel谱，模型在几个噪音版本的Audio Visual Interest Corpus上训练。
（3）比较发现声谱图提取的特征对于噪音数据具有更好的鲁棒性，同时可以看到de-noised系统的去噪并没有生效（和noisy版本的表现一样差）。

五：Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on Spectrograms（2018 InterSpeech）
（1）分帧加窗DFT转为log能量谱，然后做0均值1标准差的归一化（根据训练集），使用IEMOCAP数据集。模型结构如下图所示。卷积学习空间信息，GRU学习时间信息，全连接层做最后的分类。
（2）通常的定长做法：为了使得模型能够输入定长样本，通常会把语音划分成等长样本（比如3秒）训练，然后在预测阶段也做分割，做多个预测来平均得分。
（3）变长做法：本文用了一种可以在预测阶段直接接受变长样本而不需要切割的方法，具体做法为：使时间长度类似的样本放在一个batch中然后pad到当前batch最长样本的长度。训练/预测的时候使用一个Mask矩阵（向量）来获得有效（valid）的输入区域，padding区域丢弃即可，需要注意的是max pooling的时候要处理好边界问题，对于跨边界数据把边缘值作为padding数据。
（4）训练的时候给不同长度的句子（loss）分配反比权重。另外为了处理IEMOCAP的不平衡问题给不同类别也分配反比权重，之前几篇在IEMOCAP上做实验的论文也有用到这个方法，还有使用重采样的方法。

六：Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition （2018 InterSpeech）
（1）最近结合了CNN和RNN和CRNN被广泛用于语音情感识别，然而这些模型只是简单地使用了声谱图的信息，并不能捕捉足够的情感特征。本文提出的HSF-CRNN模型结合了HSF手工特征，可以学习更好的情感特征，在2018 InterSpeech非典型情感挑战数据集和 IEMOCAP 上做了实验，比baseline（CRNN）的效果要好。
（2）模型如下两图，第一个是baseline，第二个是本文的模型。CRNN部分输入的是声谱图，而LLD（Low Level Descriptors）指的是基频，能量，过零率，MFCC，LPCC等这些特征。HSF（High level Statistics Functions）是在LLD基础上做统计得到的特征，描述了整个utterance的动态情感内容。

七：Using Regional Saliency for Speech Emotion Recognition（2017 ICASSP）
（1）将CNN应用于低水平的时域特征（本文用的是40维的log Mel filterbank）来识别情感显著区，这样就不需要在utterance水平上做统计运算。如下图所示，在时间方向上卷积，一帧一帧地卷，然后用全局最大池化来捕捉时间上的重要区域。数据集用的是IEMOCAP和MSP-IMPROV。
（2）实验表明了论文的模型（使用区域显著信息）比“在utterance水平上做统计然后送入全连接”（使用统计特征）的效果好。实验还对比了和“流行的特征集InterSpeech09，InterSpeech13，GeMAPS和eGeMAPS用在SVM”的表现，有优有劣，不过论文的模型只使用了40个特征。另外还使用了速度增强来提高表现。

八：3-D Convolutional Recurrent Neural Networks with Attention Model for Speech Emotion Recognition（2018 IEEE Signal Processing Letters）
（1）对语音信号DFT后的能量谱进行梅尔滤波然后取log，得到log-Mels，又计算log-Mels的deltas和delta-deltas特征，如下图所示，三种特征组成三个通道，横向上是梅尔滤波组，论文设定为40个，纵向上是时间，丢进3维卷积，池化，线性层，LSTM，然后做个attention，最后接全连接和softmax分类。数据集是IEMOCAP和EmoDB。
（2）论文做了消解（ablation）学习，发现6个卷积层在IEMOCAP上效果最好，5个卷积层在EmoDB上最好。另外对比了DNN-ELM和二维卷积，发现本文模型效果最好。

九：A Feature Fusion Method Based On Extreme Learning Machine For Speech Emotion Recognition（2018 ICASSP）
（1）本文在流行的“声谱图+CRNN”框架上做了改进，第一个改进是加入启发性特征，第二个改进是用ELM的方法替代BLSTM。
（2）启发性特征有384维，是2009 InterSpeech挑战赛提议的统计特征，使用openSMILE获得。数据集为EmoDB
（3）BLSTM结构比较复杂，而ELM是一种单隐层网络的学习算法，它的训练更快。另外，BLSTM在数据不充足的时候训练效果并不理想。

论文笔记：语音情感识别（二）声谱图+CRNN的更多相关文章

论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas
一:原始信号从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果 ...
论文笔记：语音情感识别（三）手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
论文笔记：语音情感识别（五）语音特征集之eGeMAPS，ComParE，09IS，BoAW
一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.uttera ...
INTERSPEECH2020 语音情感分析论文之我见
摘要:本文为大家带来InterSpeech2020 语音情感分析25篇论文中的其中8篇的总结. 本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:T ...
论文笔记：Emotion Recognition From Speech With Recurrent Neural Networks
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
《基于WEB的独立学院补考重修管理系统研究》论文笔记（二十）
<基于WEB的独立学院补考重修管理系统研究>论文笔记(1) 一.基本信息标题:基于WEB的独立学院补考重修管理系统研究时间:2016 来源:南通大学杏林学院关键词:WEB:补考重修管 ...
如何将声学的spectrogram（声谱图）重新反变换成时域语音信号
最近在研究一些信号分析的事情,感兴趣如何将频谱信号反变换成时域信号.fft 与ifft可以顺畅的转变,但是这个是一帧信号,当时间较长的信号再一起是,通过反变换变成一帧一帧的时域信号,如何把他们拼接起来 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...

随机推荐

mysql max(),min()的优化
Select tables optimized away(选择表优化)
php中调用这个功能可以在web页面中显示hello world这个经典单词
php程序写的时间长了,自然对他所提供的功能了如指掌,他所提供的一大堆功能,真是觉得很好用,但有时候会发现php也缺少一些功能,自己总是会产生为php添加一些自定义的功能的想法.久而久之,终于今天憋不 ...
ibatis sqlmap配置问题 “Check the IBatisNet.DataAccess.DaoSessionHandlers.SqlMapDaoSessionHandler.”
- The error occurred while configure DaoSessionHandler.- The error occurred in <property name=&qu ...
CodeForces 832B Petya and Exam
B. Petya and Exam time limit per test 2 seconds memory limit per test 256 megabytes input standard i ...
CVPR2018资源汇总
CVPR 2018大会将于2018年6月18~22日于美国犹他州的盐湖城(Salt Lake City)举办. CVPR2018论文集下载:http://openaccess.thecvf.com/m ...
Pandas的append方法
相当于添加一行记录,这个方法也是比较管用的: # 测试pandas.append方法 def use_pd_append(): df = pd.DataFrame([[1, 2], [3, 4]], ...
Oracle卸载之Win7操作系统下Oracle11g 数据库卸载过程图解
1.首先停止oracle11g数据库的5个服务右键“计算机”,在下拉菜单列表中单击“管理”,进入计算机管理器.图解步骤如下: 选择左侧工具栏最后一项“服务和应用程序”,点击进入下拉菜单,单击“服务” ...
is_file file_exists microtime performance
对项目中旧代码的疑问 } elseif (substr($class_name, 0, 6) == 'OAuth2') { $file_name = $C->INCPATH . 'classes ...
sql中varchar（max），取代text类型
SQL Server 2005之后版本:请使用 varchar(max).nvarchar(max) 和 varbinary(max) 数据类型,而不要使用 text.ntext 和 image 数据 ...
flask中的url_for
转自:https://blog.csdn.net/dengfan666/article/details/78320188 1.URL反转:根据视图函数名称得到当前所指向的url 2.url_for() ...

论文笔记：语音情感识别（二）声谱图+CRNN

论文笔记：语音情感识别（二）声谱图+CRNN的更多相关文章

随机推荐

热门专题