语音性别识别 - 使用R提取特征

【语音性别识别 - 使用R提取特征】的更多相关文章

语音性别识别 - 使用R提取特征

步骤 1)安装R.windows操作系统安装包的链接:https://cran.r-project.org/bin/windows/base/ 2)切换当前路径为脚本所在路径点击文件 > 改变工作目录 3)运行脚本点击文件 > 运行R脚本文件如果希望自己生成训练数据,就运行生成训练数据的脚本.如果只是想生成测试数据,就运行生成测试数据的脚本. 生成训练数据的脚本将男声的音频文件置于male文件夹下,将女声的音频文件置于female文件夹下 packages <- c('tun…

论文笔记：语音情感识别（三）手工特征+CRNN

一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeech) (1)分帧加窗,每一帧采用的特征向量为eGeMAPS特征集中的20个特征,每个utterance使用裁剪和padding的做法使得定长512帧,所以输入为20x512的矩阵.每个样本归一化到0均值1标准差(根据对应的说话人).使用的数据集为EmoDB. (2)准确率为88.9% 二:Speec…

论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas

一:原始信号从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅. 二:(线性)声谱图 (1)对原始信号进行分帧加窗后,可以得到很多帧,对每一帧做FFT(快速傅里叶变换),傅里叶变换的作用是把时域信号转为频域信号,把每一帧FFT后的频域信号(频谱图)在时间上堆叠起来就可…

C++开发人脸性别识别教程（12）——加入性别识别功能

经过之前几篇博客的解说,我们已经成功搭建了MFC应用框架,并实现了主要的图像显示和人脸检測程序,在这篇博文中我们要向当中加入性别识别代码. 关于性别识别,之前已经专门拿出两篇博客的篇幅来进行解说.这里不再赘述.详细參见:C++开发人脸性别识别教程(5)--通过FaceRecognizer类实现性别识别和C++开发人脸性别识别教程(6)--通过SVM实现性别识别. 一.分类器训练在进行人脸性别识别之前须要训练性别识别的分类器,而分类器的训练过程是相对耗时的(大约五分钟),因此这里我们採用离线训练…

论文笔记：语音情感识别（五）语音特征集之eGeMAPS，ComParE，09IS，BoAW

一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.utterance由多帧语音组成,通常对一个utterance做分帧来得到多帧信号. (2)LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征. (3)HSFs(high level statistics func…

论文笔记：语音情感识别（二）声谱图+CRNN

一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech) (1)论文的模型如下图,输入声谱图,CNN先用两个不同的卷积核分别提取时域特征和频域特征,concat后喂给后面的CNN,在最后一层使用attention pooling的技术,在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的…

基于人脸识别+IMDB-WIFI+Caffe的性别识别

本文用记录基于Caffe的人脸性别识别过程.基于imdb-wiki模型做finetune,imdb-wiki数据集合模型可从这里下载:https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/. 准备训练环境 (1)准备OS:Ubuntu16.04 (2)安装Nvidia GPU Driver https://www.nvidia.com/Download/index.aspx?lang=en-us (3)安装CUDA https://docs.nv…