一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeech) (1)分帧加窗,每一帧采用的特征向量为eGeMAPS特征集中的20个特征,每个utterance使用裁剪和padding的做法使得定长512帧,所以输入为20x512的矩阵.每个样本归一化到0均值1标准差(根据对应的说话人).使用的数据集为EmoDB. (2)准确率为88.9% 二:Speec…
一:原始信号 从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅. 二:(线性)声谱图 (1)对原始信号进行分帧加窗后,可以得到很多帧,对每一帧做FFT(快速傅里叶变换),傅里叶变换的作用是把时域信号转为频域信号,把每一帧FFT后的频域信号(频谱图)在时间上堆叠起来就可…
一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.utterance由多帧语音组成,通常对一个utterance做分帧来得到多帧信号. (2)LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征. (3)HSFs(high level statistics func…
一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech) (1)论文的模型如下图,输入声谱图,CNN先用两个不同的卷积核分别提取时域特征和频域特征,concat后喂给后面的CNN,在最后一层使用attention pooling的技术,在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的…
Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,…
摘要:本文为大家带来InterSpeech2020 语音情感分析25篇论文中的其中8篇的总结. 本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:Tython. 1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition(INTERSPEECH2020) (1)数据处理:IEMOCAP四分类,leave-one-speake…
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,…
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情感,响度.这些信息对于语音的理解也是很重要的.本文关注其中一个点,如何识别出语音的情感,即语音情感识别(Speech Emotion Recognition, SER). 语音情感识别的三个难点 1. 感情是主观的:不同人对于同一段语音,理解出的情感不尽相同,而且存在一定的文化差异. 2. 感情在语…
论文笔记1:Deep Learning         2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature上发表深度学习的综述性论文,介绍了什么是监督学习.反向传播来训练多层神经网络.卷积神经网络.使用深度卷积网络进行图像理解.分布式特征表示与语言处理.递归神经网络,并对深度学习技术的未来发展进行展望. 原文摘要: 1,深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示.        …
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的成功能否迁移到PASCAL VOC的目标检测任务上呢?基于这个问题,论文提出了R-CNN. 基本步骤:如下图所示,第一步输入图像.第二步使用生成region proposals的方法(有很多,论文使用的是seletivce search,ImageNet2013检测任务的冠军UVA也使用了该算法)提…
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢.…
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不…
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图片中的物体.理解物体间的关系,并用一句自然语言表达出来. 应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的…
Mastering the game of Go with deep neural networks and tree search Nature 2015  这是本人论文笔记系列第二篇 Nature 的文章了,第一篇是 DQN.好紧张!好兴奋! 本文可谓是在世界上赚够了吸引力! 围棋游戏被看做是 AI 领域最有挑战的经典游戏,由于其无穷的搜索空间 和 评价位置和移动的困难.本文提出了一种新的方法给计算机来玩围棋游戏,即:利用 "value network" 来评价广泛的位置 和 “p…
基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Convolutional Neural Networks for Human Action Recognition.比较感兴趣是CNN是怎么应用于行为理解的,所以就看看.这篇论文发表在TPAMI2013.它基本上没有公式的,论文倾于从论述角度描述它的基本方法和实现效果.另外,对于怎么去训练也没有具体的…
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.05691 代码地址:https://github.com/xthan/polyvore 联系方式: Github:https://github.com/ccc013 知乎专栏:机器学习与计算机视觉,AI 论文笔记 微信公众号:AI 算法笔记 1. 简介 时尚搭配推荐的需求越来越大,本文是基于两个方面的时尚推荐…
目录 摘要 一.引言 二.相关工作 三.我们的方法 3.1 边缘卷积Edge Convolution 3.2动态图更新 3.3 性质 3.4 与现有方法比较 四.评估 4.1 分类 4.2 模型复杂度 4.3 在ModelNet40上的更多实验 4.4 部件分割 4.5 室内场景分割 五.讨论 Dynamic Graph CNN for Learning on Point Clouds 论文地址:https://arxiv.org/abs/1801.07829 代码:https://github…
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正…
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的…
1. RCNN的模型(如下图)描述: RCNN相比传统的物体检测,还是引入传统的物体检测的基本流程,先找出候选目标物体,逐个的提取特征,不过rbg大神引入了当时炙手可热的CNN卷积网络取代传统上的HOG,DPM,LBP,SIFT等算法来对图像的特征进行提取,值得说道的是CNN由于可以放到GPU上,所以也大幅度的减少了了物体检测需要的时间,然后在使用svm/softmax分类器进行分类识别.   候选区域目标(RP) 特征提取 分类 RCNN selective search CNN SVM 传统…
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm for Deep Belief Nets.这篇论文一开始读起来是相当费劲的,学习了好几天才了解了相关的背景,慢慢的思路也开始清晰起来.DBN算法就是Wake-Sleep算法+RBM,但是论文对Wake-Sleep算法解释特别少.可能还要学习Wake-Sleep和RBM相关的的知识才能慢慢理解,今天…
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息 会议: IEEE(2016 IEEE 40th Annual Computer Software and Applications Conference) 单位: Nagoya University(名古屋大学).NTT Secure Platform Laboratories(NTT安全平台实验室) 方法概述 数据:81个恶意软件日志文件…
论文笔记系列-Neural Network Search :A Survey 论文 笔记 NAS automl survey review reinforcement learning Bayesian Optimization evolutionary algorithm  注:本文主要是结合自己理解对原文献的总结翻译,有的部分直接翻译成英文不太好理解,所以查阅原文会更直观更好理解. 本文主要就Search Space.Search Strategy.Performance Estimatio…
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke…
前言 在论文笔记:CNN经典结构1中主要讲了2012-2015年的一些经典CNN结构.本文主要讲解2016-2017年的一些经典CNN结构. CIFAR和SVHN上,DenseNet-BC优于ResNeXt优于DenseNet优于WRN优于FractalNet优于ResNetv2优于ResNet,具体数据见CIFAR和SVHN在各CNN论文中的结果.ImageNet上,SENet优于DPN优于ResNeXt优于WRN优于ResNet和DenseNet. WideResNet( WRN ) mot…
前言 本文主要介绍2012-2015年的一些经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2. 在论文笔记:CNN经典结构2中我介绍了2016-2017年的几个经典CNN结构,WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet.另外,在ImageNet历年冠军和相关CNN模型中,我简单介绍了ImageNet和历年冠军. AlexNet 贡献:ILSVRC2012冠军,展现出了…
本文将基于深度学习的卷积神经网络(CNN)应用于基于RGB-D-T的多模态人脸识别问题. 此外,引入了基于CNN的识别模块与各种纹理特征(LBP,HOG,HAAR,HOGOM)的后期融合,在基准RGB-D-T数据库上展示了更好的识别性能. 本文得到的结果表明,经典的纹理特征和基于CNN的特征可以相互补充以达到识别的目的. 已经开发了几种用于面部识别的算法来处理这些挑战. 这些算法的例子包括但不限于主成分分析(PCA),线性判别分析(LDA),局部二元模式(LBP),定向梯度直方图(HOG) ,H…
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS算法都侧重于搜索cell的结构,即当搜索得到一种cell结构后只是简单地将固定数量的cell按链式结构连接起来组成最终的网络模型.AutoDeeplab则将如何cell的连接方式也纳入了搜索空间中,进一步扩大了网络结构的范围. dense image prediction 之前的大多数NAS算法都是…
论文笔记-IGCV3:Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks 2018年07月11日 14:05:46 Liven_Zhu 阅读数 846   介绍 在这篇论文中,作者同时使用低秩核和稀疏核(low-rank and sparse kernel)来组成一个密集kernel.基于ICGV2的基础上,作者提出了ICGV3. 近几年,卷积网络在计算机视觉上的有效性已经得到了验证.目前卷积网络的…
打算整理一个关于Person Re-identification的系列论文笔记,主要记录近年CNN快速发展中的部分有亮点和借鉴意义的论文. 论文笔记流程采用contributions->algorithm pipeline>experiments->个人评价 Scalable Person Re-identification: A Benchmark Zheng L, Shen L, Tian L, et al. Scalable Person Re-identification: A…