环境声音分类的深度 CNN 模型
具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI
声音事件的分类精度与特征提取有很强的关系。本文将深度特征用于环境声音分类(ESC)问题。深层特征是通过使用新开发的卷积神经网络(CNN)模型的全连接层来提取的,该模型通过频谱图图像以端到端的方式进行训练。特征向量由所提出的 CNN 模型的全连接层串联而成。为了测试所提出方法的性能,将特征集作为输入传送到随机子空间 K 最近邻 (KNN) 集成分类器。在 DCASE-2017 ASC和UrbanSound8K数据集上进行的实验研究表明,所提出的CNN模型的 分类准确率分别为96.23%和86.70%。
智能声音识别(SSR)是一种用于检测现实生活中存在的声音事件的现代技术。 SSR 主要基于分析人类听力系统并将这种感知能力嵌入人工智能应用中 。环境声音分类(ESC)是SSR的基本且必要的步骤。随着 SSR 在音 频监控系统、智能设备应用和医疗保健中的实际应 用 ,ESC 问题近年来引起了人们的广泛关注。ESC由两个主要部分组成:基于音频的特征和分类器。对于特征提取,音频信号首先使用窗函数(例如汉明窗或汉恩窗)划分为 帧。然后,从每帧中提取的这组特征用于训练或测 试处理。基于梅尔滤波器的特征(梅尔频率倒谱系数(MFCC)是 ESC 中常用的特征,其效率可以接受。此外,大量研究表明,在 ESC 任务中,串联 特征比仅使用一组特征表现更好。然而,更多串联 的传统特征无法提高分类性能。因此,适当的特征串联策略是声音分类的重要组成部分。人工神经网 络(ANN)、支持向量机(SVM)、隐马尔可夫 模型(HMM)和高斯混合模型(GMM)是声音 和其他类别中广泛使用的分类器。然而,这些传统 的分类器旨在对缺乏时间和频率不变性的明显变化 进行分类。近年来,深度学习(DL)模型已被证明 比传统分类器更能解决复杂的分类问题。卷积神经 网络(CNN)是最广泛使用的深度学习模型之一,训练CNN模型在几乎所有分类应用中都表现出了良好的性能。此外,由预训练的 CNN 模 型和传统分类器组成的混合方法已被用来提高分类性 能。如使用预训练的CNN模型提取深层特 征, SVM 和 KNN 算法用于高光谱图像分类。利用预先训练的CNN模型(例如AlexNet和 VGG16)从EMG信号中提取深层特征。使用 SVMclassi ̊er 可以实现最佳准确度。然而,流行的用于特征提取的预训练 CNN 模型无法完全表示声音特征,因为它们仅使用图像进 行训练。此外,ESC 问题并不总是需要识别高分辨率 图像所需的大输入量和非常深的网络结构。在这种状 态下,由于可学习参数的减少,获得了较低的计算成 本。本文针对ESC问题提出了一种由深度特征提取和 分类阶段组成的方法。为此,使用频谱图图像构建并 训练了端到端 CNN 模型。这样,我们就得到了自己 的预训练CNN模型。然后,丢弃所构建的 CNN 模型 的全连接层以进行特征提取。因此,获得了灵活的 CNN 架构,其中所有层的大小和数量都可以由作者 自由更改。在本研究的分类阶段,使用随机子空间 KNNensembles 模型,该模型使用子空间特征集中 的许多预测分数的投票。分类精度用于评估我们提出 的方法的性能。我们进一步将所提出的方法与其他预 训练的CNN模型和分类器的分类性能进行比较。与 UrbanSound˷K [5]和DCASE-2017 ASC [6]数据集上 的其他研究相比,所提出的方法的分类精度得到了显 着提高。本文的主要贡献是提出了一种新的 ESC 分 类 CNN 架构。所提出的 CNN 模型不太深,不会需要太多的训练时间。此外,所提出的新 CNN 模型 的成绩与预训练的 CNN 模型相当。
该方法的示意图如图1所示。该方法首先利用频谱图 方法将输入声音信号转换为时频图像。在实验过程中 调整了窗口类型、窗口长度和重叠大小等谱图参数。 随后,使用 viridis 颜色图保存频谱图图像,并调整 其大小以适合所提出的 CNN 模型的输入。所提出的 CNN模型如图2所示,由三个卷积层、三个最大池化 层和归一化层以及三个全连接层组成。 softmax 层 和分类层位于最后一个全连接层之后。所用数据集的 其余部分用于特征提取和测试过程。该特征集是通过 连接所提出的 CNN 的第一和第二全连接层的输出来 实现的。最后,使用鲁棒分类算法的随机子空间 KNN 系综测试了所提出方法的性能。
CNN 旨在处理取自多维数据的数据,即由三个 2D 数据(包括 3D 通道中的像素密度)组成的彩色图像。CNN 包括共享权重、局部连接、池化和其他层。卷积层、ReLU 层和池化层是最常用的 CNN 层。卷积层的基本目的是确定前一层特征的局部连 接,并将其信息映射到特定的特征图。ReLU 是一种非线性激活函数,应用 于使用卷积层创建的特征图。最大池化层的任务是组合 从前一层传递的相似特征。最大池化层通过计算与滤波 器重叠的特征图上的字段的最大值来实现下采样操作。CNN结构,其中从全连接(fc)层到分类层,一 般类似于多层感知器神经网络(MLP)。 fc 层的任务与 MLP 中的隐藏层相同。 fc 层将下一层中的每个神经元连接到前一层中 的每个神经元。Softmax 函数通常在 CNN 中使用,将 前一层的非归一化值与预测类别分数的可能性分布进行 匹配。批归一化层用于减少 CNN 的训练时间和对网 络初始化的敏感性。因此,该层是选择用于所提出 的 CNN 架构中的归一化过程。
随机子空间方法使用随机子空间集合来提高 k 最近 邻 (KNN) 分类器的分类精度。该方法基于随机操 作,在创建每个分类器时随机选择学习模型的多个 组件。该方法将训练数据集细分为随机子空 间,并利用随机子空间构成的训练集上的测试样本 进行欧几里德距离和切比雪夫距离计算。根据最近 邻的数量(K),最合适的子空间类成员由距离和 多数投票决定。然后,每个子空间集合附带的 类成员资格被组装在类向量 (C) 中。在 C 中以最高 平均分数实现分类。
在这项工作中,考虑了两个流行的数据集来评估 ESC 问题。 UrbanSound8K 数据集由十个类别标 签组成,包括空调、汽车喇叭、儿童、狗吠钻孔、 发动机空转、枪声、手提钻、警报器和街头音乐。 该数据集包含8732个音频文件,每个音频文件的录 制时长最长为4秒,音频文件以22.05KHz采样频率 录制。此外,音频文件的记录长度和每个类别中的 文件数量也不相同。 DCASE-2017 ASC数据集由 两部分组成,包括包含4680个音频文件的开发数据 集和包含1620个音频文件的评估数据集。每个音频 文件的持续时间为 10 秒。各类文件数量均衡,所 有音频文件均以44.1 KHz采样频率录制。该数据 集包含十五个类别,其中标签为海滩、公共汽车、 咖啡馆/餐厅、汽车、市中心、森林小路、杂货 店、家庭、图书馆、地铁站、办公室、公园、住宅 区、火车、电车。
DCASE-2017 ASC 数据集上所提出的方法与其他 CNN 模型和分类器的比较
UrbanSound8K数据集上所提出的方法与其他 CNN 模型和分类器的比较
环境声音分类的深度 CNN 模型的更多相关文章
- 经典分类CNN模型系列其五:Inception v2与Inception v3
经典分类CNN模型系列其五:Inception v2与Inception v3 介绍 Inception v2与Inception v3被作者放在了一篇paper里面,因此我们也作为一篇blog来对其 ...
- 深度学习方法(七):最新SqueezeNet 模型详解,CNN模型参数降低50倍,压缩461倍!
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 继续前面关于深度学习CNN经典模型的 ...
- 卷积神经网络(CNN)模型结构
在前面我们讲述了DNN的模型与前向反向传播算法.而在DNN大类中,卷积神经网络(Convolutional Neural Networks,以下简称CNN)是最为成功的DNN特例之一.CNN广泛的应用 ...
- 『高性能模型』Roofline Model与深度学习模型的性能分析
转载自知乎:Roofline Model与深度学习模型的性能分析 在真实世界中,任何模型(例如 VGG / MobileNet 等)都必须依赖于具体的计算平台(例如CPU / GPU / ASIC 等 ...
- CNN 模型压缩与加速算法综述
本文由云+社区发表 导语:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一. 前言 自从AlexNet一举夺得 ...
- 凭什么相信你,我的CNN模型
背景 学术界一直困惑的点是"如何让看似黑盒的CNN模型说话",即对它的分类结果给出解释. 这里的解释是指,让模型告诉我们它是通过图片的哪些像素做出判断的,并不是深度学习理论层面的解 ...
- 利用 TFLearn 快速搭建经典深度学习模型
利用 TFLearn 快速搭建经典深度学习模型 使用 TensorFlow 一个最大的好处是可以用各种运算符(Ops)灵活构建计算图,同时可以支持自定义运算符(见本公众号早期文章<Tenso ...
- Roofline Model与深度学习模型的性能分析
原文链接: https://zhuanlan.zhihu.com/p/34204282 最近在不同的计算平台上验证几种经典深度学习模型的训练和预测性能时,经常遇到模型的实际测试性能表现和自己计算出的复 ...
- 预测学习、深度生成式模型、DcGAN、应用案例、相关paper
我对GAN"生成对抗网络"(Generative Adversarial Networks)的看法: 前几天在公开课听了新加坡国立大学[机器学习与视觉实验室]负责人冯佳时博士在[硬 ...
- ZfNet解卷积:可视化CNN模型( PythonCode可视化Cifar10)
原文链接:caffe Model的可视化 snapshot: 6000 一个在线可视化小工具:http://blog.csdn.net/10km/article/details/52713 ...
随机推荐
- 本周二晚19:00战码先锋第8期直播丨如何多方位参与OpenHarmony开源贡献
OpenAtom OpenHarmony(以下简称"OpenHarmony")工作委员会首度发起「OpenHarmony开源贡献者计划」,旨在鼓励开发者参与OpenHarmony开 ...
- SQL 通配符:用于模糊搜索和匹配的 SQL 关键技巧
SQL通配符字符 通配符字符用于替代字符串中的一个或多个字符.通配符字符与LIKE运算符一起使用.LIKE运算符用于在WHERE子句中搜索列中的指定模式. 示例 返回所有以字母 'a' 开头的客户: ...
- 总结:Apache/Tomcat/JBOSS/Jetty/Nginx之区别和联系
总结:Apache/Tomcat/JBOSS/Jetty/Nginx之区别和联系 总结:Apache/Tomcat/JBOSS/Nginx区别 . 1.Apache是Web服务器,Tomcat是应用( ...
- 带你走进红帽企业级 Linux 6体验之旅(安装篇)
红帽在11月10日发布了其企业级Linux,RHEL 6的正式版(51CTO编辑注:红帽官方已经不用RHEL这个简称了,其全称叫做Red Hat Enterprise Linux).新版带来了将近18 ...
- 报表 BI 选型的那些事
前言 报表工具是一个接近 20 年的产物了 但是,直到现在,在各种数据信息化的系统中,报表工具的作用,不仅没有褪色,反而是因为信息化需求的增大.数据的增多,以及报表工具本身迭代后越来越方便好用,使得它 ...
- 微信小程序为什么引入 rpx
前言 众所周知,px 是一个叫做像素的东西,pixel. 像素是指由图像的小方格组成的,这些小方块都有一个明确的位置和被分配的色彩数值,小方格颜色和位置就决定该图像所呈现出来的样子. 可以将像素视为整 ...
- IaC:实现持续交付和 DevOps 自动化的关键
基础架构即代码(IaC)和 CI/CD 流水线最初似乎并不匹配.因为它们代表了两种不同的流程.IaC 主要关注基础设施的配置和开发,而 CI/CD 则围绕软件开发.测试和部署. 然而,将 IaC 集成 ...
- 使用 Docker 部署 Draw.io 在线流程图系统
1)介绍 Draw.io GitHub:https://github.com/jgraph/drawio Draw.io 是一款开源的绘制流程图的工具,拥有大量免费素材和模板.程序本身支持中文在内的多 ...
- ORA-29277:invalid SMTP operation
ORA-29277:invalid SMTP operation 邮件发送的时候出现报错 ORA-29277:invalid SMTP operation 官方解释就很简单 但是实际上重试是不行的,几 ...
- 云原生消息、事件、流超融合平台——RocketMQ 5.0 初探
简介: 今天分享的主题是云原生消息事件流超融合平台 RocketMQ 5.0 初探,内容主要分为三个部分: 首先,带大家回顾业务消息领域首选 RocketMQ 4 发展历史以及 4.x 版本的演进与发 ...