开源项目audioFlux: 针对音频领域的深度学习工具库
audioFlux是一个Python和C实现的库,提供音频领域系统、全面、多维度的特征提取与组合,结合各种深度学习网络模型,进行音频领域的业务研发,下面从时频变换、频谱重排、倒谱系数、解卷积、谱特征、音乐信息检索六个方面简单阐述其相关功能。
项目地址: https://github.com/libAudioFlux/audioFlux
时频变换
audioFlux在时频分析领域中,包含以下通用变换(支持后续所有频率刻度类型)算法:
BFT - 基于傅里叶变换。
等效短时傅里叶变换(STFT),一般基于此实现大家熟知的mel频谱,时域上重叠平移加窗的傅里叶变换,一般重叠变换长度1/4,加高斯窗又称做Gabor变换,可以调整窗函数长度来方便的模拟时频分析特点,BFT算法除提供标准的mel/bark/erb等频谱外,还支持mel这些刻度类型的复数谱,同时支持mel等刻度频谱的重排。
NSGT - 非平稳 Gabor 变换。
类似加高斯窗的STFT(短时傅里叶变换),不同之处在于窗函数长度和t建立非平稳关系,相对STFT可以实现稳态信号中非平稳状态较好的分析,较好的onset端点侦测效果常基于此类频谱计算,同时可以做为实现CQT的一种高效方式,本算法中NSGT变换的octave频率刻度类型即CQT的高效实现。
CWT - 连续小波变换。
多分辨率时频分析,从数学上看,傅里叶变换的基底是无限的sin/cos函数,而小波变换基底是有限的很小的波函数,波函数的通用表示形式为 $$ \psi_{a,b}(t)=\frac{1}{\sqrt{a}}\psi(\frac{t-b}{a})$$ 其中a决定频域缩放尺度,b时间平移尺度,建立时频的自适应分析,相对STFT的固定时频分辨率,具有低频段频率分辨高、高频段时间分辨高特点,非常适合非稳态信号分析,支持常用的Morse、Morlet、Bump、Pual、Meyer等波函数类型。
PWT - 伪小波变换。
基于傅里叶变换实现的类似小波变换效果,CWT的高效算法为频域小波函数计算filterBank和频域数据做dot运算,如果把小波函数当做一种特殊的窗函数,可以产生类CWT效果,即伪小波变换,如果窗函数建立可调频带的参数(库中尚未实现),可以等效小波变换。
以上变换功能支持下面所有频率刻度类型:
- linear - 标准线性频带频谱图,短时傅里叶变换结果取一半即linear刻度频谱图,刻度为采样率/采样样本,即最小频域分辨率。
- linsapce - 自定义频带范围的频谱图,频带可以大于linear频带,相当于时域降采样。
- mel - 梅尔标度频谱图,音频中最常用的频谱图类型之一,基于人耳听觉低频敏感、高频不敏感特性,类log压缩linear刻度。
- bark - 巴克刻度频谱图,比梅尔刻度更符合人耳听觉。
- erb - 等效矩形带宽频谱图,比巴克刻度更符合人耳听觉。
- octave - 八度刻度频谱图,符合乐音对数刻度的频谱图。
- log - 对数刻度频谱图。
下面是一个BFT变换下不同频率刻度的简单对比图。
下面是一个CWT不同波函数的简单对比图。
以下可用作独立变换的算法有(不支持多种频率刻度类型):
- CQT - 常量Q变换,频带比为常数的变换,音乐中常用的此变换,常基于此计算chroma特征用于分析和声。
- VQT - 可变Q变换。
- ST - S变换/Stockwell变换,类似小波变换,是小波变换思想的一种极端特例,可用于侦测分析一些极端的突变信号如地震、海啸等,相比NSGT同样也是加高斯窗,但建立起f和t的缩放关系。
- FST - 快速S变换,S变换的离散基2实现。
- DWT - 离散小波变换,相对CWT而言,频率基于2的变换。
- WPT - 小波包变换,又称小波包分解,可以对信号做细节和近似分解,是信号分离和合成的一个方式,可用于降噪、模态结构分析等业务。
- SWT - 稳态小波变换,类似小波包变换,分解出的信号和原信号长度一致。
下面是一个CQT和NSGT变换下不同刻度的简单对比图。
很明显,NSGT-Octave比CQT要清晰、聚焦一些。
chroma是基于频谱的更高级特征,属于乐音刻度体系范畴,针对非乐音的刻度要差于乐音刻度,目前支持chroma特征的频谱类型:
- CQT
- BFT-linear
- BFT-octave
下面是一个Chroma简单对比图。
很明显,CQT-Chroma优于其它频谱类型下的chroma。
注:
- 不同频率刻度的频谱都有各自的应用价值,针对某些业务情况,这些不同刻度频谱图可以图组合起一个大的特征集合参与网络的训练。
- 频谱图按值的类型abs、平方、log等非线性运算称为幅值谱、功率谱、对数谱/dB谱,深度学习中一般使用对数谱多一些。
频谱重排
同步压缩或重新分配方法是一种用于锐化、高清频谱图的技术,可以提升频谱的清晰度和精度,audioFlux包含以下算法:
- reassign - 针对STFT变换重排,基于BFT的mel/bark/erb等频谱数据同样实现重排。
- synsq - CWT频谱数据重排。
- wsst - CWT变换重排。
下面是一个频谱图和对应重排后的效果图。
很明显,重排后的效果要优于重排前的效果。
可能有人会问,既然重排效果如此好,可以基于上次结果循环多次重排吗?这样效果如何?audioFlux重排相关算法提供多次重排机制,具体效果可以参照文档做下尝试对比。
倒谱系数
类似针对mel频谱的mfcc(梅尔频率倒谱系数),这个特征业务上属于去音高,属于反映发音物理结构的一个特征,典型的用于语音识别相关业务,可用于不同乐器分类,结构细化等业务模型训练。
整个audioFlux项目频谱体系中,除mfcc以及相应delta/deltaDelta外,支持所有类型的频谱倒谱系数即xxcc:
- lfcc
- gtcc
- bfcc
- cqcc
- ......
不同频谱的倒谱系数,都代表着不同频谱类型的去音高相关,都有各自的应用价值,比如gtcc有论文反映在语音识别业务中音素效果要比mfcc好一些,cqcc针对乐器的分类和一些结构细化业务要远优于mfcc等等。
下面是针对吉他乐音音频的不同频谱倒谱系数的对比图。
很明显,在吉他乐音起振阶段,cqcc表现最好,后续持续稳定阶段,gtcc相比较好。
解卷积
在数学中,解卷积是卷积的逆运算,可以做为信号分解的一种算法,针对频谱而言,分解后的两个数据可以表示为formant(共振峰)频谱图和pitch频谱图,相比mfcc而言,formant是一种更为通识的发音物理结构特征。
在audioFlux中,支持所有类型频谱的解卷积操作,所发挥的价值在于,针对音高相关的业务,可以去除共振峰干扰后模型推断更准确;针对结构相关特征的业务,可以去除音高避免模型的训练受其干扰。
下面是针对吉他880hz音频的mel频谱图的解卷积效果图。
可以看到吉他共振峰部分(音色)和音高部分明显的分离效果。
谱特征
在audioFlux中,包括数十种spectral相关的特征,包括基于音色相关特征,基于统计相关特征,基于光谱通量相关特征,基于奇异值相关特征,等等。
如:
- flatness
- skewness
- crest
- slop
- rolloff
- ......
- centroid
- spread
- kurtosis
- ......
- flux
- hfc
- mkl
- ......
- ......
等等一小部分,关于audioFlux所提供的所有谱特征,更具体的功能描述、例子、公式等请参照官方文档。
下面是一些谱特征对比图。
音乐信息检索
audioFlux提供mir相关领域pitch估算、onset侦测、hpss(谐波打击乐分离)等相关业务算法。
pitch估算包含基于YIN,STFT等相关算法,下面是针对一段人声练习音高的侦测效果图。
红色为实际参照音高,蓝色为估算音高。
onset侦测包含基于Spectrum flux, novelty等等相关算法,下面是一段吉他扫弦伴奏的端点侦测效果图。
中间时域图像红色虚线为端点侦测位置叠加而成。
hpss包含中值滤波,非负矩阵分解等(NMF)等算法,下面是一段包含吉他弹奏和节拍器音频的分离效果,上半部分时域效果,下半部分对应频域效果。
项目地址: https://github.com/libAudioFlux/audioFlux
开源项目audioFlux: 针对音频领域的深度学习工具库的更多相关文章
- 开源项目(9-0)综述--基于深度学习的目标跟踪sort与deep-sort
基于深度学习的目标跟踪sort与deep-sort https://github.com/Ewenwan/MVision/tree/master/3D_Object_Detection/Object_ ...
- .NET平台开源项目速览(4).NET文档生成工具ADB及使用
很久以前就使用ADB这个工具来生成项目的帮助文档.功能强大,在学习一些开源项目的过程中,官方没有提供CHM帮助文档,所以为了快速的了解项目结构和注释.就生成文档来自己看,非常好用.这也是一个学习方法吧 ...
- [深度学习工具]·极简安装Dlib人脸识别库
[深度学习工具]·极简安装Dlib人脸识别库 Dlib介绍 Dlib是一个现代化的C ++工具箱,其中包含用于在C ++中创建复杂软件以解决实际问题的机器学习算法和工具.它广泛应用于工业界和学术界,包 ...
- 基于OpenCL的深度学习工具:AMD MLP及其使用详解
基于OpenCL的深度学习工具:AMD MLP及其使用详解 http://www.csdn.net/article/2015-08-05/2825390 发表于2015-08-05 16:33| 59 ...
- AI炼丹 - 深度学习必备库 numpy
目录 深度学习必备库 - Numpy 1. 基础数据结构ndarray数组 1.1 为什么引入ndarray数组 1.2 如何创建ndarray数组 1.3 ndarray 数组的基本运算 1.4 n ...
- 讲解开源项目:功能强大的 JS 文件上传库
本文作者:HelloGitHub-kalifun HelloGitHub 的<讲解开源项目>系列,项目地址:https://github.com/HelloGitHub-Team/Arti ...
- 什么?让每一个开源项目更安全?啊?还有IDE工具?难道是它?
背景 入编程界6年来,大大小小的安全漏洞是真滴听了不少,xxx通过日志入侵了,xxxx通过请求入侵了,等等等等. 近期fastJson又报安全漏洞,敢巧自己又"被"跳槽到了新公司, ...
- 【一统江湖的大前端(9)】TensorFlow.js 开箱即用的深度学习工具
示例代码托管在:http://www.github.com/dashnowords/blogs 博客园地址:<大史住在大前端>原创博文目录 目录 一. 上手TensorFlow.js 二. ...
- Windows10 利用 Docker 配置 TensofFlow 深度学习工具
TensorFlow 这个不用多介绍了吧,大家都知道,Google的开源深度学习软件库,官网点这里:https://www.tensorflow.org/ 当然这个工具官方支持装在 Ubuntu 和 ...
- [深度学习] ImageAI库使用笔记
ImageAI是一个Python库,旨在使开发人员,研究人员和学生能够使用简单的几行代码来构建具有独立的深度学习和计算机视觉功能的应用程序和系统. ImageAI的官方GitHub存储库为https: ...
随机推荐
- opened by another process write access was denied sourceinsight
Ubuntu 16.04 安装Samba 和 windows 安装Source Insight weixin_43764544 2021-01-07 15:23:03 23 收藏 文章标签: linu ...
- MySQL核心知识
MySQL常用的命令 启动:net start mySql; 进入:mysql -u root -p/mysql -h localhost -u root -p databaseName; 列出数据库 ...
- 关于cmake找不到库的问题
1. Error:Could not find a configuration file for package 解决办法1:将/usr/lib/x86_64-linux-gnu/cmake/.... ...
- String类型时间与Date时间转换
1. String类型的时间转为DateTime public static Date transferString2Date(String s) { Date date = new Date(); ...
- 打开配置windos 2016 防火墙 日志
1 点击"开始"或者win+R打开"运行"对话框 键入gpedit.msc
- CMake指定的任务可执行文件"cmd.exe" 未能运行。System.IO.IOException:未能创建临时文件。临时文件夹已满或其路径不正确。对路径"......exec.cmd "的访问被拒绝
我觉得是我使用VS2022的原因,网上也没有找到相同的问题.
- Ansys-CHEMKIN-pro表面反应机制输入(Surface Kinetics Input)规则
chemkin表面反应机制文件(Ansys-CHEMKIN-pro表面反应机制输入) 1. 文件包含表面活性位(相).表面组分,固相组分.固相,热力学数据,反应机制: 2. 顺序:物质名称,活性位数据 ...
- nRF52832起来之后测试是上电还是休眠唤醒的方法
void fu_state_machine_init(void) { /* NRF_POWER_RESETREAS_SREQ_MASK JLINK DOWNLOAD / POWER ON can ca ...
- 新的世界,我们推荐不劳而获 -> 持续更新中
随着技术带来的生产力爆发越来越猛烈,有人提出是不是有必要保留一些落后的生产工艺及相关岗位,以避免社会动荡. 我的答案:不用.但是要改变社会对于不劳而获的态度:我们对于生活资料的不劳而获持接受的态度,但 ...
- 银行对账单PDF一页拆分多页
一个页拆分多个页,按照流水 String bank = "{\n" + "\t\"bank\" : [\n" + "\t\t{\n ...