由于人耳对声音的感知(如:频率.音调)是非线性的,为了对声音的感知进行度量,产生了一系列的尺度(如:十二平均律),这里重点说下Bark尺度与Mel尺度.刚开始的时候,我自己也没弄明白这两个尺度的区别.后来才逐渐的明白他们的思考出发点,这里简单分享出来. Bark(巴克)频率尺度是以Hz为单位,把频率映射到心理声学的24个临界频带上,第25个临界频带占据约:16K~20kHz的频率,1个临界频带的宽度等于一个Bark,简单的说,Bark尺度是把物理频率转换到心理声学的频率.Bark尺度频率的中心频…
音频采样中left-or right-justified(左对齐,右对齐), I2S时钟关系 原创 2014年02月11日 13:56:51 4951 0 0 刚刚过完春节,受假期综合症影响脑袋有点发木,干什么事反应慢了?最近调试xxxx的TLV320AIC3104发现以前调过的音频采样什么的,都忘记了,说明以前调试的时候很急躁,没有搞明白就翻篇了,今天说什么也得把落下的作业补上. 1.三个时钟一条线 SCLK: 串行时钟SCLK,也叫位时钟(BCLK),对应数字音频的每一位数据,SCLK都有一…
[持续更新] display specshow(data[, x_coords, y_coords, x_axis, …]) Display a spectrogram/chromagram/cqt/etc. waveplot(y[, sr, max_points, x_axis, …]) Plot the amplitude envelope of a waveform. cmap(data[, robust, cmap_seq, cmap_bool, …]) Get a default co…
AGC是自动增益补偿功能(Automatic Gain Control),AGC可以自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点.ANS是背景噪音抑制功能(Automatic Noise Suppression),ANS可探测出背景固定频率的杂音并消除背景噪音,例如:风扇.空调声自动滤除.呈现出与会者清晰的声音.AEC是回声消除器(Acoustic Echo Chancellor),AEC可以消除各种延迟的回声.…
论文提出PConv为对特征金字塔进行3D卷积,配合特定的iBN进行正则化,能够有效地融合尺度间的内在关系,另外,论文提出SEPC,使用可变形卷积来适应实际特征间对应的不规律性,保持尺度均衡.PConv和SEPC对SOTA的检测算法有显著地提升 ,并且没有带来过多的额外计算量   来源:晓飞的算法工程笔记 公众号 论文: Scale-Equalizing Pyramid Convolution for Object Detection 论文地址:https://arxiv.org/pdf/2005…
原文地址:NSCT——Nonsubsampled contourlet 变换程序开发教程1作者:向望大海的鱼 08年,被老板逼得走投无路,xx所得项目看来是实在躲不过去,只好硬着头皮上.开发一款图像处理软件,里面内容很多,不过核心就是NSCT变换.NSCT变换06年的新东西,现在跟风研究的热点.可惜的是作为一种新的变换滤波器长期以来只有matlab程序,没有VC程序.使很多算法开发不能应用到工程中,08暑假,大概花了我一个月吧,恩..期间电脑还中了次病毒(可恶的机器狗第四代!!),终于把这个软件…
在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大.而我们的分析目的也是想查看这些对象间的差异性或相似性情况,此时由于数据的组成形式不一样,因此不能使用对应分析,而需要使用一种专门分析此问题的方法——多维尺度分析(MDS模型).多维尺度分析和对应分析类似,也是通过可视化的图形阐述结果,并且也是一种描述性.探索性数据分析方法. 基于以上,我们可以得知,多维尺度分析经常使…
尺度不变特征变换匹配算法 对于初学者,从David G.Lowe的论文到实现,有许多鸿沟,本文帮你跨越.1.SIFT综述 尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置.尺度.旋转不变量,此算法由 David Lowe在1999年所发表,2004年完善总结. 其应用范围包含物体辨识.机器人地图感知与导航.影像缝合.3D模型建立.手势辨识.影像追踪和动作比…
上一节中,我们介绍了Harris角点检测.角点在图像旋转的情况下也可以检测到,但是如果减小(或者增加)图像的大小,可能会丢失图像的某些部分,甚至导致检测到的角点发生改变.这样的损失现象需要一种与图像比例无关的角点检测方法来解决.尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)可以解决这个问题.我们使用一个变换来进行特征变换,并且该变换会对不同的图像尺度输出相同的结果. 到底什么是SIFT算法?通俗一点说,SIFT算法利用DoG(差分高斯)来提取关键…
一. 数据的计量尺度(Levels of Measurement) 一般认为,数据是对客观现象计量的结果.按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级分为四个层次: 1.定类尺度(Nominal Level /列名尺度):按照事物的某种属性对其进行平行的分类或分组.例:人口的性别(男.女):企业的所有制性质(国有.集体.私营等) n  计量层次最低 n  对事物进行平行的分类 n  各类别可以指定数字代码表示 n  具有=或¹的数学特性 n  数据表现为“类别” l  定类尺度只测…
前言 本来想按照惯例来一个overview的,结果看到1篇十分不错而且详细的介绍,因此copy过来,自己在前面大体总结一下论文,细节不做赘述,引用文章讲得很详细,另外这篇paper引用十分详细,如果做detection可以从这篇文章去读更多不同类型的文章. 论文概述   卷积网络具有较好的平移不变性,但是对尺度不变性有较差的泛化能力,现在网络具有的一定尺度不变性.平移不变性往往是通过网络很大的capacity来"死记硬背",小目标物体难有效的检测出来,主要原因有:1.物体尺度变化很大,…
稀疏基的讨论已经持续了近一个月了,这次讨论多尺度几何分析.但由于下面讨论的这些变换主要面向图像,而本人现在主要关注于一维信号处理,所以就不对这些变换深入讨论了,这里仅从众参考文献中摘抄整理一些相关内容作为自己的一个备忘录,概念也许并不一定理解的准确,若以后杀入图像处理领域再行好好揣摩研究. 一.从小波分析到多尺度几何分析 小波分析取在从多学科领域中取得巨大成功的一个关键原因在于它比傅里叶分析能更"稀疏"地表示一维分段光滑或者有界变差函数.遗憾的是,小波分析在一维时所具有的优异特性并不能…
HTML5 视频和音频的 DOM 参考手册 HTML5 DOM 为 <audio> 和 <video> 元素提供了方法.属性和事件. 这些方法.属性和事件允许您使用 JavaScript 来操作 <audio> 和 <video> 元素. HTML5 Audio/Video 方法 方法 描述 addTextTrack() 向音频/视频添加新的文本轨道 canPlayType() 检测浏览器是否能播放指定的音频/视频类型 load() 重新加载音频/视频元素…
本文取自由http://blog.csdn.net/droidphone一部分 1. PCM是什么 PCM是英文Pulse-code modulation的缩写,中文译名是脉冲编码调制.我们知道在现实生活中,人耳听到的声音是模拟信号,PCM就是要把声音从模拟转换成数字信号的一种技术,他的原理简单地说就是利用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲,把这些脉冲的幅值按一定的精度进行量化,这些量化后的数值被连续地输出.传输.处理或记录到存储介质中,所有这些…
HTML5 Audio标签能够支持wav, mp3, ogg, acc, webm等格式,但有个很重要的音乐文件格式midi(扩展名mid)却在各大浏览器中都没有内置的支持.不是所有的浏览器都支持MP3 OGG之类的,每个浏览器因为版权的问题支持的格式都是不一样的. 浏览器和音频兼容性 浏览器制造商并非都同意使用某种音频文件格式.对于图像,PNG.JPEG 或 GIF 格式的文件在任何浏览器上都能加载到您的网页里.遗憾的是,音频文件并非如此.表 1 展示了网页中可以使用的音频文件格式,但是并非所…
ITU-R BT.1788建议书 对多媒体应用中视频质量的主观评估方法 (ITU‑R 102/6号研究课题) (2007年) 范围 数字广播系统允许提供多媒体和数据广播应用,包括视频.音频.静态图像.文本和图表.本建议书规定评估多媒体应用视频质量的非交互式主观评估方法. 国际电联无线电通信全会, 考虑到 a)        许多国家正在引入数字广播系统: b)        利用数字广播系统,已经引入或计划引入包括视频.音频.静态图像.文本.图表等的多媒体和数据广播服务: c)        多…
一.HTML5简介 HTML 5 的第一份正式草案已于2008年1月22日公布.HTML5 仍处于完善之中.然而,大部分现代浏览器已经具备了某些 HTML5 支持. 2014年10月29日,万维网联盟宣布,经过几乎8年的艰辛努力,HTML5标准规范终于最终制定完成了,并已公开发布. HTML5不仅仅是超文本标记语言的新版本,而是一整套浏览器新API的综合: 新的语义标签.我们知道HTML就是超文本标记语言,负责描述的是文档的语义.结构.HTML5中,提供了非常多的新的标签,<header>.&…
摘要 近年来,深度学习方法在物体跟踪领域有不少成功应用,并逐渐在性能上超越传统方法.本文先对现有基于深度学习的目标跟踪算法进行了分类梳理,后续会分篇对各个算法进行详细描述. 看上方给出的3张图片,它们分别是同一个视频的第1,40,80帧.在第1帧给出一个跑步者的边框(bounding-box)之后,后续的第40帧,80帧,bounding-box依然准确圈出了同一个跑步者.以上展示的其实就是目标跟踪(visual object tracking)的过程.目标跟踪(特指单目标跟踪)是指:给出目标在…
前面对R-CNN系的目标检测方法进行了个总结,其中对目标的定位使用了边框回归,当时对这部分内容不是很理解,这里单独学习下. R-CNN中最后的边框回归层,以候选区域(Region proposal)为输入,来对Region proposal中包含的目标进行准将的定位.但是,这个输入的候选区域通常不会正确的包含目标区域,如下图: 绿色边框是飞机的Ground Truth边框,绿色的是Region proposal边框,虽然Region proposal中包含了目标飞机,但是其定位却不是很准确,这就…
$\bf 摘要$: 本文给出了王大凯等编的<图像处理中的偏微分方程方法>第 6.2 节的详细论述. $\bf 关键词$: 图像复原; TV 模型; matlab 编程 1. 前言 图像在形成.传输和存储过程中中, 图像质量可能退化 (degradation). 而退化的图像可用数学模型: $$\bee\label{1:d} u_0=h_d*f+n \eee$$来描述, 其中 (1)$f(x,y)$ 是理想的图像; (2)$h_d(x,y)$ 是成像系统的点弥散函数 (point-spread…
目标检测(object detection)是计算机视觉中非常具有挑战性的一项工作,一方面它是其他很多后续视觉任务的基础,另一方面目标检测不仅需要预测区域,还要进行分类,因此问题更加复杂.最近的5年使用深度学习方法进行目标检测取得了很大的突破,因此想写一个系列来介绍这些方法.这些比较重要的方法可以分成两条主线,一条是基于区域候选(region proposal)的方法,即通过某种策略选出一部分候选框再进行后续处理,比如RCNN-SPP-Fast RCNN-Faster RCNN-RFCN等:另一…
学习AO,最重要的是理解“接口”这个概念.接口是什么?有什么具体作用?在多种计算机高级语言中,都可以看到“接口”这个术语,但基本上每一本书对“为什么使用接口”等重要文都都“语焉不详”,使得初学者往往不得要领. 认识接口,必须先要熟悉程序语言发展的历史才行,明白了程序语言发展的前世今生,才能知道这么多计算机语言为什么会是这个样子,为什么会是那种形式,它们之间为什么会有不同的区别产生. 计算机出现以后,数学家和计算机学家们相继开发了多种计算机高级语言,从Small-talk.Pascal.Basic…
视觉里程计(Visual Odometry, VO),通过使用相机提供的连续帧图像信息(以及局部地图,先不考虑)来估计相邻帧的相机运动,将这些相对运行转换为以第一帧为参考的位姿信息,就得到了相机载体(假设统一的刚体)的里程信息. 初始化实例 在实例化跟踪器的时候会实例化一个初始化实例,有一些比较重要的参数需要注意下,看代码注释以及初始值,参数值也可以在yaml文件中自定义. // src/openvslam/module/initializer.h:83 //! max number of it…
目录 关键术语 方法 two stage one stage 共同存在问题 多尺度 平移不变性 样本不均衡 各个步骤可能出现的问题 输入: 网络: 输出: 参考资料 What is detection? detection的任务就是classification+localization cs231n 课程截图 从左到右:语义分割semantic segmentation,图片分类classification,目标检测detection,实例分割instance segmentation 关键术语…
目标检测中特征融合技术(YOLO v4)(下) ASFF:自适应特征融合方式 ASFF来自论文:<Learning Spatial Fusion for Single-Shot Object Detection>,也就是著名的yolov3-asff. 金字塔特征表示法(FPN)是解决目标检测尺度变化挑战的常用方法.但是,对于基于FPN的单级检测器来说,不同特征尺度之间的不一致是其主要限制.因此这篇论文提出了一种新的数据驱动的金字塔特征融合方式,称之为自适应空间特征融合(ASFF).它学习了在空…
--iOS多媒体 概览 随着移动互联网的发展,如今的手机早已不是打电话.发短信那么简单了,播放音乐.视频.录音.拍照等都是很常用的功能.在iOS中对于多媒体的支持是非常强大的,无论是音视频播放.录制,还是对麦克风.摄像头的操作都提供了多套API.在今天的文章中将会对这些内容进行一一介绍: 音频 音效 音乐 音频会话 录音 音频队列服务 视频 MPMoviePlayerController MPMoviePlayerViewController AVPlayer 摄像头 UIImagePicker…
参考dranger tutorial,本文将介绍如何使用FFmpeg解码音频数据,并使用SDL将解码后的数据输出. 本文主要包含以下几方面的内容: 关于播放音频的需要的一些基础知识介绍 使用SDL2播放音频 数据队列 音频格式的转换 dranger tutorial确实入门FFmpeg比较好的教程,虽然作者在2015年的时候根据新版本的FFmpeg更新了, 但是其中还是有不少API过时了.特别是,教程中使用的是SDL1.0,和现在的SDL2的API也有很大的不同,并且不能兼容. 1. 关于音频的…
一.从信息的传输说起  上图是一个典型的蓝牙耳机应用场景.手机上的音频信息经过编码以后通过蓝牙协议被蓝牙耳机接收,经过解码以后,蓝牙耳机成功获取手机上的音频信息,然后再转化为振动被人耳识别.这是一个典型的数字通信系统,下面是数字通信系统的一般模型.  信源即需要传输的信息. 信源编码即对信源的编码,目的是为了减少冗余,起到数据压缩的作用,常见的信源编码有Huffman编码.H.264编码等. 信道编码的目的是对抗信道中的噪音和衰减,原理是加入冗余,常见的方法包括CRC校验.卷积码等. 信道即…
转自:http://www.cnblogs.com/iOS-mt/p/4268532.html 感谢作者:梦想通 前言 从事音乐相关的app开发也已经有一段时日了,在这过程中app的播放器几经修改我也因此对于iOS下的音频播放实现有了一定的研究.写这个系列的博客目的一方面希望能够抛砖引玉,另一方面也是希望能帮助国内其他的iOS开发者和爱好者少走弯路(我自己就遇到了不少的坑=.=). 本篇为<iOS音频播放>系列的第一篇,主要将对iOS下实现音频播放的方法进行概述. 基础 先来简单了解一下一些基…
目前,WEB页面上没有标准的方式来播放音频文件,大多数的音频文件是使用插件来播放,而众多浏览器都使用了不同的插件.而HTML5的到来,给我们提供了一个标准的方式来播放WEB中的音频文件,用户不再为浏览器升级诸如Adobe Flash.Apple QuickTime等播放插件,只需使用现代浏览器就可以聆听任何可以发出声音的WEB网站. WEB中的Audio标签 HTML5定义了一个新的元素用来指定标准的方式来插入音频文件到web页面中:<audio>标签.使用audio标签可以控制音频的播放与停…