音频降噪算法 附完整C代码
降噪是音频图像算法中的必不可少的。
目的肯定是让图片或语音 更加自然平滑,简而言之,美化。
图像算法和音频算法 都有其共通点。
图像是偏向 空间 处理,例如图片中的某个区域。
图像很多时候是以二维数据为主,矩形数据分布。
音频更偏向 时间 处理,例如语音中的某段时长。
音频一般是一维数据为主,单声道波长。
处理方式也是差不多,要不单通道处理,然后合并,或者直接多通道处理。
只是处理时候数据参考系维度不一而已。
一般而言,
图像偏向于多通道处理,音频偏向于单通道处理。
而从数字信号的角度来看,也可以理解为聚类,频率归一化之类的。
总之就是对一些有一定规律的数字数据进行计算处理。
图像降噪被磨皮美颜这个大主题给带远了。
音频降噪目前感觉大有所为,像前面分享的《基于RNN的音频降噪算法 (附完整C代码)》
能达到这样的降噪效果,深度学习 确实有它独到的一面。
但是无可厚非,做机器学习之前还是要基于前人很多 基础算法进行数据的预处理等操作。
才能达到至善至美。
各有优劣,所谓算法肯定是互相配合为主,没有说谁能替换掉谁。
做算法最核心的思路就是使用各个算法的核心思想,放大它的优点,弱化它的缺点。
当然,做人也是如此。
音频降噪算法,网上公开的算法不多,资源也比较有限。
还是谷歌做了好事,把WebRTC开源,确实是一个基础。
前人种树,后人乘凉。
花了点时间,把WebRTC的噪声抑制模块提取出来,方便他人。
噪声抑制在WebRTC中有两个版本,一个是浮点,一个是定点。
一般定点做法是为了在一些特定环境下牺牲极少的精度,提升计算性能。
这个就不展开了,涉及到算法性能优化方面的一些知识点。
至于算法的实现,见源代码:
浮点版本:
noise_suppression.c
定点版本:
noise_suppression_x.c
算法提供4个降噪级别,分别是:
enum nsLevel {
kLow,
kModerate,
kHigh,
kVeryHigh
}; 实测效果还是很不错的,不过在一些特定的应用场景下,
其实这个算法还可以进一步调优。
改进思路,很多时候是基于需求来的,
打住打住,不细说了。 完整示例代码:
#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
//采用https://github.com/mackron/dr_libs/blob/master/dr_wav.h 解码
#define DR_WAV_IMPLEMENTATION #include "dr_wav.h"
#include "noise_suppression.h" #ifndef nullptr
#define nullptr 0
#endif //写wav文件
void wavWrite_int16(char *filename, int16_t *buffer, size_t sampleRate, size_t totalSampleCount) {
drwav_data_format format = {};
format.container = drwav_container_riff; // <-- drwav_container_riff = normal WAV files, drwav_container_w64 = Sony Wave64.
format.format = DR_WAVE_FORMAT_PCM; // <-- Any of the DR_WAVE_FORMAT_* codes.
format.channels = ;
format.sampleRate = (drwav_uint32) sampleRate;
format.bitsPerSample = ;
drwav *pWav = drwav_open_file_write(filename, &format);
if (pWav) {
drwav_uint64 samplesWritten = drwav_write(pWav, totalSampleCount, buffer);
drwav_uninit(pWav);
if (samplesWritten != totalSampleCount) {
fprintf(stderr, "ERROR\n");
exit();
}
}
} //读取wav文件
int16_t *wavRead_int16(char *filename, uint32_t *sampleRate, uint64_t *totalSampleCount) {
unsigned int channels;
int16_t *buffer = drwav_open_and_read_file_s16(filename, &channels, sampleRate, totalSampleCount);
if (buffer == nullptr) {
printf("读取wav文件失败.");
}
//仅仅处理单通道音频
if (channels != ) {
drwav_free(buffer);
buffer = nullptr;
*sampleRate = ;
*totalSampleCount = ;
}
return buffer;
} //分割路径函数
void splitpath(const char *path, char *drv, char *dir, char *name, char *ext) {
const char *end;
const char *p;
const char *s;
if (path[] && path[] == ':') {
if (drv) {
*drv++ = *path++;
*drv++ = *path++;
*drv = '\0';
}
} else if (drv)
*drv = '\0';
for (end = path; *end && *end != ':';)
end++;
for (p = end; p > path && *--p != '\\' && *p != '/';)
if (*p == '.') {
end = p;
break;
}
if (ext)
for (s = end; (*ext = *s++);)
ext++;
for (p = end; p > path;)
if (*--p == '\\' || *p == '/') {
p++;
break;
}
if (name) {
for (s = p; s < end;)
*name++ = *s++;
*name = '\0';
}
if (dir) {
for (s = path; s < p;)
*dir++ = *s++;
*dir = '\0';
}
} enum nsLevel {
kLow,
kModerate,
kHigh,
kVeryHigh
}; static float S16ToFloat_C(int16_t v) {
if (v > ) {
return ((float) v) / (float) INT16_MAX;
} return (((float) v) / ((float) -INT16_MIN));
} void S16ToFloat(const int16_t *src, size_t size, float *dest) {
size_t i;
for (i = ; i < size; ++i)
dest[i] = S16ToFloat_C(src[i]);
} static int16_t FloatToS16_C(float v) {
static const float kMaxRound = (float) INT16_MAX - 0.5f;
static const float kMinRound = (float) INT16_MIN + 0.5f;
if (v > ) {
v *= kMaxRound;
return v >= kMaxRound ? INT16_MAX : (int16_t) (v + 0.5f);
} v *= -kMinRound;
return v <= kMinRound ? INT16_MIN : (int16_t) (v - 0.5f);
} void FloatToS16(const float *src, size_t size, int16_t *dest) {
size_t i;
for (i = ; i < size; ++i)
dest[i] = FloatToS16_C(src[i]);
} int nsProcess(int16_t *buffer, size_t sampleRate, int samplesCount, enum nsLevel level) {
if (buffer == nullptr) return -;
if (samplesCount == ) return -;
size_t samples = WEBRTC_SPL_MIN(, sampleRate / );
if (samples == ) return -;
const int maxSamples = ;
int num_bands = ;
int16_t *input = buffer;
size_t nTotal = (samplesCount / samples); NsHandle *nsHandle = WebRtcNs_Create(); int status = WebRtcNs_Init(nsHandle, sampleRate);
if (status != ) {
printf("WebRtcNs_Init fail\n");
return -;
}
status = WebRtcNs_set_policy(nsHandle, level);
if (status != ) {
printf("WebRtcNs_set_policy fail\n");
return -;
}
for (int i = ; i < nTotal; i++) {
float inf_buffer[maxSamples];
float outf_buffer[maxSamples];
S16ToFloat(input, samples, inf_buffer);
float *nsIn[] = {inf_buffer}; //ns input[band][data]
float *nsOut[] = {outf_buffer}; //ns output[band][data]
WebRtcNs_Analyze(nsHandle, nsIn[]);
WebRtcNs_Process(nsHandle, (const float *const *) nsIn, num_bands, nsOut);
FloatToS16(outf_buffer, samples, input);
input += samples;
}
WebRtcNs_Free(nsHandle); return ;
} void noise_suppression(char *in_file, char *out_file) {
//音频采样率
uint32_t sampleRate = ;
//总音频采样数
uint64_t inSampleCount = ;
int16_t *inBuffer = wavRead_int16(in_file, &sampleRate, &inSampleCount); //如果加载成功
if (inBuffer != nullptr) {
nsProcess(inBuffer, sampleRate, inSampleCount, kVeryHigh);
wavWrite_int16(out_file, inBuffer, sampleRate, inSampleCount); free(inBuffer);
}
} int main(int argc, char *argv[]) {
printf("WebRtc Noise Suppression\n");
printf("博客:http://cpuimage.cnblogs.com/\n");
printf("音频噪声抑制\n");
if (argc < )
return -;
char *in_file = argv[];
char drive[];
char dir[];
char fname[];
char ext[];
char out_file[];
splitpath(in_file, drive, dir, fname, ext);
sprintf(out_file, "%s%s%s_out%s", drive, dir, fname, ext);
noise_suppression(in_file, out_file); printf("按任意键退出程序 \n");
getchar();
return ;
}
项目地址:https://github.com/cpuimage/WebRTC_NS
示例具体流程为:
加载wav(拖放wav文件到可执行文件上)->降噪->保存wav
若有其他相关问题或者需求也可以邮件联系俺探讨。
邮箱地址是:
gaozhihan@vip.qq.com
音频降噪算法 附完整C代码的更多相关文章
- 基于RNN的音频降噪算法 (附完整C代码)
前几天无意间看到一个项目rnnoise. 项目地址: https://github.com/xiph/rnnoise 基于RNN的音频降噪算法. 采用的是 GRU/LSTM 模型. 阅读下训练代码,可 ...
- 基于傅里叶变换的音频重采样算法 (附完整c代码)
前面有提到音频采样算法: WebRTC 音频采样算法 附完整C++示例代码 简洁明了的插值音频重采样算法例子 (附完整C代码) 近段时间有不少朋友给我写过邮件,说了一些他们使用的情况和问题. 坦白讲, ...
- mser 最大稳定极值区域(文字区域定位)算法 附完整C代码
mser 的全称:Maximally Stable Extremal Regions 第一次听说这个算法时,是来自当时部门的一个同事, 提及到他的项目用它来做文字区域的定位,对这个算法做了一些优化. ...
- WebRTC 音频采样算法 附完整C++示例代码
之前有大概介绍了音频采样相关的思路,详情见<简洁明了的插值音频重采样算法例子 (附完整C代码)>. 音频方面的开源项目很多很多. 最知名的莫过于谷歌开源的WebRTC, 其中的音频模块就包 ...
- 音频自动增益 与 静音检测 算法 附完整C代码
前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. ...
- 音频自动增益 与 静音检测 算法 附完整C代码【转】
转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用 ...
- 单独编译和使用webrtc音频降噪模块(附完整源码+测试音频文件)
单独编译和使用webrtc音频增益模块(附完整源码+测试音频文件) 单独编译和使用webrtc音频回声消除模块(附完整源码+测试音频文件) webrtc的音频处理模块分为降噪ns,回音消除aec,回声 ...
- 自动曝光修复算法 附完整C代码
众所周知, 图像方面的3A算法有: AF自动对焦(Automatic Focus)自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure)自动曝光的是为了 ...
- 磨皮美颜算法 附完整C代码
前言 2017年底时候写了这篇<集 降噪 美颜 虚化 增强 为一体的极速图像润色算法 附Demo程序> 这也算是学习过程中比较有成就感的一个算法. 自2015年做算法开始到今天,还有个把月 ...
随机推荐
- 如何使用maven搭建web项目
博客园注册了有二十多天了,还没有写过博客,今天就发一篇,也便于后面查找笔记. 我个人已经做了几年的java web开发了,由于所在的公司是业务型公司,用的都是一些老旧的稳定技术,很少接触到稍微新点的内 ...
- C语言第一次博客作业—输入输出
一.PTA实验作业 题目1:7-3 温度转换 本题要求编写程序,计算华氏温度150°F对应的摄氏温度.计算公式:C=5×(F−32)/9,式中:C表示摄氏温度,F表示华氏温度,输出数据要求为整型. 1 ...
- vue项目结构
前言 我在 搭建vue项目环境 简单说明了项目初始化完成后的目录结构. 但在实际项目中,src目录下的结构需要跟随项目做一些小小的调整. 目录结构 ├── src 项目源码目录 │ ├── api 所 ...
- C#网页提交html代码报错
1.在页面顶部 Page 标签加入属性 ValidateRequest="false" 2.如果开发环境是4.0及以上,在web.config加入 <system.web&g ...
- JS 转换数据类型
JavaScript 是一种动态数据类型语言,变量是没有类型的,可以随机赋予任意值,若变量要转换数据类型,有两种办法:隐式转换和显式转换. 隐式转换可转换为字符串(将一个值加上字符串) 数字(在值的前 ...
- [JCIP笔记] (三)如何设计一个线程安全的对象
在当我们谈论线程安全时,我们在谈论什么中,我们讨论了怎样通过Java的synchronize机制去避免几个线程同时访问一个变量时发生问题.忧国忧民的Brian Goetz大神在多年的开发过程中,也悟到 ...
- C# 使用 GDI+ 给图片添加文字,并使文字自适应矩形区域
需求 需求是要做一个编辑文字的页面.用户在网页端写文字,文字区域是个矩形框,用户可以通过下方的拖动条调节文字大小. 如下图: 提交数据的时候前端传文字区域的左上角和右下角定位给后台.因为前端的字体大小 ...
- Class-Based-View(CBV)
我们都知道,Python是一个面向对象的编程语言,如果只用函数来开发,有很多面向对象的优点就错失了(继承.封装.多态).所以Django在后来加入了Class-Based-View.可以让我们用类写V ...
- Spring知识点回顾(03)Bean的 Scope
sigleton prototype request session globalsession stepscope
- python入门(14)定义函数和接收返回值
定义函数: 定义一个求绝对值的my_abs函数为例: def my_abs(x): if x >= 0: return x else: return -x 如果没有return语句,函数执行完毕 ...