【VS开发】【智能语音处理】VS中声音的采集实现

vc中声音的采集是用api函数来实现的。

一、数字音频基础知识

Fourier级数：

任何周期的波形可以分解成多个正弦波，这些正弦波的频率都是整数倍。级数中其他正线波的频率是基础频率的整数倍。基础频率称为一级谐波。

PCM:

pulse code modulation,脉冲编码调制，即对波形按照固定周期频率采样。为了保证采样后数据质量，采样频率必须是样本声音最高频率的两倍，这就是Nyquist频率。

样本大小：采样后用于存储振幅级的位数，实际就是脉冲编码的阶梯数，位数越大表明精度越高，这一点学过数字逻辑电路的应该清楚。

声音强度：

波形振幅的平方。两个声音强度上的差常以分贝(db)为单位来度量，

计算公式如下：

20*log(A1/A2)分贝。A1,A2为两个声音的振幅。如果采样大小为8位，则采样的动态范围为20*log(256)分贝=48db。如果样本大小为16位，则采样动态范围为20*log(65536)大约是96分贝，接近了人听觉极限和痛苦极限，是再线音乐的理想范围。windows同时支持8位和16位的采样大小。

二、相关API函数，结构，消息

对于录音设备来说，windows 提供了一组wave***的函数，比较重要的有以下几个：

打开录音设备函数

MMRESULT waveInOpen(

LPHWAVEIN phwi, //输入设备句柄

UINT uDeviceID, //输入设备ID

LPWAVEFORMATEX pwfx, //录音格式指针

DWORD dwCallback, //处理MM_WIM_***消息的回调函数或窗口句柄，线程ID

DWORD dwCallbackInstance,

DWORD fdwOpen //处理消息方式的符号位

);

为录音设备准备缓存函数

MMRESULT waveInPrepareHeader( HWAVEIN hwi, LPWAVEHDR pwh, UINT bwh );

给输入设备增加一个缓存

MMRESULT waveInAddBuffer( HWAVEIN hwi, LPWAVEHDR pwh, UINT cbwh );

开始录音

MMRESULT waveInStart( HWAVEIN hwi );

清除缓存

MMRESULT waveInUnprepareHeader( HWAVEIN hwi,LPWAVEHDR pwh, UINT cbwh);

停止录音

MMRESULT waveInReset( HWAVEIN hwi );

关闭录音设备

MMRESULT waveInClose( HWAVEIN hwi );

Wave_audio数据格式

typedef struct {

WORD wFormatTag; //数据格式，一般为WAVE_FORMAT_PCM即脉冲编码

WORD nChannels; //声道

DWORD nSamplesPerSec; //采样频率

DWORD nAvgBytesPerSec; //每秒数据量

WORD nBlockAlign;

WORD wBitsPerSample;//样本大小

WORD cbSize;

} WAVEFORMATEX;

waveform-audio 缓存格式　

typedef struct {

LPSTR lpData; //内存指针

DWORD dwBufferLength;//长度

DWORD dwBytesRecorded; //已录音的字节长度

DWORD dwUser;

DWORD dwFlags;

DWORD dwLoops; //循环次数

struct wavehdr_tag * lpNext;

DWORD reserved;

} WAVEHDR;

相关消息　

MM_WIM_OPEN:打开设备时消息，在此期间我们可以进行一些初始化工作

MM_WIM_DATA：当缓存已满或者停止录音时的消息，处理这个消息可以对缓存进行重新分配，实现不限长度录音

MM_WIM_CLOSE：关闭录音设备时的消息。

相对于录音来说，回放就简单的多了，用到的函数主要有以下几个：

打开回放设备　

MMRESULT waveOutOpen(

LPHWAVEOUT phwo,

UINT uDeviceID,

LPWAVEFORMATEX pwfx,

DWORD dwCallback,

DWORD dwCallbackInstance,

DWORD fdwOpen

);

为回放设备准备内存块　

MMRESULT waveOutPrepareHeader(

HWAVEOUT hwo,

LPWAVEHDR pwh,

UINT cbwh

);

写数据（放音）　

MMRESULT waveOutWrite(

HWAVEOUT hwo,

LPWAVEHDR pwh,

UINT cbwh

);

相应的也有三个消息，用法跟录音的类似：

三、程序设计

一个录音程序的简单流程：打开录音设备waveInOpen===>准备wave数据头waveInPrepareHeader===>

准备数据块waveInAddBuffer===>开始录音waveInStart===>停止录音(waveInReset) ===>

关闭录音设备(waveInClose)

当开始录音后当buffer已满时，将收到MM_WIM_DATA消息，处理该消息可以保存已录好数据。

回放程序比这个要简单的多：　打开回放设备waveOutOpen===>准备wave数据头waveOutPrepareHeader===>写wave数据waveOutWrite===>

停止放音(waveOutRest) ===>关闭回放设备(waveOutClose)

如何处理MM消息： MSDN告诉我们主要有 CALLBACK_FUNCTION、CALL_BACKTHREAD、CALLBACK_WINDOW 三种方式，常用的是

Thread,window方式。

线程模式

waveInOpen(&hWaveIn,WAVE_MAPPER,&waveform,m_ThreadID,NULL,CALLBACK_THREAD)，我们可以继承MFC的CwinThread类，只要相应的处理线程消息即可。

MFC线程消息的宏为：

ON_THREAD_MESSAGE,

可以这样添加消息映射： ON_THREAD_MESSAGE(MM_WIM_CLOSE, OnMM_WIM_CLOSE)

窗口模式

类似于线程模式，参见源程序即可。

四、实现代码

#define INP_BUFFER_SIZE (8 * 1024) //定义缓冲区大小

bool m_record,m_play; //m_record表示是否正在录音，m_play表示是否正在回放

WAVEFORMATEX waveform;    //WAV文件头包含音频格式

DWORD dwDataLength,dwRepetitions; //dwDataLength已有的数据长度，dwRepetitions重复次数

HWAVEIN hWaveIn;     //输入设备句柄

HWAVEOUT hWaveOut;     //输出设备句柄

PBYTE pBuffer1,pBuffer2;   //保存输入数据的两个缓冲区。

         //如果只要一个缓冲区，当缓冲区满，保存数据时，会无法保存这段时间采集的语音，导致最后获得的声音断断续续。

         //使用两个缓冲区，当一个缓冲区满的时候，保存这个已满的缓冲区数据，而由另一个缓冲区继续采集语音。

PBYTE pSaveBuffer,pNewBuffer;  //保存数据的内存地址。

PWAVEHDR pWaveHdr1,pWaveHdr2;  //声音文件头

afx_msg LRESULT OnMM_WIM_OPEN(UINT wParam,LONG lParam);

afx_msg LRESULT OnMM_WIM_DATA(UINT wParam,LONG lParam);

afx_msg LRESULT OnMM_WIM_CLOSE(UINT wParam,LONG lParam);

afx_msg LRESULT OnMM_WOM_OPEN(UINT wParam,LONG lParam);

afx_msg LRESULT OnMM_WOM_DONE(UINT wParam,LONG lParam);

afx_msg LRESULT OnMM_WOM_CLOSE(UINT wParam,LONG lParam); //声明几个回调函数

pWaveHdr1=reinterpret_cast<PWAVEHDR>(malloc(sizeof(WAVEHDR)));

pWaveHdr2=reinterpret_cast<PWAVEHDR>(malloc(sizeof(WAVEHDR))); //给声音文件头分配内存空间

pSaveBuffer = reinterpret_cast<PBYTE>(malloc(1)); //给数据内存地址分配空间

//消息绑定

BEGIN_MESSAGE_MAP(/*窗口类*/, /*窗口类的父类*/)

ON_MESSAGE(MM_WIM_OPEN,OnMM_WIM_OPEN)

ON_MESSAGE(MM_WIM_DATA,OnMM_WIM_DATA)

ON_MESSAGE(MM_WIM_CLOSE,OnMM_WIM_CLOSE)

ON_MESSAGE(MM_WOM_OPEN,OnMM_WOM_OPEN)

ON_MESSAGE(MM_WOM_DONE,OnMM_WOM_DONE)

ON_MESSAGE(MM_WOM_CLOSE,OnMM_WOM_CLOSE)

END_MESSAGE_MAP()

void RecordStart()     //录音准备

{

  m_record=true;

  pBuffer1=(PBYTE)malloc(INP_BUFFER_SIZE);

  pBuffer2=(PBYTE)malloc(INP_BUFFER_SIZE);    //给缓冲区分配空间

  if (!pBuffer1||!pBuffer2)

  {

   if (pBuffer1) free(pBuffer1);

   if (pBuffer2) free(pBuffer2);

   MessageBeep(MB_ICONEXCLAMATION);

   AfxMessageBox(L"Memory error!");

   return ;

  }



  //设置录音方式

  waveform.wFormatTag  = WAVE_FORMAT_PCM;   //PCM编码

  waveform.nChannels  = 1;       //单声道

  waveform.nSamplesPerSec = 16000;      //采样频率，每秒采集次数

  waveform.nAvgBytesPerSec= waveform.nSamplesPerSec * sizeof(unsigned short);

  waveform.nBlockAlign = waveform.nChannels * waveform.wBitsPerSample / 8;

  waveform.wBitsPerSample = 16;       //采样位，模拟信号转数字信号的精准度

  waveform.cbSize   = 0;       //PCM编码时，此处为0



  if (waveInOpen(&hWaveIn,WAVE_MAPPER,&waveform,(DWORD)this->m_hWnd,NULL,CALLBACK_WINDOW)) { //打开输入设备

   free(pBuffer1);

   free(pBuffer2);

   MessageBeep(MB_ICONEXCLAMATION);

   AfxMessageBox(L"Audio can not be open!");

  }

  //初始化声音文件头

  pWaveHdr1->lpData=(LPSTR)pBuffer1;   //设置缓冲区

  pWaveHdr1->dwBufferLength=INP_BUFFER_SIZE; //缓冲区大小

  pWaveHdr1->dwBytesRecorded=0;

  pWaveHdr1->dwUser=0;

  pWaveHdr1->dwFlags=0;

  pWaveHdr1->dwLoops=1;

  pWaveHdr1->lpNext=NULL;

  pWaveHdr1->reserved=0;

  waveInPrepareHeader(hWaveIn,pWaveHdr1,sizeof(WAVEHDR));  //将缓冲区信息和输入设备关联

  waveInAddBuffer (hWaveIn, pWaveHdr1, sizeof (WAVEHDR)) ; //将缓冲区地址添加到输入设备中



  pWaveHdr2->lpData=(LPSTR)pBuffer2;

  pWaveHdr2->dwBufferLength=INP_BUFFER_SIZE;

  pWaveHdr2->dwBytesRecorded=0;

  pWaveHdr2->dwUser=0;

  pWaveHdr2->dwFlags=0;

  pWaveHdr2->dwLoops=1;

  pWaveHdr2->lpNext=NULL;

  pWaveHdr2->reserved=0;

  waveInPrepareHeader(hWaveIn,pWaveHdr2,sizeof(WAVEHDR));

  waveInAddBuffer (hWaveIn, pWaveHdr2, sizeof (WAVEHDR)) ; //同上



  pSaveBuffer = (PBYTE)realloc (pSaveBuffer, 1) ;

  dwDataLength = 0 ;

  waveInStart (hWaveIn) ; //打开输入设备，开始录音

}

void RecordStop()

{

  m_record=false;

  waveInReset(hWaveIn); //停止录音，关闭输入设备

}

void PlayStart()

{

if (waveOutOpen(&hWaveOut,WAVE_MAPPER,&waveform,(DWORD)this->m_hWnd,NULL,CALLBACK_WINDOW)) //打开输出设备，开始回放

{

  MessageBeep(MB_ICONEXCLAMATION);

  AfxMessageBox(L"Audio output error");

}

m_play=true;

}

void PlayStop()

{

  waveOutReset(hWaveOut);  //停止回放，关闭输出设备

  m_play = false;

}

LRESULT OnMM_WIM_OPEN(UINT wParam, LONG lParam) //开始录音

{

// TODO: Add your message handler code here and/or call default

m_record=TRUE;

TRACE(L"MM_WIM_OPEN\n");

return 0;

}

LRESULT ChelloWMDlg::OnMM_WIM_DATA(UINT wParam, LONG lParam) //缓冲区满的时候，对应的声音文件头如pWaveHdr1作为lParam传递进来

{

// TODO: Add your message handler code here and/or call default

// Reallocate save buffer memory

pNewBuffer = (PBYTE)realloc (pSaveBuffer, dwDataLength +

  ((PWAVEHDR) lParam)->dwBytesRecorded) ;

if (pNewBuffer == NULL)

{

  waveInClose (hWaveIn) ;

  MessageBeep (MB_ICONEXCLAMATION) ;

  AfxMessageBox(L"error memory");

  return 0;

}

pSaveBuffer = pNewBuffer ;  //在pSaveBuffer尾部继续申请空间（上面的realloc 函数）

//////////////////////////////////////////////////////////////////////////

CopyMemory(pSaveBuffer + dwDataLength, ((PWAVEHDR) lParam)->lpData,

  ((PWAVEHDR) lParam)->dwBytesRecorded) ; //将缓冲区数据((PWAVEHDR) lParam)->lpData复制到pSaveBuffer的尾部刚申请的空间中

dwDataLength += ((PWAVEHDR) lParam)->dwBytesRecorded ;//加长pSaveBuffer的实际数据长度

if (m_record==false)

{

  waveInClose (hWaveIn) ;//停止录音，关闭输入设备

  return 0;

}



//将音频写入到文件中

FILE* fp=fopen("ecord.pcm","ab+");

if(fp==NULL)

{

  printf("fopen error,%d",__LINE__);

}

fwrite(((PWAVEHDR) lParam)->lpData,((PWAVEHDR) lParam)->dwBytesRecorded,1,fp);

fclose(fp);

// Send out a new buffer

waveInAddBuffer (hWaveIn, (PWAVEHDR) lParam, sizeof (WAVEHDR)) ;//将缓冲区添加回到设备中

//假如现在是pWaveHdr1满了，lParam就是pWaveHdr1，在我们保存pWaveHdr1的数据时，pWaveHdr2正在录音，保存完pWaveHdr1，再把pWaveHdr1添加回到设备中，这样达到两个缓冲区交替使用。

TRACE(L"done input data\n");

return 0;

}

LRESULT ChelloWMDlg::OnMM_WIM_CLOSE(UINT wParam, LONG lParam) //停止录音时

{

// TODO: Add your message handler code here and/or call default

TRACE(L"MM_WIM_CLOSE\n");

if (0==dwDataLength) {   //没有数据，长度为0

  return 0;

}

waveInUnprepareHeader (hWaveIn, pWaveHdr1, sizeof (WAVEHDR)) ;//取消输入设备和pWaveHdr1的关联

waveInUnprepareHeader (hWaveIn, pWaveHdr2, sizeof (WAVEHDR)) ;

m_record = FALSE ;

free (pBuffer1) ;

free (pBuffer2) ;

if (dwDataLength > 0)

{

  //enable play

}

return 0;

}

LRESULT ChelloWMDlg::OnMM_WOM_OPEN(UINT wParam, LONG lParam)//开始回放

{

TRACE(L"open MM_WOM_OPEN\n");

// Set up header

pWaveHdr1->lpData          = (LPSTR)pSaveBuffer ;

pWaveHdr1->dwBufferLength = dwDataLength ;

pWaveHdr1->dwBytesRecorded = 0 ;

pWaveHdr1->dwUser          = 0 ;

pWaveHdr1->dwFlags         = WHDR_BEGINLOOP | WHDR_ENDLOOP ;

pWaveHdr1->dwLoops         = dwRepetitions ;

pWaveHdr1->lpNext          = NULL ;

pWaveHdr1->reserved        = 0 ;

// Prepare and write

waveOutPrepareHeader (hWaveOut, pWaveHdr1, sizeof (WAVEHDR)) ;

waveOutWrite (hWaveOut, pWaveHdr1, sizeof (WAVEHDR)) ;

m_play = TRUE ;

return 0;

}

LRESULT ChelloWMDlg::OnMM_WOM_DONE(UINT wParam, LONG lParam){ //回放完毕

TRACE(L"open MM_WOM_DONE\n");

waveOutUnprepareHeader (hWaveOut, pWaveHdr1, sizeof (WAVEHDR)) ;

waveOutClose (hWaveOut) ;

dwRepetitions = 1 ;

m_play = FALSE ;

return 0;

}

LRESULT ChelloWMDlg::OnMM_WOM_CLOSE(UINT wParam, LONG lParam){ //关闭回放

TRACE(L"open MM_WOM_CLOSE\n");

dwRepetitions = 1 ;

m_play = FALSE ;

return 0;

}

【VS开发】【智能语音处理】VS中声音的采集实现的更多相关文章

基于Laravel+Swoole开发智能家居后端
基于Laravel+Swoole开发智能家居后端在上一篇<Laravel如何优雅的使用Swoole>中我已经大概谈到了Laravel结合Swoole的用法. 今天,我参与的智能家居项目基 ...
微软自然语言理解平台LUIS：从零开始，帮你开发智能音箱
今年微软开发者大会Build 2017上展示了一款Invoke智能音箱,受到了媒体和大众的广泛关注.近两年,不少大公司纷纷涉足该领域,使得智能音箱逐渐成为一款热门的人工智能家用电器.智能音箱的兴起也改 ...
以太坊系列之十一: 零起步使用remix开发智能合约
一步一步使用remix开发智能合约最新版的remix(2017-8-3)只能使用在线开发了,已经没有离线版本了,并且好像在线版本要FQ才能访问(自行解决). 1.打开remix 注意地址如果是htt ...
Android开发—智能家居系列】（二）：用手机对WIFI模块进行配置
在实际开发中,我开发的这款APP是用来连接温控器,并对温控器进行控制的.有图为证,哈哈. 上一篇文章[Android开发—智能家居系列](一):智能家居原理的文末总结中写到: 手机APP控制智能温控器 ...
MRCPv2在电信智能语音识别业务中的应用
1. MRCPv2协议简介媒体资源控制协议(Media Resource Control Protocol, MRCP)是一种基于TCP/IP的通讯协议,用于客户端向媒体资源服务器请求提供各种媒体资 ...
Let's Do 本地开发智能合约
上篇文章我们发了个币,有人抱怨在线(remix)写代码不爽,好吧,那就来看下怎么在本地开发智能合约? 一.安装开发环境 1.安装Node,Node v8.9.4或更高版本我安装的是: 2.集成开发框 ...
重新想象 Windows 8.1 Store Apps (81) - 控件增强: WebView 之加载本地 html, 智能替换 html 中的 url 引用, 通过 Share Contract 分享 WebView 中的内容, 为 WebView 截图
[源码下载] 重新想象 Windows 8.1 Store Apps (81) - 控件增强: WebView 之加载本地 html, 智能替换 html 中的 url 引用, 通过 Share Co ...
iOS开发（OC）中的命名规范
开小差:最近发现自己有一个经验主义的毛病,不太容易接受新的知识,这对从事技术研发的人来说不太合理,需要改之. 正文:通过读写大量代码我有自己的一套编程思路和习惯,自认为自己的编码习惯还是不错的,代码结 ...
iOS开发拓展篇—xib中关于拖拽手势的潜在错误
iOS开发拓展篇—xib中关于拖拽手势的潜在错误一.错误说明自定义一个用来封装工具条的类搭建xib,并添加一个拖拽的手势. 主控制器的代码:加载工具条封装工具条以及手势拖拽的监听事件此时运行 ...

随机推荐

Vue -- mounted方法中调用methods的方法（并取出mounted方法中回调函数的值）
结果:
红帽Linux故障定位技术详解与实例(1)
红帽Linux故障定位技术详解与实例(1) 2011-09-28 14:26 圈儿 BEAREYES.COM 我要评论(0) 字号:T | T 在线故障定位就是在故障发生时, 故障所处的操作系统环境仍 ...
将TextEdit设置为密码框
属性--Properties--UseSystemPasswordChar设置为true
Python 正则表达式Ⅳ
repl 参数是一个函数以下实例中将字符串中的匹配的数字乘以 2: 执行输出结果为: re.compile 函数 compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象 ...
Mybatis-Plus的BaseMapper的用法
1.如何使用BaseMapper进行数据库的操作. 2.使用BaseMapper进行插入实体时如何让UUID的主键自动生成. Student实体类,其中id属性主键为UUID package com. ...
phpexcel 导出数字类型字段导出错误或者为空解决办法（原）
跟我们写excel时候一样,手机号或者较长的数字类型,或被科学计数法和谐,但是如果类型是字符串,长一些的数字就不受影响了. 解决导出被和谐的最简单易懂的,就是最前面拼接‘ ’ 空格,或者字母符号之类, ...
JavaWeb_客户端相对/绝对路径和服务器端路径
客户端的绝对路径和相对路径相对路径:相对与某个基准目录的路径,在同一根目录下各子目录文件之间的相互引用, 绝对路径:指目录下的绝对位置,直接到的目标位置 @charset "UTF-8&q ...
docker容器的学习
什么是docker Docker 最初是 dotCloud 公司创始人 Solomon Hykes 在法国期间发起的一个公司内部项目,于 2013 年 3 月以 Apache 2.0 授权协议开源 ...
hdjs---后盾网requireJS课程
hdjs---后盾网requireJS课程一.总结一句话总结: requireJS是js端模块化开发,主要是实现js的异步加载,和管理模块之间的依赖关系,便于代码的编写和维 1.requireJS ...
spark 笔记 11: SchedulingAlgorithm 两种调度算法的优先级比较
调度算法的最基本工作之一,就是比较两个可执行的task的优先级.spark提供的FIFO和FAIR的优先级比较在SchedulingAlgorithm这个接口体现.) { ) { ) { ) { fa ...

【VS开发】【智能语音处理】VS中声音的采集实现

【VS开发】【智能语音处理】VS中声音的采集实现的更多相关文章

随机推荐

热门专题