WAVE文件格式解析
WAVE 文件作为Windows多媒体中使用的声音波形文件格式之一,它是以RIFF(Resource Interchange File Format)格式为标准的。这里不针对RIFF文件格式做介绍,不太了解的可以参考“RIFF格式简介”一文。
WAVE文件构成
每个WAVE文件的头四个字节便是“RIFF”。WAVE 文件由文件头和数据体两大部分组成。其中文件头又分为 RIFF/WAV 文件标识段和声音数据格式说明段两部分。相对于RIFF文件,只是将“RIFF”chunk的form id替换为“WAVE”。下表是一个典型的WAVE文件各部分构成及其长度字段。注意所有数据采用windows默认的小端存储。(FOURCC是一个特殊的四字节码,判断时按照字符顺序判断即可。)
| 域 | 长度 | 内容说明 | |
|---|---|---|---|
| chunkID | 4 | Chunk ID: "RIFF",FOURCC四字节码 | |
| chunksize | 4 | Chunk size: 4+n | |
| WAVEID | 4 | WAVE ID: "WAVE",FOURCC四字节码 | |
| WAVE chunks | n | Wave chunks包含格式信息和音频采样数据,分为“format” chunk和“data”chunk两部分。 | |
Format chunk
Format chunk用于说明data chunk中PCM数据的格式。主要三种不同的format chunk格式(不同的格式码)。如下表:
| 域 | 长度 | 内容说明 | |
|---|---|---|---|
| ckID | 4 | Chunk ID: "fmt ",FOURCC四字节码,注意最后一个填充是空格。 | |
| cksize | 4 | Chunk size: 16 or 18 or 40 | |
| wFormatTag | 2 | Format code,格式码 | |
| nChannels | 2 | Number of interleaved channels,采样声道数(交织存储) | |
| nSamplesPerSec | 4 | Sampling rate (blocks per second),音频采样率 | |
| nAvgBytesPerSec | 4 | Data rate,音频码率 | |
| nBlockAlign | 2 | Data block size (bytes),音频数据块大小(单位字节) | |
| wBitsPerSample | 2 | Bits per sample,量化位数(比如8bits、16bits、32bits) | |
|
|
|||
| cbSize | 2 | Size of the extension (0 or 22),扩展字段长度 | |
|
|
|||
| wValidBitsPerSample | 2 | Number of valid bits,有效的位长度 | |
| dwChannelMask | 4 | Speaker position mask,声道描述掩码,比如左声道、右声道等 | |
| SubFormat | 16 | GUID, including the data format code,数据格式码 | |
标准中定义的wFormatTag(Format code)可取值范围如下表:
| Format Code | PreProcessor Symbol | Data |
|---|---|---|
| 0x0001 | WAVE_FORMAT_PCM | PCM |
| 0x0003 | WAVE_FORMAT_IEEE_FLOAT | IEEE float,[-1.0f,1.0f] |
| 0x0006 | WAVE_FORMAT_ALAW | 8-bit ITU-T G.711 A-law |
| 0x0007 | WAVE_FORMAT_MULAW | 8-bit ITU-T G.711 µ-law |
| 0xFFFE | WAVE_FORMAT_EXTENSIBLE | Determined by SubFormat |
PCM格式
当wFormatTag为0x0001时,表示WAVE文件中存储的是PCM格式的音频数据。
在数据域中除了单声道-量化位数为8音频数据之外PCM存储格式按照补码的形式存放。对于单声道、量化位数为8的情况,使用offset binary(偏移二进制码),有兴趣的可以查看下对应的标准。
非PCM格式
对于非PCM格式的数据,使用扩展字段,扩展字段长度由cbSize指定。需要说明以下几点:
- 对于非PCM格式,必须有扩展字段,字段长度cbSize可以为0,但是扩展字段不可省略。
- 对于浮点数据,最大峰值为1,量化位数(bits/sample)取值可以是32或64。
- 对于 log-PCM formats (µ-law and A-law)的格式,量化位数(bits/sample)取值为8。
- 对于非PCM格式,必须包含“FACT”chunk。
扩展格式
当FormatTag为WAVE_FORMAT_EXTENSIBLE(0xFFFE)时,表示format chunk有扩展字段,其中包括有效量化位数(wValidBitsPerSample)、声道位置掩码、以及额外的GUID(SubFormat)。
- 在正常PCM数据中量化位数(wBitsPerSample)必须是8的倍数,在WAVE_FORMAT_EXTENSIBLE下量化位数可以使用wValidBitsPerSample来描述,也就是会所wValidBitsPerSample有可能小于wBitsPerSample。
- 对于声道位置掩码的信息,可参考如下文章:Multi-channel / high bit resolution formats, 2001-12-04: Multiple Channel Audio Data and WAVE Files。
- SubFormat代表的GUID前两个字节是由PCM数据格式填充的,例如WAVE_FORMAT_EXTENSIBLE。后续的14个字节是固定的,"\x00\x00\x00\x00\x10\x00\x80\x00\x00\xAA\x00\x38\x9B\x71"。
在以下几种情况下必须使用WAVE_FORMAT_EXTENSIBLE格式:
- PCM数据的量化位数(wBitsPerSample)大于16。
- 音频采样声道数大于2。
- 实际量化位数不是8的倍数。
- 存储顺序和播放顺序不一致,需要指定从声道顺序到声卡播放顺序映射的情况。
FACT chunk
通常PCM数据是不压缩的,对于所有压缩的非PCM格式都需要有FACT chunk。具体可参考:WAVE update (Revision: 3.0), 1994-04-15: Multimedia Registration Kit Revision 3.0 (Q120253))。FACT chunk至少定义一个字段,实际采样数dwSampleLength。
关于FACT chunk可以了解,但是很少用到,如果有这种格式的wav文件,建议参考上述标准解析。
DATA chunk
data chunk中包含采样数据。格式如下:
| 域 | 长度 | 内容说明 | |
|---|---|---|---|
| ckID | 4 | Chunk ID: "data" | |
| cksize | 4 | Chunk size: n | |
| sampled data | n | Samples,音频采样数据,交织存储 | |
| pad byte | 0 or 1 | Padding byte if n is odd,填充字节 | |
实例
由于微软将多媒体输入输出函数废弃了(Using Multimedia File I/O),这里不给出专门读写的代码,而是直接使用二进制形式分析。
先做如下假定:
- Nc 表示channels,声道数
- Ns表示文件中包含的实际采样块数目,每个采样块包括Nc 个独立采样
- 采样率为 F (blocks per second,单位Hz)
- 每个采样的长度为M字节。
PCM文件格式如下表:
| Field | Length | Contents | ||
|---|---|---|---|---|
| ckID | 4 | Chunk ID: "RIFF" | ||
| cksize | 4 | Chunk size: 4 + 24 + (8 + M * Nc * Ns + (0 or 1)) |
||
| WAVEID | 4 | WAVE ID: "WAVE" | ||
|
|
||||
| ckID | 4 | Chunk ID: "fmt " | ||
| cksize | 4 | Chunk size: 16 | ||
| wFormatTag | 2 | WAVE_FORMAT_PCM | ||
| nChannels | 2 | Nc | ||
| nSamplesPerSec | 4 | F | ||
| nAvgBytesPerSec | 4 | F * M * Nc | ||
| nBlockAlign | 2 | M * Nc | ||
| wBitsPerSample | 2 | rounds up to 8 * M | ||
|
|
||||
| ckID | 4 | Chunk ID: "data" | ||
| cksize | 4 | Chunk size: M * Nc* Ns | ||
| sampled data | M * Nc * Ns | Nc * Ns channel-interleaved M-byte samples | ||
| pad | 0 or 1 | Padding byte if M * Nc * Ns is odd | ||
注意WAVE文件可能附加information chunk。所以程序解析是最好按照上述标准定义,不要认为去掉wav fmt chunk之后全是data chunk。
Extensible Format如下表:
| Field | Length | Contents | ||
|---|---|---|---|---|
| ckID | 4 | Chunk ID: "RIFF" | ||
| cksize | 4 | Chunk size: 4 + 48 + 12 + (8 + M * Nc * Ns + (0 or 1)) |
||
| WAVEID | 4 | WAVE ID, "WAVE" | ||
|
|
||||
| ckID | 4 | Chunk ID: "fmt " | ||
| cksize | 4 | Chunk size: 40 | ||
| wFormatTag | 2 | WAVE_FORMAT_EXTENSIBLE | ||
| nChannels | 2 | Nc | ||
| nSamplesPerSec | 4 | F | ||
| nAvgBytesPerSec | 4 | F * M * Nc | ||
| nBlockAlign | 2 | M * Nc | ||
| wBitsPerSample | 2 | 8 * M | ||
| cbSize | 2 | Size of the extension: 22 | ||
| wValidBitsPerSample | 2 | at most 8 * M | ||
| dwChannelMask | 4 | Speaker position mask: 0 | ||
| SubFormat | 16 | GUID (first two bytes are the data format code) | ||
|
|
||||
| ckID | 4 | Chunk ID: "fact" | ||
| cksize | 4 | Chunk size: 4 | ||
| dwSampleLength | 4 | Nc * Ns | ||
|
|
||||
| ckID | 4 | Chunk ID: "data" | ||
| cksize | 4 | Chunk size: M * Nc * Ns | ||
| sampled data | M * Nc *Ns | Nc * Ns channel-interleaved M-byte samples | ||
| pad | 0 or 1 | Padding byte if M * Nc * Ns is odd | ||
本文主要参考:Audio File Format Specifications,相关测试wav文件及标准也从其链接下载。
写作本文的目的主要是学习下wave文件格式,并能够将音频数据解析出来。
以上介绍的内容中针对WAVE文件我们可以只关心,fmt chunk、data chunk数据,其他数据chunk可以忽略,如果你对其他chunk感兴趣,建议查看rfc2361及Microsoft提供的标准文档。
WAVE文件格式解析的更多相关文章
- 转wave 文件解析
转 1 WAVE 文件格式分析 WAVE 文件作为多媒体中使用的声音波形文件格式之一,它是以RIFF(Resource Interchange File Format)格式为标准的.每个WAVE文件的 ...
- 多媒体(2):WAVE文件格式分析
目录 多媒体(1):MCI接口编程 多媒体(2):WAVE文件格式分析 多媒体(3):基于WindowsAPI的视频捕捉卡操作 多媒体(4):JPEG图像压缩编码 多媒体(2):WAVE文件格式分析
- ArcGIS三大文件格式解析
原文:ArcGIS三大文件格式解析 Shape数据 Shapefile是ArcView GIS 3.x的原生数据格式,属于简单要素类,用点.线.多边形存储要素的形状,却不能存储拓扑关系,具有简单.快速 ...
- Android init.rc文件格式解析
/***************************************************************************** * Android init.rc文件格式 ...
- mp4文件格式解析(转载)
mp4文件格式解析 原作:http://blog.sina.com.cn/s/blog_48f93b530100jz4b.html 目前MP4的概念被炒得很火,也很乱.最开始MP4指的是音频(MP3的 ...
- C++PE文件格式解析类(轻松制作自己的PE文件解析器)
PE是Portable Executable File Format(可移植的运行体)简写,它是眼下Windows平台上的主流可运行文件格式. PE文件里包括的内容非常多,详细我就不在这解释了,有兴趣 ...
- 解析prototxt文件的python库 prototxt-parser(使用parsy自定义文件格式解析)
解析prototxt文件的python库 prototxt-parser https://github.com/yogin16/prototxt_parser https://test.pypi.or ...
- mp4文件格式解析(转)
mp4文件格式解析 MP4文件格式带数据详解 MP4文件格式的解析,以及MP4文件的分割算法
- Qt的.pro文件格式解析
Qt的.pro文件格式解析 在Qt中用qmake生成makefile文件,它是由.pro文件生成而来的,.pro文件的具体格式语法如下: 1.注释 .pro文件中注释采用#号,从"#&quo ...
随机推荐
- iOS刻度尺换算之1mm等于多少像素理解
刚好看到一个刻度尺文章,实现手机屏幕上画刻度尺. 然后就有一个疑问:这个现实中的1mm(1毫米)长度与手机像素之间的换算比怎么来的呢? 看了下demo代码,发现这样写的: CGFloat sc_w = ...
- maven常见问题问答(转)
转自:http://www.oschina.net/question/158170_29368 1.前言 Maven,发音是[`meivin],"专家"的 意思.它是一个很好的项目 ...
- 【RS】List-wise learning to rank with matrix factorization for collaborative filtering - 结合列表启发排序和矩阵分解的协同过滤
[论文标题]List-wise learning to rank with matrix factorization for collaborative filtering (RecSys '10 ...
- HDU 3062 Party ( 2-sat tarjan)
Party Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submi ...
- Android开发网上的一些重要知识点[经验分享]
1. android单实例运行方法 我们都知道Android平台没有任务管理器,而内部App维护者一个Activity history stack来实现窗口显示和销毁,对于常规从快捷方式运行来看都是s ...
- C# 图片识别(支持21种语言)
图片识别的技术到几天已经很成熟了,只是相关的资料很少,为了方便在此汇总一下(C#实现),方便需要的朋友查阅,也给自己做个记号. 图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量 ...
- CUDA 中的计时方法
问题描述:一般利用CUDA进行加速处理时,都需要测试CUDA程序的运行时间,来对比得到的加速效果. 解决方法: 1).GPU端计时,即设备端计时. 2).CPU端计时,即主机端计时. 设备端计时有两种 ...
- [转]JDBC快速入门教程
JDBC是什么? JDBC API是一个Java API,可以访问任何类型表列数据,特别是存储在关系数据库中的数据.JDBC代表Java数据库连接. JDBC库中所包含的API任务通常与数据库使用: ...
- sublime 技巧与快捷键篇
技巧大全:https://www.zhihu.com/question/24896283 项目排除文件夹,更便于ctrl + p的搜索,比如可恶的node_modules "folder ...
- Mac下命令行下载android源代码并构建apk过程
前提是java .sdk.ndk .cmake.gradle .gradlew都已经安装和配置好. 1.下载源码: git clone http://git-ma.xxxx.com.cn/xxxx/x ...