写这篇博客的起源是在div.io上的一篇文章《你所不知道的JavaScript数组》by 小胡子哥下的评论中的讨论。

因为随着XHR2和现代浏览器的普及,在浏览器当中处理二进制不再向过去那样无所适从,随着Canvas/WebGL等新技术逐渐开始进入大众视 野,也会用到一些字节数组或者16位、8位整数等东西。在node.js刚刚发布的4.0版本中,Buffer的底层使用了更符合JS标准的Uint8Array来实现,浏览器和node.js再次向相同的目标靠近了一点点,所以对于JS中处理二进制,我就打算写这篇文章作一个入门性质的流水账,方便一些对二进制处理不了解的同学快速入门,虽然在前端领域用到的不多,不过也可以作为茶余饭后的休闲谈资。

二进制数据在JS程序里的表达

现今世界上几乎所有的计算机体系结构都是以字节(byte)为二进制数据的基本单位(注:不是说最小单位),所以二进制常常以字节数组的形式存在于程序当中。例如在C#里面,就用byte[],标准C里面没有byte类型,但可以通过typedefbyte定义为unsigned char的别名,效果是一样的。

JS设计之初似乎根本没想过要处理二进制的东西,加上对类型的极度弱化,对于字节的概念可以说是非常非常的模糊。如果要表达字节数组,那么似乎只能用一个普通数组来表示。

HTML5体系引入了一大堆新的东西,比如XHR2,是可以上传或下载二进制内容的,与之配套的东西就是JS里的ArrayBufferTyped Array了。

ArrayBuffer是一个固定长度的字节序列,你可以通过new ArrayBuffer(length)来得到一片空间,或者用下文将会介绍的方法从XHR2等途径获取。由于内部实现与数组不一样,ArrayBuffer通 常都是连续内存(注意,这只是经验之谈,并不是规范也不是文档所明确的),因此对于高密度的访问操作而言它比JS中的Array速度会快很多(但并不要用 它来简单地代替Array)。如果用Chrome的Profile工具查看Heap Snapshot,会发现ArrayBuffer会被单独列为一类,也许它的内存分配和布局与Array以及其他JS对象有一些差别吧。

ArrayBuffer是不能直接被访问的,因此需要借助Typed Array。Typed Array是一组具体数据类型的Array-Like类型的统称,包括

Int8Array             8位有符号整数,类似于C里面的char
Uint8Array 8位无符号整数,类似于C里面的unsigned char
Uint8ClampedArray 8位无符号整数,跟Uint8类似,但在溢出处理上不大一样
Int16Array 后面这些类型就不罗嗦了
Uint16Array
Int32Array
Uint32Array
Float32Array
Float64Array

Typed Array的背后是一个ArrayBuffer,也就是说,事实上的数据是存在ArrayBuffer里面的,而Typed Array只是给你提供了一个某种类型的读写接口,用MDN的话说,叫做

Multiple views on the same data

举个栗子,如果我们有一个ArrayBuffer名为buffer(先不考虑怎么构造这个测试数据),内容如下:

01 02 03 04 05 06 07 08

也就是说它有8个字节,我们分别用它来构造Uint8ArrayUint16ArrayUint32Array,则可以得到

var  u8 = new  Uint8Array(buffer); // length为8
var u16 = new Uint16Array(buffer); // length为4
var u32 = new Uint32Array(buffer); // length为2

它们的内容分别为

[1, 2, 3, 4, 5, 6, 7, 8]
[513, 1027, 1541, 2055]
[67305985, 134678021]

这不难理解。

可以看出,如果要手工构造上面的测试数据ArrayBuffer,用Uint8Array就会很方便(呃事实上这是我个人最常用的一种Typed Array)。

而如果用同样的ArrayBuffer构建带符号整数类型,则可能因为整数溢出而得到不同的结果,上面的例子并没有碰到,有兴趣的话可以自己试试。因此使用Typed Array也可以用来做有符号数和无符号数的转换。

如果你用过canvas的getImageData/putImageData的话,会发现它给你的就是一个Uint8ClampedArray,这东西访问起来速度比JS的原生Array快很多,使得对canvas进行高速的像素操作成为可能。

然而最最重要的一个概念还是:Typed Array不直接存放任何数据,所有对Typed Array进行读写的操作,最终都会落实到它背后所持有的ArrayBuffer的身上。ArrayBuffer才是真正的raw bytes,而Typed Array只是一个操作窗口/操作视图(View)。

获取二进制数据

nodejs那边先按住不表,这里谈谈在网页里如何获取二进制数据?常见的办法有3种,1是通过XMLHttpRequest 2,2是通过FileBlob一套相关接口。

通过XMLHttpRequest 2

XHR2的接口跟XHR几乎是一样的,当制定xhr.responseType = 'arraybuffer'以后,在成功获取数据的回调里就可以通过xhr.response来得到请求结果的ArrayBuffer了,然后就可以按照你的意愿来构造各种Typed Array进行访问。

responseType还可以有blob取值,可以用xhr.response获得Blob对象。

通过File和Blob

在HTML5中提供了对表单的文件控件<input type="file" />更丰富的操作,可以通过inputDOM对象的.files来获取一个FileList,当然通常浏览器都只提供了单选的文件控件,于是这里都只会有一个File对象。另外,通过拖拽、剪贴板等方式也能获取到File或者Blob

File继承了Blob,并提供了namelastModifiedDate等基础元数据,但是依然是一个深度封装,不能直接获取到它的二进制。

BlobBinary large object的缩写,它与ArrayBuffer的区别是除了raw bytes以外它还提供了mime type作为元数据。但它依然是无法直接被读写的。

这时候需要借助FileReader的帮忙。FileReader提供了一组用来将Blob读取为更为实用的类型的方法

readAsArrayBuffer()
readAsBinaryString()
readAsDataURL()
readAsText()

例如

var file = get_file_some_how();
var fr = new FileReader();
fr.onload = function(e) {
e.target.result; // 读取的结果
};
fr.readAsDataUrl(file); // readAsArrayBuffer

可以干什么呢?例如图片上传之前的本地预览(甚至基于canvas的编辑)等等都可以实现了。

Blob的其他构造方法多而杂,这里就先不到处搬运文档了。

消费二进制数据

何谓消费?最常见的方式也许就是通过XHR2直接把二进制数据以文件方式POST到服务端去。

这里我比较推荐使用FormData来构造POST数据。因为在服务端收的时候会比较容易一些,具体有兴趣可以去找找别人的例子。

虽然直接提交ArrayBuffer也是可以的,但是这种时候服务端收到的POST body会是一大团,用起来不方便。如果要使用FormData来提交ArrayBuffer,需要先将其构造成Blob

对Typed Array的构造留个心眼

当使用new xxxxxArray(arrayBuffer)这个重载进行构造的时候,它会默认基于此ArrayBuffer进行构造。但当使用new xxxxArray(another_typed_array)这个重载的时候,则是进行“拷贝构造”,这样两个Typed Array会指向不同的buffer,需要注意这是否符合预期。

如果需要基于同一个ArrayBuffer来构造Typed Array,可以使用Typed Array的bufferbyteLength,byteOffset来获取它背后的ArrayBuffer

Tips(坑)

对内存对齐留个心眼

当使用ArrayBuffer来构造Typed Array的时候,可以指定byteOffset参数,例如

var buffer = get_array_buffer_some_how();
var i16 = new Int16Array(buffer, 10);

上面的代码就能以buffer向后偏移10字节处为起点来构造Int16Array,但是如果将10设置为一个奇数,会发现如下错误:

RangeError: start offset of Int16Array should be a multiple of 2

这是因为Typed Array对内存对齐有要求,它不能在非对齐的位置建立,同理,Uint32ArrayInt32Array则要求偏移量是4字节对齐的。

因此如果你希望在非对齐的位置进行读写,则需要借助DataView的帮忙。

对字节序留个心眼

我们日常中所写的程序,几乎都不需要关心字节序,因此这个问题没那么严重,知道自己的程序会有字节序问题的人,开发到这里也肯定会知道问题的存在,但这里还是稍微提一下。

按照MDN的说法,Typed Array只会使用当前平台的字节序,例如我们现在用的桌面电脑不论PC还是Mac都是x86/x64的,也就是little-endian了。

使用DataView,不仅可以解决上面说到的内存对齐的问题,还可以指定读写时的字节序,具体参数都在文档里面了,就不搬运了。

使用DataView配合Typed Array也可以做到一个检测当前平台字节序的技巧:

function isLittleEndian() {
var buf = new ArrayBuffer(2);
var view = new DataView(buf);
view.setInt16(0, 256, true); // 显式以little endian写入数据
// 此时buf里的内存布局应该是 00 01 var i16 = new Int16Array(buf);
// 如果以little endian读取,它就是256;以big endian读取,则是1
return (i16[0] === 256);
}

如果你编写的程序需要垮体系结构例如x86/ARM/PPC等,则在交换文件和网络包的时候需要谨慎处理字节序,当然一个办法是在这些地方预先规范统一字节序以防后患。不过那些都是题外话了。

小姐小结

使用ArrayBuffer来存储一段字节,使用Typed Array来构建一个具体数值类型的访问窗口,使用DataView对非对齐或在乎字节序的ArrayBuffer进行更精确的操作,使用XHR2, BlobFileFileReaderFormData等多种方式来获取或消费ArrayBuffer

另外罗嗦一句,浏览器还提供了一系列所谓的“Binary String”,就是一些看起来像乱码一样的字符串,然后又提供了atob/btoa这种方式来对Base64和“Binary String”进行相互转换,甚至FileReader还提供了readAsBinaryString方法(已经废弃了,善哉)。这个Binary String真是谁用谁遭殃,别问我为什么知道……

http://web.jobbole.com/83701/

https://developer.mozilla.org/zh-CN/docs/Web/API/ByteString

https://developer.mozilla.org/en-US/docs/Web/API/DOMString/Binary

https://developer.mozilla.org/en-US/docs/Web/JavaScript/Typed_arrays

[JavaScript]为JS处理二进制数据提供可能性的WEB API的更多相关文章

  1. ASP.NET MVC 提供与访问 Web Api

    ASP.NET MVC 提供与访问 Web Api 一.提供一个 Web Api 新建一个项目,类型就选 "Web Api".我用的是MVC5,结果生成的项目一大堆东西,还编译不过 ...

  2. 详细解读XMLHttpRequest(二)响应属性、二进制数据、监测上传下载进度

    本文主要参考:MDN 分析并操作 responseXML属性 如果你使用 XMLHttpRequest 来获得一个远程的 XML 文档的内容,responseXML 属性将会是一个由 XML 文档解析 ...

  3. DOM,javascript,Web API之间的关系——onclick 引起的思考与调研

    平时习惯了用js操作dom树来与html页面进行交互,基本都是通过web API接口实现的,最近看闭包和原生js的知识点比较多,昨天无意中看到了onclick中的this指向问题,遂用native j ...

  4. 能省则省:在ASP.NET Web API中通过HTTP Headers返回数据

    对于一些返回数据非常简单的 Web API,比如我们今天遇到的“返回指定用户的未读站内短消息数”,返回数据就是一个数字,如果通过 http response body 返回数据,显得有些奢侈.何不直接 ...

  5. 在SQL中使用CLR提供基本函数对二进制数据进行解析与构造

      二进制数据包的解析一般是借助C#等语言,在通讯程序中解析后形成字段,再统一单笔或者批量(表类型参数)提交至数据库,在通讯程序中,存在BINARY到struct再到table的转换. 现借助CLR提 ...

  6. Node.js之使用Buffer类处理二进制数据

    Node.js之使用Buffer类处理二进制数据 Buffer类可以在处理TCP流或文件流时处理二进制数据,该类用来创建一个专门存放二进制数据的缓存区. 1. 创建Buffer对象 1.1 直接创建: ...

  7. 认识Js中的二进制数据

    Blob 在项目中涉及到要对html原生的audio组件进行样式复写,因此需要重新实现audio的一些功能,比如下载.实现一个下载大致的思路是服务端返回一段音频的二进制数据,客户端将其存放在Blob中 ...

  8. 前端H5中JS用FileReader对象读取blob对象二进制数据,文件传输

    HTML5中的Blob对象只是二进制数据的容器,本身并不能操作二进制,故本篇将对其操作对象FileReader进行介绍. FileReader FileReader主要用于将文件内容读入内存,通过一系 ...

  9. JavaScript类型化数组(二进制数组)

    0.前言 对于前端程序员来说,平时很少和二进制数据打交道,所以基本上用不到ArrayBuffer,大家对它很陌生,但是在使用WebGL的时候,ArrayBuffer无处不在.浏览器通过WebGL和显卡 ...

随机推荐

  1. SSH免费登录

    SSH免费登录很简单,如果有用过git的就更简单了 只需要一下两步操作就OK: 1.生成公钥和私钥,在linx上生成公钥和私钥,执行:ssh-keygen 2.执行ssh-copy-id +ip 例如 ...

  2. 使用Jackson时转换JSON时,日期格式设置

    在我们使用jackjson时时间默认输出如下: 输出是一串时间戳,不符合我们的要求,所以想到jackjson对时间的处理有他默认的格式,然后网上搜集各种资料,得出一下方式可以解决 取消jackjson ...

  3. Spring IoC 依赖注入的方法大全 XML配置方式

    Spring 依赖注入 构造方法注入 ①   根据索引注入 <bean name="student" class="cn.bdqn.SpringDI.Student ...

  4. PHP调用API接口实现天气查询功能

    天气预报查询接口API,在这里我使用的是国家气象局天气预报接口 使用较多的还有:新浪天气预报接口.百度天气预报接口.google天气接口.Yahoo天气接口等等. 1.查询方式 根据地名查询各城市天气 ...

  5. QIM量化

    基于量化思想的水印嵌入模型的主要目的是为了实现盲检测.其主要思想是根据水印信息的不同将原始载体数据量化到不同的量化区间,而检测时根据所属的量化区间来识别水印信息.常见的两种量化方式是QIM和SCS方法 ...

  6. MVC下 Area和Web同名的Controller问题

    错误如下图: 解决方案: 1:Area下的XXXAreaRegistration 添加:new string[] { "xxx.Areas.xxx.Controllers" } 2 ...

  7. [C++]Linux之读取计算机网络数据[/proc/net/dev]

    #include<stdlib.h> #include<stdio.h> #define BUFFER_SIZE 256 int main(){ FILE *stream; c ...

  8. [C++]线性链表之顺序表<一>

    顺序表中数据元素的存储地址是其序号的线性函数,只要确定了存储顺序表的起始地址(即 基地址),计算任意一个元素的存储地址的时间是相等的,具有这一特点的存储结构称为[随机存储]. 使用的基本数据结构:数组 ...

  9. Java基础03-12_对象比较

    对象比较 如果说现在有两个数字要判断是否相等,可以使用"=="完成 如果是字符串要判断是否相等使用"equals()" 但是如果说现在有一个自定义的类,要想判断 ...

  10. cmd关闭被占用的端口命令及教程详解

    //关闭端口占用命令eg:1. netstat -nao | findstr “8080” 查询8080端口2. taskkill /pid 3017 /F 关闭pid为3017的进程 //详解 ↓但 ...