在 Node.js 中处理大 JSON 文件
在 Node.js 中处理大 JSON 文件
场景描述
问题一:
假设现在有一个场景,有一个大的 JSON 文件,需要读取每一条数据经过处理之后输出到一个文件或生成报表数据,怎么能够流式的每次读取一条记录?
[
{"id": 1},
{"id": 2},
...
]
问题二:
同样一个大的 JSON 文件,我只读取其中的某一块数据,想只取 list 这个对象数组怎么办?
{
"list": [],
"otherList": []
}
在 Node.js
中我们可以基于以下几种方式读取数据,也是通常首先能够想到的:
fs.readFile()
:这个是一次性读取数据到内存,数据量大了都占用到内存也不是好办法,很容易造成内存溢出。fs.createReadStream()
:创建一个可读流,能解决避免大量数据占用内存的问题,这是一个系统提供的基础API
读取到的是一个个的数据块,因为我们的JSON
对象是结构化的,也不能直接解决上面提的两个问题。- 还有一个
require()
也可以加载JSON
文件,但是稍微熟悉点Node.js CommonJS
规范的应该知道require
加载之后是会缓存的,会一直占用在服务的内存里。
什么是 SAX
SAX
是 Simple API for XML
的简称,目前没有一个标准的SAX
参考标准,最早是在 Java
编程语言里被实现和流行开的,以Java
对 SAX
的实现后来也被认为是一种规范。其它语言的实现也是遵循着该规则,尽管每门语言实现都有区别,但是这里有一个重要的概念 “事件驱动” 是相同的。
实现了SAX
的解析器拥有事件驱动那样的 API
,像 Stream
的方式来工作,边读取边解析,用户可以定义回调函数
获取数据,无论 XML
内容多大,内存占用始终都会很小。
这对我们本节有什么帮助?我们读取解析一个大 JSON
文件的时候,也不能把所有数据都加载到内存里,我们也需要一个类似SAX
这样的工具帮助我们实现。
基于 SAX 的流式 JSON 解析器
这是一个流式 JSON 解析器 https://github1s.com/creationix/jsonparse 周下载量在 600 多万。
JSON
是有自己的标准的,有规定的数据类型、格式。这个 JSON
解析器也是在解析到特定的格式或类型后触发相应的事件,我们在使用时也要注册相应的回调函数。
下面示例,创建一个可读流对象
,在流的 data
事件里注册 SaxParser
实例对象的parse
方法,也就是将读取到的原始数据(默认是Buffer
类型)传递到 parse()
函数做解析,当解析到数据之后触发相应事件。
对应的 Node.js
代码如下:
const SaxParser = require('./jsonparse').SaxParser;
const p = new SaxParser({
onNull: function () { console.log("onNull") },
onBoolean: function (value) { console.log("onBoolean", value) },
onNumber: function (value) { console.log("onNumber", value) },
onString: function (value) { console.log("onString", value) },
onStartObject: function () { console.log("onStartObject") },
onColon: function () { console.log("onColon") },
onComma: function () { console.log("onComma") },
onEndObject: function () { console.log("onEndObject") },
onStartArray: function () { console.log("onEndObject") },
onEndArray: function () { console.log("onEndArray") }
});
const stream = require('fs').createReadStream("./example.json");
const parse = p.parse.bind(p);
stream.on('data', parse);
怎么去解析一个JSON
文件的数据已经解决了,但是如果直接这样使用还是需要在做一些处理工作的。
JSONStream 处理大文件
这里推荐一个 NPM
模块 JSONStream
,在它的实现中就是依赖的 jsonparse
这个模块来解析原始的数据,在这基础之上做了一些处理,根据一些匹配模式返回用户想要的数据,简单易用。
下面我们用JSONStream
解决上面提到的两个问题。
问题一:
假设现在有一个场景,有一个大的 JSON 文件,需要读取每一条数据经过处理之后输出到一个文件或生成报表数据,怎么能够流式的每次读取一条记录?
因为测试,所以我将 highWaterMark
这个值调整了下,现在我们的数据是下面这样的。
[
{ "id": 1 },
{ "id": 2 }
]
重点是 JSONStream
的 parse
方法,我们传入了一个 '.'
,这个 data
事件也是该模块自己处理过的,每次会为我们返回一个对象:
- 第一次返回
{ id: 1 }
- 第二次返回
{ id: 2 }
const fs = require('fs');
const JSONStream = require('JSONStream');
(async () => {
const readable = fs.createReadStream('./list.json', {
encoding: 'utf8',
highWaterMark: 10
})
const parser = JSONStream.parse('.');
readable.pipe(parser);
parser.on('data', console.log);
})()
问题二:
同样一个大的 JSON 文件,我只读取其中的某一块数据,想只取 list 这个数组对象怎么办?
解决第二个问题,现在我们的 JSON
文件是下面这样的。
{
"list": [
{ "name": "1" },
{ "name": "2" }
],
"other": [
{ "key": "val" }
]
}
与第一个解决方案不同的是改变了 parse('list.*')
方法,现在只会返回 list
数组,other
是不会返回的,其实在 list 读取完成之后这个工作就结束了。
- 第一次返回
{ name: '1' }
- 第二次返回
{ name: '2' }
(async () => {
const readable = fs.createReadStream('./list.json', {
encoding: 'utf8',
highWaterMark: 10
})
const parser = JSONStream.parse('list.*');
readable.pipe(parser);
parser.on('data', console.log);
})();
总结
当我们遇到类似的大文件需要处理时,尽可能避免将所有的数据存放于内存操作,应用服务的内存都是有限制的,这也不是最好的处理方式。
文中主要介绍如何流式处理类似的大文件,更重要的是掌握编程中的一些思想,例如SAX
一个核心点就是实现了事件驱动
的设计模式,同时结合 Stream
做到边读取边解析。
处理问题的方式是多样的,还可以在生成 JSON
文件时做拆分,将一个大文件拆分为不同的小文件。
在 Node.js 中处理大 JSON 文件的更多相关文章
- node.js 中的package.json文件怎么创建?
最近在用webstorm和nodejs做一些东西,老是各种混乱,今天上午创建一个新的项目,结果发现,npm init之后,并没有出现package.json,并没有太明确他的功能的小姑娘表示十分的惊慌 ...
- node.js 中的 fs (文件)模块
记录 fs 模块的方法及使用 1. fs.stat 获取文件大小,创建时间等信息 // 引入 fs 模块 const fs = require('fs'); fs.stat('01.fs.js', ( ...
- node.js中 express + multer 处理文件上传
multer中间件,可以很方便的结合express处理用户表单上传的文件. 一.安装multer npm install multer 二.处理单个文件上传 const express = requi ...
- node.js中process进程的概念和child_process子进程模块的使用
进程,你可以把它理解成一个正在运行的程序.node.js中每个应用程序都是进程类的实例对象. node.js中有一个 process 全局对象,通过它我们可以获取,运行该程序的用户,环境变量等信息. ...
- Node.js核心模块API之文件操作
参考:https://www.runoob.com/nodejs/nodejs-fs.html 异步I/O 1,文件操作 2,网络操作 在浏览器中也存在异步操作 1,定时任务 2,事件处理 3,Aja ...
- 初学Node(二)package.json文件
package.json简介 package.json在Node项目中用于描述项目的一些基本信息,以及依赖的配置,一般每一个Node项目的根目录下都有一个package.json文件. 在项目的根目录 ...
- node.js使用express框架进行文件上传
关于node.js使用express框架进行文件上传,主要来自于最近对Settings-Sync插件做的研究.目前的研究算是取得的比较好的进展.Settings-Sync中通过快捷键上传文件,其实主要 ...
- node.js中stream流中可读流和可写流的使用
node.js中的流 stream 是处理流式数据的抽象接口.node.js 提供了很多流对象,像http中的request和response,和 process.stdout 都是流的实例. 流可以 ...
- Node.js中环境变量process.env详解
Node.js中环境变量process.env详解process | Node.js API 文档http://nodejs.cn/api/process.html官方解释:process 对象是一个 ...
随机推荐
- Android Kotlin协程入门
Android官方推荐使用协程来处理异步问题.以下是协程的特点: 轻量:单个线程上可运行多个协程.协程支持挂起,不会使正在运行协程的线程阻塞.挂起比阻塞节省内存,且支持多个并行操作. 内存泄漏更少:使 ...
- GUI编程笔记
GUI编程 告诉大家该怎么学? 这是什么? 它怎么玩? 该如何去我们平时运用? 组件 窗口 弹窗 面板 文本框 列表框 按钮 图片 监听事件 鼠标 键盘事件 破解工具 1.简介 GUi的核心技术:Sw ...
- centos7 kubeadm 搭建k8s
Centos 7 搭建 kubernetes 集群环境 一.介绍 本次是centos7 搭建kubernetes1.15.9 通过kubeadm 的形式搭建 二.准备 > centos 7 (镜 ...
- P5470-[NOI2019]序列【模拟费用流】
正题 题目链接:https://www.luogu.com.cn/problem/P5470 题目大意 两个长度为\(n\)的序列\(a,b\),求出它们两个长度为\(K\)的子序列,且这两个子序列至 ...
- Linux学习笔记整理-1
内核检测常用的7个命令: fdisk命令:用于检查磁盘使用情况,以及可以对磁盘进行分区. #fdisk -l 列出系统内所有能找到的设备的分区 #fdisk /dev/sda 列出sda磁盘的分区情况 ...
- [源码解析] PyTorch 流水线并行实现 (6)--并行计算
[源码解析] PyTorch 流水线并行实现 (6)--并行计算 目录 [源码解析] PyTorch 流水线并行实现 (6)--并行计算 0x00 摘要 0x01 总体架构 1.1 使用 1.2 前向 ...
- CSS写一个圣诞树Chrome浏览器小插件
一时兴起,突然想写一个Chrome浏览器插件,不知道写啥,就写了一个圣诞树小插件.项目源码>> Chrome浏览器插件 Chrome浏览器插件最主要的是:index.html.manife ...
- THUSC & 中考 & NOI 拉跨记
THUSC 的拉胯记 时代比较久远了,可能有些事情记不清楚了. Day -\(\infty\) 本来说只有我.llsw.wxk过了审核,后来wy.lyc也搞了个体验营名额,于是和高二的一起集训. Da ...
- 创建线程的4种方法 and 线程的生命周期
线程的启动和运行 方法一:使用start()方法:用来启动一个线程,当调用start方法后,JVM会开启一个新线程执行用户定义的线程代码逻辑. 方法二:使用run()方法:作为线程代码逻辑的入口方法. ...
- 试题 算法训练 区间k大数查询 java题解
资源限制 时间限制:1.0s 内存限制:256.0MB 问题描述 给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个. 输入格式 第一行包含一个数n,表示序列长度. 第二行包含n个正 ...