1.概述

　　Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。

2.内容

　　现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外，同样也得关注系统的扩展性和性能。过去开源社区已经发布了很多工具来完善大数据分析的生态系统，这些工具包含了数据分析的各个层面，例如列式存储格式（Parquet，ORC），内存计算模型（Drill，Spark，Impala 和 Storm）以及其强大的 API 接口。而 Arrow 则是最新加入的一员，它提供了一种跨平台应用的内存数据交换格式。

　　在数据快速增长和复杂化的情况下，提高大数据分析性能一个重要的途径是对列式数据的设计和处理。列式数据处理借助了向量计算和 SIMD 使我们可以充分挖掘硬件的潜力。而 Apache Drill 其大数据查询引擎无论是在硬盘还是内存中数据都是以列的方式存在的，而 Arrow 就是由 Drill 中的 Value Vector 这一数据格式发展而来。此外，Arrow 也支持关系型和动态数据集。

　　Arrow 的诞生为大数据生态带来了很多可能性，有了 Arrow 作为今后标准数据交换格式，各个数据分析的系统和应用之间的交互性可以说是揭开了新的篇章。过去大部分的 CPU 周期都花在了数据的序列化与反序列化上，现在我们则能够实现不同系统之间数据的无缝链接。这意味着使用者在不同系统结合时，不用在数据格式上话费过多的时间。

3.Arrow Group

　　Arrow 的内存数据结构如下所示：

　　从上图中，我们可以很清晰的看出，传统的内存数据格式，各个字段的分布是以没一行呈现，相同字段并未集中排列在一起。而通过 Arrow 格式化后的内存数据，可以将相同字段集中排列在一起。我们可以很方便的使用 SQL 来操作数据。

　　传统的访问各个数据模型中的数据以及使用 Arrow 后的图，如下所示：

　　通过上图可以总结出以下观点：

每个系统都有属于自己的内存格式。
70～80% 的 CPU 浪费在序列化和反序列化上。
在多个项目都实现的类似的功能（Copy & Convert）。

　　而在看上述使用 Arrow 后，得出以下结论：

所有的系统都使用相同的内存格式。
没有跨系统通信开销。
项目可以贡献功能（比如，Parquet 到 Arrow 的读取）。

4.Arrow 数据格式

　　Arrow 列式数据格式如下所示：

persons = [{

    name: 'wes',

    iq: 180,

    addresses: [

    {number: 2, street 'a'},

    {number: 3, street 'bb'}

    ]

}, {

    name: 'joe',

iq: 100,

addresses: [

{number: 4, street 'ccc'}, {number: 5, street 'dddd'}, {number: 2, street 'f'}

]

}]

　　从上述 JSON 数据格式来看，person.iq 分别是 180 和 100，以如下方式排列：

　　而 persons.addresses.number 的排列格式如下所示：

5.特性

5.1 Fast

　　Apache Arrow 执行引擎，利用最新的SIMD（单输入多个数据）操作包括在模型处理器，用于分析数据处理本地向量优化。数据的列式布局也允许更好地利用 CPU 缓存，将所有与列操作相关的数据以尽可能紧凑的格式放置。

5.2 Flexible

　　Arrow 扮演着高性能的接口在各个复杂的系统中，它也支持工业化的编程语言。Java，C，C++，Python 以及今后更多的语言。

5.3 Standard

　　Apache Arrow 由 13 个开源项目开发者支持，包含 Calcite, Cassandra, Drill, Hadoop, HBase, Ibis, Impala, Kudu, Pandas, Parquet, Phoenix, Spark, 和 Storm。

6.Example

　　使用 Python 来处理 Spark 或是 Drill 中的数据，如下图所示：

快速的、语言无关的二进制数据帧格式的文件。
使用 Python 去写。
读取速度接近磁盘 IO 性能。

　　部分实现示例代码，如下所示：

import feather

path = 'my_data.feather'

feather.write_dataframe(df, path)

df = feather.read_dataframe(path)

7.总结

　　Apache Arrow 当前发布了 0.1.0 第一个版本，官方目前获取的资料的信息较少，大家可以到官方的 JIRA 上获取更多咨询信息，以及 Arrow 提供的开发者聊天室去获取更多的帮助。

8.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Apache Arrow 内存数据的更多相关文章

Linux就这个范儿第18章这里也是鼓乐笙箫 Linux读写内存数据的三种方式
Linux就这个范儿第18章这里也是鼓乐笙箫 Linux读写内存数据的三种方式 P703 Linux读写内存数据的三种方式 1.read ,write方式会在用户空间和内核空间不断拷贝数据, ...
Linux就这个范儿第15章七种武器 linux 同步IO: sync、fsync与fdatasync Linux中的内存大页面huge page/large page David Cutler Linux读写内存数据的三种方式
Linux就这个范儿第15章七种武器 linux 同步IO: sync.fsync与fdatasync Linux中的内存大页面huge page/large page David Cut ...
内存数据网格hazelcast的一些机制原理
hazelcast作为一个内存数据网格工具,还算比较优秀,听说有Apache顶级项目使用它,值得研究下,使用文档可以直接看官方文档,但机制原理相关的资料基本没有,本人硬撸源码写的一些东西,跟大家分享一 ...
ZeroMQ接口函数之：zmq_send_const – 从一个socket上发送一个固定内存数据
ZeroMQ API 目录 :http://www.cnblogs.com/fengbohello/p/4230135.html ——————————————————————————————————— ...
关于内存数据与 JSON
闲话: 正在用 WebBroker 写一个小网站,感受颇多: 1.如果是写一个小东西,应该先考虑下 WebBroker,因为它是分分钟即可上手的. 2.如果要写一个大东西,或许也应该考虑下 WebBr ...
内存数据网格IMDG简单介绍
1 简单介绍将内存作为首要存储介质不是什么新奇事儿,我们身边有非常多主存数据库(IMDB或MMDB)的样例.在对主存的使用上.内存数据网格(In Memory Data Grid,IMDG)与IMD ...
CCS内存数据转成图片
在嵌入式DSP图像处理开发过程中,经常需要将DSP内存中的图像数据保存下来,作为数据集.CCS5.4或者CCS3.3都只支持保存内存原始数据而不支持将内存数据直接存储为一张图片,为了能将CCS保存的. ...
内存数据网格IMDG简介
1 简介将内存作为首要存储介质不是什么新鲜事儿,我们身边有很多主存数据库(IMDB或MMDB)的例子.在对主存的使用上,内存数据网格(In Memory Data Grid,IMDG)与IMDB类似 ...
『Numpy』内存分析_高级切片和内存数据解析
在计算机中,没有任何数据类型是固定的,完全取决于如何看待这片数据的内存区域. 在numpy.ndarray.view中,提供对内存区域不同的切割方式,来完成数据类型的转换,而无须要对数据进行额外的co ...

随机推荐

acm--统计错误数
题目描述题目地址:http://www.nowcoder.com/practice/67df1d7889cf4c529576383c2e647c48?tpId=49&tqId=29276&a ...
FreeRTOS 使用指南（转）
源:FreeRTOS 使用指南繁星电子开发团队制作作为一个轻量级的操作系统,FreeRTOS 提供的功能包括:任务管理.时间管理.信号量.消息队列.内存管理.记录功能等,可基本满足较小系统的需要. ...
Python+Selenium定位不到元素常见原因及解决办法（报：NoSuchElementException）
在做web应用的自动化测试时,定位元素是必不可少的,这个过程经常会碰到定位不到元素的情况(报selenium.common.exceptions.NoSuchElementException ...
Tomcat热部署：Maven项目一键部署到Tomcat服务器 - 支持多环境
参考:Eclipse中的Maven项目一键部署到Tomcat服务器 - 支持多环境部署命令 debug模式设置关联源码 eclipse --> 项目右键 --> Debug As --& ...
(简单) HDU 3397 Sequence operation，线段树+区间合并。
Problem Description lxhgww got a sequence contains n characters which are all '0's or '1's. We have ...
iOS开发——浅谈构架与用户体验
工作不是千篇一律的重复,从中寻找乐趣才是我们应该做的. 作为一名码农,做过几个项目,每次做项目的时候都会自己构思,如果完全是我自己设计,会怎么去设计?心里一直没有满意的答案,不管怎么布局,好像都感觉差 ...
制作毛玻璃效果分类： ios技术 2015-07-14 09:03 240人阅读评论(0) 收藏
//添加一个图片 UIImageView *imageview = [[UIImageView alloc]init]; imageview.frame = CGRectMake(10 ...
【转】git命令
Git使用 1. git pull 更新服务器代码到本地a). git pull origin master是将origin这个版本库的代码更新到本地的master主分支 2. git push ...
ajax 基础2
连接数据库实现分页功能 <%@ Page Language="C#" AutoEventWireup="true" CodeFile="Defa ...
Java中String的split()方法的一些需要注意的地方
public String[] split(String regex, int limit) split函数是用于使用特定的切割符(regex)来分隔字符串成一个字符串数组,这里我就不讨论第二个参数( ...

Apache Arrow 内存数据