我用Awesome-Graphs看论文:解读X-Stream

X-Stream论文:《X-Stream: Edge-centric Graph Processing using Streaming Partitions》
前面通过文章《论文图谱当如是:Awesome-Graphs用200篇图系统论文打个样》向大家介绍了论文图谱项目Awesome-Graphs,并分享了Google的Pregel以及OSDI 2012上的PowerGraph。这次向大家分享发表在SOSP 2013上的另一篇经典图计算框架论文X-Stream,构建了单机上基于外存的Scatter-Gather图处理框架。
对图计算技术感兴趣的同学可以多做了解,也非常欢迎大家关注和参与论文图谱的开源项目:
- Awesome-Graphs:https://github.com/TuGraph-family/Awesome-Graphs
- OSGraph:https://github.com/TuGraph-family/OSGraph
提前感谢给项目点Star的小伙伴,接下来我们直接进入正文!
摘要
- X-Stream是一个单机共享内存的既可以处理内存图也可以处理外存图的图处理系统。
- 特点:
- 以边为中心的计算模型。
- 流式访问无序边,而不是随机访问。
1. 介绍
传统的以点为中心的处理:
- scatter函数将点状态传播给邻居点。
- gather函数累计更新,并重新计算点状态。

顺序/随机访问不同存储介质的性能差异:
- 磁盘:500x
- SSD:30x
- 内存:1.8x - 4.6x
X-Stream的以边为中心的处理:
- scatter/gather在边/更新上迭代,而不是在点上迭代。
- 使用流式分区缓解点集的随机访问。
- 将边和源点划分到同一个分区。

X-Stream主要贡献:
- 边中心处理模型。
- 流式分区。
- 不同存储介质上的良好扩展性。
- 高性能。
2. X-Stream处理模型
API设计:
- Scatter:根据边和源点,计算目标点更新。
- Gather:根据目标点收到更新,重新计算目标点状态。
2.1 流
X-Stream使用流的方式执行Scatter+Gather。边和更新是顺序访问的,但是点是随机访问的。

2.2 流式分区
流式分区包含:
- 点集:分区上的点子集。
- 边列表:源点的边。
- 更新列表:目标点的更新。
2.3 分区上的Scatter-Gather
Scatter + Shuffle + Gather:

2.4 分区的大小和数量
- 一方面为了让点集合尽量加载到快存储,分区数不能太小。
- 另一方面为了最大化利用慢存储的顺序读写能力,分区数不能太大。
- 通过固定分区点集合大小的方式进行分区。
2.5 API限制和扩展
- 虽然不能遍历点上的所有边,但是可以对所有的点进行迭代,并提供自定义的点函数。
- 不仅限于支持scatter-gather模型,也可以支持semi-streaming、W-Stream模型等。
3. 基于外存的流式引擎
每个流式分区维护三个磁盘文件:点文件、边文件、更新文件。
难点在于实现shuffle节点的顺序访问,通过合并scatter+shuffle阶段,更新写入到内存buffer,buffer满时执行内存shuffle追加到目标分区磁盘文件。
3.1 内存数据结构
stream buffer设计:

基于stream buffer,一个buffer用于存储scatter的更新,另一个存储内存shuffle的结果。
3.2 操作
初始化边分区可以使用内存shuffle方式实现。

3.3 磁盘IO
- X-Stream的stream buffer采用异步Direct I/O,而不是OS页面缓存(4K)。
- 预读和块写提高磁盘利用率,但是需要额外的stream buffer。
- 使用RAID实现读写分离。
- 使用SSD存储TRIM操作实现truncate。
3.4 分区数量
假设分区的更新满足均匀分布,则有如下内存公式:
- N:点集合内存总量。
- S:最大带宽IO请求包大小。
- K:分区数。
- M:内存总量。

4. 基于内存的流式引擎
4.1 并行Scatter-Gather
- 每个线程写自由缓存,再统一flush到贡献的输出数据块。
- 通过worker stealing避免倾斜。
4.2 并行多阶段shuffle
- 将分区使用树形结构组织起来,分支因子F(扇出度大小),树的每一层对应一步shuffle。
- 因此对于K个分区,一共需要logFK步shuffle。
- 使用两个stream buffer轮换输入输出角色实现shuffle。
- 论文将F设置为CPU cache的可用行数。
4.3 磁盘流的分层
内存引擎逻辑上在外存引擎上层,外存引擎可以自由选择使用内存引擎处理的分区数量,以最大化利用内存和计算资源。
5. 评估
- 256M内存cache大小,在16core时达到最大内存带宽25GB/s。
- 16M IO请求包大小。
我用Awesome-Graphs看论文:解读X-Stream的更多相关文章
- 论文解读《The Emerging Field of Signal Processing on Graphs》
感悟 看完图卷积一代.二代,深感图卷积的强大,刚开始接触图卷积的时候完全不懂为什么要使用拉普拉斯矩阵( $L=D-W$),主要是其背后的物理意义.通过借鉴前辈们的论文.博客.评论逐渐对图卷积有了一定的 ...
- 论文解读(MGAE)《MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs》
论文信息 论文标题:MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs论文作者:Qiaoyu Tan, Ninghao L ...
- 论文解读(ValidUtil)《Rethinking the Setting of Semi-supervised Learning on Graphs》
论文信息 论文标题:Rethinking the Setting of Semi-supervised Learning on Graphs论文作者:Ziang Li, Ming Ding, Weik ...
- zz扔掉anchor!真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事 已关注写文章 扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员 关注他 JustDoIT 等 ...
- [论文解读] 阿里DIEN整体代码结构
[论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...
- 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读
论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...
- 注意力论文解读(1) | Non-local Neural Network | CVPR2018 | 已复现
文章转自微信公众号:[机器学习炼丹术] 参考目录: 目录 0 概述 1 主要内容 1.1 Non local的优势 1.2 pytorch复现 1.3 代码解读 1.4 论文解读 2 总结 论文名称: ...
- 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)
摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留 ...
- CVPR2020 论文解读:少点目标检测
CVPR2020 论文解读:具有注意RPN和多关系检测器的少点目标检测 Few-Shot Object Detection with Attention-RPN and Multi-Relation ...
- 图像分类:CVPR2020论文解读
图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https:// ...
随机推荐
- win11启动虚拟机出现蓝屏
win11虚拟机启动出现蓝屏 问题 我的电脑是win11系统,最近在安装vmware后装了centos7.6,发现一启动centos,电脑就出现蓝屏,如图 解决 这个问题搞了好久,最终发现是win11 ...
- 『手撕Vue-CLI』拷贝模板
开篇 经过上篇文章的介绍,实现了可以根据用户选择的模板名称加上对应的版本号,可以下载对应的模板,并且将下载之后的文件存放在用户目录下的 .nue-template文件夹中. 接下来这篇文章主要实现内容 ...
- Manim使用心得
Manim 使用心得 manim 做视频还是挺方便的. 当然,如果你每一次都从 0 开始写,那么你会崩溃. 所以需要找到自己做视频的风格,以此总结出一套通用的 python 模板代码,然后调用. 例如 ...
- base64图片文件上传OSS,下载OSS图片转换为InputStream,文件转base64,base64转文件工具类
base64图片文件上传OSS,下载OSS图片转换为InputStream,文件转base64,base64转文件工具类 OSSUtils.java public class OSSUtils { p ...
- rabbitMq消息没收到排查
rabbitMq消息没收到排查 首先看是否本地机器开了服务,或者测试环境里面其他的个人电脑本地服务启动注册了,都监听了同一个队列,导致队列消息被接走了.现象是在测试环境期望的执行没有运行.或者关注服务 ...
- Android无障碍自动化结合opencv实现支付宝能量自动收集
Android无障碍服务可以操作元素,手势模拟,实现基本的控制.opencv可以进行图像识别.两者结合在一起即可实现支付宝能量自动收集.opencv用于识别能量,无障碍服务用于模拟手势,即点击能量. ...
- Linux 内核:RCU机制与使用
Linux 内核:RCU机制与使用 背景 学习Linux源码的时候,发现很多熟悉的数据结构多了__rcu后缀,因此了解了一下这些内容. 介绍 RCU(Read-Copy Update)是数据同步的一种 ...
- Spring5.X的bean的scope作用域
scope属性 singleton:单例,默认值,调用getBean方法返回是同一个对象,实例会被缓存起来,效率比较高,当一个bean被标识为singleton时候,spring的IOC容器中只会存在 ...
- redis基本数据结构-有序集合
redis基本数据结构-有序集合zset 特性 使用哈希表+跳表数据结构存储 每个元素由 分数和字段名 两部分组成 增加元素 zadd key score1 member1 [score2 membe ...
- [MAUI 项目实战] 笔记App:程序设计
前言 有人说现在记事类app这么多,市场这么卷,为什么还想做一个笔记类App? 一来,去年小孩刚出生,需要一个可以记录喂奶时间的app,发现市面上没有一款app能够在两步内简单记录一个时间,可能iOS ...