编辑推荐

 

从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序

内容简介

书籍
计算机书籍

Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多
种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百
度、网易、英特尔等公司。

《Spark快速数据处理》系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一
个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保
存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark
作业,以及如何提升Spark任务的性能。

作译者

Holden
Karau 资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、亚马逊、微软和Foursquare等著名公司。他对开源情有独
钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。

余璜 阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。

张磊 Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。

目录

《Spark快速数据处理》


译者序


作者简介


前言


第1章 安装Spark以及构建Spark集群 / 1


1.1 单机运行Spark / 4


1.2 在EC2上运行Spark / 5


1.3 在ElasticMapReduce上部署Spark / 11


1.4 用Chef(opscode)部署Spark / 12


1.5 在Mesos上部署Spark / 14


1.6 在Yarn上部署Spark / 15


1.7 通过SSH部署集群 / 16


1.8 链接和参考 / 21


1.9 小结 / 21


第2章 Spark shell的使用 / 23


2.1 加载一个简单的text文件 / 24


2.2 用Spark shell运行逻辑回归 / 26


2.3 交互式地从S3加载数据 / 28


2.4 小结 / 30


第3章 构建并运行Spark应用 / 31

3.1 用sbt构建Spark作业 / 32


3.2 用Maven构建Spark作业 / 36


3.3 用其他工具构建Spark作业 / 39


3.4 小结 / 39


第4章 创建SparkContext / 41


4.1 Scala / 43


4.2 Java / 43


4.3 Java和Scala共享的API / 44


4.4 Python / 45


4.5 链接和参考 / 45


4.6 小结 / 46


第5章 加载与保存数据 / 47


5.1 RDD / 48


5.2 加载数据到RDD中 / 49


5.3 保存数据 / 54


5.4 连接和参考 / 55


5.5 小结 / 55


第6章 操作RDD / 57


6.1 用Scala和Java操作RDD / 58


6.2 用Python操作RDD / 79


6.3 链接和参考 / 83


6.4 小结 / 84


第7章 Shark-Hive和Spark的综合运用 / 85


7.1 为什么用Hive/Shark / 86


7.2 安装Shark / 86


7.3 运行Shark / 88


7.4 加载数据 / 88


7.5 在Spark程序中运行HiveQL查询 / 89


7.6 链接和参考 / 92


7.7 小结 / 93


第8章 测试 / 95


8.1 用Java和Scala测试 / 96


8.2 用Python测试 / 103


8.3 链接和参考 / 104


8.4 小结 / 105


第9章 技巧和窍门 / 107


9.1 日志位置 / 108


9.2 并发限制 / 108


9.3 内存使用与垃圾回收 / 109


9.4 序列化 / 110


9.5 IDE集成环境 / 111


9.6 Spark与其他语言 / 112


9.7 安全提示 / 113


9.8 邮件列表 / 113


9.9 链接和参考 / 113


9.10 小结 / 114

Spark快速数据处理的更多相关文章

  1. 《Spark大数据处理:技术、应用与性能优化 》

    基本信息 作者: 高彦杰 丛书名:大数据技术丛书 出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月 开本:16开 页码:255 ...

  2. Spark大数据处理技术

    全球首部全面介绍Spark及Spark生态圈相关技术的技术书籍 俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节 透彻讲解Spark原理和架构,以及部署模式.调度框架.存储管理及 ...

  3. 《Spark大数据处理:技术、应用与性能优化》【PDF】 下载

    内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...

  4. 《Spark大数据处理:技术、应用与性能优化》【PDF】

    内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...

  5. [转] Spark快速入门指南 – Spark安装与基础使用

    [From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...

  6. Spark快速入门 - Spark 1.6.0

    Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...

  7. spark快速大数据分析学习笔记*初始化sparkcontext(一)

    初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.ja ...

  8. Spark快速入门

    Spark 快速入门   本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...

  9. spark快速上手

    spark快速上手 前言 基于Spark 2.1版本 仅仅是快速上手,没有深究细节 主要参考是官方文档 代码均为官方文档中代码,语言为Scala 进入spark-shell 终端输入spark-she ...

随机推荐

  1. php中实现精确设置session过期时间的方法

    http://www.jb51.net/article/52309.htm 大多数据情况下我们对于session过期时间使用的是默认设置的时间,而对于一些有特殊要求的情况下我们可以设置一下sessio ...

  2. 14_输出映射2_resultMap

    [resultMap] 如果查询出来的列名和pojo的属性名不一致,通过定义一个resultMap对列名和pojo属性名之间做一个映射列表. 1.定义resultMap,(在UserMapper.xm ...

  3. devenv compile errors collection

    任务:使用 devenv commnd line 编译 VS 2010 工程. 使用 devenv 编译工程,要保证工程所需的 VC++目录 (VC++ Directories) 设置正确才能编译成功 ...

  4. height为100%的问题

    问题描述 很多同学,对于设置div 的高度为100%时,有疑惑. 设置div 的高度为100%,意思是此 div 的高度 铺满父元素. 那么 怎么使 div 铺满浏览器屏幕? 代码 <!DOCT ...

  5. [CUDA] ubuntu14.04+cuda7.5下安装cudnn7.0

    cuda:7.5 cudnn:cudnn-7.0-linux-x64-v4.0-prod.tgz cudnn样例:cuDNN v4 Code Samples 1. 解压 tar -zxvf cudnn ...

  6. [DevExpress][TreeList]节点互斥

    关键代码: /// <summary> /// 节点互斥同步 /// 说明 /// eg: ///TreeListNode _node = e.Node; ///_node.SyncMut ...

  7. VMWare Workstation 占用443端口导致apache启动不了

    中午安装vm,装linux 系统,搞了好几次才装成功,下午启动apache 忽然发现apache启动不了,各种郁闷啊,打开错误日志,NameVirtualHost无效,各种郁闷呐,试着修改端口,修改配 ...

  8. Android Context创建过程

        特定的资源或者类构成了Android应用程序的运行上下文环境 PackageManager, ClassLoader, Assert等等 Android应用程序窗口的运行上下文环境是通过Con ...

  9. 最新县及县以上行政区划代码JSON数据(截止2015年9月30日)含经纬度数据

    数据来源(国家统计局):http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/ 对数据进行的特殊处理: 将直辖市中的 “市辖区” 与 “县” 合并到区域 将 “省直辖县级行 ...

  10. asp.net管道模型

    查了很多资料,终于大概弄懂管道模型(注意并非指定是asp.net范畴)是个什么概念了,其实就是从Unix移植过来的一种概念,也可以说是一种模式吧(只允许一头读,一头写,并且读完了就会自动消失). as ...