Spark高速上手之交互式分析
1.1 Spark交互式分析
执行Spark脚本前,启动Hadoop的HDFS和YARN。Spark的shell提供
了简单方式去识别API。相同也有一个强大的工具去交互式地分析数据。
两种语言有这种交换能力,各自是Scala 和 Python。以下将演示怎样使用Python来分析数据文件。
进入Spark安装主文件夹,输入以下的命令。python命令行模式将会启动。
- ./bin/pyspark
Spark的主要抽象是一个称之为弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD可以从Hadoop输入格式(InputFormat。比方HDFS文件),或者通过转换其他RDDs。这里。我们将上传Spark主文件夹下的README文件上传到Hadoop的文件系统/user/app(app是我的linuxusername)文件夹下。详细的命令例如以下:
- hdfs dfs –mkdir–p /user/app
- hdfs dfs –putREADME.md /usr/app
使用Python创建一个新的弹性分布式数据集,定义例如以下。
- >>>textFile = sc.textFile("README.md")
RDD有actions,。它可以返回值以及转换transformations,也可以返回指向新的RDD的指针。以下就是几个RDD的action操作。
- >>>textFile.count() # 返回这个RDD的数据项个数
- 126
- >>>textFile.first() # 返回这个RDD的第一项数据
- u'# ApacheSpark'
如今让我们使用一个转换(transformation)。我们将使用filter转换返回一个新的RDD,伴随着文件里的数据项的子集。
- >>>linesWithSpark=textFile.filter(lambdaline:"Spark"inline)
我们可以链式化转换和动作:
- >>> textFile.filter(lambda line:"Spark"inline).count()# How many linescontain "Spark"?
- 15
RDD动作和转换可以被用作更为复杂的计算,看以下的样例。
- >>> textFile.map(lambdaline: len(line.split())).reduce(lambda a, b: aif (a > b)elseb)
- 15
这个參数的第一项映射一行的数据到一个integer值,创建一个新的RDD。
reduce在RDD上被调用。用于找到一个最大的行数。map和reduce的參数是Python匿名函数lambdas。与此同一时候,你也可以传入不论什么你想要的顶级Python函数。
不如,以下就是传入的一个Python函数。
- >>> defmax(a, b):
- ... if a > b:
- ... return a
- ... else:
- ... return b
- ...
- >>>textFile.map(lambda line: len(line.split())).reduce(max)
- 15
Spark高速上手之交互式分析的更多相关文章
- Spark高速入门指南(Quick Start Spark)
版权声明:本博客已经不再更新.请移步到Hadoop技术博客:https://www.iteblog.com https://blog.csdn.net/w397090770/article/detai ...
- Spark SQL慕课网日志分析(1)--系列软件(单机)安装配置使用
来源: 慕课网 Spark SQL慕课网日志分析_大数据实战 目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用 系统: mac 10.13.3 /ubuntu 16.06,两个 ...
- 【原】Spark中Client源码分析(二)
继续前一篇的内容.前一篇内容为: Spark中Client源码分析(一)http://www.cnblogs.com/yourarebest/p/5313006.html DriverClient中的 ...
- 【原】Spark中Master源码分析(二)
继续上一篇的内容.上一篇的内容为: Spark中Master源码分析(一) http://www.cnblogs.com/yourarebest/p/5312965.html 4.receive方法, ...
- 【原】Spark中Master源码分析(一)
Master作为集群的Manager,对于集群的健壮运行发挥着十分重要的作用.下面,我们一起了解一下Master是听从Client(Leader)的号召,如何管理好Worker的吧. 1.家当(静态属 ...
- 【原】 Spark中Worker源码分析(二)
继续前一篇的内容.前一篇内容为: Spark中Worker源码分析(一)http://www.cnblogs.com/yourarebest/p/5300202.html 4.receive方法, r ...
- Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend
本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码分析之DAGScheduler主要分析了DAGScheduler.本文接下来结合Spark-1.6.0的源码继 ...
- Spark Scheduler模块源码分析之DAGScheduler
本文主要结合Spark-1.6.0的源码,对Spark中任务调度模块的执行过程进行分析.Spark Application在遇到Action操作时才会真正的提交任务并进行计算.这时Spark会根据Ac ...
- Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)
本文由 网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
随机推荐
- itoa()函数和sprintf()函数
itoa()函数 itoa 为c语言的一个函数.itoa 函数是一个广泛应用的,从非标准扩展到标准的C语言.它不能被移植,因为它不是标准定义下的C语言,但是,编译器通常在一个不遵循程式标准的模式下允许 ...
- Codeforces 825E - Minimal Labels
825E - Minimal Labels 题意 给出 m 条有向边,组成有向无环图,输出一个 1 到 n 组成的排列,每个数只能出现一次,表示每个点的标号.如果有边 \((u, v)\) 那么 \( ...
- 理解css的BFC
BFC是CSS中一个看不见的盒子,(先理解CSS的盒子模型).它的页面渲染方式与普通流的盒子模型不同,它决定了其子元素将如何定位(所用属于BFC的box 都默认左对齐),以及和其他元素的关系和相互作用 ...
- NMAP输出结果中CPE的含义
NMAP输出结果中CPE的含义 CPE全称是Common Platform Enumeration,意思是通用平台枚举项.它是NMAP对识别出来的软件.操作系统和硬件的一种命名方式.它的格式如下: ...
- cannot be cast to javassist.util.proxy.Proxy
工程lib冲突 javassist-3.18.1-GA.jar javassist-3.11.0.GA.jar 删除一个
- ffmpeg yasm not found, use --disable-yasm for a crippled build
yasm是汇编编译器,因为ffmpeg中为了提高效率用到了汇编指令,比如MMX和SSE.解决这个问题方面有两个: 1.在网上下载一个yasm.exe并安装在mingw/bin下面,编译代码时你注意看, ...
- jqgrid postData setGridParam 调用多次时查询条件累加的问题--详情页查询导致的无法在新的页面中查询
$("#btn_search").click(function () { url = "/AMEvents/GetGridJson?evtype=1"; var ...
- Memcache的mutex设计模式 -- 高并发解决方案
场景 Mutex主要用于有大量并发访问并存在cache过期的场合,如 首页top 10, 由数据库加载到memcache缓存n分钟: 微博中名人的content cache, 一旦不存在会大量请求不能 ...
- 【转】蘑菇街面试经历(已拿到offer)
最近正好接到了蘑菇街的面试通知,顿时很欣喜,还在等通知,不知结果如何. 首先安排了一次电话面试,大体内容时现在工作的一个状态,主要负责的项目功能,模块,以及架构例如,高并发网站优化,负载均衡等等,还会 ...
- CSS浮动设置与清除
float:设置浮动 浮动会使元素脱离普通文档流,使元素向左或向右移动,其周围的元素也会重新排布,在布局中非常有用. html: <p>以下是图片的浮动设置:</p> < ...