2.初始化spark

参考：

we highly recommend you to switch to use Dataset, which has better performance than RDD

第一要务：创建 SparkContext

连接到Spark"集群"：local，standalone,yarn,mesos

通过SparkContext来创建RDD、广播变量到集群

在创建SparkContext之前需要创建一个SparkConf对象

进入spark的bin目录下

./pyspark

In the PySpark shell, a special interpreter-aware SparkContext is already created for you, in the variable called sc.

appName

./pyspark --help 查看帮助

RDD创建方式

Parallelized Collections

data = [1, 2, 3, 4, 5] distData = sc.parallelize(data)

External Datasets

distFile = sc.textFile("file:////root/app/test/hello.txt")

If using a path on the local filesystem, the file must also be accessible at the same path on worker nodes

2.初始化spark的更多相关文章

Spark源码剖析 - SparkContext的初始化(三)_创建并初始化Spark UI
3. 创建并初始化Spark UI 任何系统都需要提供监控功能,用浏览器能访问具有样式及布局并提供丰富监控数据的页面无疑是一种简单.高效的方式.SparkUI就是这样的服务. 在大型分布式系统中,采用 ...
初始化spark
初始化SparkContext 一.初始化sparkimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSpa ...
spark快速大数据分析学习笔记*初始化sparkcontext(一)
初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.ja ...
Spark源码剖析 - SparkContext的初始化(一)
1. SparkContext概述注意:SparkContext的初始化剖析是基于Spark2.1.0版本的 Spark Driver用于提交用户应用程序,实际可以看作Spark的客户端.了解Spa ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
用实例讲解Spark Sreaming--转
原文地址:http://www.infoq.com/cn/articles/spark-sreaming-practice 本篇文章用Spark Streaming +Hbase为列,Spark St ...
Spark 编程基础
1. 初始化Spark import org.apache.spark.{SparkContext, SparkConf} val conf=new SparkConf().setAppName(&q ...

随机推荐

vuex存数据，防止刷新数据丢失
1 created() { 2 if (sessionStorage.getItem('store')) { 3 this.$store.replaceState(Object.assign({}, ...
连接mysql并查询
1.将mysql-connector-java-5.1.7-bin.jar放入Jmeter安装目录的bin文件夹中 2.在顶层目录<测试计划>中加载驱动 3.添加JDBC Connecti ...
在Linux下解压xz压缩文件
1.安装xz命令 # yum install xz -y 2.将xz文件解压为tar文件 # xz -d example.tar.xz 3.将tar文件解压 # tar xf example.tar ...
7.springboot+mybatis+redis整合
选择生成的依赖选择保存的工程路径查询已经生成的依赖,并修改mysql的版本 <dependencies> <dependency> <groupId>org.s ...
C#学习笔记----反射基础
反射基础反射用于在程序运行过程中,获取类里面的信息或发现程序集并运行的一个过程.通过反射可以获得.dll和.exe后缀的程序集里面的信息.使用反射可以看到一个程序集内部的类,接口,字段,属性,方法, ...
Python自学:第五章使用range( )创建数字列表
# -*- coding: GBK -*- number = list(range(1,6)) print(number) 输出为: [1, 2, 3, 4, 5] 2. # -*- coding: ...
zabbix_agentd 报错
1 cannot open PID file [/tmp/zabbix_agentd.pid]: [13] Permission denied 权限拒绝很直观就是权限的问题我的问题是这样的,这个p ...
【JZOJ6271】锻造 (forging)
description analysis 首先看一下$p=1$,即$1$以后的合成一定成功的情况如果按照求期望值的一般做法求两把$0$合成$1$的期望,会画出一棵无穷大的树这个的期 ...
Flink on YARN（下）：常见问题与排查思路
Flink 支持 Standalone 独立部署和 YARN.Kubernetes.Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛.Flink 社区将推出 Flink ...
linux安装splunk-enterprise
一.介绍 Splunk是一款功能强大,功能强大且完全集成的软件,用于实时企业日志管理,可收集,存储,搜索,诊断和报告任何日志和机器生成的数据,包括结构化,非结构化和复杂的多行应用程序日志. 它允许您以 ...

2.初始化spark

2.初始化spark的更多相关文章

随机推荐

热门专题