2 pyspark学习----基本操作

1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html

2 pyspark的基本操作。

 # coding:utf-8

 from pyspark import SparkContext, SparkConf

 sc = SparkContext()#init contet

 intRDD = sc.parallelize([3,1,2,5,5])#create RDD

 stringRDD = sc.parallelize(['apple','orange','yellow'])

 print intRDD.collect()#transfrom to python

 print stringRDD.collect()

 #每个元素+1

 print intRDD.map(lambda x:x+1).collect()#4,2,3,6,6

 #输出小于3

 print intRDD.filter(lambda x:x<3).collect()#print number<3 in RDD

 print stringRDD.filter(lambda x:'ra' in x).collect()#print contain 'ra'

 print intRDD.distinct().collect()

 #奇数偶数分开

 result = intRDD.groupBy(lambda x:x%2).collect()

 print sorted([(x,sorted(y)) for(x,y) in result])

 #多个RDD并集

 intRDD1 = sc.parallelize([3,1,2,3,5])

 intRDD2 = sc.parallelize([8,2,1,9,5])

 intRDD3 = sc.parallelize([7,1,3,4,7])

 print intRDD1.union(intRDD2).union(intRDD3).collect()

 #交集

 print intRDD1.intersection(intRDD2)

 #差集

 print intRDD1.subtract(intRDD2)

 #笛卡尔集

 print intRDD1.cartesian(intRDD2).collect()#返回10个元素

 #读取元素

 #取第一条数据

 print intRDD.first()

 #取前两条数据

 print intRDD.take(2)

 #升序排列，并取前3条数据

 print intRDD.takeOrdered(3)

 #降序排列，并取前3条数据

 print intRDD.takeOrdered(3,lambda x:-x)

 #统计功能 min max stdev count sum mean

 print intRDD.stats()

 #转换操作

 kvRDDW1 = sc.parallelize([(1,2),(3,4),(5,6),(7,8)])

 #分别得到keys values

 print kvRDDW1.keys().collect()#1 3 5 7

 print kvRDDW1.values().collect()#2 4 6 8

 #筛选元素 筛选小于5的数据 x[0]按照值 x[1]按照键

 print kvRDDW1.filter(lambda x:x[0]<5).collect()

 print kvRDDW1.filter(lambda x:x[1]<5).collect()

 #值运算 mapvalues处理value

 print kvRDDW1.mapValues(lambda  x:x**2).collect()

 #按照key排序

 print kvRDDW1.sortByKey().collect()

 print kvRDDW1.sortByKey(True).collect()

 print kvRDDW1.sortByKey(False).collect()#倒序

 #对具有相同key的进行合并

 print kvRDDW1.reduceByKey(lambda x,y:x+y).collect()

 #多个RDD相同的key进行内连接

 kvRDD1 = sc.parallelize([(3,4),(3,6),(5,6),(1,2)])

 kvRDD2 = sc.parallelize([(3,8)])

 print kvRDD1.join(kvRDD2).collect()#[(3, (4, 8)), (3, (6, 8))]

 #key值统计

 print kvRDD1.countByKey().collect()

 #lookup 根据key查找对应的value

 print kvRDD1.lookup(3)

加油！

2 pyspark学习----基本操作的更多相关文章

Docker 学习基本操作与守护式容器
Docker 学习基本操作与守护式容器容器操作运行容器 docker run --name指定名字 -istdin -ttty虚拟终端在终端中用 exit 即可退出容器,并结束运行查看容器 p ...
5 pyspark学习---Broadcast&Accumulator&sparkConf
1 对于并行处理,Apache Spark使用共享变量.当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了. 2 两种支持得类型 (1)Broa ...
4 pyspark学习---RDD
开始新的东西,其实很多操作在第二篇的时候就有所介绍啦.在这里继续学习一遍加深一下印象. 1关于RDD (1) RDD-----Resilient Distributed Dataset,弹性分布式数据 ...
Neo4j学习——基本操作（一）
由于开始学习知识图谱,因此需要涉及到neo4j的使用一.介绍neo4j是一个图形数据库基于Java开发而成,因此需要配置jvm才可以运行配置请参考我前面的一篇blog:https://www.cnbl ...
关于embedding-深度学习基本操作【Word2vec, Item2vec，graph embedding】
https://zhuanlan.zhihu.com/p/26306795 https://arxiv.org/pdf/1411.2738.pdf https://zhuanlan.zhihu.com ...
3 pyspark学习---sparkContext概述
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark.它依然可以通过导入Py4j进行RDDS等操作. 2 sparkContext (1) ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...
pyspark 学习笔记
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...
C++ 学习路线推荐
相信有非常大一部分学计算机的童鞋都是靠自学,即使本身是计算机专业的同学,也会认为只通过课堂上的学习是远远不够的,并且在上课时所用到的教材也不够好.然而自学的时候有个非常大的问题就是找不到合适的 ...

随机推荐

Qt Creator设置黑色主题背景
黑色的主题看起来比較炫酷一点.也有人说黑色主题用起来对眼睛好.只是个人感觉然并卵,依据自己的习惯爱好设置就好. 假设想保护眼睛,还是将屏幕调到合适的亮度,不要太暗.自己眼睛认为舒服最好.也能够通过&q ...
angular.js 入门
1.安装nodejs 首先要安装nodejs,如果你的电脑已经装过了,最好确认是比较新的版本,否则可能会出问题. 没有安装的直接去nodejs官网下载nodejs安装.安装过程很简单,官网有教程. 安 ...
git操作演示
阶段一: git init git config --global user.email "you@example.com" git config --global user.na ...
freescale-sdk linux移植一搭建编译环境脚本host-prepare.sh分析
接下来使用自己的课外歇息时间,对基于PowerPC架构freescale-sdk,进行linux移植和分析.主要參考官方文档freescale linux sdk START_HERE.html,首先 ...
kubernetes对象之Volume
系列目录概述 Volume是对各种存储资源的抽象.虚拟化.为管理.控制.使用存储资源提供统一接口.Openstack中的volume为虚拟机提供存储,Docker中的volume为容器提供存储.因为 ...
.NET MVC 4 实现邮箱激活账户功能
这篇文章是<.NET MVC 4 实现用户注册功能>的后续开发,实现发送激活链接到注册用户邮箱,用户在邮箱打开链接后激活账户的功能. 首先实现发送邮件的功能,在管理用户注册的control ...
MySQL 启动报错:File ./mysql-bin.index not found (Errcode: 13)
Linux下安装初始化完MySQL数据库之后,使用mysqld_safe启动mysql数据库,如下发现,启动失败 [root@SVNServer bin]# ./mysqld_safe –user=m ...
51NOD 1810 连续区间分治区间计数
1810 连续区间基准时间限制:1.5 秒空间限制:131072 KB 分值: 80 区间内所有元素排序后,任意相邻两个元素值差为1的区间称为“连续区间” 如:3,1,2是连续区间,但3, ...
EasyCamera海康摄像机向EasyDarwin云平台推送音视频数据的缓存设计
本文转自EasyDarwin团队成员Alex的博客:http://blog.csdn.net/cai6811376 EasyCamera在向EasyDarwin云平台推送音视频数据时,有时一个I帧会很 ...
Break、Continue、Return区别
1)break 直接跳出当前的循环,从当前循环外面开始执行,忽略循环体中任何其他语句和循环条件测试.他只能跳出一层循环,如果你的循环是嵌套循环,那么你需要按照你嵌套的层次,逐步使用break来 ...

2 pyspark学习----基本操作

2 pyspark学习----基本操作的更多相关文章

随机推荐

热门专题