2 pyspark学习----基本操作】的更多相关文章

1 spark的python环境部署可以参照上面一篇哟.http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作. # coding:utf-8 from pyspark import SparkContext, SparkConf sc = SparkContext()#init contet intRDD = sc.parallelize([3,1,2,5,5])#create RDD stringRDD = sc.p…
Docker 学习基本操作与守护式容器 容器操作 运行容器 docker run --name指定名字 -istdin -ttty虚拟终端 在终端中用 exit 即可退出容器,并结束运行 查看容器 ps -a 列出所有的容器 ps -l 借出最新的容器 容器运行后即停止, -l看不到,需要用-a docker inspect co_name/id 容器详细检查返回配置信息 容器开启删除 docker start重新启动已关闭容器 docker rm删除已停止容器 守护式容器 长期运行.没有交互.…
1 对于并行处理,Apache Spark使用共享变量.当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了. 2 两种支持得类型 (1)Broadcast 广播变量保存所有节点数据备份.该变量缓存在所有机器上,而不是在有任务的机器上发送.下面的代码块包含了PySpark的广播类的详细信息 from pyspark import SparkContext, SparkConf sc = SparkContext() words_new = s…
开始新的东西,其实很多操作在第二篇的时候就有所介绍啦.在这里继续学习一遍加深一下印象. 1关于RDD (1) RDD-----Resilient Distributed Dataset,弹性分布式数据集.这些元素在多个节点上运行和操作,以便在集群上进行并行处理. (2)RDD是弹性得. 比如map操作,可以拆分成对数据块得直接计算而不涉及其他节点.这样得操作只是在一个节点上面直接得操作,不会影响RDD得操作.但是也有比如groupBy,在不完全知道每个key得分布得时候,必须遍历RDD所有得数据…
由于开始学习知识图谱,因此需要涉及到neo4j的使用一.介绍neo4j是一个图形数据库基于Java开发而成,因此需要配置jvm才可以运行配置请参考我前面的一篇blog:https://www.cnblogs.com/future-dream/p/9533757.html 二.基本操作1.添加(1)节点的添加 关键字:create:n是一个对象,用什么都可以,它的可以就是标签:节点信息(采用字典的格式):包括name.skill.master等等信息,这些key最后会作为property(属性)出…
https://zhuanlan.zhihu.com/p/26306795 https://arxiv.org/pdf/1411.2738.pdf https://zhuanlan.zhihu.com/p/53194407 https://zhuanlan.zhihu.com/p/58805184   embedding入门到精通的paper,包括graph embedding Word2Vec算法原理: skip-gram: 用一个词语作为输入,来预测它周围的上下文 cbow: 拿一个词语的上…
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark.它依然可以通过导入Py4j进行RDDS等操作. 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开始初始化. (2)sparkContext使用py4j调用JVM然后创建javaSparkContext,默认为‘sc’,所以如果在shell下就直接用sc.方法就可以.如果你再创建上下文,将会报错c…
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数 通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观 有两种方法,repartition,coalesce,并且,这两个方法针对RDD和DataFrame都有 repartition和coalesce的区别: repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RD…
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.some.config.option", "some-value") \ .getOrCreate() #创建一个DataFrame df = spark.sparkContext.par…
    相信有非常大一部分学计算机的童鞋都是靠自学,即使本身是计算机专业的同学,也会认为只通过课堂上的学习是远远不够的,并且在上课时所用到的教材也不够好.然而自学的时候有个非常大的问题就是找不到合适的方向和学习路线,我在刚開始的时候也吃过这种亏,总是纠结于语言的学习.认为编程就是学非常多语言.然而单纯学习语言并不能解决这个问题.我们须要学习的是一个完整的体系,而编程语言只只是是当中一个解决这个问题的工具而已. 后来我通过不断摸索.积累学习经验,总结出了一套个人感觉非常不错的学习路线.     首…