Spark 学习(二)】的更多相关文章

捣鼓了一下,先来个手动挡吧.自动挡要设置ssh无密码登陆啥的,后面开搞. 一.手动多台机链接master 手动链接master其实上篇已经用过. 这里有两台机器: 10.60.215.41 启动master.worker1.application(spark shell) 10.0.2.15 启动worker2 具体步骤如下: 1.在10.60.215.41 上 $SPARK_HOME $ ./sbin/start-master.sh $SPARK_HOME $./bin/spark-class…
继续学习spark 认真查看了一下${SPARK_HOME}/bin/pyspark 的脚本,原来开启spark 的python 交互挺简单的. 主要操作 export PYTHONPATH=${SPARK_HOME}/python/:${SPARK_HOME}/python/lib/py4j--src.zip; export PYTHONSTARTUP=${SPARK_HOME}/python/pyspark/shell.py; python; 变量 PYTHONPATH,是指定它的lib 库…
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成      Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方法,而且运行大量的并行操作(parallel operations)在集群上. 概述     Spark最基本的抽象就是RDD(resilient distributed dataset) 弹性分布式数据集,RDD  就是切割元素的集合,他被分发在集群的各个节点上,而且可以进行并行操作.     R…
Spark学习笔记之SparkRDD 一.   基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ①   内存集合和外部存储系统 ②   通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o…
Spark学习之路 (三)Spark之RDD   https://www.cnblogs.com/qingyunzong/p/8899715.html 目录 一.RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二.RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三.RDD编程API 3.1 Transformation 3.2 Action 3.3 Spark WordCount代码编写 3.…
Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定. 2. MLlib完成文本分类任务步骤: (1)首先用字符串RDD来表示你的消息 (2)运行MLlib中的一个特征提取(feature extraction)算法来把文本数据转换为数值特征(适合机器学习算法处理):该操作会返回一个向量RDD. (3)对向量RDD调用分类算法(比如逻辑回归):这步会返回一个模型对象,可以使用该对象对…
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. Spark特定的优先级顺序来选择实际配置: 优先级最高的是在用户代码中显示调用set()方法设置选项: 其次是通过spark-submit传递的参数: 再次是写在配置文件里的值: 最后是系统的默认值. 3.查看应用进度信息和性能指标有两种方式:网页用户界面.驱动器和执行器进程生成的日志文件. 4.…
http://dblab.xmu.edu.cn/blog/spark/ 厦大数据库实验室博客 总结.分享.收获 实验室主页 首页 大数据 数据库 数据挖掘 其他 子雨大数据之Spark入门教程  林子雨老师 2016年10月30日 (updated: 2017年5月28日) 37020 [版权声明]博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究! Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速…
一.例子: 1.一个简单例子:https://www.jianshu.com/p/ceabf3437dd7 2.Funsuite例子:https://www.programcreek.com/scala/org.scalatest.FunSuite 3.SparkFunsuite例子:https://www.programcreek.com/scala/org.apache.spark.SparkFunSuite 4.一个spark学习博客:https://liuxiaofei.com.cn/b…
这是个老生常谈的话题,大家是不是看到这个文章标题就快吐了,本来想着手写一些有技术深度的东西,但是看到太多童鞋卡在入门的门槛上,所以还是打算总结一下入门经验.这种标题真的真的在哪里都可以看得到,度娘一搜就是几火车皮,打开一看都是千篇一律的“workcount”.“quickstart”,但是这些对于初学者来说还差的太多,这些东东真的只是spark的冰山一角,摸着这些石头过河的话,弯路太多.暗礁涌动,一个不留神就掉河里了.希望我这篇文章能让大家看到些不一样的地方.文章分五个部分,包括官网.blog(…