【转】Spark快速入门指南
low-latency iterative jobs and interactive use from an interpreter. It is
written in Scala, a high-level language for the JVM, and exposes a clean
language-integrated syntax that makes it easy to write parallel jobs.
Spark runs on top of the Mesos cluster manager.
- Spark下载地址?
git clone git://github.com/mesos/spark.git
- Spark编译与运行?
1)scala 2.9 +(将bin添加到PATH中或者设定了SCALA_HOME环境变量)
2) spark支持local模式和cluster模式, local不需要安装mesos
3) 如果需要将spark运行在cluster上,需要安装mesos
4)使用spark自带的sbt编译/打包: sbt/sbt compile, sbt/sbt assembly
5)使用spark自带的run脚本运行spark程序
- 验证spark环境是否OK?
在spark目录下运行:
1) local单线程: ./run spark.examples.SparkPi local
2) local多核: ./run spark.examples.SparkPi local[2]
3) mesos本地master: ./run spark.examples.SparkPi master@localhost:5050
- Spark Programming Guide介绍了哪些东西?
1) 将Spark jar包(sbt/sbt assembly)放入CLASSPATH
2) Spark Application可以运行在local或者mesos上
3) Spark提供了两种RDD: Parallelized Collections 和 Hadoop Datasets, RDD能
够支持fault-tolerant,能够恢复因为节点crash造成的partition丢失问题
4) RDD上支持两种类型的Operation: transformation 和 action,其中transformation提供的
lazy类型的操作,只有当实际调用了action才会真正触发transformations
5) Spark提供了两种类型的shared variables: Broadcast Variables 和 Accumulators,对于
Broadcast variables则会将一份share variable分发到每台机器上,而不是默认情况下的每个task;
而对于accumulator则只能支持count和sum型的加操作,并且只有dirver program能够获取其value
- 如何写一些spark application?
多看一些spark例子,如:http://www.spark-project.org/examples.html
https://github.com/mesos/spark/tree/master/examples
- 遇到问题怎么办?
首先是google遇到的问题,如果还是解决不了就可以到spark google group去向作者提问题:
http://groups.google.com/group/spark-users?hl=en
- 想深入理解spark怎么办?
阅读spark的理论paper: http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf
阅读spark源代码:https://github.com/mesos/spark
【转】Spark快速入门指南的更多相关文章
- [转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
- Spark快速入门
Spark 快速入门 本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...
- KNIME快速入门指南
一.介绍 KNIME Analytics Platform是用于创建数据科学应用程序和服务的开源软件.KNIME直观,开放,不断整合新的开发,使人们可以理解数据,设计数据科学工作流程和可重用组件. ...
- Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
- AngularJS快速入门指南20:快速参考
thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...
- AngularJS快速入门指南19:示例代码
本文给出的大部分示例都可以直接运行,通过点击运行按钮来查看结果,同时支持在线编辑代码. <div ng-app=""> <p>Name: <input ...
- AngularJS快速入门指南18:Application
是时候创建一个真正的AngularJS单页面应用程序了(SPA). 一个AngularJS应用程序示例 你已经了解了足够多的内容来创建第一个AngularJS应用程序: My Note Save Cl ...
- AngularJS快速入门指南17:Includes
使用AngularJS,你可以在HTML中包含其它的HTML文件. 在HTML中包含其它HTML文件? 当前的HTML文档还不支持该功能.不过W3C建议在后续的HTML版本中增加HTML import ...
- AngularJS快速入门指南16:Bootstrap
thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...
随机推荐
- task中的一些属性
1.android:allowTaskReparenting 这个属性用来标记一个Activity实例在当前应用退居后台后,是否能从启动它的那个task移动到有共同affinity的task,“tru ...
- cocos2d 3.0自定义事件答疑解惑
疑惑一:在事件分发中修改订阅者 ,对于这个的理解. 事件的分发是可以嵌套的,cocos2dx使用_inDispatch来保存当前嵌套的深度,当调用第一个dispatchEvent的时候,_inDisp ...
- Visual 中控制台程序如何使用MFC类库
unresolved external symbol __beginthreadex错误的解决Win32 Consle Application使用MFC的一些类如CString时编译时相信会很经常遇到 ...
- POJ1002_487-3279_C++
题目:http://poj.org/problem?id=1002 我知道你们最需要的是这个 [ 手动滑稽 ] STD 给出的方法是丢进一个数组,然后排序,相邻的是重复的 这个方法,时间复杂度很不错, ...
- 有关OpenCV1.0中GUI命令的几个函数学习总结
1.修改窗口背景色或者光标形状 在OpenCV1.0版本利用函数int cvNamedWindow( const char* name, int flags )初始化创建一个窗口后,窗口的背景色是灰色 ...
- EndNote文献管理
一直想写个博客,但是一直没有好好坐下来对自己工作进行一个梳理.从今天开始吧,争取多写一点. 今天,先介绍一下科技论文写作中经常使用的一款软件EndNote,这个软件,掌握它的使用方法后会觉得很方便:但 ...
- Jquery获得服务器控件的方法
由于ASP.NET网页运行后,服务器控件会随机生成客户端id,jquery获取时候不太好操作,google了下,总结有以下3种方法: 服务器控件代码: <asp:TextBox ID=" ...
- The str method
__str__ is a special method name, like __init__, that is supposed to return a string representation ...
- [Hibernate 2]session的三种状态
一.Session的特点和获取 特点: Session不是线程安全的,它代表与数据库之间的一次操作,它的概念介于Connection和Transaction之间. Session也称为持久化管理器, ...
- SQL表自连接用法
一个表与自身进行连接,称为自连接 问题的提出:一个网友提出这样一个SQL题目,说自己想了很久没解决,我一看,这不是很简单吗 可是自己在查询分析器调试了半天原来问题并不是那不简单 有一个学生表,里面 ...