Spark之scala】的更多相关文章

说明,由于spark是用scala写的.因此,不管是在看源码还是在写spark有关的代码的时候,都最好是用scala.那么作为一个程序员首先是必须要把手中的宝剑给磨砺了.那就是创建好编写scala的代码环境.在这里由于我个人之前比较熟悉eclipse(虽然觉得他有点掉档次,踏实工具嘛,当然最好是选择自己最熟悉的辣).好了,那么我想实现的就是在eclipse中创建maven工程来管理spark的scala的代码.在这个过程中,遇到了几个问题: 1.如何在eclipse中安装scala的插件 安装s…
java+hadoop+spark+hbase+scala 在/etc/profile 下面加上如下环境变量 export JAVA_HOME=/usr/java/jdk1.8.0_102 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib:$JRE_HOME/lib export PATH=$JAVA_HOME/bin:/usr…
 一.机器学习常用开发软件:Spark.Scala 1. Spark简介: MLlib包含的库文件有: 分类 降维 回归 聚类 推荐系统 自然语言处理 在线学习 统计学习方法:偏向理论性,数理统计的方法,对实时性没有特别要求: 机器学习:偏向工程化(包含数据预处理.特征选择.参数优化),有实时性要求,旨在构造一个整体的系统,如在线学习等: 概率图模型:构建一个统一的方法论,可以解决一些时序模型,概括了表示.推理.学习的流程,如贝叶斯网络等. Spark在Standalone模式下的工作原理: 首…
1. Scala集合学习: http://blog.csdn.net/lyrebing/article/details/20362227 2. scala实现kmeans算法 http://www.thinksaas.cn/group/topic/93852/ 3. Spark之Scala学习网站 http://spark.apache.org/docs/latest/mllib-decision-tree.html 4. Spark wordcount开发并提交到集群运行: http://ww…
Spark与Scala版本兼容问题: Spark运行在Java 8 +,Python 2.7 + / 3.4 +和R 3.1+上.对于Scala API,Spark 2.4.2使用Scala 2.12.您需要使用兼容的Scala版本(2.12.x). 请注意,自Spark 2.2.0起,对2.6.5之前的Java 7,Python 2.6和旧Hadoop版本的支持已被删除.自2.3.0起,对Scala 2.10的支持被删除.自Spark 2.4.1起,对Scala 2.11的支持已被弃用,将在S…
记录一下版本问题: spark与scala版本对应问题: 1.官网会给出,如下,spark2.3.1默认需要scala2.11版本 2.在maven依赖网中也可以看到,如下 3.关于idea开发版本中也可以看到所需要依赖的scala版本 通常在file->project structure->global libraries 右侧,点击加号将scala sdk加入后,最右侧有个下拉框,可以看到此idea支持的一些scala版本号 如果通过加入的scala sdk版本超出idea所需要的scal…
在阅读一些博客和资料中,发现安装spark与Scala是要严格遵守两者的版本对应关系,如果版本不对应会在之后的使用中出现许多问题. 在安装时,我们可以在spark的官网中查到对应的Scala版本号,如spark2.4.4中对应的版本号为Scala2.11 spark官网:http://spark.apache.org/downloads.html,其中可以得到所需的版本信息 图中对应spark2.4.4需要使用Scala2.11版本,所以在下载安装时需要注意 Spark官网相关说明中也有涉及ht…
昨晚和同事一起看一个scala写的程序,程序都写完了,且在idea上debug运行是ok的.但我们不能调试的方式部署在客户机器上,于是打包吧.打包时,我们是采用把外部引入的五个包(spark-assembly-1.5.1-hadoop2.6.0.jar.commons-logging.jar.fastjson-1.2.10.jar.sqljdbc4.jar.log4j.jar)打包到我们的jar包中.好了,一切都好了...在java -jar demo.jar方式运行,以及把它拷贝到spark集…
1. 从官网下载Spark安装包,解压到自己的安装目录下(默认已经安装好JDK,JDK安装可自行查找): spark官网:http://spark.apache.org/downloads.html 2. 进入系统命令行界面,进入安装目录下,如"/安装目录/spark-1.6.0-bin-hadoop-2.6.0 ",输入命令"./bin/pyspark"验证pyspark能否运行,再输入命令“./bin/spark-shell”,查看scala环境能否运行.成功的…
Vi  t1.txt1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.05,104,4.05,105,3.5 1.装载数据scala> import org.apache.spark.mllib.recommendation.{…