Spark .0以前版本: val sparkConf = new SparkConf().setAppName("soyo") val spark = new SparkContext(sparkConf) Spark .0以后版本:(上面的写法兼容) 直接用SparkSession: val spark = SparkSession .builder .appName("soyo") .getOrCreate() var tc = spark.sparkCont…
内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的MLlib,更加注重机器学习整个过程的管道化. 当然,作为使用者,特别是需要运用到线上的系统,大部分厂家还是会继续选择已经稳定的spark1.6版本,并且在spark2.0逐渐成熟之后才会开始考虑系统组件的升级.作为开发者,还是有必要先行一步,去了解spark2.0的一些特性和使用,及思考/借鉴一…
不多说,直接上干货! 我这里,采取的是ubuntu 16.04系统,当然大家也可以在CentOS6.5里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数据搭建各个子项目时配置文件技巧(适合CentOS和Ubuntu系统)(博主推荐) 新建用户组.用户.用户密码.删除用户组.用户(适合CentOS.Ubuntu系统) VMware里Ubuntu-16.…
概述 线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x).       Spark中实现了:       (1)普通最小二乘法       (2)岭回归(L2正规化)       (3)Lasso(L1正规化).       (4)局部加权线性回归       (5)流式数据可以适用于线上的回归模型,每当有新数据达到时,更新模型的参数,MLlib目前使用普通的最小二乘支持流线性回归.除了每批数据到达时,模型更新最新的数据外,实际上与线下的执行是类似的. 本文采用的符号: 拟合函数   …
第一步:安装spark 将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下.这里需注意的是spark和hadoop有对应版本关系 [root@spark1 spark]# chmod u+x spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# mv spark-2.0.0-…
hive on spark真的很折腾人啊!!!!!!! 一.软件准备阶段 maven3.3.9 spark2.0.0 hive2.3.3 hadoop2.7.6 二.下载源码spark2.0.0,编译 下载地址:http://archive.apache.org/dist/spark/spark-2.0.0/ 编译: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-pr…
概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树.     GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net等,其实它们都是一个东西(参考自wikipedia – Gradient Boosting),发明者是Friedman. 研究GBDT一定要看看Friedman的pa…
概述 分类决策树模型是一种描述对实例进行分类的树形结构. 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 .决策树基本上都是 采用的是贪心(即非回溯)的算法,自顶向下递归分治构造. 生成决策树一般包含三个步骤:  特征选择 决策树生成 剪枝 决策树算法种类 决策树主要有 ID3, C4.5, C5.0 and CART几种, ID3, C4.5, 和CART实际都采用的是贪心(即非回溯)的算法,自顶向下递归分治构造.对于每一个决策要求分成的组之间的“差异”最大.各种决策树算法之间…
在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:      (1)K-means      (2)Latent Dirichlet allocation (LDA)      (3)Bisecting k-means(二分k均值算法)      (4)Gaussian Mixture Model (GMM)       基于RDD API的MLLib中,共有六种聚类方法:      (1)K-means      (2)Gaussian mixture     …
Apache Spark2.0正式发布 7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点. 本文总结了Spark 2.0的三大主题:更简单.更快速.更智能,另有Spark 2.0内容的文章汇总介绍了更多细节. 两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10%的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新…