不多说,直接上干货! 注意: val pos = LabeledPoint(1, vd) val neg = LabeledPoint(2, vs) 除了这两种建立向量标签.还可以从数据库中获取固定格式的数据集方法. 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计…
国庆节快乐,还在加班的童鞋,良辰必有重谢! 本文主要内容 头标签 排版标签:<p>     <br>     <hr>     <center>     <pre>     <div>     <span> 字体标记:<h1>    <font>    <b>    <u>    <sup>    <sub> 超链接 图片标签 一.HTML的介绍 1.…
HTML标签超详细的图文演示再来一波~~~ 如果还没有看过昨天的福利的,那可要抓紧喽,传送门:HTML标签----图文详解 本文主要内容 列表标签 表格标签 框架标签及内嵌框架<iframe> 表单标签及语义化 多媒体标签 滚动字幕标签:<marquee> 清单标签(列表标签) 列表标签分为三种. 1.无序列表<ul>,无序列表中的每一项是<li> 英文单词:un list. 例如: <ul> <li>默认1</li> &…
05-HTML标签图文详解(二) #本文主要内容 列表标签:<ul>.<ol>.<dl> 表格标签:<table> 框架标签及内嵌框架<iframe> 表单标签:<form> 多媒体标签 滚动字幕标签:<marquee> #列表标签 列表标签分为三种. #1.无序列表<ul>,无序列表中的每一项是<li> 英文单词解释如下: ul:unordered list,"无序列表"的意思…
04-HTML标签图文详解(一) #一.排版标签 #注释标签 <!-- 注释 -->   #段落标签<p> <p>This is a paragraph</p> <p>This is another paragraph</p>   属性: align="属性值":对齐方式.属性值包括left center right. 举例: 段落,是英语paragraph"段落"缩写. HTML标签是分等级的…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
不多说,直接上干货! http://mvnrepository.com/ 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) 这里, 我重点说下spark项目,因为,对于hadoop这样的,我已经写了大量博客了. 比如,我目前用得较多的spark-mllib. 这里spark-mllib_2.10 就是你的scala版本是2.10.X系列.比如我一般是使用scala-2.10.4.…
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计…
不多说,直接上干货! Local  vector : 本地向量集 由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集 例如一个向量数据(9,5,2,7),可以设定为(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储. (2).稀疏型数据集 例如一个向量数据(9,5,2,7),可以按向量的大小存储为(4,Array(0,1,2,3),Array(9,5,2,7))  testVector.scala package zhouls.bigdata.…
不多说,直接上干货! 大部分用户玩的是windows,现在,跟随我来玩玩Mac. 1. VMware Workstation 11 2. unlocker 206(for OS X 插件补丁),这是VMware虚拟机mac虚拟机解锁工具 . 3. Mac OS X 10.10镜像iso 一.下载以上文件 1.VMware Workstation 11的下载,见 http://www.cnblogs.com/zlslch/p/5657831.html 2.unlocker 206(for OS X…
不多说,直接上干货! 最近,开始,进一步学习spark的最新版本.由原来经常使用的spark-1.6.1,现在来使用spark-2.2.0-bin-hadoop2.6.tgz. 前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主推荐) 这里我,使用的是spark-2.2.0-bin-hadoop2.6.tgz + hadoop-2.6.0.tar…
不多说,直接上干货! 其实啊,很简单 分三步走 1.添加fcitx的键盘输入法系统,因为sogou是基于fcitx的,而系统默认的是iBus: 2.安装sogou输入法: 3.设置系统参数及一些注意点.       zhouls@zhouls-virtual-machine:~$ sudo -s [sudo] password for zhouls: root@zhouls-virtual-machine:~# cat /etc/issue Ubuntu LTS \n \l root@zhoul…
不多说,直接上干货! Labeled point: 向量标签 向量标签用于对Spark Mllib中机器学习算法的不同值做标记. 例如分类问题中,可以将不同的数据集分成若干份,以整数0.1.2,....进行标记,即我们程序开发者可以根据自己业务需要对数据进行标记. 向量标签和向量是一起的,简单来说,可以理解为一个向量对应的一个特殊值,这个值的具体内容可以由用户指定,比如你开发了一个算法A,这个算法对每个向量处理之后会得出一个特殊的标记值p,你就可以把p作为向量标签.同样的,更为直观的话,你可以把…
不多说,直接上干货! Distributed  matrix : 分布式矩阵 一般能采用分布式矩阵,说明这数据存储下来,量还是有一定的.在Spark Mllib里,提供了四种分布式矩阵存储形式,均由支持长整形的行列数和双精度浮点型的数据内容组成. 包括行矩阵.带有行索引的行矩阵.坐标矩阵和块矩阵. 依据你数据的不同的特点,你可以选择不同类型的数据. (1).行矩阵: 以行为基本方向的矩阵存储格式,列的作用相对较少. 理解记忆,行矩阵是一个巨大的特征向量的集合 每一行就是一个具有相同格式的向量数据…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率   具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集…
不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier   见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) val model = DecisionTree.trainClassifier(trainData, , Map[Int, Int](), impurity, maxDepth, maxBins) 在决策树回归分析参数设置中: 使用DecisionTree…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集 Spark Mllib里决策树多元分类使用.precision方法以precision来评估模型的准确率 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章 决策树多元分类UCI Covertype…
这篇博客 是在Scala IDEA for Eclipse里手动创建scala代码编写环境. Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) 本博文,教大家,用maven来创建. 第一步:安装scala插件 因为,我win7下的scala环境是2.10.4 所以,选择下载的是,这个 下载好之后,解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可. 重启eclipse以后即可. 然后, Win…
不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 好一段时间之前,写过这篇博客 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码(博主强烈推荐) 最近开始进行更新,希望能帮助到开发的你. 下载源码 去github官网 下载   spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA fo…
不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解) 如果在一个界面里,可以是多个项目 注意:本文是以maven项目的方式来做的! IDEA学习系列之IDEA里如何正确设置(类似eclipse里同一个wor…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) 如果是在IDEA里,则是File -> New -> Project  ->  Java -> Java EE  ...…
不多说,直接上干货! 环境: windows10系统(64位) 最好先安装jre或jdk(此软件用来打开oracle自带的可视化操作界面,不装也没关系:可以安装plsql,或者直接用命令行操作) Oracle 11g 是仅次于微软的第二大软件公司甲骨文公司开发的一款数据库软件,它适合大型网站(小型网站建议MySql或Sql Server),占用内存比较高,低配置电脑安装请慎重. Oracle Database 11g的官网下载地址:  http://www.oracle.com/technetw…
不多说,直接上干货! 参考博客 全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装OpenCV(离线方式和在线方式)(图文详解) 第一步:首先,提示升级下pip 第二步:下载安装wheel 也可以去网站里先下载好,离线安装.也可以如上在线安装.   第三步: 安装lxml 因为,我的是 成功! 验证下 第四步:安装Twisted PS C:\Anaconda3\Lib\site-packages> pip install Twisted--cp35-cp35m-w…
不多说,直接上干货! 说明: Anaconda2-5.0.0-Windows-x86_64.exe安装下来,默认的Python2.7 Anaconda3-4.2.0-Windows-x86_64.exe安装下来,默认的Python3.5 Anaconda3-5.0.0-Windows-x86_64.exe安装下来,默认的Python3.6 参考 全网最全最详细的Windows下安装Anaconda2 / Anaconda3(图文详解) 1. 以下是在Windows下Anaconda2里正确下载安…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解)  如果是在eclipse里,则是File -> new ->  Dynamic Web project 全网最详细的Eclipse里…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) 全网最详细的Eclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) Eclipse是 或者 MyEclipse是 由 变成 即,只有所框的部分过去了.并且自动改名为dat08. 用MyE…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解)  如果是在eclipse里,则是File -> new ->  Dynamic Web project 全网最详细的Eclipse里…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在eclipse里,则是File -> new ->  Dynamic Web project 具体,见 全网最详细的Eclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) 如果是在IDEA里,则是File -> New -> Project  ->  Java -> Java EE…
不多说,直接上干货! 环境: windows10系统(64位) 最好先安装jre或jdk(此软件用来打开oracle自带的可视化操作界面,不装也没关系:可以安装plsql,或者直接用命令行操作) Oracle 11g 是仅次于微软的第二大软件公司甲骨文公司开发的一款数据库软件,它适合大型网站(小型网站建议MySql或Sql Server),占用内存比较高,低配置电脑安装请慎重.   Oracle Client 11g的官网下载地址:  http://www.oracle.com/technetw…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Client(64bit)的下载与安装(图文详解) 命令行方式测试安装是否成功 1)   打开服务(cmd—>services.msc) 以下是Oracle 11g R2Database的: 以下是Oracle 11g R2 Database和Oracle 11g R2 Client的: 2)   测试一下.打开Oracle自带的SQL PLUS.运行SQL Plus,通过用户名/密码能够登录数据库,说明…