不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章 决策树多元分类UCI Covertype数据集…
不多说,直接上干货! Labeled point: 向量标签 向量标签用于对Spark Mllib中机器学习算法的不同值做标记. 例如分类问题中,可以将不同的数据集分成若干份,以整数0.1.2,....进行标记,即我们程序开发者可以根据自己业务需要对数据进行标记. 向量标签和向量是一起的,简单来说,可以理解为一个向量对应的一个特殊值,这个值的具体内容可以由用户指定,比如你开发了一个算法A,这个算法对每个向量处理之后会得出一个特殊的标记值p,你就可以把p作为向量标签.同样的,更为直观的话,你可以把…
不多说,直接上干货! Local matrix:本地矩阵 数组Array(1,2,3,4,5,6)被重组成一个新的2行3列的矩阵. testMatrix.scala package zhouls.bigdata.chapter4 import org.apache.spark.mllib.linalg.{Matrix, Matrices} object testMatrix { def main(args: Array[String]) { val mx = Matrices.dense(2,…
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计…
不多说,直接上干货! 前期博客 PLSQL Developer概念学习系列之如何正确登录连接上Oracle(图文详解)   如用scott.scott_password进行登录,orcl是全局数据库 出现: (没有登录) -PL / SQL Developer ORA - 12541: TNS :无建听程序 解决办法: 重新配置监听程序. 然后在LISTENER文件里将HOST改为自己的IP 地址即可. 修改地方1:  DESKTOP-IOTFVUA是我的windows系统的主机名 修改地方2:…
前期博客 基于CentOS6.5下Suricata(一款高性能的网络IDS.IPS和网络安全监控引擎)的搭建(图文详解)(博主推荐) 基于Ubuntu14.04下Suricata(一款高性能的网络IDS.IPS和网络安全监控引擎)的搭建(图文详解)(博主推荐) 参考官网 https://redmine.openinfosecfoundation.org/projects/suricata/wiki/_Logstash_Kibana_and_Suricata_JSON_output 注意,这官网,…
不多说,直接上干货! 福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号:   大数据躺过的坑      Java从入门到架构师      人工智能躺过的坑         Java全栈大联盟        每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力.        百家号 :九月哥快讯               快手号:  jiuyuege 问题详情 每次提交spark任务到yarn的时候,总会出现uploading resource(打包sp…
不多说,直接干货! Ambari 借鉴了很多成熟分布式软件的 API 设计.Rest API 就是一个很好地体现.通过 Ambari 的 Rest API,可以在脚本中通过 curl 维护整个集群.并且,我们可以用 Rest API 实现一些无法在 Ambari GUI 上面做的操作. 目前 Ambari 不支持在 GUI 上面卸载已安装的 Service.所以当一个 Service 不再需要的时候,用户没法删除掉该 Service.幸运的是 Ambari 提供了 DELETE 的 Rest A…
具体步骤,见如下: https://ftp.gnu.org/gnu/wget/ 解压到Cygwin的主目录中,一般是   你的Cygwin目录/home/当前用户名/ . 我这是如下     先./configure       然后,make   也许,我看到网上有些资料说,重新点击安装.   里面找到make,然后,Bin 和 Src 如果可以勾选都 勾选上,点击下一步就可以安装了     但是,输入make,还是无法生效(说白了,没有彻底解决!)   则:解决办法 windows系统下在忘…
不多说,直接上干货! 注意的是: 本地若没有安装Oracle服务端,Oracle server服务端64位,是远程连接,因此本地配置PLSQL Developer64位. PLSQL Developer是什么? 进入PLSQL Developer 1.双击 2.第一次,启动PLSQL Developer,不登录点取消进入PLSQL Developer 3.输入已安装的oracle数据用户及密码,数据库选择ORACLE,Normal权限. 重启后,得到 参考 全网最详细的Windows系统里PLS…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率   具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集…
不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier   见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) val model = DecisionTree.trainClassifier(trainData, , Map[Int, Int](), impurity, maxDepth, maxBins) 在决策树回归分析参数设置中: 使用DecisionTree…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集 Spark Mllib里决策树多元分类使用.precision方法以precision来评估模型的准确率 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章 决策树多元分类UCI Covertype…
不多说,直接上干货! Distributed  matrix : 分布式矩阵 一般能采用分布式矩阵,说明这数据存储下来,量还是有一定的.在Spark Mllib里,提供了四种分布式矩阵存储形式,均由支持长整形的行列数和双精度浮点型的数据内容组成. 包括行矩阵.带有行索引的行矩阵.坐标矩阵和块矩阵. 依据你数据的不同的特点,你可以选择不同类型的数据. (1).行矩阵: 以行为基本方向的矩阵存储格式,列的作用相对较少. 理解记忆,行矩阵是一个巨大的特征向量的集合 每一行就是一个具有相同格式的向量数据…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
这篇博客 是在Scala IDEA for Eclipse里手动创建scala代码编写环境. Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) 本博文,教大家,用maven来创建. 第一步:安装scala插件 因为,我win7下的scala环境是2.10.4 所以,选择下载的是,这个 下载好之后,解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可. 重启eclipse以后即可. 然后, Win…
不多说,直接上干货! 为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物理机器环境实验室的大数据集群平台.在此,为了需要的博友们,能在自己虚拟机里(我这里是CentOS6.5)来搭建部署snort+barnyard2+base的入侵检测系统.分享与交流是进步的阶梯! 同时,本人还尝试过在Ubuntu14.04里搭建这入侵检测系统的环境.同时,还尝试过在win7\win1…
Java生鲜电商平台-APP/小程序接口传输常见的加密算法及详解 说明:Java生鲜电商平台-APP/小程序接口传输常见的加密算法及详解,加密算法,是现在每个软件项目里必须用到的内容. 广泛应用在包括了用户登入.数字签名.数据传输等多个场合.今天我把常见的加密算法全部整理在这里,供大家学习参考.     首先,大家要知道加密算法能干什么,利用加密算法来对数据通信的过程进行加密传输是一种最常见的安全手段.利用该手段能够达到一下三个目的: 1.数据保密性,防止用户数据被窃取或泄露: 2.数据完整性,…
不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 好一段时间之前,写过这篇博客 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码(博主强烈推荐) 最近开始进行更新,希望能帮助到开发的你. 下载源码 去github官网 下载   spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA fo…
不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解) 如果在一个界面里,可以是多个项目 注意:本文是以maven项目的方式来做的! IDEA学习系列之IDEA里如何正确设置(类似eclipse里同一个wor…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解)  如果是在eclipse里,则是File -> new ->  Dynamic Web project 全网最详细的Eclipse里…
不多说,直接上干货! 环境: windows10系统(64位) 最好先安装jre或jdk(此软件用来打开oracle自带的可视化操作界面,不装也没关系:可以安装plsql,或者直接用命令行操作) Oracle 11g 是仅次于微软的第二大软件公司甲骨文公司开发的一款数据库软件,它适合大型网站(小型网站建议MySql或Sql Server),占用内存比较高,低配置电脑安装请慎重.   Oracle Client 11g的官网下载地址:  http://www.oracle.com/technetw…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Client(64bit)的下载与安装(图文详解) 命令行方式测试安装是否成功 1)   打开服务(cmd—>services.msc) 以下是Oracle 11g R2Database的: 以下是Oracle 11g R2 Database和Oracle 11g R2 Client的: 2)   测试一下.打开Oracle自带的SQL PLUS.运行SQL Plus,通过用户名/密码能够登录数据库,说明…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Database(64bit)的下载与安装(图文详解) 命令行方式测试安装是否成功 1)   打开服务(cmd—>services.msc) 看到已经有oracle服务运行 将个服务改为手动启动(需要开启oracle时,自己启动服务,减少资源消耗) 只需启动OracleOraDb11g_home1TNSListener和OracleServiceORCL这两个服务,oracle就可以使用了.[一般编程也只…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Database(64bit)的下载与安装(图文详解) 若你不想用了,则可安全卸载. 完全卸载Oracle Database 11g步骤:  1.开始->设置->控制面板->管理工具->服务 停止所有Oracle服务. 2. 开始-->程序-->oracle - OraDb11g_home1--> Universal Installer 3.选择卸载产品 只勾选Oracle…
不多说,直接上干货! 缘由: (1)最近看到情侣零点送祝福,感觉还是很浪漫的事情,相信有很多人熬夜为了给爱的人送上零点祝福,但是有时等着等着就睡着了或者时间并不是卡的那么准就有点强迫症了,这是也许程序会解决我们的问题. (2)如果你女朋友需要天天给她微信发“晚安”,你一般怎么做呢?每天用手机敲出来,忘记了怎么办?设个闹钟,哥不扶墙,就服你. 作为程序员哥哥,你如果再怎么low,那就有点愧对你的身份了.一想,不就是一个定时任务吗?定时器就可以搞定.可,可.... 作为热门的java好像没有处理个人…
不多说,直接上干货! 为什么要写这么一篇博文呢? 是因为啊,对于Hue不同版本之间,其实,差异还是相对来说有点大的,具体,大家在使用的时候亲身体会就知道了,比如一些提示和界面. 安装Hue后的一些功能的问题解决干货总结(博主推荐) 全网最详细的大数据集群环境下如何正确安装并配置多个不同版本的Cloudera Hue(图文详解) 都是安装在/opt/modules下 [kfk@bigdata-pro01 modules]$ pwd /opt/modules [kfk@bigdata-pro01 m…
不多说,直接上干货! 为什么要写这么一篇博文呢? 是因为啊,对于Hue不同版本之间,其实,差异还是相对来说有点大的,具体,大家在使用的时候亲身体会就知道了,比如一些提示和界面. 全网最详细的大数据集群环境下多个不同版本的Cloudera Hue之间的界面对比(图文详解) 下载版本: cdh版本 http://archive-primary.cloudera.com/cdh5/cdh/5/ 假设,我已经安装了如下的一个Hue版本 CDH版本大数据集群下搭建Hue(hadoop-2.6.0-cdh5…
不多说,直接上干货! http://mvnrepository.com/ 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) 这里, 我重点说下spark项目,因为,对于hadoop这样的,我已经写了大量博客了. 比如,我目前用得较多的spark-mllib. 这里spark-mllib_2.10 就是你的scala版本是2.10.X系列.比如我一般是使用scala-2.10.4.…
写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责.认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentOS6.5版本)和cloudermanager(基于CentOS6.5或Ubuntu14.04版本). (2)  大数据集群范围包括3节点和4节点.本人都尝试过. (3)  安装搭建包括离线和在线.本人都尝试过 (4)  版本包括自定义指定和官方最新版本搭建.本人都尝试过. (5) 大数据集群节点的增加和删减.本人都尝试过…