不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集…
不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集…
不多说,直接上干货! 建议,你用Anaconda2或Anaconda3. 见 全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装用来向微信好友发送消息的itchat库(图文详解)   Python2 里 是无法安装,需要3系列以上的版本. Python3里 找到python安装目录下的scripts文件物理路径,cd进去然后输入命令即可. cd D:\Program Files\Python36\Scripts  我的python安装目录是这个,根据自己的安装目录…
不多说,直接上干货! 参考博客 全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装OpenCV(离线方式和在线方式)(图文详解) 第一步:首先,提示升级下pip 第二步:下载安装wheel 也可以去网站里先下载好,离线安装.也可以如上在线安装.   第三步: 安装lxml 因为,我的是 成功! 验证下 第四步:安装Twisted PS C:\Anaconda3\Lib\site-packages> pip install Twisted--cp35-cp35m-w…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Client(64bit)的下载与安装(图文详解) 命令行方式测试安装是否成功 1)   打开服务(cmd—>services.msc) 以下是Oracle 11g R2Database的: 以下是Oracle 11g R2 Database和Oracle 11g R2 Client的: 2)   测试一下.打开Oracle自带的SQL PLUS.运行SQL Plus,通过用户名/密码能够登录数据库,说明…
不多说,直接上干货!  Anaconda2 里 PS C:\Anaconda2\Scripts> PS C:\Anaconda2\Scripts> pip.exe install itchat Requirement already satisfied: itchat ) Requirement already satisfied: requests ) Requirement already satisfied: pyqrcode ) Requirement already satisfie…
不多说,直接上干货! Local  vector : 本地向量集 由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集 例如一个向量数据(9,5,2,7),可以设定为(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储. (2).稀疏型数据集 例如一个向量数据(9,5,2,7),可以按向量的大小存储为(4,Array(0,1,2,3),Array(9,5,2,7))  testVector.scala package zhouls.bigdata.…
不多说,直接上干货! 字段3 是分类特征字段,但是呢,在分类算法里不能直接用.所以,必须要转换为数值字段才能够被分类算法使用. 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集…
不多说,直接上干货!  最近我开始在windows环境中使用Cassandra,虽然在Cassandra站点的安装命令非常清楚和精简,我仍然在环境配置上遇到一些问题.所以我想为后来者分享下我的经验. 官网下载地址 http://cassandra.apache.org/ http://cassandra.apache.org/download/ http://www.apache.org/dyn/closer.lua/cassandra/3.11.1/apache-cassandra-3.11.…
不多说,直接上干货! 问题详情 问题分析    可能原因导致1:你的程序也许,是在他人那里复制而来,会导致这样的问题. 可能原因导致2:由于页面编码造成的.  可能原因导致1的解决办法 这个,好比,我这里,直接在该包下,新建一个.scala程序即可,然后,复制粘贴进去就行了. 别直接将别人的这个LinearRegression.scala复制到该包下.  可能原因导致2的解决办法 在导入Eclipse工程时,我们会经常遇到这样的错误: Error:(1, 1) error: illegal ch…
不多说,直接上干货! 缘由: (1)最近看到情侣零点送祝福,感觉还是很浪漫的事情,相信有很多人熬夜为了给爱的人送上零点祝福,但是有时等着等着就睡着了或者时间并不是卡的那么准就有点强迫症了,这是也许程序会解决我们的问题. (2)如果你女朋友需要天天给她微信发“晚安”,你一般怎么做呢?每天用手机敲出来,忘记了怎么办?设个闹钟,哥不扶墙,就服你. 作为程序员哥哥,你如果再怎么low,那就有点愧对你的身份了.一想,不就是一个定时任务吗?定时器就可以搞定.可,可.... 作为热门的java好像没有处理个人…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率   具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集…
不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier   见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) val model = DecisionTree.trainClassifier(trainData, , Map[Int, Int](), impurity, maxDepth, maxBins) 在决策树回归分析参数设置中: 使用DecisionTree…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解) 如果在一个界面里,可以是多个项目 注意:本文是以maven项目的方式来做的! IDEA学习系列之IDEA里如何正确设置(类似eclipse里同一个wor…
这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)…
不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 hortonworks ambari集成impala ambari hdp 集成 impala 欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑       同时,大家可以关注我的个人博客:    http://www.cnblogs.com/zlslch/   和     http…
不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 好一段时间之前,写过这篇博客 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码(博主强烈推荐) 最近开始进行更新,希望能帮助到开发的你. 下载源码 去github官网 下载   spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA fo…
这篇博客 是在Scala IDEA for Eclipse里手动创建scala代码编写环境. Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) 本博文,教大家,用maven来创建. 第一步:安装scala插件 因为,我win7下的scala环境是2.10.4 所以,选择下载的是,这个 下载好之后,解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可. 重启eclipse以后即可. 然后, Win…
引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环境,并进行了相应的测试.本文主要讲的是如何将Hive和HBase进行整合. Hive和HBase的通信意图 Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图…
不多说,直接上干货! 说明: Anaconda2-5.0.0-Windows-x86_64.exe安装下来,默认的Python2.7 Anaconda3-4.2.0-Windows-x86_64.exe安装下来,默认的Python3.5 Anaconda3-5.0.0-Windows-x86_64.exe安装下来,默认的Python3.6 参考 全网最全最详细的Windows下安装Anaconda2 / Anaconda3(图文详解) 1. 以下是在Windows下Anaconda2里正确下载安…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解)  如果是在eclipse里,则是File -> new ->  Dynamic Web project 全网最详细的Eclipse里…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) 全网最详细的Eclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) Eclipse是 或者 MyEclipse是 由 变成 即,只有所框的部分过去了.并且自动改名为dat08. 用MyE…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解)  如果是在eclipse里,则是File -> new ->  Dynamic Web project 全网最详细的Eclipse里…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在Myeclipse里,则是File -> new -> Web project 具体,见 全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) 如果是在IDEA里,则是File -> New -> Project  ->  Java -> Java EE  ...…
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在eclipse里,则是File -> new ->  Dynamic Web project 具体,见 全网最详细的Eclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功[博主强烈推荐](图文详解) 如果是在IDEA里,则是File -> New -> Project  ->  Java -> Java EE…
不多说,直接上干货! 环境: windows10系统(64位) 最好先安装jre或jdk(此软件用来打开oracle自带的可视化操作界面,不装也没关系:可以安装plsql,或者直接用命令行操作) Oracle 11g 是仅次于微软的第二大软件公司甲骨文公司开发的一款数据库软件,它适合大型网站(小型网站建议MySql或Sql Server),占用内存比较高,低配置电脑安装请慎重.   Oracle Client 11g的官网下载地址:  http://www.oracle.com/technetw…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Database(64bit)的下载与安装(图文详解) 命令行方式测试安装是否成功 1)   打开服务(cmd—>services.msc) 看到已经有oracle服务运行 将个服务改为手动启动(需要开启oracle时,自己启动服务,减少资源消耗) 只需启动OracleOraDb11g_home1TNSListener和OracleServiceORCL这两个服务,oracle就可以使用了.[一般编程也只…
不多说,直接上干货! 前期博客 全网最详细的Windows系统里Oracle 11g R2 Database(64bit)的下载与安装(图文详解) 若你不想用了,则可安全卸载. 完全卸载Oracle Database 11g步骤:  1.开始->设置->控制面板->管理工具->服务 停止所有Oracle服务. 2. 开始-->程序-->oracle - OraDb11g_home1--> Universal Installer 3.选择卸载产品 只勾选Oracle…
不多说,直接上干货! 环境: windows10系统(64位) 最好先安装jre或jdk(此软件用来打开oracle自带的可视化操作界面,不装也没关系:可以安装plsql,或者直接用命令行操作) Oracle 11g 是仅次于微软的第二大软件公司甲骨文公司开发的一款数据库软件,它适合大型网站(小型网站建议MySql或Sql Server),占用内存比较高,低配置电脑安装请慎重. Oracle Database 11g的官网下载地址:  http://www.oracle.com/technetw…