不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 好一段时间之前,写过这篇博客 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码(博主强烈推荐) 最近开始进行更新,希望能帮助到开发的你. 下载源码 去github官网 下载   spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA fo…
不多说,直接上干货! jdk1.8 源码, Linux的同学可以用的上. 由于源码JDK是前版本的超集, 所以1.4, 1.5, 1.6, 1.7都可以用的上.     其实大家安装的jdk路径下,这里面是已经有的.只是有些人安装下来之后,删除了.                   前言:这件事情的重要性不言而喻,对于学习和观摩优秀的代码非常的有用,我喜欢想看什么代码都能 Ctrl+鼠标一点 就能够看到,不过这个不常操作,在这里小记一笔,以备后用.(完全是傻瓜式的记录,就是怕自己还需要来回的找…
不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解) 如果在一个界面里,可以是多个项目 注意:本文是以maven项目的方式来做的! IDEA学习系列之IDEA里如何正确设置(类似eclipse里同一个wor…
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-总目录: 0.Windows 10本机下载Xshell,以方便往Linux主机上上传大文件 1.CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-1虚拟机安装及环境初始化 2.CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-2设置SSH免密登录 3.CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-3禁止交换和禁用大页面 4.CentOS7+CDH5.14.0安装全流程记录…
Cloudera Manager Server和Agent都启动以后,就可以进行CDH5的安装配置了.      准备文件 从 http://archive.cloudera.com/cdh5/parcels/中下载CDH5.14.0的相关文件 把CDH5需要的安装文件放到主节点上,新建目录为 /opt/cloudera/parcel-repo 把我们之前下载的三个文件放到这个目录下 CDH-5.14.0-1.cdh5.14.0.p0.24-el7.parcel CDH-5.14.0-1.cdh…
主节点安装cloudera manager 准备工作:下载CM和mysql连接驱动包: CM各版本下载地址:http://archive.cloudera.com/cm5/cm/5/ 从里面选择:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.14.0_x86_64.tar.gz 下载即可. Mysql JDBC下载地址:http://download.softagency.net/MySQL/Downloads…
1.安装JDK 可以不用卸载自带的openjdk,配好环境变量即可. 下载文件:jdk-8u151-linux-x64.tar.gz 附:JDK各版本下载地址:https://www.oracle.com/technetwork/java/javase/archive-139210.html 在里面找相应版本即可. 使用xshell上传到每台机器上面,并直接解压到usr/java目录下 详细步骤如下: 1.1.把jdk文件保存至Linux下目录:通过控制台,使用mkdir命令生成usr/java…
1.软件准备: VMware-workstation-full-14.1.2-8497320.exe CentOS-7-x86_64-DVD-1804.iso 2.VMare激活码: AU5WA-0EF9M-0811P-REP5X-ZFK9A ZV382-6VX96-H81LP-1ZZG9-PVKF4 GU34A-41G4Q-H88CY-3WPNT-XUK8F 3.安装CentOS 机器名 IP 内存 硬盘 CPU cdh1 192.168.43.101 8 40 1cpu,2内核 cdh2 1…
检查环境 在正式开始安装CDH之前最好先检查一下能不能相互免密ssh,以及防火墙是否关闭,集群中的时间是否统一,java版本是否是oracle的版本,主节点mysql是否安装正确等. ssh测试 例如在cm0中ssh cm1exitssh cm2exit例如在cm1中ssh cm0exitssh cm2exit例如在cm2中ssh cm0exitssh cm1exit 时间是否统一 每台机子中使用date 命令查看当前时间,最好是完全一样或者差距不大即可. 或者在cm0中使用命令 date;ss…
配置NTP服务.标准的做法是配置NTP服务器,但是这里为了方便就用简化的方式配置了. 这个在安装初期,不是必须的,只要保证各机器的时间同步就行,使用如下命令可以查看时间是否同步: [root@cdh1 ~]# date;ssh cdh2 date; 2019年 04月 12日 星期五 16:19:58 CST 2019年 04月 12日 星期五 16:19:59 CST 时间差1-2秒钟就没事. 确保每台机器的ntpd服务都是启动状态,否则后面CDH安装完成后,主机状态会是错误状态. syste…
1.禁止交换(每台机器都要做): 执行命令:vim /etc/sysctl.conf 增加一行:vm.swappiness=0 执行命令:sudo sysctl vm.swappiness=0 2.禁用大页面(每台机器都要做): 执行命令: echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled 执行命令,修改配置:vim /…
因为hadoop集群在安装的时候需要集群中所有机器的权限. 所以我们需要打通所有节点的ssh无密码登陆,思路是生成每台机子的密钥,集中在一个文件中,再分发到每台机子上. 为了确保下面的命令能顺利执行,请先重启所有节点并且保证所有节点能够通过主机名ping通. 配置免密登录有两种方式,一种简单的: 1.执行命令,生成秘钥: ssh-keygen -t rsa 2.进入.ssh目录: cd ~/.ssh 3.拷贝到要免密码登陆的机器,要免密登陆那个机器,就写该机器的ip.3台机器的话两两之间都要做了…
前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 准备工作 1.scala 2.10.4(本地的安装) Scala的安装(本地) 2.Jdk1.7+  或 jdk1.8+ (本地的安装) Jdk 1.7*安装并配置 Jdk 1.8*安装并配置 JDK的windows和Linux版本之下载 3.IntelliJ IDEA IntelliJ IDEA(Community版…
框架学习前言 这个模块是面向Spring的,Spring的学习我是这么想的: 1.简单介绍Spring,主要是从网上借鉴一些重点 2.尽量说明清楚Spring的使用方法以及细节点 3.尽量以自己的理解讲清楚Spring中的一些源代码 Spring是什么 Spring是一款为了解决企业应用开发的复杂性而创建的轻量级Java框架.框架的主要优势之一就是其分层架构,分层架构允许使用者选择哪一个组件,同时为J2EE应用程序开发提供集成的框架.从简单性.可测试性和松耦合的角度而言,任何Java应用都可以从…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
不多说,直接上干货! 参考博客 http://blog.csdn.net/u012318074/article/details/72793914   (表示感谢)  前期博客 Neo4j沙盒实验申请过程步骤(图文详解) Ubuntu16.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) 首先,查看下你的操作系统的版本. root@zhouls-virtual-machine:~# cat /etc/issue Ubuntu 16.04.1 LTS \n \l root@zhoul…
不多说,直接上干货! 前言 写在前面的话,网上能够找到一些关于ossec方面的资料,虽然很少,但是总比没有强,不过在实际的使用过程中还是会碰到许多稀奇古怪的问题.整理整理我的使用过程,就当做一篇笔记吧. PS:本文填了很多坑. OSSEC是一款开源的基于主机的入侵检测系统,可以简称为HIDS.它具备日志分析,文件完整性检查,策略监控,rootkit检测,实时报警以及联动响应等功能.它支持多种操作系统:Linux.Windows.MacOS.Solaris.HP-UX.AIX.属于企业安全之利器.…
不多说,直接上干货! http://mvnrepository.com/ 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) 这里, 我重点说下spark项目,因为,对于hadoop这样的,我已经写了大量博客了. 比如,我目前用得较多的spark-mllib. 这里spark-mllib_2.10 就是你的scala版本是2.10.X系列.比如我一般是使用scala-2.10.4.…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率   具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集…
不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier   见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) val model = DecisionTree.trainClassifier(trainData, , Map[Int, Int](), impurity, maxDepth, maxBins) 在决策树回归分析参数设置中: 使用DecisionTree…
不多说,直接上干货! 参考博客 http://blog.csdn.net/u012318074/article/details/72793914   (表示感谢) 前期博客 Neo4j沙盒实验申请过程步骤(图文详解) Ubuntu14.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) 首先,查看下你的操作系统的版本. root@zhouls-virtual-machine:~# cat /etc/issue Ubuntu 14.04.4 LTS \n \l root@zhouls…
前期博客 Filebeat的下载(图文讲解) 前提 Elasticsearch-2.4.3的下载(图文详解) Elasticsearch-2.4.3的单节点安装(多种方式图文详解) Elasticsearch-2.4.3的3节点安装(多种方式图文详解) Logstash安装(图文详解)(多节点的ELK集群安装在一个节点就好) Kibana安装(图文详解)(多节点的ELK集群安装在一个节点就好) 在此基础上,我们安装好ELK(Elasticsearch.Logstasg和kibana)之后,我们继…
国庆节快乐,还在加班的童鞋,良辰必有重谢! 本文主要内容 头标签 排版标签:<p>     <br>     <hr>     <center>     <pre>     <div>     <span> 字体标记:<h1>    <font>    <b>    <u>    <sup>    <sub> 超链接 图片标签 一.HTML的介绍 1.…
jumpserver 堡垒机环境搭建(图文详解)   摘要: Jumpserver 是一款由python编写开源的跳板机(堡垒机)系统,实现了跳板机应有的功能.基于ssh协议来管理,客户端无需安装agent. 特点: 完全开源,GPL授权 Python编写,容易再次开发 实现了跳板机基本功能,认证.授权.审计 集成了Ansibl Jumpserver 是一款由python编写开源的跳板机(堡垒机)系统,实现了跳板机应有的功能.基于ssh协议来管理,客户端无需安装agent. 特点: 完全开源,G…
不多说,直接上干货! 很多地方都需用到这个知识点,比如Tableau里.   通常可以采取如python 和 r来作为数据处理的前期. Tableau学习系列之Tableau如何通过数据透视表方式读取数据文件(图文详解) 如何用Python来处理数据表的长宽转换(图文详解) 数据长宽转换是很常用的需求,特别是当是从Excel中导入的汇总表时,常常需要转换成一维表(长数据)才能提供给图表函数或者模型使用. 在R语言中,提供数据长宽转换的包主要有两个: reshape2::melt/dcast ti…
不多说,直接上干货! Win7/8/10里如何下载并安装最新稳定版本官网IBM SPSS Modeler 18.0 X64(简体中文 / 英文版)(破解永久使用)(图文详解)   我这里,是以SPSS Modeler 18.0为例 IBM SPSS Modeler 18.0功能特色: 1.访问各种类型的数据 借助SPSS Modeler,您可以使用各种分析技术访问数据源, 如数据仓库.数据库.Hadoop 分布或平面文件,以便从您 的数据中发现隐含的模式.这些统计技术使用历史数据来预 测当前状况…
这篇博客 是在Scala IDEA for Eclipse里手动创建scala代码编写环境. Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) 本博文,教大家,用maven来创建. 第一步:安装scala插件 因为,我win7下的scala环境是2.10.4 所以,选择下载的是,这个 下载好之后,解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可. 重启eclipse以后即可. 然后, Win…
不多说,直接上干货! 在这篇博客里,我采用了非官网的安装步骤,来进行安装.走了弯路,同时,也是不建议.因为在大数据领域和实际生产里,还是要走正规的为好. Ubuntu14.04下Mongodb(离线安装方式|非apt-get)安装部署步骤(图文详解)(博主推荐) 官方文档 https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/ 这里是一个总述,不多说. 这里是Overview,不多说. 第一步:为软件包管理系统导入公…
不多说,直接上干货! 在这篇博客里,我采用了非官网的安装步骤,来进行安装.走了弯路,同时,也是不建议.因为在大数据领域和实际生产里,还是要走正规的为好. Ubuntu16.04下Mongodb(离线安装方式|非apt-get)安装部署步骤(图文详解)(博主推荐)  官方文档 https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/ 这里是一个总述,不多说. 这里是Overview,不多说. 第一步:为软件包管理系统导入…
目录 STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解) STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装库(图文详解) 前面介绍了在Windows的Keil5环境下使用FwLib_STC8, 以下介绍在Linux(本文使用Ubuntu20.04)的VSCode下的环境搭建 配置VSCode开发环境运行演示用例 前提 已经安装完VSCode + PlatformIO环境, 并配置好MCS-51 Platform, 如果未完…