不多说,直接上干货! 很多同行,也许都知道,对于我们大数据搭建而言,目前主流,分为Apache 和 Cloudera 和 Ambari. 后两者我不多说,是公司必备和大多数高校科研环境所必须的! 分别,详情见我如下的博客 Cloudera安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) Ambari安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) 我这里,对于初学者而言.一般是用Apahce和CDH这两个版本的hadoop.spark来练手和入门 . Xmanager Ent…
不多说,直接上干货! 一.简介 eclipse可谓是Java开发界的神器,基本占据了大部分的Java开发市场,而且其官方还对其他语言提供支持,如C++,Ruby,JavaScript等等.为什么使用它?我想离不开下面的一些因素:1.开发界面简洁.大方.2.丰富的插件支持.3.为Java量身定做.4.及其人性化设计. 不得不说,eclipse是业界被广为认可的开发利器,所以,对于这么一款软件,我们必须要学会它的使用及优化配置! 二.常用快捷键(以下非常实用) eclipse提供了丰富的快捷操作,默…
不多说,直接上干货! 同时,声明,我这里安装的vsftp,仅仅只为我的大数据着想,关于网上的复杂安装,那是服务和运维那块.我不多牵扯,也不多赘述. 一.CentOS系统里安装vsftp 第一步:使用yum命令安装vsftp [root@bigdatamaster hadoop]# yum -y install vsftpd 第二步:配置vsftpd文件 vi /etc/vsftpd/vsftpd.conf 第三步:配置 write_enable = YES ascii_upload_enable…
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168.80.12) 然后,安装目录是在/home/hadoop/app下. 官方建议在master机器上安装Hue,我这里也不例外.安装在bigdatamaster机器上. Hue版本:hue-3.9.0-cdh5.5.4 需要编译才能使用(联网) 说给大家的话:大家电脑的配置好的话,一定要安装clou…
不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解) 如果在一个界面里,可以是多个项目 注意:本文是以maven项目的方式来做的! IDEA学习系列之IDEA里如何正确设置(类似eclipse里同一个wor…
为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物理机器环境实验室的大数据集群平台.在此,为了需要的博友们,能在自己虚拟机里(我这里是CentOS6.5)来搭建部署snort+barnyard2+base的入侵检测系统.分享与交流是进步的阶梯! 同时,本人还尝试过在Ubuntu14.04里搭建这入侵检测系统的环境.同时,还尝试过在win7\win10里搭建这入侵检测系统…
为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习.人工智能.区域链研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物理机器环境实验室的大数据集群平台.在此,为了需要的博友们,能在自己虚拟机里(我这里是CentOS6.5)来搭建部署snort+barnyard2+base的入侵检测系统.分享与交流是进步的阶梯! 同时,本人还尝试过在Ubuntu14.04里搭建这入侵检测系统的环境.同时,还尝试过在win7\win10里…
进入我这篇博客的博友们,相信你们具备有一定的spark学习基础和实践了. 先给大家来梳理下.spark的运行模式和常用的standalone.yarn部署.这里不多赘述,自行点击去扩展. 1.Spark运行模式概述 2.Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2) 3.Spark standalone简介与运行wordcount(master.slave1和slave2) 4.Spark on…
POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入会引起老一行的数据刷新到硬盘. 比如内存中限制行数为100,当行号到达101时,行号为0的记录刷新到硬盘并从内存中删除,当行号到达102时,行号为1的记录刷新到硬盘,并从内存中删除,以此类推. rowAccessWindowSize代表指定的内存中缓存记录数,默认为100,此值可以通过 new SX…
关于tomcat的一个优化问题: 有时候保存大数据量的数据时.tomcat不优化的话,页面会没反应.tomcat后台并不报错,仅仅是提示以下内容: 警告: More than the maximum number of request parameters (GET plus POST) for a s ingle request ([10,000]) were detected. Any parameters beyond this limit have be en ignored. To c…
不多说,直接上干货! 在前面的博文里,我已经介绍了 大数据入门基础系列之Linux操作系统简介与选择 大数据入门基础系列之虚拟机的下载.安装详解 大数据入门基础系列之Linux的安装详解 大数据入门基础系列之远程连接工具下载和安装详解 大数据入门基础系列之Apache版本的hadoop集群详细部署搭建(包括HA和非HA)(包括单节点.3节点.5节点) 大数据入门基础系列之CDH版本的hadoop集群详细部署搭建(3节点) 大数据入门基础系列之ClouderManager版本的hadoop集群详细…
对于这里的打包,总结: (1)     最简单的,也是为了适应公司里,还是要用maven,当然spark那边sbt,maven都可以.但是maven居多. Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序?(企业级水平) IDEA里如何多种方式打jar包,然后上传到集群 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) (2)     将整个项目打jar包进去,只需指定…
不多说,直接上干货! 为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物理机器环境实验室的大数据集群平台.在此,为了需要的博友们,能在自己虚拟机里(我这里是CentOS6.5)来搭建部署snort+barnyard2+base的入侵检测系统.分享与交流是进步的阶梯! 同时,本人还尝试过在Ubuntu14.04里搭建这入侵检测系统的环境.同时,还尝试过在win7\win1…
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168.80.12) 然后,安装目录是在/home/hadoop/app下. 官方建议在master机器上安装Hue,我这里也不例外.安装在bigdatamaster机器上. Hue版本:hue-3.9.0-cdh5.5.4 需要编译才能使用(联网) 说给大家的话:大家电脑的配置好的话,一定要安装clou…
不多说,直接上干货! 首先,这个问题,写给需要帮助的朋友们,本人在此,搜索资料近半天,才得以解决.看过国内和国外,资料甚少.特此,写此博客,为了弥补此错误解决的资料少的缘故! 问题详解  解决办法  在host界面,将主机全部删除,再添加. 是你这台主机由于服务已经被你删除,你需要重新安装一次,你可以在这个添加主机的页面多次删除,看下是否能彻底删除这台主机.删除之后,重新添加这台主机.页面删除后如果刷新还是会出来的情况下直接到主机上停止cloudera-scm-agent服务,然后就刷新不出来了…
为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物理机器环境实验室的大数据集群平台.在此,为了需要的博友们,能在自己虚拟机里(我这里是CentOS6.5)来搭建部署snort+barnyard2+base的入侵检测系统.分享与交流是进步的阶梯! 同时,本人还尝试过在Ubuntu14.04里搭建这入侵检测系统的环境.同时,还尝试过在win7\win10里搭建这入侵检测系统…
关于 Buffered Query 和 Unbuffered Query:http://www.php.net/manual/zh/mysqlinfo.concepts.buffering.php 对于结果集小的查询,一般就开启 Buffered Query 一次取回(fetchAll): 对于结果集很大的查询,可以开启 Unbuffered Query 来遍历资源一条条 fetch,避免撑爆客户端内存: PDO 属性设置:http://php.net/manual/zh/pdo.setattr…
在使用Easyui DataGrid 过程中,发现若单页数据量超过300,IE浏览器加载速度很慢.也通过网上找寻了很多解决方案,最典型的就是去掉datagrid的自动列宽以及自动行高判断. 1.解决自动列宽:  设定列宽度可解决. 2.解决自动行高 : 注释掉下面的代码. function _3e(_44,_45){ //for(var i=0;i<_45.length;i++){ ////var tr1=$(_44[i]); ////var tr2=$(_45[i]); ////tr1.css…
我目前,收录经常用的是,这两个版本,这个根据博主我本人的经验之谈,最为稳定和合理的. 注意:我的本地路径是在D:/SoftWare/maven/repository,大家自己改为你们自己的即可.   优先用这个(推荐版本1) <?xml version="1.0" encoding="UTF-8"?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more co…
一.简介 1.简介 简 介• Kafka是Linkedin于2010年12月份开源的消息系统• 一种分布式的.基于发布/订阅的消息系统 2.特点 – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息读写– 分布式:扩展能力强– 多客户端支持:java.php.python.c++ ……– 实时性:生产者生产的message立即被消费者可见 3.基本组件 • Broker:每一台机器叫一个Broker• Producer:日志消息生产者,用来写数据• Consu…
# # 最近出了一趟差,是从20号去的,今天回来... # 就把最近学习的python内容给大家分享一下... # ''' 在python中,configparser模块提供了操作*.ini配置文件的一些操作方法 就如python的API中所描述的一样: This module provides the ConfigParser class which implements a basic configuration language which provides a structure sim…
关于,这篇博客呢,是…
大数据技术之Hadoop3.1.2版本完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.主机环境准备 1>.操作系统环境 [root@node101.yinzhengjie.org.cn ~]# cat /etc/redhat-release CentOS Linux release (Core) [root@node101.yinzhengjie.org.cn ~]# [root@node101.yinzhengjie.org.cn ~]# uname -r…
点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache  DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统从 Airflow 迁移到 Apache  DolphinScheduler 的方案设计思考和生产环境实践. 这位来自浙江杭州的 90 后年轻人自 2019 年 9 月加入有赞,在这里从事数据开发平台.调度系统和数据同步组件的研发工作.刚入职时,有赞使用的还是同为 Apache 开源项目的 Airf…
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代. 我其实已经听过很多人跟我说过类似的话.只不过不同人嘴里提到的词汇各有不同——大数据.数据挖掘.机器学习.人工智能…… 这些当前火热的概念各有不同,又有交叉,总之都是推动我们掌控好海量数据,并从中提取到有价值信息的技术. 程序员对这些技术跃跃欲试,知乎上「深度学习如何入…
对于初学大数据的萌新来说,初次接触Hadoop伪分布式搭建的同学可能是一脸萌笔的,那么这一次小编就手把手的教大家在centos7下搭建Hadoop伪分布式. 底层环境: VMware Workstation 15.0,centos7 SSH工具: xshell 软件包: hadoop-2.7.6.tar.gz jdk-8u201-linux-x64.tar.gz 由于对于大数据的学习初期的同学,对于centos的安装应该非常熟练,故在这里不详述,这里我们开始说具体的步骤: 这里给出大家一个思维导…
CDH构建大数据平台-Kerberos高可用部署[完结篇] 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.  一.安装Kerberos相关的软件包并同步配置文件 1>.实验环境说明 [root@node101.yinzhengjie.org.cn ~]# cat /etc/redhat-release CentOS Linux release (Core) [root@node101.yinzhengjie.org.cn ~]# [root@node101.yinzhengji…
如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能.大数据和云计算. 这几年,随着互联网大潮走向低谷,同时传统企业纷纷进行数字化转型,基本各个公司都在考虑如何进一步挖掘数据价值,提高企业的运营效率.在这种趋势下,大数据技术越来越重要.所以,AI时代,还不了解大数据就真的OUT了! 相比较AI和云计算,大数据的技术门槛更低一些,而且跟业务的相关性更大.我个人感觉再过几年,大数据技术将会像当前的分布式技术一样,变成一项基本的技能要…
JAVA开发搞了一年多大数据的总结 ​ 2021年7月份加入了当前项目组,以一个原汁原味的Java开发工程师的身份进来的,来了没多久,项目组唯一一名大数据开发工程师要离职了,一时间一大堆的数据需求急需人来接手,此刻又招不来新的数据开发.没辙,我和同组的另一位Java开发同事算是临危受命,接下了大数据方面的工作,开启了Java工程师从0到1搞大数据的漫长旅途,开始的磕磕碰碰叫苦不堪到如今的还算得心应手,已经整整16个月了,16个月期间双向支持着数据分析和后端开发的工作,两者时而穿插时而并行处理,大…