安装之前先安装基本环境:yum install -y perl perl-Module-Build net-tools autoconf libaio numactl-libs # 下载mysql源安装包 wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm /installpackage # 安装mysql源 yum localinstall mysql57-community-release-el7-…
选择用于桥接模式下的虚拟交换机,并且要选择对应的有线或者无线的网卡,如果主机是插网线联网的,那就选择有线网卡,如果主机是连无线网络的就选择无线网卡.Realtek PCIe GBE Family Controller:有线网卡 什么是桥接模式?桥接模式就是将主机网卡与虚拟机虚拟的网卡利用虚拟网桥进行通信.在桥接的作用下,类似于把物理主机虚拟为一个交换机,所有桥接设置的虚拟机连接到这个交换机的一个接口上,物理主机也同样插在这个交换机当中,所以所有桥接下的网卡与网卡都是交换模式的,相互可以访问而不干…
下载链接:https://tomcat.apache.org/download-80.cgi tar -zxvf apache-tomcat-8.5.42.tar.gz -C /usr/local/src 进入Tomcat目录下的conf目录: cd apache-tomcat-8.5.42/conf 通过vim命令编辑tomcat-users.xml文件,在tomcat-users标签对中增加如下代码: <role rolename="admin-gui"/> <r…
tar -xzvf jdk-8u151-linux-x64.tar.gz -C /usr/local/src sudo vim /etc/profile .编辑/etc/profile # JAVA export JAVA_HOME=/usr/local/src/jdk1..0_151 export JRE_HOME=$JAVA_HOME/jre export CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOM…
cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 修改完后需要重启.…
使用命令:systemctl status firewalld.service 查看防火墙状态 执行后可以看到绿色字样标注的“active(running)”,说明防火墙是开启状态 使用命令:systemctl stop firewalld.service 关闭运行的防火墙 关闭后,使用命令systemctl status firewalld.service 查看防火墙状态 可以看到,disavtive(dead)的字样,说明防火墙已经关闭 前面的方法,一旦重启操作系统,防火墙就自动开启了,该怎…
实验目的 复习配置hadoop初始化环境 复习配置hdfs的配置文件 学会配置hadoop的配置文件 了解yarn的原理 实验原理 1.yarn是什么 前面安装好了hdfs文件系统,我们可以根据需求进行数据的读写操作.hdfs解决了大数据的存储,接下来的问题就是根据实际的业务需求进行计算.目前大数据的计算业务主要有离线计算.实时计算.交互式查询.机器学习.图计算.例如storm是处理实时计算的,hadoop的mapreduce是处理批处理计算业务的.hive则是进行交互式查询的.这么多计算框架在…
实验目的 复习安装jdk 学习免密码登录 掌握安装配置hdfs集群的方法 掌握hdfs集群的简单使用和检查其工作状态 实验原理 1.hdfs是什么 hadoop安装的第一部分是安装hdfs,hdfs是一个磁盘文件系统,提供的功能类似于本地文件系统一样,可以通过命令进行增删改查文件,不同的是,hdfs通过将很多机器放在一起组成一个节点,大大提高了存储文件和处理文件的能力,也简化了对文件的操作. 2.hdfs的组成 hdfs的文件系统主要包括两个部分:namenode(管理节点)和datanode(…
实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班级 软工三班 专业名称 软件工程 实验组 其他成员 无 实验地点 F110 实验成绩 (教师签名)   实验目的与要求 了解PageRank算法 学会用mapreduce解决实际的复杂计算问题 搭建hadoop分布式集群 编写mapreduce代码 根据输入的网页链接数据,能够得到最终的pagera…
实验目的 深入了解mapreduce的底层 了解IDEA的使用 学会通过本地和集群环境提交程序 实验原理 1.回忆mapreduce模型 前面进行了很多基础工作,本次实验是使用mapreduce的API进行简单的大数据业务处理. MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性.它极大地方便了编程人员在不会分布式…
实验目的 熟悉hbase表格设计的方法 熟悉hbase的javaAPI 通过API理解掌握hbase的数据的逻辑视图 了解MVC的服务端设计方式 实验原理 上次我们已经初步设计了学生选课案例的,具体功能还不完善,但是实现方式都是在已经设计好的表格之上,调用hbase已有的API,本次我们将会实现一个稍微复杂的业务逻辑,类似新浪微博的项目.实际上新浪微博是一个特别庞大的系统,光内存数据库Redis就有几千台集群,每天的访问量和流量几乎是全国最高的网站,这样一个复杂的集群架构也特别复杂,我们只是实现…
HRegion 当表的大小超过设置值的时候,HBase会自动地将表划分为不同的区域,每个区域包含所有行的一个子集.对用户来说,每个表是一堆数据的集合,靠主键来区分.从物理上来说,一张表被拆分成了多块,每一块就是一个HRegion.我们用表名+开始/结束主键来区分每一个HRegion,一个HRegion会保存一个表里某段连续的数据,从开始主键到结束主键,一张完整的表是保存在多个HRegion上面的. HMaster 管理HRegionServer,实现其负载均衡. 管理和分配HRegion,比如在…
实验目的 了解Hadoop的概念和原理 学习HDFS架构原理 熟悉mapreduce框架 熟悉mapred和yarn命令 实验原理 1.hadoop和hadoop生态系统 hadoop的思想来源是Google,Google曾经面对一个问题,大量的网页怎么存储,怎么快速搜索的问题,于是三篇论文诞生了GFS.Map-Reduce.BigTable,这三篇论文的开源实现版本分别就是hadoop的hdfs.mapreduce和hbase,分别对应大数据存储.大数据分析计算.列式非关系型数据库. hado…
实验目的 学习安装Java 学习配置环境变量 学习设置免密码登陆的方法 掌握Linux环境下时间同步的配置 实验原理 1.Java的安装 java是大数据的黄金语言,这和java跨平台的特性是密不可分的,大数据的大部分框架,包括hadoop.hbase.tachyon等,都是用java实现,而spark框架的scala语言,也是基于java的虚拟机的,所以安装java是进行大数据处理的第一步. java的安装很简单,我们采用编译安装的方法安装.找到jdk的安装包,实验安装包在文档末,同学们可以参…
Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDF…
实验目的 掌握GOF设计模式的代理模式 了解掌握socket编程.java反射.动态代理 了解NIO.多线程 掌握hadoop的RPC框架使用API 实验原理 1.什么是RPC 在hadoop出现以前,我们写的程序一般都是单机版本,只能在一台机器上处理,而一台机器的处理能力总是有限的,hadoop让我们可以写出分布式程序,将多台节点联合到一起进行处理.分布式程序的各节点之间通信需要依靠网络,一种简单的思路就是部署一个Web服务器,例如tomcat,但是这样会使得整个架构太庞大冗余.通俗地讲,我们…
实验目的 了解java的安装配置 学习配置对自己节点的免密码登陆 了解hdfs的配置和相关命令 了解yarn的配置 实验原理 1.Hadoop安装 Hadoop的安装对一个初学者来说是一个很头疼的事情,要一步安装好整个hadoop集群难度特别大,所以一个快捷的学习方法是边安装边学习,安装的时候,先搭建单节点伪分布式,然后再搭建完全分布式,最后搭建高可用的分布式集群,如果有兴趣,还可以研究怎么使用CDH搭建超大规模的集群. 安装之前,首先需要懂一个概念:hadoop有三个部分,hdfs.mapre…
实验目的 熟悉hive和hbase的操作 熟悉hadoop.hbase.hive.zookeeper的关系 熟练大数据环境的搭建 学会分析日志排除问题 实验原理 1.hive整合hbase原理 前面大家已经了解了Hive和Hbase,Hive是一个mapreduce的客户端,把sql语句转化为mapreduce程序执行,同时提供了数据仓库技术.Hbase是一个非关系型数据库,数据存储的时候面向列,方便横向扩展,但是不方便进行关系查询和二级索引.有时候为了方便操作,需要用hive操作hbase进行…
实验目的 了解pig的该概念和原理 了解pig的思想和用途 了解pig与hadoop的关系 实验原理 1.Pig 相比Java的MapReduce API,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构.Pig还提供了一套更强大的数据变换操作,包括在MapReduce中被忽视的连接Join操作. Pig包括两部分: 用于描述数据流的语言,称为Pig Latin. 用于执行Pig Latin程序的执行环境,当前有两…
实验目的 熟悉hadoop生态系统 初步了解大数据点击流分析业务 学会使用hadoop进行数据分析统计 实验原理 hadoop主要有三部分,hdfs做数据存储.mapreduce做数据计算.yarn做资源调度.在企业生产环境下,对数据做统计需要结合hadoop三个部分综合运用,中间还要使用kafka.storm.hive.hbase.flume.sqoop.mahout等其它工具.架构一般都会很复杂,接下来几个实验我们主要是针对mapreduce的运用,熟悉企业数据处理的一般步骤. 1.数据ET…
实验目的 理解mapreduce的工作原理 理解Partitioner的书写方法 理解GroupingComparator的书写方法 实验原理 我们已经学习了hadoop的大部分基础知识,剩下的就是利用hadoop解决实际的业务问题.首先我们回顾一下mapreduce的工作过程: 数据通过InputFormat中定义的RecordReader读进来,然后以键值对的形式写出去,在map中进行处理,map处理完成后以键值对的形式写出,中途经过分区.分组.排序后,将key相同的value放进一个迭代器…
实验目的 了解zookeeper的概念和原理 学会安装zookeeper集群并验证 掌握zookeeper命令使用 实验原理 1.Zookeeper介绍 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等.Zookeeper是hadoop的一个子项目. Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步.实现这个机制的协议叫做Zab协议.Zab协议有两种模式,它们分别是恢…