一.Hadoop的优势 1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理. 2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点. 3) 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度. 4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配. 二.Hadoop组成 1)Hadoop HDFS:一个高可靠.高吞吐量的分布式文件系统. 2)Hadoop Map…
一.CentOS 6.4安装Nginx http://shiyanjun.cn/archives/72.html 二.安装Flume 1. 下载flume-ng-1.5.0-cdh5.3.6.tar.gz 下载地址http://archive.cloudera.com/cdh5/cdh/5/ 2. 解压 -cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 1)vi flume-env.sh export JAVA_HOME=/opt/modules/jdk…
大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce 六):揭秘HBase 七):HBase编程 ----------------------------------------------------------------- 1):下载安装 hadoop(这里使用2.8版本:点我下载) 2):通过 (xftp 或 rz 命令)上传到指定目录下并解压…
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间. Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单…
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建 二.Hive环境搭建 1. 准备安装文件 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hive-0.13.1-cdh5.3.6.tar.gz 2. 解压 -cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 cd /opt/modules/cdh/hive--cdh5.3.6/conf mv hive-env.sh.template h…
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深入大数据开发才能逐步掌握大数据.而首先要搭开发环境,对于一个像我这样之前只做过plsql开发的人来说,确实走了很多弯路.一开始目标设得很高,直接下源代码编译成jar包进行使用,后来发现其实没什么必要,受到一些非技术因素尤其是天朝特色社会主义网络的影响,sbt基本无法使用,直接下官方编译好的版本就行了…
一.MongonDB环境搭建 1. 下载 https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz 2. 解压 tar -zxvf mongodb-linux-x86_64-3.0.6.tgz -C /opt/modules 3. 创建目录 mkdir -p /opt/modules/mongodb-linux-x86_64-3.0.6/data/db 4. 启动 bin/mongod --dbpath /opt/module…
官网: http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/ 一.Hue环境搭建 1. 下载 http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6.tar.gz 2. 解压 -cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 安装依赖包 sudo yum -y install ant asciidoc cyrus-sasl-devel cyr…
一.IP原理 关于IP我的理解, (1)主要去理解IP地址的作用,IP地址包括网络相关部分和主机的相关部分.即:用一段特殊的数据,来标识网络特征和主机的特征. 至于具体的技术实现,日后可以慢慢体会和了解. IP的基本原理可以参考:https://www.cnblogs.com/yinzhengjie/p/6649245.html (2)静态IP与动态IP的区别 这两者的理解可以参考下面这句话,我觉得说的比较清楚. 动态获取,优点是上级下发,IP地址.子网掩码.网关.dns服务器都是上级认为的正确…
一.环境搭建 1. 下载 http://www.apache.org/dyn/closer.lua/storm/apache-storm-0.9.6/apache-storm-0.9.6.tar.gz 2. 解压 .tar.gz -C /opt/modules/ 3. 修改配置 1)创建目录 /workspace 2)修改storm_env.ini # The java implementation to use. If JAVA_HOME is not found we expect java…