hadoop hadoop install (1)

hadoop redis install (4)

reference: http://dblab.xmu.edu.cn/blog/131/ https://github.com/dmajkic/redis https://blog.csdn.net/eroswang/article/details/7080412 hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar zvxf /home/hadoop/redis-3.2.7.tar.gz -C ./[sudo] password fo…

hadoop hadoop install (1)

vmuser@vmuser-VirtualBox:~$ sudo useradd -m hadoop -s /bin/bash[sudo] vmuser 的密码: vmuser@vmuser-VirtualBox:~$ sudo passwd hadoop输入新的 UNIX 密码: 重新输入新的 UNIX 密码: passwd:已成功更新密码vmuser@vmuser-VirtualBox:~$ sudo adduser hadoop sudo 正在添加用户"hadoop"到"…

hadoop kafka install (6)

reference: http://kafka.apache.org/quickstart http://dblab.xmu.edu.cn/blog/1096-2/ hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar zvxf /home/hadoop/kafka_2.10-0.10.1.0.tgz -C /usr/local/ hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo mv kafk…

hadoop hive install (5)

reference : http://dblab.xmu.edu.cn/blog/install-hive/ http://dblab.xmu.edu.cn/blog/hive-in-practice/ hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar -zvxf /home/hadoop/apache-hive-1.2.1-bin.tar.gz -C /usr/local/ hadoop@iZuf68496ttdogcxs22w6sZ:/u…

hadoop mongodb install(3)

reference:http://dblab.xmu.edu.cn/blog/868-2/ root@iZuf68496ttdogcxs22w6sZ:~# mv mongodb-linux-x86_64-ubuntu1604-3.2.7.tgz /usr/local/root@iZuf68496ttdogcxs22w6sZ:~# su hadoop hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar zxf mongodb-linux-x86_…

[Hadoop]Hadoop章2 HDFS原理及读写过程

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统. HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复.默认存3份. ② 运行在廉价的机器上. ③ 适合大数据的处理.多大?多小?HDFS默认会将文件分割成block,64M为1个block.然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中.如果小文件太多,那内存的负担会很重. 如上图所示,HDFS也是按照Master和Slave的结构.分NameN…

Hadoop hadoop 机架感知配置

机架感知脚本使用python3编写机架感知脚本,报存到topology.py,给予执行权限 import sys import os DEFAULT_RACK="/default-rack" HADOOP_CONF_DIR = os.environ['HADOOP_CONF_DIR'] FILE="topology.data" host_rack={} for line in open(os.path.join(HADOOP_CONF_DIR, FILE)): (…

hadoop mysql install (5)

reference : http://dblab.xmu.edu.cn/blog/install-mysql/ http://wiki.ubuntu.org.cn/MySQL #install mysql package: hadoop@iZuf68496ttdogcxs22w6sZ:~$ sudo apt-get install mysql-server mysql-client #start mysql service root@iZuf68496ttdogcxs22w6sZ:/etc/my…

hadoop hbase install (2)

reference: http://dblab.xmu.edu.cn/blog/install-hbase/ reference: http://dblab.xmu.edu.cn/blog/2139-2/ wget sudo wget http://archive.apache.org/dist/hbase/1.1.5/hbase-1.1.5-bin.tar.gzsudo tar zvxf hbase-1.1.5-bin.tar.gzsudo mv hbase-1.1.5 hbasesudo c…

hadoop kafka install multi-borker (7)

multi-borker function like cluster technology First we make a config file for each of the brokers (on Windows use the copy command instead > cp config/server.properties config/server-1.properties> cp config/server.properties config/server-2.properti…

[hadoop] hadoop native libraries 编译

安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-Javaclasses where applicable 原因:Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本. 解决方法: 一. 去网站:http://dl.bintray.com/sequenceiq/sequenceiq-bin/ 下载对应的编译版本,…

[Hadoop] Hadoop学习历程 [持续更新中…]

1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成,而这就是Hadoop FS Shell.它主要是用于对Hadoop平台进行文件系统的管理. 有关HDFS的介绍博客请移步:Hadoop学习笔记之Hadoop基础. 有关Hadoop FS Shell的学习文档:Hadoop FS Shell学习文档. 2. Hadoop Streaming 我们知…

[Hadoop] Hadoop学习笔记之Hadoop基础

1 Hadoop是什么? Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据:另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理.Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了. Hadoop是一种开源的适合…

EDW on Hadoop(Hadoop上的数据仓库)技术选型和实践思考

在这篇文章中, 将讨论EDW on Hadoop 有哪些备选方案, 以及我个人的倾向性, 最后是建构方法. 欢迎转载, 但必须注明原贴(刘忠武, http://www.cnblogs.com/harrychinese/p/edw_on_hadoop.html). 数据仓库发展已经有二十多年了, 我们先看看数据仓库发展的趋势: 在数据规模小的时候, 采用单节点RDBMS作为存储和执行引擎, 比如Oracle/PostgreSQL/MySQL都行; 当数据规模大了后, 或者时间窗口很紧时, 多采…

[hadoop] hadoop “util.NativeCodeLoader: Unable to load native-hadoop library for your platform”

执行 bin/hdfs dfs -mkdir /user,创建目录时出现警告信息. WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 我这里用的是hadoop 2.6.4. 下载hadoop-native-64-2.6.0.tar: http://dl.bintray.com/sequen…

java.io.FileNotFoundException: /home/hadoop/hadoop/dfs/namenode/current/VERSION (Permission denied)

今天布置hadoop集群,尝试单独将secondarynamenode分属到一台独立的虚拟机上, 当格式化后,start-dfs.sh.namenode没启动.查看日志.报错例如以下查看权限才发现,/current/VERSION是隶属root的.须要更改用户. 之后.再start-dfs.sh,依旧提示no [master](网上有人说是hosts下的hostname的问题,可是我核对多次,没有问题), 可是namenode进程确实起开了. 版权声明:本文博客原创文章,博客,未经同意,不得转…

[Hadoop] - Hadoop Mapreduce Error: GC overhead limit exceeded

在运行mapreduce的时候,出现Error: GC overhead limit exceeded,查看log日志,发现异常信息为 2015-12-11 11:48:44,716 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at java.io.DataInputStream.readU…

[Hadoop]Hadoop章3 NameNode的ZKFC机制

基本概念首先我们要明确ZKFC 是什么,有什么作用: zkfc是什么? ZooKeeperFailoverController 它是什么?是Hadoop中通过ZK实现FC功能的一个实用工具. 主要作用:作为一个ZK集群的客户端,用来监控NN的状态信息. 谁会用它?每个运行NN的节点必须要运行一个zkfc 有啥功能? 1.Health monitoring zkfc定期对本地的NN发起health-check的命令,如果NN正确返回,那么这个NN被认为是OK的.否则被认为是失效节点. 2.Zoo…

一起学Hadoop——Hadoop的前世今生

Hadoop是什么? Hadoop是一个处理海量数据的开源框架.2002年Nutch项目面世,这是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低下,无法存储爬取网页和搜索网页时产生的海量数据的问题.2003年谷歌发布了一篇论文,专门介绍他们的分布式文件存储系统GFS.鉴于GFS在存储超大文件方面的优势,Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统,即NDFS.2004年谷歌发布了另一篇论文,专门介绍他们处理大数据的计算框架Map…

[Hadoop]Hadoop章1 Hadoop原理解析

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统.最核心的模块包括Hadoop Common.HDFS与MapReduce. HDFS HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持.采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能. HDFS采用master/slave架构.一个HDFS集群包含一个单独的NameNode和多个DataNo…

[hadoop] hadoop 运行 wordcount

讲准备好的文本文件放到hdfs中执行 hadoop 安装包中的例子 [root@hadoop01 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.8.0.jar wordcount /input/ /output/wordcount 17/05/14 02:01:17 INFO client.RMProxy: Connecting to ResourceManager at hadoop01/172.16.253.128:8032 17/0…

org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="hadoop": hadoop:supergroup:rwxr-xr-x

这时windows远程调试hadoop集群出现的这里做个记录我用改变系统变量的方法修正了错误网上搜索出来大概有三种: 1.在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,这个值具体等于多少看自己的情况,以后会运行HADOOP上的Linux的用户名.(修改完重启idea,不然可能不生效) 2.将当前系统的帐号修改为hadoop 3.使用HDFS的命令行接口修改相应目录的权限,hadoop fs -chmod 777 /user,后面的/user是要上传文…

[hadoop]hadoop api 新版本与旧版本的差别

突然现在对以后的职业方向有些迷茫,不知道去干什么,现在有一些语言基础,相对而言好的一些有Java和C,选来选去不知道该选择哪个方向,爬了好多网页后,觉得自己应该从java开始出发,之前有点心不在焉,不知道从而且还在中途走了一段的弯路,没事干又跑去研究了一段时间的Php,但是后来发现php可以作为自己的一个业余爱好吧,还好自己还有时间,觉得从java基础学习一下基于hadoop的海量数据处理还是就业前景还是不错的,奥,跑题了,随便扯点,最近学习hadoop,看到第二章,发现这里有点意思,里边的一部…

[hadoop]hadoop学习路线

1.主要学习hadoop中的四大框架:hdfs.mapreduce.hive.hbase.这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的. 2.熟悉了解hadoop基本知识及其所需要的知识例如java基础.linux环境.linux常用命令 3.hadoop一些基本知识:hadoop HDFS文件系统的特征.Map/Reduce.Hadoop mapper类的阅读.Hadoop reducer类的阅读.Mapreduce shuffle和排序 4.hadoop部署方式为单机…

[Hadoop] - Hadoop 3.x版本新特性

仅做记录--->官方说明:http://hadoop.apache.org/docs/r3.0.0-alpha2/index.html =========================================== 1. JDK版本的最低依赖从1.7变成了1.8 2. HDFS支持Erasure Encoding 3. Timeline Server v2版本 4. hadoop-client这个依赖分为hadoop-client-api和hadoop-client-runtime两个依…

Hadoop ->> Hadoop是什么？

Hadoop是什么? 1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算: 2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈. 3)Hadoop核心是HDFS和MapReduce.HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储).高效(多节点并行处理).高拓展(节点自由拓展).低成本(HDFS是用Java写的,不存在平…