hadoop hadoop install (1)】的更多相关文章

reference: http://dblab.xmu.edu.cn/blog/131/    https://github.com/dmajkic/redis   https://blog.csdn.net/eroswang/article/details/7080412 hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar zvxf /home/hadoop/redis-3.2.7.tar.gz -C ./[sudo] password fo…
vmuser@vmuser-VirtualBox:~$ sudo useradd -m hadoop -s /bin/bash[sudo] vmuser 的密码: vmuser@vmuser-VirtualBox:~$ sudo passwd hadoop输入新的 UNIX 密码: 重新输入新的 UNIX 密码: passwd:已成功更新密码vmuser@vmuser-VirtualBox:~$ sudo adduser hadoop sudo 正在添加用户"hadoop"到"…
reference: http://kafka.apache.org/quickstart  http://dblab.xmu.edu.cn/blog/1096-2/ hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar zvxf /home/hadoop/kafka_2.10-0.10.1.0.tgz  -C  /usr/local/ hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo mv kafk…
reference : http://dblab.xmu.edu.cn/blog/install-hive/ http://dblab.xmu.edu.cn/blog/hive-in-practice/ hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar -zvxf /home/hadoop/apache-hive-1.2.1-bin.tar.gz -C /usr/local/ hadoop@iZuf68496ttdogcxs22w6sZ:/u…
reference:http://dblab.xmu.edu.cn/blog/868-2/ root@iZuf68496ttdogcxs22w6sZ:~# mv mongodb-linux-x86_64-ubuntu1604-3.2.7.tgz /usr/local/root@iZuf68496ttdogcxs22w6sZ:~# su hadoop hadoop@iZuf68496ttdogcxs22w6sZ:/usr/local$ sudo tar zxf mongodb-linux-x86_…
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统. HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复.默认存3份. ② 运行在廉价的机器上. ③ 适合大数据的处理.多大?多小?HDFS默认会将文件分割成block,64M为1个block.然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中.如果小文件太多,那内存的负担会很重. 如上图所示,HDFS也是按照Master和Slave的结构.分NameN…
机架感知脚本 使用python3编写机架感知脚本,报存到topology.py,给予执行权限 import sys import os DEFAULT_RACK="/default-rack" HADOOP_CONF_DIR = os.environ['HADOOP_CONF_DIR'] FILE="topology.data" host_rack={} for line in open(os.path.join(HADOOP_CONF_DIR, FILE)): (…
reference : http://dblab.xmu.edu.cn/blog/install-mysql/ http://wiki.ubuntu.org.cn/MySQL #install mysql package: hadoop@iZuf68496ttdogcxs22w6sZ:~$ sudo apt-get install mysql-server mysql-client #start mysql service root@iZuf68496ttdogcxs22w6sZ:/etc/my…
reference: http://dblab.xmu.edu.cn/blog/install-hbase/ reference: http://dblab.xmu.edu.cn/blog/2139-2/ wget sudo wget http://archive.apache.org/dist/hbase/1.1.5/hbase-1.1.5-bin.tar.gzsudo tar zvxf hbase-1.1.5-bin.tar.gzsudo mv hbase-1.1.5 hbasesudo c…
multi-borker function like cluster technology First we make a config file for each of the brokers (on Windows use the copy command instead > cp config/server.properties config/server-1.properties> cp config/server.properties config/server-2.properti…
安装hadoop启动之后总有警告:Unable to load native-hadoop library for your platform... using builtin-Javaclasses where applicable 原因:Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本. 解决方法: 一. 去网站:http://dl.bintray.com/sequenceiq/sequenceiq-bin/  下载对应的编译版本,…
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成,而这就是Hadoop FS Shell.它主要是用于对Hadoop平台进行文件系统的管理. 有关HDFS的介绍博客请移步:Hadoop学习笔记之Hadoop基础. 有关Hadoop FS Shell的学习文档:Hadoop FS Shell学习文档. 2. Hadoop Streaming 我们知…
1 Hadoop是什么? Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据:另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理.Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了. Hadoop是一种开源的适合…
在这篇文章中, 将讨论EDW on Hadoop 有哪些备选方案, 以及我个人的倾向性, 最后是建构方法.  欢迎转载, 但必须注明原贴(刘忠武,  http://www.cnblogs.com/harrychinese/p/edw_on_hadoop.html). 数据仓库发展已经有二十多年了, 我们先看看数据仓库发展的趋势: 在数据规模小的时候, 采用单节点RDBMS作为存储和执行引擎, 比如Oracle/PostgreSQL/MySQL都行; 当数据规模大了后, 或者时间窗口很紧时, 多采…
执行 bin/hdfs dfs -mkdir /user,创建目录时出现警告信息. WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 我这里用的是hadoop 2.6.4. 下载hadoop-native-64-2.6.0.tar: http://dl.bintray.com/sequen…
今天布置hadoop集群,尝试单独将secondarynamenode分属到一台独立的虚拟机上, 当格式化后,start-dfs.sh.namenode没启动.查看日志.报错例如以下 查看权限才发现,/current/VERSION是隶属root的.须要更改用户. 之后.再start-dfs.sh,依旧提示no [master](网上有人说是hosts下的hostname的问题,可是我核对多次,没有问题), 可是namenode进程确实起开了. 版权声明:本文博客原创文章,博客,未经同意,不得转…
在运行mapreduce的时候,出现Error: GC overhead limit exceeded,查看log日志,发现异常信息为 2015-12-11 11:48:44,716 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at java.io.DataInputStream.readU…
基本概念 首先我们要明确ZKFC 是什么,有什么作用: zkfc是什么? ZooKeeperFailoverController 它是什么?是Hadoop中通过ZK实现FC功能的一个实用工具. 主要作用:作为一个ZK集群的客户端,用来监控NN的状态信息. 谁会用它?每个运行NN的节点必须要运行一个zkfc 有啥功能? 1.Health monitoring zkfc定期对本地的NN发起health-check的命令,如果NN正确返回,那么这个NN被认为是OK的.否则被认为是失效节点. 2.Zoo…
Hadoop是什么? Hadoop是一个处理海量数据的开源框架.2002年Nutch项目面世,这是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低下,无法存储爬取网页和搜索网页时产生的海量数据的问题.2003年谷歌发布了一篇论文,专门介绍他们的分布式文件存储系统GFS.鉴于GFS在存储超大文件方面的优势,Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统,即NDFS.2004年谷歌发布了另一篇论文,专门介绍他们处理大数据的计算框架Map…
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统.最核心的模块包括Hadoop Common.HDFS与MapReduce. HDFS HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持.采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能. HDFS采用master/slave架构.一个HDFS集群包含一个单独的NameNode和多个DataNo…
讲准备好的文本文件放到hdfs中 执行 hadoop 安装包中的例子 [root@hadoop01 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.8.0.jar wordcount /input/ /output/wordcount 17/05/14 02:01:17 INFO client.RMProxy: Connecting to ResourceManager at hadoop01/172.16.253.128:8032 17/0…
这时windows远程调试hadoop集群出现的这里 做个记录   我用改变系统变量的方法 修正了错误 网上搜索出来大概有三种: 1.在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,这个值具体等于多少看自己的情况,以后会运行HADOOP上的Linux的用户名.(修改完重启idea,不然可能不生效) 2.将当前系统的帐号修改为hadoop 3.使用HDFS的命令行接口修改相应目录的权限,hadoop fs -chmod 777 /user,后面的/user是要上传文…
突然现在对以后的职业方向有些迷茫,不知道去干什么,现在有一些语言基础,相对而言好的一些有Java和C,选来选去不知道该选择哪个方向,爬了好多网页后,觉得自己应该从java开始出发,之前有点心不在焉,不知道从而且还在中途走了一段的弯路,没事干又跑去研究了一段时间的Php,但是后来发现php可以作为自己的一个业余爱好吧,还好自己还有时间,觉得从java基础学习一下基于hadoop的海量数据处理还是就业前景还是不错的,奥,跑题了,随便扯点,最近学习hadoop,看到第二章,发现这里有点意思,里边的一部…
1.主要学习hadoop中的四大框架:hdfs.mapreduce.hive.hbase.这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的. 2.熟悉了解hadoop基本知识及其所需要的知识例如java基础.linux环境.linux常用命令 3.hadoop一些基本知识:hadoop HDFS文件系统的特征.Map/Reduce.Hadoop mapper类的阅读.Hadoop reducer类的阅读.Mapreduce shuffle和排序 4.hadoop部署方式为单机…
仅做记录--->官方说明:http://hadoop.apache.org/docs/r3.0.0-alpha2/index.html =========================================== 1. JDK版本的最低依赖从1.7变成了1.8 2. HDFS支持Erasure Encoding 3. Timeline Server v2版本 4. hadoop-client这个依赖分为hadoop-client-api和hadoop-client-runtime两个依…
Hadoop是什么? 1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算: 2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈. 3)Hadoop核心是HDFS和MapReduce.HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储).高效(多节点并行处理).高拓展(节点自由拓展).低成本(HDFS是用Java写的,不存在平…
hadoop版本:2.9.2 1.带宽的设置参数: dfs.datanode.balance.bandwidthPerSec   默认值 10m 2.datanode之间数据块的传输线程大小:dfs.datanode.max.transfer.threads 默认值4096 3.修改dfs.datanode.balance.max.concurrent.moves ,指定DataNode上同时用于balance待移动block的最大线程个数,这个值默认是50 如果dfs.datanode.bal…
hadoop 之hdfs数据块修复方法: .手动修复 hdfs fsck / #检查集群的健康状态 hdfs debug recoverLease -path 文件位置 -retries 重试次数 #修复指定的hdfs数据块.也就是关闭打开的文件. 检查坏块: hadoop fsck /user -files -blocks -locations 检查是否有数据块正在写入: hadoop fsck /user openforwrite…
Hadoop简介 Hadoop软件库是一个开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集.它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储.库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障.是大数据技术的基础. hadoop生态系统 ♥  hadoop分布式文件系统(HDFS):一种分布式文件系统,能够提供高可靠.高可用.可扩展以及对应用程序数据的高吞吐量访问. ♥ …
前言: 在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片很多,那么为每个map任务或者reduce任务频繁创建Container,势必会增加Hadoop集群的资源消耗,并且因为创建分配Container本身的开销,还会增加这些任务的运行时延.如果能将这些小任务都放入少量的Container中执行,将会解决这些问题.好在Hadoop本身已经提供了这种功能,只需要我们理解其原理,并应用它. Uber运行模式就是解决此类问题的现成解决方案.…