hadoop day 1

hadoop是什么？

解决的问题：

　　海量数据的存储(HDFS)：供hbase，mapreduce进行处理

　　海量数据的分析(MapReduce)

　　资源管理调度(YARN)

搜索引擎：

　　爬虫系统+站内搜索

　　爬虫对html网页进行抓取，数据量较大，需要进行海量数据存储，传统存储手段已经无法满足需求

hadoop具体能干什么

1.擅长海量日志分析

海量数据存储的解决方案：

程序执行相关命令：

向hdfs中上传文件至根目录：hadoop fs -put filename hdfs://hostname:port/
从hdfs中下载文件：hadoop fs -get hdfs://hostname:port/filename
创建目录：hadoop fs -mkdir hdfs://hostname:port/wordcount
查看目录下的类容：    -ls
查看某个文件的类容：  -cat
执行mapreduce程序：
hadoop jar filename.jar pi 5 5

2.hdfs的实现机制

hdfs通过分布式集群来存储文件，为客户端提供了一个便捷的访问方式，就是一个虚拟的工作目录

文件存储到hdfs集群中去的时候是被切分成block的

文件的block存放在若干台datanode节点上

hdfs文件系统中的文件与真实的block之间有映射关系，由namenode管理

namenode记录每个文件在datanode所存放的位置

每个block在集群中会存储多个副本，好处是可以提高数据的可靠性和访问的吞吐量

3.mapreduce

hadoop fs -mkdir hdfs://hostname:9000/wordcount

hadoop fs -mkdir /wordcount/input

hadoop fs -mkdir /wordcount/output

hadoop fs -put test.txt /wordcount/input 将文件放到hdfs中

hadoop jar filename.jar wordcount /wordcount/input /wordcount/output

4.hdfs实现机制

将文件分块放置于不同的DataNode下：DataNode的路径如下/hadoop/data/dfs/data/，每个block在集群中会存储多个副本

NameNode中记录了元数据所存放的位置，客户端通过namenode对分布式的数据进行操作

hdfs文件的内容不能修改

hadoop day 1的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
初识Hadoop、Hive
2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版 ...
hadoop 2.7.3本地环境运行官方wordcount-基于HDFS
接上篇<hadoop 2.7.3本地环境运行官方wordcount>.继续在本地模式下测试,本次使用hdfs. 2 本地模式使用fs计数wodcount 上面是直接使用的是linux的文件 ...
hadoop 2.7.3本地环境运行官方wordcount
hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...
【Big Data】HADOOP集群的配置（一）
Hadoop集群的配置(一) 摘要: hadoop集群配置系列文档,是笔者在实验室真机环境实验后整理而得.以便随后工作所需,做以知识整理,另则与博客园朋友分享实验成果,因为笔者在学习初期,也遇到不少问 ...
Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
程序员必须要知道的Hadoop的一些事实
程序员必须要知道的Hadoop的一些事实.现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软...... 1: ...
Hadoop 2.x 生态系统及技术架构图
一.负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大) 二.负责存储数据的工具:HBaseMong ...
Hadoop的安装与设置(1)
在Ubuntu下安装与设置Hadoop的主要过程. 1. 创建Hadoop用户创建一个用户,用户名为hadoop,在home下创建该用户的主目录,就不详细介绍了. 2. 安装Java环境下载Lin ...
基于Ubuntu Hadoop的群集搭建Hive
Hive是Hadoop生态中的一个重要组成部分,主要用于数据仓库.前面的文章中我们已经搭建好了Hadoop的群集,下面我们在这个群集上再搭建Hive的群集. 1.安装MySQL 1.1安装MySQL ...

随机推荐

使用spring-cloud-starter-bus-amqp做微服务配置刷广播,config-client配置未刷新的问题
在需要配置刷新的(类或方法)上加上 @RefreshScope 扩展:spring cloud:config-server中@RefreshScope的"陷阱"
laravel中当使用Elquent ORM中的模型作为参数进行传递时的方法：
Controller中的函数: /* $modelArg:是调用模型的路径,以字符串的形式传递过来. $id:要查询当前模型的id号. $args:具体查询的字段 */ public function ...
2.python函数编程-filter函数
fileter功能主要使用在需要对数据进行多种操作,并对数据进行过滤的操作. 普通函数实现: movie = ['sb_alex', 'wupei', 'tiger', 'goosb','xxfd', ...
基于 Dropbear & Zlib 搭建轻量级的ssh server
[目的] 移植dropbear & zlib 在AM335X开发板上搭建轻量级的ssh server [环境] 1. Ubuntu 16.04发行版 2. MC183平台 3. 交叉编译 ...
UVa LA 3695 - Distant Galaxy 前缀和，状态拆分，动态规划难度: 2
题目 https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&page=show_pr ...
.NET接入UnionPay银联支付（一）手机wap支付
最近呢,比较忙,公司在接入银联全渠道支付,博主接手的wap支付,发表一下博主在接入的时候遇到的坑和注意事项,方便大家学习接入,爬坑的路上更顺利一点~ 开发步骤 1. 以表单的方式组装要发送给银联全渠道 ...
【原创】paintEvent()函数显示文本
[代码] void MainWindow::paintEvent(QPaintEvent*) { QPainter p(this); QRect r; p.setPen(Qt::red); p.dra ...
asp.net MVC之Action过滤器浅析
在asp.net MVC中,Action过滤器是一大利器,它可以在以下两个步骤执行相关的代码: 1.执行Action方法之前:OnActionExecuting 2.Action方法执行完毕后:OnA ...
CSS--思维导图
CSS--思维导图
ui-router ng-router
开发中常用ui-router来设置路由: ui-router使用很简单,延续了之前ngRoute的特点. 1.首先得注入ui.router模块. 接下来就是简单的配置 2.$stateProvider ...

hadoop day 1

hadoop day 1的更多相关文章

随机推荐

热门专题