Hadoop知识点

1.小文件合并：如果文件有一定的规律或者是在同一个文件夹下，可以采用获取文件夹下所有的文件，通过流进行合并，然后再存到hdfs上。

2.mapreduce的优点：1.离线计算、2.高容错性，一个节点挂了可以将计算转移到另一个节点、3.易扩展，廉价机器随便加。缺点就是做不到实时计算。

3.链接mapreduce有三种方式：迭代式，就是上一个的输出数据为下一个的输入数据，依赖式，一个mapreduce可能依赖于多个mapreduce，线性式，可以链接过多个mapper，一个mapreduce可以有多个mapper，但是只能有一个reduce。

4.Hadoop文件压缩能否支持分片的原理：

在考虑如何压缩那些将由MapReduce处理的数据时，考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件，其大小为1GB，HDFS的块大小为64MB，所以该文件将被存储为16块，将此文件用作输入的MapReduce作业会创建1个输人分片（split ,也称为“分块”。对于block，我们统一称为“块”。）每个分片都被作为一个独立map任务的输入单独进行处理。

现在假设。该文件是一个gzip格式的压缩文件，压缩后的大小为1GB。和前面一样，HDFS将此文件存储为16块。然而，针对每一块创建一个分块是没有用的，因为不可能从gzip数据流中的任意点开始读取，map任务也不可能独立于其他分块只读取一个分块中的数据。gzip格式使用DEFLATE来存储压缩过的数据，DEFLATE将数据作为一系列压缩过的块进行存储。问题是，每块的开始没有指定用户在数据流中任意点定位到下一个块的起始位置，而是其自身与数据流同步。因此，gzip不支持分割(块)机制。

在这种情况下，MapReduce不分割gzip格式的文件，因为它知道输入是gzip压缩格式的(通过文件扩展名得知)，而gzip压缩机制不支持分割机制。这样是以牺牲本地化为代价:一个map任务将处理16个HDFS块。大都不是map的本地数据。与此同时，因为map任务少，所以作业分割的粒度不够细，从而导致运行时间变长。

在我们假设的例子中，如果是一个LZO格式的文件，我们会碰到同样的问题，因为基本压缩格式不为reader提供方法使其与流同步。但是，bzip2格式的压缩文件确实提供了块与块之间的同步标记(一个48位的PI近似值)，因此它支持分割机制。

5.Hadoop压缩方式比较：gzip：高压缩率和压缩速度，缺点是不支持split，就是说不支持分片，文件压缩后小于130m的可以考虑；lzo：高压缩率和压缩速度，支持split，但需要自行安装，文件压缩后大于200m的可以考虑，文件越大，优势越明显。snappy：高压缩率和压缩速度，支持split，但需要自行安装，适用mapper或者任务输出压缩；bzip2：需要高压缩率且不要求压缩时间的可以考虑。

Hadoop知识点的更多相关文章

hadoop知识点总结
(一).hadoop的内置数据类型都实现了writablecompareable,以便序列化和网络传输及文件存储 a自定义数据类型作为输入 1.实现writable接口 2.如果给数据需要比较大小时, ...
hadoop 知识点
HDFS 命令命令说明 fsck 检查文件的完整性 start-balancer.sh 重新平衡HDFS hdfs dfs -copyFromLocal 从本地磁盘复制文件到HDFS hadoop ...
hadoop 知识点总结
关于元数据的checkpoint 每隔一段时间,会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过 ...
hadoop知识点总结（三）YARN设计理念及基本架构
YARN设计理念与基本架构 1,MRv1的局限性:扩展性差,可靠性差,资源利用率低,无法支持多种计算框架 2,YARN基本设计思想 1)基本框架对比 Hadoop1.0中,JobTracker由资源管 ...
hadoop知识点总结（二）hdfs分布式文件系统
1, hdfs设计:减少硬件错误的危害,流式数据访问,大规模数据集,简单的一致性模型 2,特点: 1)移动计算的代价比移动数据的代价低在异构的软硬件平台间的可移植性 2)局限性不适合低延迟性数据访 ...
hadoop知识点总结（一）hadoop架构以及mapreduce工作机制
1,为什么需要hadoop 数据分析者面临的问题数据日趋庞大,读写都出现性能瓶颈: 用户的应用和分析结果,对实时性和响应时间要求越来越高: 使用的模型越来越复杂,计算量指数级上升. 期待的解决方案 ...
我要进大厂之大数据Hadoop HDFS知识点（1）
01 我们一起学大数据老刘今天开始了大数据Hadoop知识点的复习,Hadoop包含三个模块,这次先分享出Hadoop中的HDFS模块的基础知识点,也算是对今天复习的内容进行一次总结,希望能够给想学 ...
Hadoop运行原理总结（详细）
本编随笔是小编个人参照个人的笔记.官方文档以及网上的资料等后对HDFS的概念以及运行原理进行系统性地归纳,说起来真的惭愧呀,自学了很长一段时间也没有对Hadoop知识点进行归纳,有时候在实战中或者与别 ...
Hadoop知识总结
------------恢复内容开始------------ Hadoop知识点 Hadoop知识点什么是HadoopHadoop和Spark差异Hadoop常见版本,有哪些特点,一般是如何进行选择H ...

随机推荐

mongodb 副本集部署
1.安装三节点linux环境:196.168.1.111,196.168.1.112,192.168.1.113(三节点可彼此ping通) 2.三节点安装mongodb,参考https://blog. ...
fiddler模拟timeout超时场景
fiddler模拟网络超时: 用fiddler模拟网络请求超时最近要测试程序对cgi 请求超时的兼容,所以就需要模拟超时,第一个想到的就是fiddler工具,说一下具体的做法: Rules -> ...
第二篇：Jmeter功能概要
一.jmeter工具组成部分: 1.资源生成器:用于生成测试过程中服务器,负载机的资源代码: 2.用户运行器:通常是一个脚本运行引擎,根据脚本的要求模拟指定用户行为,(lr中的controller) ...
mysql里max_allowed_packet的作用
MySQL根据配置文件会限制Server接受的数据包大小.有时候大的插入和更新会受 max_allowed_packet 参数限制,导致写入或者更新失败. 查看目前配置: 代码如下: show VAR ...
安装好kali要做的事
更换更新源 vim /etc/apt/sources.list #中科大deb http://mirrors.ustc.edu.cn/kali kali-rolling main non-free c ...
解题3（CoordinateCalculate）
题目描述开发一个坐标计算工具, A表示向左移动,D表示向右移动,W表示向上移动,S表示向下移动.从(0,0)点开始移动,从输入字符串里面读取一些坐标,并将最终输入结果输出到输出文件里面. 输入: 合 ...
Fiddler抓包域名过滤（转载）
转载自 http://www.cnblogs.com/111testing/p/6440480.html Fiddler抓包域名过滤我们在用Fiddler抓包的时候会抓到很多不需要的数据包,我们怎样 ...
Android学习路-activity活动
activity即活动,是一种包含用户界面的组件,用于与用户进行交换创建activity类 1.类继承Activity, activity传递一个bundle对象,可以获得onSaveInsta ...
npm、webpack、vue-cli快速上手版
node.js和npm npm的安装和更新 Node.js下载安装,npm自带的包管理工具. 查看安装版本信息: node -v 查看node.js版本信息 npm -v 查看npm版本信息更新np ...
delet[] 和delete
string *stringPtr1 = new string; string *stringPtr2 = new string[100]; …… delete stringPtr1; delete ...

Hadoop知识点

Hadoop知识点的更多相关文章

随机推荐

热门专题