hadoop InputSplit

/**

 * <code>InputSplit</code> represents the data to be processed by an

 * individual {@link Mapper}.

 * InputSplit 代表可以被Mapper处理的数据

 * <p>Typically, it presents a byte-oriented view on the input and is the

 * responsibility of {@link RecordReader} of the job to process this and present

 * a record-oriented view.

 *

 * @see InputFormat

 * @see RecordReader

 */

@InterfaceAudience.Public

@InterfaceStability.Stable

public abstract class InputSplit {

  /**

   * Get the size of the split, so that the input splits can be sorted by size.

   * @return the number of bytes in the split

   * @throws IOException

   * @throws InterruptedException

   * split的长度用byte表示

   */

  public abstract long getLength() throws IOException, InterruptedException;

  /**

   * Get the list of nodes by name where the data for the split would be local.

   * The locations do not need to be serialized.

   * 获取split所在的节点

   * @return a new array of the node nodes.

   * @throws IOException

   * @throws InterruptedException

   */

  public abstract

    String[] getLocations() throws IOException, InterruptedException;

  /**

   * Gets info about which nodes the input split is stored on and how it is

   * stored at each location.

   * 返回split所在的节点信息以及在该节点上如何存储 memory

   * @return list of <code>SplitLocationInfo</code>s describing how the split

   *    data is stored at each location. A null value indicates that all the

   *    locations have the data stored on disk.

   * @throws IOException

   */

  @Evolving

  public SplitLocationInfo[] getLocationInfo() throws IOException {

    return null;

  }

}

hadoop InputSplit的更多相关文章

es第十篇：Elasticsearch for Apache Hadoop
es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce.hive.pig.cascading.spark)与es交互. A ...
工作采坑札记：4. Hadoop获取InputSplit文件信息
1. 场景基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名.由于同一条记录可能存在于多个文件中,且处于 ...
Hadoop源码分析之产生InputSplit文件过程
用户提交 MapReduce 作业后,JobClient 会调用 InputFormat 的 getSplit方法生成 InputSplit 的信息. 一个 MapReduce 任务 ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
Hadoop学习笔记—10.Shuffle过程那点事儿
一.回顾Reduce阶段三大步骤在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就 ...
hadoop分片分析
上一篇分析了split的生成,现在接着来说具体的split具体内容及其相关的文件和类.以FileSplit(mapred包下org/apache/hadoop/mapreduce/lib/input/ ...
hadoop输入分片计算(Map Task个数的确定)
作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split.默认是使用InputFormat的子类 ...
hadoop运行原理之Job运行(五) 任务调度
接着上篇来说.hadoop首先调度辅助型task(job-cleanup task.task-cleanup task和job-setup task),这是由JobTracker来完成的:但对于计算型 ...
Hadoop的数据输入的源码解析
我们知道,任何一个工程项目,最重要的是三个部分:输入,中间处理,输出.今天我们来深入的了解一下我们熟知的Hadoop系统中,输入是如何输入的? 在hadoop中,输入数据都是通过对应的InputFor ...

随机推荐

shell正则表达式（1）
一.什么是正则正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则. 二.grep 1.参数 -n :显示行号 -o : ...
SPOJ 1182 Sorted bit sequence
题目链接题意: 分析: 其实如果会了Ural 1057. Amount of Degrees那道题目,这道题自然也就会了... 我们考虑枚举第$k$个数字的$1$的个数,那么我们需要计算的也就是区间 ...
bzoj1578 [Usaco2009 Feb]Stock Market 股票市场
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1578 [题解] 由于连续买相当于每天买,第二天卖,然后再买.所以每天最后钱尽量多一定是最优的 ...
25个常规方法优化你的jquery代码
原文发布时间为:2011-06-06 -- 来源于本人的百度文章 [由搬家工具导入] http://www.tvidesign.co.uk/blog/improve-your-jquery-25-ex ...
12.22笔记(关于CALayer//Attributes//CALayer绘制图层//CALayer代理绘图//CALayer动画属性//CALayer自定义子图层//绘图pdf文件//绘图渐变效果)
12.22笔记 pdf下载文件:https://www.evernote.com/shard/s227/sh/f81ba498-41aa-443b-81c1-9b569fcc34c5/f033b89a ...
HDU1174（空间点到直线的距离，用叉积）
爆头 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submissi ...
axis2
下载axis2-1.5.4-bin.zip文件并解压. 设置axis2的环境变量,如下图所示: 利用axis2中的wsdl2java.bat生成客户端程序. 先启动Tomcat7并在IE里运行http ...
胖AP与瘦AP区别
一.胖AP组网方案 1.漫游问题用户从一个胖AP的覆盖区域走到另一个胖AP的覆盖区域,会重新连接信号强的一个胖AP,重新进行认证,重新获取IP地址,存在断网现象: 2.无法保证WLAN的安全性为了 ...
dom4j解析xml配置文件
通过dom4j来对xml配置文件的增删查改: 利用@Test注解来对单个方法进行测试: import java.io.FileOutputStream; import java.io.OutputSt ...
ubuntu下执行ulimit返回“不允许的操作”，问题解决思路
在ubuntu下执行ulimit,希望修改允许的最大打开文件数,但返回“不允许的操作”. 使用ulimit -a查看当前配置 core file size (blocks, -c) 0 data se ...

hadoop InputSplit

hadoop InputSplit的更多相关文章

随机推荐

热门专题