文件是 MapReduce 任务数据的初始存储地.正常情况下,输入文件一般是存储在 HDFS 里面.这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式.这些文件一般会很大,达到数十GB,甚至更大.那么 MapReduce 是如何读取这些数据的呢?下面我们来学习 InputFormat 接口 1.InputFormat接口 InputFormat接口决定了输入文件如何被 Hadoop分块(split up)与接受.InputFormat…