附录C 准备NCDC气象数据(加解释)

附录C 准备NCDC气象数据

这里首先简要介绍如何准备原始气象数据文件，以便我们能用Hadoop对它们进行分析。如果打算得到一份数据副本供Hadoop处理，可按照本书配套网站(网址为http://www.hadoopbook.com/)给出的指导进行操作。接下来，首先说明如何处理原始的气象文件。

原始数据实际是一组经过bzip2压缩的tar文件。每个年份的数据单独放在一个文件中。部分文件列举如下：

1901.tar.bz2
1902.tar.bz2
1903.tar.bz2
...
2000.tar.bz2

各个tar文件包含一个gzip压缩文件，描述某一年度所有气象站的天气记录。(事实上，由于在存档中的各个文件已经预先压缩过，因此再利用bzip2对存档压缩就稍显多余了)。示例如下：

% tar jxf 1901.tar.bz2
% ls -l 1901 | head
011990-99999-1950.gz
011990-99999-1950.gz
...
011990-99999-1950.gz

由于气象站数以万计，所以整个数据集实际上是由大量小文件构成的。鉴于Hadoop对少量的大文件的处理更容易、更高效(参见7.2.1节)，所以在本例中，我们将每个年度的数据解压缩到一个文件中，并以年份命名。上述操作可由一个MapReduce程序来完成，以充分利用其并行处理能力的优势。下面具体看看这个程序。

该程序只有一个map函数，无reduce函数，因为map函数可并行处理所有文件操作，无需整合步骤。这项处理任务能够用一个Unix脚本进行处理，因而在这里使用面向MapReduce的Streaming接口比较恰当。请看范例C-1。

范例C-1. 利用bash脚本来处理原始的NCDC数据文件并将其存储在HDFS中

Example C-1. Bash script to process raw NCDC datafiles and store them in HDFS

#!/usr/bin/env bash

# NLineInputFormat gives a single line: key is offset, value is S3 URI

read offset s3file

#读取每一行 第一个参数到offset 第二个打牌s3file

# Retrieve file from S3 to local disk

echo "reporter:status:Retrieving $s3file" >&2

$HADOOP_HOME/bin/hadoop fs -get $s3file .

# Un-bzip and un-tar the local file

target=`basename $s3file .tar.bz2`

mkdir -p $target

echo "reporter:status:Un-tarring $s3file to $target" >&2

tar jxf `basename $s3file` -C $target

# Un-gzip each station file and concat into one file

echo "reporter:status:Un-gzipping $target" >&2

for file in $target/*/*

do

  gunzip -c $file >> $target.all

  echo "reporter:status:Processed $file" >&2

done

# Put gzipped version into HDFS

echo "reporter:status:Gzipping $target and putting in HDFS" >&2

gzip -c $target.all | $HADOOP_HOME/bin/hadoop fs -put - gz/$target.gz

输入是一个小的文本文件(ncdc_files.txt)，列出了所有待处理文件(这些文件放在S3文件系统中，因此能够以Hadoop所认可的S3 URI的方式被引用)。示例如下：

s3n://hadoopbook/ncdc/raw/isd-1901.tar.bz2
s3n://hadoopbook/ncdc/raw/isd-1902.tar.bz2
...
s3n://hadoopbook/ncdc/raw/isd-2000.tar.bz2

通过将输入格式指定为NLineInputFormat，每个mapper接受一行输入(包含必须处理的文件)。处理过程在脚本中解释，但简单说来，它会解压缩bzip2文件，然后将该年份所有文件整合为一个文件。最后，该文件以gzip进行压缩并复制至HDFS之中。注意，使用指令hadoop fs –put - 能够从标准输入中，获得数据。

状态消息输出到“标准错误”(以reporter:status为前缀)，可以解释为MapReduce状态更新。这告诉Hadoop该脚本正在运行，并未挂起。

运行Streaming作业的脚本如下：

% hadoop jar $HADOOP_INSTALL/contrib/streaming/hadoop-*-streaming.jar \
-D mapred.reduce.tasks=0 \
-D mapred.map.tasks.speculative.execution=false \
-D mapred.task.timeout=12000000 \
-input ncdc_files.txt \
-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat \
-output output \
-mapper load_ncdc_map.sh \
-file load_ncdc_map.sh

易知，这是一个“只有map”的作业，因为reduce任务数为0。以上脚本还关闭了推测执行(speculative execution)，因此重复的任务不会写相同的文件(6.5.3节所讨论的方法也是可行的)。任务超时参数被设置为一个比较大的值，使得Hadoop不会杀掉那些运行时间较长的任务(例如，在解档文件或将文件复制到HDFS时，或者当进展状态未被报告时。)

最后，调用distcp将文件从HDFS中复制出来，再存档到S3文件系统中。

附录C 准备NCDC气象数据(加解释)的更多相关文章

pyhton读取json格式的气象数据
原文关于读取pm25.in气象数据的pyhton方法,以及浅析python json的应用以pm25.in网站数据为例. 1.方法介绍首先感谢pm25.in提供了优质的空气污染数据,为他们的辛勤劳 ...
基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理关键词:<Hadoop权威指南> ...
JQuery 之在数据加载完成后才自动执行函数
数据加载完成执行: $(window).load(function(){ ... }); 进入页就执行,不论等数据是否加载完成: $(document).ready(function(){ ... } ...
GreenPlum数据加载
1. copy命令对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载.使用copy命令进行 ...
中国气象网气象数据开放平台 API用法（Android）
因为要做个天气应用.须要找个天气的API.上网上搜了下都是那几个,并且基本都过时了.百度有个天气API,只是貌似仅仅能提供当天的.网上提到的中国气象接口的文章,大都用的时旧API,有的被封了,有的永远 ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2（十）
下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUni ...
ScrollView嵌套ListView,GridView数据加载不全问题的解决
我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
flask+sqlite3+echarts3+ajax 异步数据加载
结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...

随机推荐

redis笔记_源码_跳表skiplist
参照:https://juejin.im/post/57fa935b0e3dd90057c50fbc#comment http://redisbook.com/preview/skiplist/dat ...
Python: 生成器与迭代 generators and iteration
https://eastlakeside.gitbooks.io/interpy-zh/content/Generators/ 文章不是非常好 1,三个概念可迭代对象 iterable, 迭代器 i ...
用VC++MFC做文本编辑器(单文档模式)
用VC++MFC做文本编辑器(单文档模式) 原来做过一个用对话框实现的文本编辑器,其实用MFC模板里面的单文档模板也可以做,甚至更加方便,适合入门级的爱好者试试,现介绍方法如下: < xmlna ...
SpringCloud网关无法加载权限及IP黑名单白名单
启动springcloud服务注册中心base,再启动网关远程调用base的接口读取权限等数据,控制台出现加载null权限ERROR提示.在远程调用处打断点,先进入代理,找到抛出异常的原因是reque ...
mysql 函数和存储过程的区别
>一般来说,存储过程实现的功能要复杂一点,而函数的实现的功能针对性比较强.存储过程,功能强大,可以执行包括修改表等一系列数据库操作:用户定义函数不能用于执行一组修改全局数据库状态的操作. > ...
Celery - 异步任务 , 定时任务 , 周期任务
1.什么是Celery?Celery 是芹菜Celery 是基于Python实现的模块, 用于执行异步定时周期任务的其结构的组成是由 1.用户任务 app 2.管道 broker 用于存储 ...
4_7.springboot2.x嵌入式servlet容器自动配置原理
概述 Spring Boot对所支持的Servlet Web服务器实现做了建模抽象: Servlet容器类型 WebServer模型接口 WebServer工厂实现类 Tomcat Tomca ...
<Python基础>字典的基本操作
''' 小知识 1.字典的键只能是不可变数据类型:int 元组 bool str(可哈希) 字典查找数据会使用二分查找,会先用哈希表将键转化为数字然后进行查找 ''' s = { "name ...
Java核心-03 谈谈final、finally、 finalize有什么不同？
今天,我要问你的是一个经典的 Java 基础题目,谈谈 final.finally. finalize 有什么不同? 典型回答 final 可以用来修饰类.方法.变量,分别有不同地意义,final修饰 ...
spark 应用场景1-求年龄平均值
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78535143 该案例中,我们将假设我们需要统计一个 10 万人口的所有人的平均年龄,当 ...

附录C 准备NCDC气象数据(加解释)

附录C 准备NCDC气象数据(加解释)的更多相关文章

随机推荐

热门专题