在本博文,我们要学习一个挖掘气象数据的程序.气象数据是通过分布在美国全国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计分析. 我们使用的数据来自美国国家气候数据中心.美国国家海洋和大气管理局(简称 NCDCNOAA),这些数据按行并以 ASCII 格式存储,其中每一行是一条记录. 下面我们展示一行采样数据,其中重要的字段被突出显示.该行数据被分割成很多行以突出每个字段,但在实际文件中,这些字段被整合成一行且…