MapReduce处理气象数据】的更多相关文章

老师:MissDu 提交作业 1. 用Python编写WordCount程序并提交任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 A编写map函数,reduce函数 map函数: import sys for line in sys.stdin: line=line.strip() words=line.split() for word in words: prin…
不多说,直接上干货! 下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2(九) 这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.weather; import java.io.DataInput; import java.io.DataOutput; import java.io.IOExce…
下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUnit 框架 MRUnit是Cloudera公司专为Hadoop MapReduce写的单元测试框架,API非常简洁实用.MRUnit针对不同测试对象使用不同的Driver: MapDriver:针对单独的Map测试  ReduceDriver:针对单独的Reduce测试    MapReduceDri…
:对云计算的看法 内容 :使用MapReduce求每年最低温度 内容 :求温度平均值能使用combiner吗? 内容 :使用Hadoop流求最高温度(awk脚本) 内容 :使用Hadoop流求最高温度(Python语言) 内容 :MapReduce是否可以自动识别新增节点? 内容 :使用Hadoop公平调度器 内容 中新增节点后,DataNode无法启动 运行环境说明 1.1  硬软件环境 线程,主频2.2G,6G内存 l  虚拟软件:VMware® Workstation 9.0.0 buil…
用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通) 解压数据集,并保存在文本文件中 对气象数据格式进行解析 编写map函数,reduce函数 将其权限作出相应修改 本机上测试运行代码 放到HDFS上运行 将之前爬取的文本文件上传到hdfs上…
1.下载部分数据.由于实验就仅仅下载2003年的部分气象数据 2.通过zcat *gz > sample.txt命令解压重定向 [hadoop@Master test_data]$ zcat *gz > /home/hadoop/input/sample.txt 3.查看数据格式 4.把文件sample.txt放进hdfs文件系统里 [hadoop@Master input]$ hadoop fs -put /home/hadoop/input/sample.txt  /user/hadoop…
Hadoop-MapReduce计算气象温度 1 运行环境说明 1.1 硬软件环境 主机操作系统:Mac OS 64 bit ,8G内存 虚拟软件:Parallers Desktop12 虚拟机操作系统:CentOS 64位,单核,512内存 JDK:java version "1.7.0_45" Hadoop:1.1.2 1.2 机器网络环境 集群包含三个节点:1个namenode.2个datanode,其中节点之间可以相互ping通.节点IP地址和主机名分布如下: 序号 IP地址…
附录C 准备NCDC气象数据 这里首先简要介绍如何准备原始气象数据文件,以便我们能用Hadoop对它们进行分析.如果打算得到一份数据副本供Hadoop处理,可按照本书配套网站(网址为http://www.hadoopbook.com/)给出的指导进行操作.接下来,首先说明如何处理原始的气象文件. 原始数据实际是一组经过bzip2压缩的tar文件.每个年份的数据单独放在一个文件中.部分文件列举如下: 1901.tar.bz2 1902.tar.bz2 1903.tar.bz2 ... 2000.t…
Hadoop 中利用 mapreduce 读写 mysql 数据   有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的地方. 好了言归正传,简单的说说背景.原理以及需要注意的地方: 1.为了方便 MapReduce 直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBI…
原文关于读取pm25.in气象数据的pyhton方法,以及浅析python json的应用 以pm25.in网站数据为例. 1.方法介绍 首先感谢pm25.in提供了优质的空气污染数据,为他们的辛勤劳动点个赞.是python3.3,windows系统,读取数据的时候用到了python的json处理的4个方法,很经典常用.所谓4个方法是: a)       json.loads() 输入string,返回json. b)       json.dumps() 输入json类型的数据,返回包含jso…
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理 关键词:<Hadoop权威指南>气象数据 map reduce python matplotlib可视化 一:下载<hadoop权威指南>一书中的气象数据 <hadoop权威指南>一书中的气象数据位于 http://ftp3.ncdc.noaa.gov/pub/data/noaa/, 新建 getdata.py文件…
因为要做个天气应用.须要找个天气的API.上网上搜了下都是那几个,并且基本都过时了.百度有个天气API,只是貌似仅仅能提供当天的.网上提到的中国气象接口的文章,大都用的时旧API,有的被封了,有的永远停到了2014年3月24不更新了. 后来找到了中国天气的新接口,已经升级成气象数据开放平台了http://openweather.weather.com.cn/.没有开发人员社区或论坛什么的,仅仅能自己琢磨他的文档了(感觉没人维护..). 经过几个疑难点卡住后.总算调通了. 现分享给大家. 1.申请…
Hadoop生态圈-使用MapReduce处理HBase数据 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.对HBase表中数据进行单词统计(TableInputFormat)  1>.准备环境 create_namespace 'yinzhengjie' create 'yinzhengjie:WordCount','f1','f2' put 'yinzhengjie:WordCount', 'row1', 'f1:line', 'hello wold tom how…
1.先贴一下气象数据的csv源格式,由于数据内容较多,就放一部分(china_sites_20150102.csv) date,hour,type,1001A,1002A,1003A,1004A,1005A,1006A,1007A,1008A,1009A,1010A,1011A,1012A,1013A,1014A,1015A,1016A,1017A,1018A,1019A,1020A,1021A,1023A,1024A,1025A,1026A,1027A,1028A,1029A,1030A,10…
使用MapReduce将Mysql数据导入HDFS代码链接 将HDFS数据导入Mysql,代码示例 package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLExceptio…
package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import org.apache.hadoop.conf.Configuration; im…
使用hadoop mapreduce分析mongodb数据 (现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 一. mongdb的安装和使用 1. 官网下载mongodb-linux-x86_64-rhel70-3.2.9.tgz 2. 解压 (可以配置一下环境变量) 3. 启动服务端 ./mongo…
一.环境:JAVA8,Elasticsearch-5.6.2,Hadoop-2.8.1二.实现功能:mapreduce读elasticsearch数据.输出parquet文件.多输出路径三.主要依赖 <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport</artifactId> <version></version> &…
1.定时任务: gloabl.asax文件Application_Start()方法注册: System.Timers.Timer t = new System.Timers.Timer(theInterval); //单位毫秒 t.Elapsed += new ElapsedEventHandler((s, e) => { theSend(); }); t.AutoReset = true; t.Enabled = true; 2.获取气象数据:后台处理获取 DtWeather entity…
读取HYSPLIT输出的轨迹数据文件和相应时间的气象数据文件,生成轨迹图层,循环每条轨迹的节点,读出该节点的经度.纬度.气压.时间,通过对气象数据插值获得该节点的气象数据.脚本程序: #----------------------------------------------------- # Author: Yaqiang Wang # Date: 2015-9-30 # Purpose: Get meteorological data along trajectory # Note: Sa…
​        气象数据一直是一个价值较高的数据,它被广泛用于各个领域的研究当中.气象数据包括有气温.气压.相对湿度.降水.蒸发.风向风速.日照等多种指标,但是包含了这些全部指标的气象数据却较难获取,即使获取到了也不能随意分享. 数据已经打包分享,这里是数据百度云下载链接: 1级目录 文件名 PRS SURF_CLI_CHN_MUL_DAY-PRS-10004-YYYYMM.TXT(本站气压) TEM SURF_CLI_CHN_MUL_DAY-TEM-12001-YYYYMM.TXT(气温)…
​  数据下载链接:数据下载链接 广西壮族自治区,地处中国南部,北回归线横贯中部,属亚热带季风气候区.南北以贺州--东兰一线为界,此界以北属中亚热带季风气候区,以南属南亚热带季风气候区. 数据范围:全国行政区划-行政村界 数据类型:面状数据,全国各省市县[村庄-边界]乡村界.乡村范围.村界数据 数据属性:标准12位行政区划编码.村名称.所属地区 分辨率:1:2万--1:5万 数据格式:SHP数据(arcgis矢量数据格式) 五级行政区划:村边界数据产品涵盖五级行政区划: (一级行政区)省级行政区…
package com.bank.service; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apache.hadoop.hbase.mapred…
1.从hbase中取数据,再把计算结果插入hbase中 package com.yeliang; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apach…
废话少说,直接上代码! package cn.com.oozie.demo;  import java.io.IOException;  import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org…
基于Python的Grib数据可视化           利用Python语言实现Grib数据可视化主要依靠三个库——pygrib.numpy和matplotlib.pygrib是欧洲中期天气预报中心(ECMWF)的GRIG API C库的Python接口,通过这个库可以将Grib数据读取出来:numpy是Python的一种开源的数值计算扩展,这种工具可用来存储和处理大型矩阵:matplotlib是python著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图:…
Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; import org.apache.hadoop.hbase.ma…
hdfs数据到hbase过程 将HDFS上的文件中的数据导入到hbase中 实现上面的需求也有两种办法,一种是自定义mr,一种是使用hbase提供好的import工具 hbase先创建好表   create 'TB','info' 下面是实现代码: import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil; import org.apache.had…
参考:http://eric-gcm.iteye.com/blog/1807468 file1.txt: 2 32 654 32 15 756 65223 file2.txt: 5956 22 650 92 file3.txt: 26 54 6 JAVA代码: import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.a…
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重 描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 file1: 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c file2: 2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4 d 201…