Hadoop学习之路(二十七)MapReduce的API使用(四)
第一题
下面是三种商品的销售数据

要求:根据以上数据,用 MapReduce 统计出如下数据:
1、每种商品的销售总金额,并降序排序
2、每种商品销售额最多的三周
第二题:MapReduce 题
现有如下数据文件需要处理:
格式:CSV
数据样例:
user_a,location_a,2018-01-01 08:00:00,60
user_a,location_a,2018-01-01 09:00:00,60
user_a,location_b,2018-01-01 10:00:00,60
user_a,location_a,2018-01-01 11:00:00,60
字段:用户 ID,位置 ID,开始时间,停留时长(分钟)
数据意义:某个用户在某个位置从某个时刻开始停留了多长时间
处理逻辑: 对同一个用户,在同一个位置,连续的多条记录进行合并
合并原则:开始时间取最早的,停留时长加和
要求:请编写 MapReduce 程序实现
其他:只有数据样例,没有数据。
UserLocationMR.java
/**
测试数据:
user_a location_a 2018-01-01 08:00:00 60
user_a location_a 2018-01-01 09:00:00 60
user_a location_a 2018-01-01 11:00:00 60
user_a location_a 2018-01-01 12:00:00 60
user_a location_b 2018-01-01 10:00:00 60
user_a location_c 2018-01-01 08:00:00 60
user_a location_c 2018-01-01 09:00:00 60
user_a location_c 2018-01-01 10:00:00 60
user_b location_a 2018-01-01 15:00:00 60
user_b location_a 2018-01-01 16:00:00 60
user_b location_a 2018-01-01 18:00:00 60 结果数据:
user_a location_a 2018-01-01 08:00:00 120
user_a location_a 2018-01-01 11:00:00 120
user_a location_b 2018-01-01 10:00:00 60
user_a location_c 2018-01-01 08:00:00 180
user_b location_a 2018-01-01 15:00:00 120
user_b location_a 2018-01-01 18:00:00 60 */
public class UserLocationMR { public static void main(String[] args) throws Exception {
// 指定hdfs相关的参数
Configuration conf = new Configuration();
// conf.set("fs.defaultFS", "hdfs://hadoop02:9000");
// System.setProperty("HADOOP_USER_NAME", "hadoop"); Job job = Job.getInstance(conf);
// 设置jar包所在路径
job.setJarByClass(UserLocationMR.class); // 指定mapper类和reducer类
job.setMapperClass(UserLocationMRMapper.class);
job.setReducerClass(UserLocationMRReducer.class); // 指定maptask的输出类型
job.setMapOutputKeyClass(UserLocation.class);
job.setMapOutputValueClass(NullWritable.class);
// 指定reducetask的输出类型
job.setOutputKeyClass(UserLocation.class);
job.setOutputValueClass(NullWritable.class); job.setGroupingComparatorClass(UserLocationGC.class); // 指定该mapreduce程序数据的输入和输出路径
Path inputPath = new Path("D:\\武文\\second\\input");
Path outputPath = new Path("D:\\武文\\second\\output2");
FileSystem fs = FileSystem.get(conf);
if (fs.exists(outputPath)) {
fs.delete(outputPath, true);
}
FileInputFormat.setInputPaths(job, inputPath);
FileOutputFormat.setOutputPath(job, outputPath); // 最后提交任务
boolean waitForCompletion = job.waitForCompletion(true);
System.exit(waitForCompletion ? 0 : 1);
} private static class UserLocationMRMapper extends Mapper<LongWritable, Text, UserLocation, NullWritable> { UserLocation outKey = new UserLocation(); /**
* value = user_a,location_a,2018-01-01 12:00:00,60
*/
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] split = value.toString().split(","); outKey.set(split); context.write(outKey, NullWritable.get());
}
} private static class UserLocationMRReducer extends Reducer<UserLocation, NullWritable, UserLocation, NullWritable> { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); UserLocation outKey = new UserLocation(); /**
* user_a location_a 2018-01-01 08:00:00 60
* user_a location_a 2018-01-01 09:00:00 60
* user_a location_a 2018-01-01 11:00:00 60
* user_a location_a 2018-01-01 12:00:00 60
*/
@Override
protected void reduce(UserLocation key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException { int count = 0;
for (NullWritable nvl : values) {
count++;
// 如果是这一组key-value中的第一个元素时,直接赋值给outKey对象。基础对象
if (count == 1) {
// 复制值
outKey.set(key);
} else { // 有可能连续,有可能不连续, 连续则继续变量, 否则输出
long current_timestamp = 0;
long last_timestamp = 0;
try {
// 这是新遍历出来的记录的时间戳
current_timestamp = sdf.parse(key.getTime()).getTime();
// 这是上一条记录的时间戳 和 停留时间之和
last_timestamp = sdf.parse(outKey.getTime()).getTime() + outKey.getDuration() * 60 * 1000;
} catch (ParseException e) {
e.printStackTrace();
} // 如果相等,证明是连续记录,所以合并
if (current_timestamp == last_timestamp) { outKey.setDuration(outKey.getDuration() + key.getDuration()); } else { // 先输出上一条记录
context.write(outKey, nvl); // 然后再次记录当前遍历到的这一条记录
outKey.set(key);
}
}
}
// 最后无论如何,还得输出最后一次
context.write(outKey, NullWritable.get());
}
}
}
UserLocation.java
public class UserLocation implements WritableComparable<UserLocation> {
private String userid;
private String locationid;
private String time;
private long duration;
@Override
public String toString() {
return userid + "\t" + locationid + "\t" + time + "\t" + duration;
}
public UserLocation() {
super();
}
public void set(String[] split){
this.setUserid(split[0]);
this.setLocationid(split[1]);
this.setTime(split[2]);
this.setDuration(Long.parseLong(split[3]));
}
public void set(UserLocation ul){
this.setUserid(ul.getUserid());
this.setLocationid(ul.getLocationid());
this.setTime(ul.getTime());
this.setDuration(ul.getDuration());
}
public UserLocation(String userid, String locationid, String time, long duration) {
super();
this.userid = userid;
this.locationid = locationid;
this.time = time;
this.duration = duration;
}
public String getUserid() {
return userid;
}
public void setUserid(String userid) {
this.userid = userid;
}
public String getLocationid() {
return locationid;
}
public void setLocationid(String locationid) {
this.locationid = locationid;
}
public String getTime() {
return time;
}
public void setTime(String time) {
this.time = time;
}
public long getDuration() {
return duration;
}
public void setDuration(long duration) {
this.duration = duration;
}
@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeUTF(userid);
out.writeUTF(locationid);
out.writeUTF(time);
out.writeLong(duration);
}
@Override
public void readFields(DataInput in) throws IOException {
// TODO Auto-generated method stub
this.userid = in.readUTF();
this.locationid = in.readUTF();
this.time = in.readUTF();
this.duration = in.readLong();
}
/**
* 排序规则
*
* 按照 userid locationid 和 time 排序 都是 升序
*/
@Override
public int compareTo(UserLocation o) {
int diff_userid = o.getUserid().compareTo(this.getUserid());
if(diff_userid == 0){
int diff_location = o.getLocationid().compareTo(this.getLocationid());
if(diff_location == 0){
int diff_time = o.getTime().compareTo(this.getTime());
if(diff_time == 0){
return 0;
}else{
return diff_time > 0 ? -1 : 1;
}
}else{
return diff_location > 0 ? -1 : 1;
}
}else{
return diff_userid > 0 ? -1 : 1;
}
}
}
UserLocationGC.java
public class UserLocationGC extends WritableComparator{
public UserLocationGC(){
super(UserLocation.class, true);
}
@Override
public int compare(WritableComparable a, WritableComparable b) {
UserLocation ul_a = (UserLocation)a;
UserLocation ul_b = (UserLocation)b;
int diff_userid = ul_a.getUserid().compareTo(ul_b.getUserid());
if(diff_userid == 0){
int diff_location = ul_a.getLocationid().compareTo(ul_b.getLocationid());
if(diff_location == 0){
return 0;
}else{
return diff_location > 0 ? -1 : 1;
}
}else{
return diff_userid > 0 ? -1 : 1;
}
}
}
第三题:MapReduce 题--倒排索引
概念: 倒排索引(Inverted Index),也常被称为反向索引、置入档案或反向档案,是一种索引方法, 被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档 检索系统中最常用的数据结构。了解详情可自行百度
有两份数据:
mapreduce-4-1.txt
huangbo love xuzheng
huangxiaoming love baby huangxiaoming love yangmi
liangchaowei love liujialing
huangxiaoming xuzheng huangbo wangbaoqiang
mapreduce-4-2.txt
hello huangbo
hello xuzheng
hello huangxiaoming
题目一:编写 MapReduce 求出以下格式的结果数据:统计每个关键词在每个文档中当中的 第几行出现了多少次 例如,huangxiaoming 关键词的格式:
huangixaoming mapreduce-4-1.txt:2,2; mapreduce-4-1.txt:4,1;mapreduce-4-2.txt:3,1
以上答案的意义:
关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中的第 2 行出现了 2 次
关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中的第 4 行出现了 1 次
关键词 huangxiaoming 在第二份文档 mapreduce-4-2.txt 中的第 3 行出现了 1 次
题目二:编写 MapReduce 程序求出每个关键词在每个文档出现了多少次,并且按照出现次 数降序排序
例如:
huangixaoming mapreduce-4-1.txt,3;mapreduce-4-2.txt,1
以上答案的含义: 表示关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中出现了 3 次,在第二份文档mapreduce-4-2.txt 中出现了 1 次
Hadoop学习之路(二十七)MapReduce的API使用(四)的更多相关文章
- Hadoop学习之路(十七)MapReduce框架Partitoner分区
Partitioner分区类的作用是什么? 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中:按照性别划分的话,需要 ...
- 【Hadoop学习之十二】MapReduce案例分析四-TF-IDF
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 概念TF-IDF(term fre ...
- 嵌入式Linux驱动学习之路(二十七)字符设备驱动的另一种写法
之前讲的字符设备驱动程序,只要有一个主设备号,那么次设备号无论是什么都会和同一个 struct file_operations 结构体对应. 而本节课讲的是如何在设备号相同的情况下,让不同的次设备号对 ...
- Hadoop学习记录(4)|MapReduce原理|API操作使用
MapReduce概念 MapReduce是一种分布式计算模型,由谷歌提出,主要用于搜索领域,解决海量数据计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce( ...
- hadoop学习记录(二)HDFS java api
FSDateinputStream 对象 FileSystem对象中的open()方法返回的是FSDateInputStream对象,改类继承了java.io.DateInoutStream接口.支持 ...
- Hadoop学习之路(十)HDFS API的使用
HDFS API的高级编程 HDFS的API就两个:FileSystem 和Configuration 1.文件的上传和下载 package com.ghgj.hdfs.api; import org ...
- Hadoop学习之旅三:MapReduce
MapReduce编程模型 在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
- 阿里封神谈hadoop学习之路
阿里封神谈hadoop学习之路 封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 s ...
- 《Hadoop学习之路》学习实践
(实践机器:blog-bench) 本文用作博文<Hadoop学习之路>实践过程中遇到的问题记录. 本文所学习的博文为博主“扎心了,老铁” 博文记录.参考链接https://www.cnb ...
- Java web与web gis学习笔记(二)——百度地图API调用
系列链接: Java web与web gis学习笔记(一)--Tomcat环境搭建 Java web与web gis学习笔记(二)--百度地图API调用 JavaWeb和WebGIS学习笔记(三)-- ...
随机推荐
- 初识JSP,第一天
1.什么JSP java Server Page java 服务端的页面,它和servlet 一样可以提供动态的html 响应. 不同的是 servlet 以 java 代码 为主 jsp 以html ...
- 撩课-Web大前端每天5道面试题-Day10
1. px和em的区别? px和em都是长度单位; 区别是: px的值是固定的,指定是多少就是多少, 计算比较容易. em得值不是固定的,并且em会继承父级元素的字体大小. 浏览器的默认字体高都是16 ...
- Sprng IOC&AOP&事务梳理 (文章整理new)
IOC <理解 IOC> <IOC 的理解与解释> 正向控制:传统通过new的方式.反向控制,通过容器注入对象. 作用:用于模块解耦. DI:Dependency Inject ...
- Unable to update index for central http://repo1.maven.org/maven2/ 解决方法
不知道什么原因 MyEclipse(eclipse) 中的 maven 插件突然不能用了,修改 pom.xml 无任何反应 控制台报 Unable to update index for centra ...
- baidu地图api , 地理位置转 经纬度接口
更多可以查看 http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-geocoding 地理编码示例: 以下是关于地理编 ...
- win10 程序crash后弹出 XXX已停止工作
需要attach调试器的时候弹出的"XXX已停止工作"很方便, 现在win10默认禁用掉了. 恢复的方法是: win+R 输入gpedit.msc回车 管理模板 -> Win ...
- 前端构建工具Gulp的学习和使用
前几天刚鼓捣了Grunt的使用,结果文档还没捂热,老大说我们还是用gulp吧,搞得我又得来整gulp,眼泪流成河了,真是不晓得底层人民的辛苦啊.不过经过对gulp的学习,发现很好用,比grunt舒服! ...
- 理解android中ListFragment和Loader
一直以来不知Android中Loader怎么用,今天晚上特意花了时间来研究,算是基本上搞明白了,现在把相关的注释和代码发出来,以便笔记和给网友一个参考,错误之处还望大家给我留言,共同进步,这个例子采用 ...
- 仿拉手团购App8-- 更多模块
1.获得缓存大小和清除缓存 应用内数据的所有路径: /data/data/com.xxx.xxx/cache - 应用内缓存(注:对应方法getCacheDir()) /data/data/com.x ...
- 机器学习入门线性回归 岭回归与Lasso回归(二)
一 线性回归(Linear Regression ) 1. 线性回归概述 回归的目的是预测数值型数据的目标值,最直接的方法就是根据输入写出一个求出目标值的计算公式,也就是所谓的回归方程,例如y = a ...