mapreduce清洗数据

继上篇

MapReduce清洗数据

package mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 

public class CleanData {

    public static class Map extends Mapper<Object , Text , Text , IntWritable>{

        private static Text newKey=new Text();

        private static String chage(String data) {

            char[] str = data.toCharArray();

            String[] time = new String[7];

            int j = 0;

            int k = 0;

            for(int i=0;i<str.length;i++) {

                if(str[i]=='/'||str[i]==':'||str[i]==32) {

                    time[k] = data.substring(j,i);

                    j = i+1;

                    k++;

                }

            }

            time[k] = data.substring(j, data.length());

             switch(time[1]) { case "Jan":time[1]="01";break; case

              "Feb":time[1]="02";break; case "Mar":time[1]="03";break; case

              "Apr":time[1]="04";break; case "May":time[1]="05";break; case

              "Jun":time[1]="06";break; case "Jul":time[1]="07";break; case

              "Aug":time[1]="08";break; case "Sep":time[1]="09";break; case

              "Oct":time[1]="10";break; case "Nov":time[1]="11";break; case

              "Dec":time[1]="12";break; }

            data = time[2]+"-"+time[1]+"-"+time[0]+" "+time[3]+":"+time[4]+":"+time[5];

            return data;

        }

        public void map(Object key,Text value,Context context) throws IOException, InterruptedException{

            String line=value.toString();

            System.out.println(line);

            String arr[]=line.split(","); 

            String ip = arr[0];

            String date = arr[1];

            String day = arr[2];

            String traffic = arr[3];

            String type = arr[4];

            String id = arr[5];

            date = chage(date);

            traffic = traffic.substring(0, traffic.length()-1);

            newKey.set(ip+'\t'+date+'\t'+day+'\t'+traffic+'\t'+type);

            //newKey.set(ip+','+date+','+day+','+traffic+','+type);

            int click=Integer.parseInt(id);

            context.write(newKey, new IntWritable(click));

        }

    }

    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable>{

        public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException{

            for(IntWritable val : values){

                context.write(key, val);

            }

        }

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{

        Configuration conf=new Configuration();

        System.out.println("start");

        Job job =new Job(conf,"cleanData");

        job.setJarByClass(CleanData.class);

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        Path in=new Path("hdfs://192.168.137.67:9000/mymapreducel/in/result.txt");

        Path out=new Path("hdfs://192.168.137.67:9000/mymapreducelShiYan/out1");

        FileInputFormat.addInputPath(job,in);

        FileOutputFormat.setOutputPath(job,out);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

今天遇到了一个

java.lang.ClassCastException: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$GetFileInfoRequestProto cannot be cast to class com.google.protobuf.Message (org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$GetFileI....

的错误

搞了好几个小时也没有解决，最后没办法了把导的包全部移除后重新导入，解决了问题。

mapreduce清洗数据的更多相关文章

MapReduce清洗数据进行可视化
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip ...
视频网站数据MapReduce清洗及Hive数据分析
一.需求描述利用MapReduce清洗视频网站的原数据,用Hive统计出各种TopN常规指标: 视频观看数 Top10 视频类别热度 Top10 视频观看数 Top20 所属类别包含这 Top20 ...
discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云 ...
做Data Mining，其实大部分时间都花在清洗数据
做Data Mining,其实大部分时间都花在清洗数据时间 2016-12-12 18:45:50 51CTO 原文 http://bigdata.51cto.com/art/201612/52 ...
MapReduce的数据流程、执行流程
MapReduce的数据流程: 预先加载本地的输入文件经过MAP处理产生中间结果经过shuffle程序将相同key的中间结果分发到同一节点上处理 Recude处理产生结果输出将结果输出保存在hd ...
Hadoop基础-MapReduce的数据倾斜解决方案
Hadoop基础-MapReduce的数据倾斜解决方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据倾斜简介 1>.什么是数据倾斜答:大量数据涌入到某一节点,导致 ...
如何用item pipeline（管道）清洗数据
版权声明:本文为博主原创文章,转载请注明出处:如果博客中有错误之处抑或有可以改进的地方,欢迎在评论区留言. https://blog.csdn.net/f156207495/article/detai ...
MapReduce清洗日志数据统计PV量
package mapreduce.webpv; import java.io.IOException; import org.apache.commons.lang.StringUtils; imp ...
mapReduce 大数据离线分析
数据分析一般分为两种,一种是在线一种是离线流程: 一般都是对于日志文件的采集和分析场景实例(某个电商网站产生的用户访问日志(access.log)进行离线处理与分析的过程) 1.需求: 基于Map ...

随机推荐

vue设置选中时的样式名称
第一种方式:在router中全局设置 export default new Router({ mode:'history', linkActiveClass:'index', routes: [ { ...
Java设计模式之三种工厂模式
工厂模式实现了创建者和调用者的分离,实现了更好的解耦. 详细分类: 1) 简单工厂模式(静态工厂模式): 2) 工厂方法模式: 3) 抽象工厂模式面向对象设计的基本原则: 1) OC ...
Mysql.linux登录数据库
//mysql -hlocalhost -uroot -p //-h数据库地址 -u用户名 -p密码 -P端口号(P大写)//-p可省略,会提示输入密码. mysql -h127. -uroot -p ...
C0nw4y's L!f3 G4me 代码实现
这是我转载的博客,关于这个游戏的介绍.估计没人能get到这个游戏的blingbling的地方吧.还是蛮惊叹的. 因为这里网络实在惨淡,闲来无事实现了下这个游戏,UI尽量美化了,可惜python配置不知 ...
MySQL 相关规约（v1.0）（转）
0)前言 a. 基本规约 [强制]表存储引擎必须使用InnoDB(针对主库一般是强制要求的) [强制]表字符集默认使用utf8,必要时候使用utf8mb4(个人踩坑:emoji表情存储问题)•说明:• ...
typescript step by step interface class
【WPF学习】第二十章内容控件
内容控件(content control)是更特殊的控件类型,它们可包含并显示一块内容.从技术角度看,内容控件时可以包含单个嵌套元素的控件.与布局容器不同的是,内容控件只能包含一个子元素,而布局容器主 ...
AI初探1
一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型.就如同上面的线性回归函数. 在机 ...
《ASP.NET Core 高性能系列》ASP.NET Core的启动过程(1)
一.一切从头开始简述:知道事情的真相就应该从头开始,下面我们代码先行 public class Program { public static void Main(string[] args) { ...
C# LINQ查询表达式用法对应Lambda表达式
C#编程语言非常优美,我个人还是非常赞同的.特别是在学习一段时间C#后发现确实在它的语法和美观度来说确实要比其它编程语言强一些(也可能是由于VS编译器的加持)用起来非常舒服,而且对于C#我觉得他最优美 ...

mapreduce清洗数据

mapreduce清洗数据的更多相关文章

随机推荐

热门专题