一.自定义in/outputFormat 1.需求 现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据 2. 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3. 如果成功增强,则输出到增强结果目录:如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 1374609560.11 1374609560.16 1374609560.16 1374609560.16 110 5 8615038208365 460023383869133 86964200…
一.数据倾斜分析——mapJoin 1.背景 接上一个day的Join算法,我们的解决join的方式是:在reduce端通过pid进行串接,这样的话: --order ,,P0001, ,,P0001, ,,P0002, --product P0001,小米5,, P0002,锤子T1,, 例如订单中的小米5卖的比较好(截止博客时间,已经是米7将出的时候了.),这样的话大部分的数据都流向了P0001的这个reduce上,而P0002 的锤子的reduce确很轻松,这样,就产生了数据倾斜了! 更多…
/mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩 今日提纲 一.流量汇总排序的实现 1.需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 2.分析 基本思路:实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输 MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前,会排序),排序的依据是map输出的key 所以,我们如果要实现自…
一.本地模式调试MR程序 1.准备 参考之前随笔的windows开发说明处:http://www.cnblogs.com/jiangbei/p/8366238.html 2.流程 最重要的是设置LocalJobRunner这个参数,这样mapreduce就变成一个线程在跑了! 而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上 3.代码实现 以wordcount为例,只需在原来的Driver的main()方法中,对conf进行设置: // 设置本地运行 conf.set("mapred…
数据分析中将两个数据集进行 Join 操作是很常见的场景.在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根 据 Join hints 策略.Join 表的大小. Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最 终的 Join 策略,最后 Spark 会利用选择好的 Join 策略执行最终的计算.当前 Spark 一共支持五种 Join 策略: Broadcast hash join (BHJ) Shuffle…
1.user ss is currently user by process 3234 问题原因:root --> ss --> root 栈递归一样 解决方式:exit 退出当前到ss再退出到root 然后执行命令即可. 2.列出某目录下的目录而不是文件 参考:ls --https://jingyan.baidu.com/article/e8cdb32b100dd537052badc5.html 3.登录用户与当前用户 whoami 当前用户 who am i 登录用户 其中有root权限才…
不多说,直接上干货! 在前面的博文里,我已经介绍了 大数据入门基础系列之Linux操作系统简介与选择 大数据入门基础系列之虚拟机的下载.安装详解 大数据入门基础系列之Linux的安装详解 大数据入门基础系列之远程连接工具下载和安装详解 大数据入门基础系列之Apache版本的hadoop集群详细部署搭建(包括HA和非HA)(包括单节点.3节点.5节点) 大数据入门基础系列之CDH版本的hadoop集群详细部署搭建(3节点) 大数据入门基础系列之ClouderManager版本的hadoop集群详细…
目录 1.导包Hadoop包 2.配置环境变量 3.把winutil包拷贝到Hadoop bin目录下 4.把Hadoop.dll放到system32下 5.检测Hadoop是否正常安装 5.1在maven项目中检测,将配置文件放入resource包下 5.2然后通过一个简单的wordcount程序检测Hadoop是否安装成功 5.3保存好之后,写程序: 5.4最后我们打开输出文件查看: 6.容易出现的错误: 6.1.导包错误 6.2.输出文件存在 6.3.环境搭建或配置等错误 @ Hadoop…
上篇文章hadoop之mapreduce详解(基础篇)我们了解了mapreduce的执行过程和shuffle过程,本篇文章主要从mapreduce的组件和输入输出方面进行阐述. 一.mapreduce作业控制模块以及其他功能 mapreduce包括作业控制模块,编程模型,数据处理引擎.这里我们重点阐述作业控制模块MRAppMaster. 1.1.MRAppMaster的构成 MRAppMaster主要有如下几个组件构成,如下图所示: 1.ContainerAllocator:与resourcem…
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础软件的安装 CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件 第五章:Kafka集群的配置 CentOS6安装各种大数据软件 第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件 第七章:Flume安装与配置 CentOS6安装各…