1.概述

　　今天这篇博客就是《高可用Hadoop平台》的尾声篇了，从搭建安装到入门运行 Hadoop 版的 HelloWorld（WordCount 可以称的上是 Hadoop 版的 HelloWorld ），在到开发中需要用到的各个套件以及对套件的安装使用，在到 Hadoop 的实战，一路走来我们对在Hadoop平台下开发的基本流程应该都熟悉了。今天我们来完成在高可用Hadoop平台开发的最后一步，导出数据。

2.导出数据目的

　　首先，我来说明下为什么要导出数据，导出数据的目的是为了干嘛？

　　我们都知道，我们当初统计这些数据的目标，就是为了来可视化这些数据结果；虽然结果我们是统计出来储存在 HDFS 上，但是，前段同学需要拿到这些数据，直接操作 HDFS 读取统计结果，这样的做法是不明智的，撇开安全性不说，时延就是一个很大的问题。所以，这里我们需要有一个步骤去完成数据的导出，将数据导出到 Mysql 之类的关系型数据库。这里我们用到的导出套件是Sqoop。

3.Sqoop

3.1安装包

　　sqoop 下载地址

3.2配置

　　打开配置环境文件：

sudo vi /etc/profile

　　编辑 Sqoop 的环境，内容如下所示：

export SQOOP_HOME=/home/hadoop/sqoop-1.4.

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZK_HOME/bin:$HIVE_HOME/bin:$SQOOP_HOME/bin

3.3sqoop-env.sh

　　变动内容如下：

#Set path to where bin/hadoop is available

export HADOOP_COMMON_HOME=/home/hadoop/hadoop-2.6.0

#Set path to where hadoop-*-core.jar is available

export HADOOP_MAPRED_HOME=/home/hadoop/hadoop-2.6.0

#set the path to where bin/hbase is available

#export HBASE_HOME=

#Set the path to where bin/hive is available

export HIVE_HOME=/home/hadoop/hive-0.14.

#Set the path for where zookeper config dir is

#export ZOOCFGDIR=

　　注：这里使用 Sqoop 自带的 ZooKeeper ，另外由于没有使用到 HBase ，故这里未配置 HBase 的路径指向。

3.4异常

　　Streaming result set com.mysql.jdbc.RowDataDynamic@12e9d40f is still active

　　执行sqoop脚本时，出现这个异常是因为mysql的驱动的原因，使用最新的mysql驱动包。

　　解决方案：

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.32.tar.gz

　　然后解压到sqoop目录的lib目录下，重新执行脚本正常。

　　至此，sqoop的安装配置以及使用到此完成。

4.导出流程

　　流程图如下所示：

　　将hive数据库的TBLS表导入到hdfs，命令内容如下：

sqoop import 
--connect jdbc:mysql://10.211.55.26:3306/hive  
--username root 
--password root 
--table TBLS 
--fields-terminated-by '\t'

　　这里 JDBC 的链接地址指向 Mysql 库的链接地址。

　　注：--fields-terminated-by '\t' 以tab分割

　　--null-string '**' 将null用**替代（--是sqoop保留字符，不能使用）

　　-m 1 指定一个map任务

　　将hdfs上的文件导入到mysql数据库：

sqoop export 
-D sqoop.export.records.per.statement=100 
--connect jdbc:mysql://10.211.55.26:3306/sqoop  
--username root 
--password root 
--table portal 
--fields-terminated-by ',' 
--export-dir "/home/hive/warehouse/logdfs_${yesterday}" 
--batch --update-key date,appkey 
--update-mode allowinsert;

　　接下来，在我们导出数据成功后，我们可以将临时使用 hive 统计的结果表删除，若资源充足，我们可以保留最近 7 天的统计结果。

　　删除脚本命令如下所示：

hive -e "drop table pv_${yesterday};drop table reguser_${yesterday};drop table ip_${yesterday};drop table jumper_${yesterday};drop table logdfs_${yesterday};"

5.总结

　　在导出的时候，我们需要注意导出字段的分隔符，导出到目的地表名是否存在，书写导出命令是否正确。在导出异常时，根据具体的异常信息做相应的处理。

6.结束语

　　《高可用Hadoop平台》系列就和大家分享到这里，这一系列文章给对Hadoop方面感兴趣，以及打算从事Hadoop方面工作的人一点点帮助，大家在研究的过程当中若是有什么问题，可以加群讨论或是发送邮件给我，我会尽我所能为您解答，与君共勉！

高可用Hadoop平台－实战尾声篇的更多相关文章

高可用Hadoop平台－答疑篇
1.概述这篇博客不涉及到具体的编码,只是解答最近一些朋友心中的疑惑.最近,一些朋友和网友纷纷私密我,我总结了一下,疑问大致包含以下几点: 我学 Hadoop 后能从事什么岗位? 在遇到问题,我该如何 ...
高可用Hadoop平台－实战
1.概述今天继续<高可用的Hadoop平台>系列,今天开始进行小规模的实战下,前面的准备工作完成后,基本用于统计数据的平台都拥有了,关于导出统计结果的文章留到后面赘述.今天要和大家分享的 ...
高可用Hadoop平台－Oozie工作流之Hadoop调度
1.概述在<高可用Hadoop平台-Oozie工作流>一篇中,给大家分享了如何去单一的集成Oozie这样一个插件.今天为大家介绍如何去使用Oozie创建相关工作流运行与Hadoop上,已 ...
高可用Hadoop平台－Hue In Hadoop
1.概述前面一篇博客<高可用Hadoop平台-Ganglia安装部署>,为大家介绍了Ganglia在Hadoop中的集成,今天为大家介绍另一款工具——Hue,该工具功能比较丰富,下面是今 ...
高可用Hadoop平台－集成Hive HAProxy
1.概述这篇博客是接着<高可用Hadoop平台>系列讲,本篇博客是为后面用 Hive 来做数据统计做准备的,介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具,下面我打算 ...
高可用Hadoop平台－探索
1.概述上篇<高可用Hadoop平台-启航>博客已经让我们初步了解了Hadoop平台:接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱.下面,我们开始赘述今 ...
高可用Hadoop平台－启航
1.概述在上篇博客中,我们搭建了<配置高可用Hadoop平台>,接下来我们就可以驾着Hadoop这艘巨轮在大数据的海洋中遨游了.工欲善其事,必先利其器.是的,没错:我们开发需要有开发工具 ...
高可用Hadoop平台－Flume NG实战图解篇
1.概述今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述单点Flume NG搭建.运行高可用Flume N ...
高可用Hadoop平台－HBase集群搭建
1.概述今天补充一篇HBase集群的搭建,这个是高可用系列遗漏的一篇博客,今天抽时间补上,今天给大家介绍的主要内容目录如下所示: 基础软件的准备 HBase介绍 HBase集群搭建单点问题验证截 ...

随机推荐

War Chess （hdu 3345）
http://acm.hdu.edu.cn/showproblem.php?pid=3345 Problem Description War chess is hh's favorite game:I ...
java基础-day9
第09天 java集合今日内容介绍 u 对象数组 u 集合类之ArrayList u 学生管理系统案例第1章对象数组 1.1 对象数组概述 A:基本类型的数组:存储的元素为基本类型 ...
PCA原理分析
动机在机器学习领域中,我们常常会遇到维数很高的数据,有些数据的特征维度高达上百万维,很显然这样的数据是无法直接计算的,而且维度这么高,其中包含的信息一定有冗余,这时就需要进行降维,总的来说,我们降维 ...
用mysql workbench导出mysql数据库关系图
用mysql workbench导出mysql数据库关系图 1. 打开mysql workbench,选择首页中间"Data Modeling"下方的第二栏"Create ...
SRM465
250pt: 给定50个整数点,范围-500-500之间.然后在这些点上选2个点作为中心,画边长为整数的正方形,并且正方形不能重叠(可以不平行),而且而且边长不同为不同方案.求有多少种方案.. 思路: ...
第三天：JavaScript的DOM对象和DOM操作HTML
1. DOM操作HTML 1)注意:绝对不要在文档加载完成之后使用docment.write().这样会覆盖原来的文档 <body> <p>hello</p> &l ...
NLTK之WordNet 接口【转】
转自:http://www.cnblogs.com/kaituorensheng/p/3149095.html WordNet是面向语义的英语词典,类似于传统字典.它是NLTK语料库的一部分,可以 ...
poj 2886 线段树的更新+反素数
Who Gets the Most Candies? Time Limit: 5000 MS Memory Limit: 0 KB 64-bit integer IO format: %I64d , ...
Android-WebView与本地HTML(播放视频)
assets资源目录里面的文件介绍: RealNetJSCallJavaActivity_files文件夹
LogisticRegression in MLLib (PySpark + numpy+matplotlib可视化)
参考'LogisticRegression in MLLib' (http://www.cnblogs.com/luweiseu/p/7809521.html) 通过pySpark MLlib训练lo ...

高可用Hadoop平台－实战尾声篇