7月21号day13总结

今天学习过程和小结

学习了hive中的数据类型以及hive的简单查询，

学习了sqoop version用sqoop导入导出数据。

主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

配置参数

export HADOOP_COMMON_HOME=$HADDOP_HOME

export HADDOP_MAPRED_HOME=$HADDOP_HOME

Hive表结构中的数据类型与MySQL对应列有如下关系:

MySQL(bigint) --> Hive(bigint)

MySQL(tinyint) --> Hive(tinyint)

MySQL(int) --> Hive(int)

MySQL(double) --> Hive(double)

MySQL(bit) --> Hive(boolean)

MySQL(varchar) --> Hive(string)

MySQL(decimal) --> Hive(double)

MySQL(date/timestamp) --> Hive(string)

1，使用sqoop导入mysql数据到hdfs

./sqoop import --connect jdbc:mysql://192.168.122.141/scott --username root --P --table emp -m 1 --target-dir /sqoop/emp;

2,使用sqoop导入mysql数据到hive

./sqoop import --hive-import --connect jdbc:mysql://192.168.122.141:3306/scott --username root --P --table emp;

3,使用sqoop导入mysql数据到hive中，并指定表名

./sqoop import --hive-import --connect jdbc:mysql://192.168.122.141:3306/scott --username root --P --table emp --hive-table emp1;

4,使用sqoop导入mysql数据到hive中，并使用where条件

./sqoop import --hive-import --connect jdbc:mysql://192.168.122.141:3306/scott --username root --P --table emp --hive-table emp2 --where ‘deptno=10’;

5,使用sqoop导入mysql数据到hive中，并使用查询语句

./sqoop import --hive-import --connect jdbc:mysql://192.168.122.141:3306/scott --username root --P --query ‘select * from emp where sal<2000 and $CONDITIONS’ --split by empno --target-dir ‘/sqoop/emp3’ --hive-table emp4;

6,使用sqoop将hive中的数据导出到mysql中

./sqoop export --connect jdbc:mysql://192.168.122.141:3306/data --username root --P --table data --export-dir=’/var/lib/mysql/data/ ‘--input-fields-terminated-by '\t';

也开始做网站日志分析的项目。

一开始先进行数据清洗。

通过map将有用的需要的数据挑选出来。然后将挑选出来的数据放入hive中。

遇到问题汇总

sqoop中导入导出数据很实用，要多加练习。
对于要进行的项目要通过软件架构等的步骤来完成。清洗数据要精确也要掌握好key的值。

3.在清洗出的数据存入hive中要注意字段的值。

学习技能思维导图

7月21号day13总结的更多相关文章

9月19号-9月21号丰宁坝上草原行 - 营销系统 - 京东内部论坛 - Powered by Discuz!
9月19号-9月21号丰宁坝上草原行 - 营销系统 - 京东内部论坛 - Powered by Discuz! 9月19号-9月21号丰宁坝上草原行 [复制链接]
号外号外：9月21号关于Speed-BI 《全国人口统计数据分析》开讲了
引言:如何快速分析纷繁复杂的数据?如何快速做出老板满意的报表?如何快速将Speed-BI云平台运用到实际场景中? 本课程将通过各行各业案例背景,将Speed-BI云平台运用到实际场景中,通 ...
2020年12月18号--21号人工智能（深度学习DeepLearning）python、TensorFlow技术实战
深度学习DeepLearning(Python)实战培训班时间地点: 2020 年 12 月 18 日-2020 年 12 月 21日 (第一天报到授课三天:提前环境部署电脑测试) 一.培训方式 ...
8月7号晚7点Autodesk北京办公室，我们来聊聊HTML5/ WebGL 3D 模型浏览技术
Autodesk 发布了一款完全无需插件的三维模型浏览器 Autodesk 360 Viewer,大家有没有兴趣,下班后过来聊聊吧! 8月7号周四, 19:00~21:00 Autodesk北京 ...
《Genesis-3D开源游戏引擎-FQA常见问题解答》2014年01月10号版本
1.Genesis-3D开源游戏引擎主要面向哪些用户人群?有限制吗? 1.我们的引擎没有限制,只要您想了解和使用我们的引擎,就可以加入Genesis-3D的大家庭.2.我们的主要用户群是各个相关的企业 ...
成都Uber优步司机奖励政策（2月21日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
核心运营报表无线端数据，pv，uv相关数据，从9月1号开始就没了，为什么？
问题现象截图核心运营报表从获取数据的api的地址可以看出: http://data.51buy.com/json.php?biz=statistic&mod=OrderKeyData&am ...
成都Uber优步司机奖励政策（4月21日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
北京Uber优步司机奖励政策（4月21日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

随机推荐

Kubernetes-创建集群（四）
Kubernetes可以运行在多种平台,从笔记本到云服务商的虚拟机,再到机架上的裸机服务器.要创建一个Kubernetes集群,根据不同的场景需要做的也不尽相同,可能是运行一条命令,也可能是配置自己定 ...
（数据科学学习手札14）Mean-Shift聚类法简单介绍及Python实现
不管之前介绍的K-means还是K-medoids聚类,都得事先确定聚类簇的个数,而且肘部法则也并不是万能的,总会遇到难以抉择的情况,而本篇将要介绍的Mean-Shift聚类法就可以自动确定k的个数, ...
基于Ubuntu Server 16.04 LTS版本安装和部署Django之（四）：安装MySQL数据库
基于Ubuntu Server 16.04 LTS版本安装和部署Django之(一):安装Python3-pip和Django 基于Ubuntu Server 16.04 LTS版本安装和部署Djan ...
Ubuntu server中 samba的安装和简单配置
samba是Linux系统上的一种文件共享协议,可以实现Windows系统访问Linux系统上的共享资源,现在介绍一下如何在Ubuntu 14.04上安装和配置samba 工具/原料 Ubuntu ...
在List中删除符合条件的内容
objDAList.RemoveAll(s => s.daCID == "20170725152407CD");
[推荐]spring cloud 详解
http://blog.csdn.net/column/details/15197.html
【Dataset】Goodbooks-10k: 图书推荐数据
当前推荐领域一些公开的据集都是关于电影和音乐的(比如Netflix.Movielens等),没有关于图书推荐的数据.本文将要介绍的就是一份用于图书推荐的数据集,该数据来源于goodreads网站,包含 ...
基于规则的中文分词 - NLP中文篇
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多, ...
学习bash——数据流重定向
一.概述 1. 数据流定义:以规定顺序被读取一次的数据序列. 分类:标准输入(stdin).标准输出(stdout)和标准错误输出(stderr). 标准输出:指的是命令执行所回传的正确信息. 标准 ...
关于Oracle
Oracle初学者必知的100个问题 1. Oracle安装完成后的初始口令? internal/oracle sys/change_on_install system/manager sco ...

7月21号day13总结

7月21号day13总结的更多相关文章

随机推荐

热门专题