【转】Hive导入10G数据的测试】的更多相关文章

原博文出自于: http://blog.fens.me/hadoop-hive-10g/ 感谢! Hive导入10G数据的测试 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务. 现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了.这种配置如果简单地放几个web应用,显然是奢侈的浪费.就算是用来实现单节点的hadoop,对计算资源浪费也是非常高的.…
Hive导入10G数据的测试 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务. 现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了.这种配置如果简单地放几个web应用,显然是奢侈的浪费.就算是用来实现单节点的hadoop,对计算资源浪费也是非常高的.对于这么高性能的计算机,如何有效利用计算资源,就成为成本控制的一项重要议题了. 通过虚拟化技术,我…
前言 Hadoop和Hive的环境已经搭建起来了,开始导入数据进行测试.我的数据1G大概对应500W行,MySQL的查询500W行大概3.29秒,用hive同样的查询大概30秒.如果我们把数据增加到10G,100G,让我们来看看Hive的表现吧. 目录 导出MySQL数据 导入到Hive 优化导入过程Hive Bucket 执行查询 1. 导出MySQL数据 下面是我的表,每天会产生一新表,用日期的方式命名.今天是2013年7月19日,对应的表是cb_hft,记录数646W条记录. mysql>…
---王燕行转列sql select split(concat_ws(',',collect_set(cast(smzq as string))),',')[1] ,split(concat_ws(',',collect_set(cast(smzq as string))),',')[2] from wyy; ---mysql 导入 导出数据部分 --mysql 导入 load data infile 'C:\\Users\\wanghongbo1\\Downloads\\sum.csv' in…
Hive导入数据的方式 官网文档: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] local参数为原始文件存储的位置,位置可以是 本地local hdfs文件系统 overwrite参数 使用时会将表中的数据覆盖 不使用会在表中追加数据 partition参数为分区表加载 eg: 加载本地文件到hive表中 lo…
查询数据: use ods;set /user.password=ODS-SH;select * from base_cdma_all limit 10; use tag_bonc;select * from dpi_http_userapp_statistics limit 100000;  #设置显示当前使用的数据库 set hive.cli.print.current.db=true; #设置不优先使用MapReduce set hive.exec.mode.local.auto=true…
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式 构造建表语句 倒入数据 一.查看 parquet 内容和结构 下载地址 社区工具 GitHub 地址 命令 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30 查看内容: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.j…
替换分隔符为\ sed -i 's/\t/\x1/g;s/;/\x1/g' test1.txt gz压缩 gzip -r test1.txt 查看文件 hdfs dfs -ls /hive/warehouse/ods_jungle_ad.db/table1/dt=-- 导入文件 load data local inpath '/home/hadoop/test/hb/test1.txt.gz' into table table1 partition (dt = '2016-12-15') 关键字…
要了解impdp,请先了解导出,我之前作过导出的笔记:oracle 10g数据泵之expdp.这两个笔记也许只对程序员有用,通常用于把正式区的数据导入到测试区,对数据库管理员也许帮助不大,他们使用这些工具大多是用于数据备份. impdp可以将数据加载到整个数据库.特定的方案(也就是用户).特定的表空间或者特定的表,也可以将表空间传输到数据库.impdp支持网络模式操作,即从另一个数据库加载数据. 使用impdp导入数据1.指定转储文件(存放导出数据的文件)存放的目录SQL>connect sys…
HIVE几种数据导入方式 今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1).从本地文件系统中导入数据到Hive表:(2).从HDFS上导入数据到Hive表:(3).从别的表中查询出相应的数据并导入到Hive表中:(4).在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中.我会对每一种数据的导入进行实际的操作,因为纯粹的文字让人看起来很枯燥,而且学起来也很抽象.好了,开始操作! 一.从本地文件系统中导入数据到Hive表 先在Hive里面创建好表,如下: hive…