Hive编程指南】的更多相关文章

hive编程指南中有个employees表,默认的分隔符比較繁杂,编辑起来不太方便(普通编辑器编辑的控制字符^A等被当成字符串处理了,没有起到分隔符的作用). 收集的解决方式例如以下: http://www.myexception.cn/software-architecture-design/1351552.html http://blog.csdn.net/lichangzai/article/details/18703971 切记,简单的文本编辑器编辑例如以下的内容,分隔符是没被识别的,^…
// HiveQLa) 数据定义语言1 数据库表的一个目录或命名空间,如果用户没有指定数据库的话,那么将会使用默认的数据库default-----创建数据库CREATE DATABASE guoyongrong;// 给每个数据库创建了一个目录,数据库的文件目录名是以.db结尾的CREATE DATABASE IF NOT EXISTS guoyongrong; // 避免在数据库存在的创建错误CREATE DATABASE guoyongrong LOCATION '/my/preferred…
set hive.metastore.warehouse.dir=/user/myname/hive/warehouse; 用户设定自己的数据仓库目录.不影响其他用户.也在$HOME/.hiverc中设置,则每次启动hive自动加载 hive -(d,ef,H,h,i,p,S,v) 定义变量var,在hql中直接引用${var} set (显示或修改) set; (看所有变量) set env:HOME; set -V; 不加-V打印命名空间 hive --define foo=bar (-d简…
1. 基础 1.1 Hive 解决问题的背景? 用户如何从一个现有的数据基础架构转移到 Hadoop 上,而这个基础架构是基于传统的关系数据库和 SQL 的? Hive 提供了一个被称为 HQL 的 SQL 语言,来查询存储在 Hadoop 集群中的数据. 1.2 Hive 使用的场合是什么以及它的局限性? Hive 最适合于数据仓库的应用程序,使用该应用程序进行静态数据分析,不需要快速响应给出结果,而且数据本身 不会频繁变化. 局限性 1. Hive 不适合记录级别的更新,插入或者删除操作,用…
1.Hive不支持记录级别的更新.插入或删除? 2.sort by 和 order by 的区别? https://blog.csdn.net/jthink_/article/details/38903775 3.分区和分桶的区别? 分区:是hive中对数据比较粗粒度的划分,每个分区对应一个文件目录:类似与rdbms中分区表的概念.比如大量日志存储,会根据日志产生时间分区,一般分区会造成数据倾斜. 分桶:是比较细粒度的数据划分,对应到具体文件:根据指定列进行hash之后与分桶个数取模计算,确定数…
第四章: HQl的数据定义 1:创建数据库   create database financials;   create database  if not exists financials; 2: 查看数据库   show databases;    模糊查询数据库   show databases like 'h.*' ; 3:创建数据库改动数据库的默认位置    create database financials localtion '/my/preferred/directory' 4…
Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型. 和大多数数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活性. 大多数数据库对数据具有完全的控制,其包括对数据存储到磁盘的过程的控制,也包括对数据生命周期的控制. 而Hive将这些方面的控制权交给用户,使用户更容易地使用各种各样的工具来管理和处理数据. 一.  基本数据类型 表1-1 Hive基本数据类型 数据类型 长度 例子 TINYINT 1byte有…
1.Mapreduce是一种计算模型,将计算任务分割成多个可以在服务器集群中并行执行的任务,然后分散到一群家用的或者服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性. 2.mapreduce的两个基本操作: (1)map操作:将集合中的元素从一种形式转换为另一种形式,输入的键值对会被转换成零到多个键值对进行输出. 3.hive的限制:(1)hive不支持记录几倍的更新.插入或者删除操作.但是用户可以通过查询生成新的表,或者将查询结果导入文件中, (2)hadoop是一个面向批处理的系统,m…
1. 设置hive以本地模式运行(即使当前用户是在分布式模式或伪分布式模式下执行也使用这种模式) set hive.exec.model.local.auto=true; 若想默认使用这个配置,可以将这个命令添加到$HOME/.hiverc文件中 2. 当频繁使用hadoop dfs命令时,最好为这个命令定义一个别名 alias hdfs="hadoop dfs" 3. hive表数据默认存储位置(基于hadoop的运行模式) hadoop为本地模式:file:///user/hive…