hive从入门到放弃(一)——初识hive】的更多相关文章

之前更完了<Kafka从入门到放弃>系列文章,本人决定开新坑--hive从入门到放弃,今天先认识一下hive. 没看过 Kafka 系列的朋友可以点此传送阅读: <Kafka从入门到放弃>系列 hive介绍 hive是一个开源的用于大数据分析和统计的数据库工具,它的存储基于HDFS,计算基于MapReduce或Spark,可以将结构化数据映射成表,并提供类SQL查询功能. 特点 提供类SQL查询,容易上手,开发方便 封装了很多方法,尽量避免了开发MapReduce程序,减少成本 支…
前一篇文章,介绍了什么是 hive,以及 hive 的架构.数据类型,没看的可以点击阅读:hive从入门到放弃(一)--初识hive 今天讲一下 hive 的 DDL 数据定义 创建数据库 CREATE DATABASE [IF NOT EXISTS]① database_name [COMMENT database_comment]② [LOCATION hdfs_path]③ [WITH DBPROPERTIES (property_name=property_value, ...)]④;…
上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言. 没看过的可以点击跳转阅读: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--DDL数据定义 数据写入 数据导入部分默认数据文件格式为 textfile,每一列由','进行分割,以换行分行. insert insert 表示向表中插入数据,可以直接插入值,也可以通过查询其他表获取数据插入. INSERT INTO TABLE target_table VALUES (COL1.…
今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--DDL数据定义 hive从入门到放弃(三)--DML数据操作 分区 分区可以提高查询效率,实际上 hive 的一个分区就是 HDFS 上的一个目录,目录里放着属于该分区的数据文件. 分区的基本操作 创建分区表 create table partition_table( col1 int, col2 string ) partitioned by (part_col…
hive 存储格式有很多,但常用的一般是 TextFile.ORC.Parquet 格式,在我们单位最多的也是这三种 hive 默认的文件存储格式是 TextFile. 除 TextFile 外的其他格式的表不能直接从本地文件导入数据,要先导入到 TextFile 格式的表中,再从表中用 insert 导入到其他格式的表中. 一.TextFile TextFile 是行式存储. 建表时无需指定,一般默认这种格式,以这种格式存储的文件,可以直接在 HDFS 上 cat 查看数据. 可以用任意分隔符…
面向过程 VS 面向对象 面向过程的程序设计的核心是过程(流水线式思维),过程即解决问题的步骤,面向过程的设计就好比精心设计好一条流水线,考虑周全什么时候处理什么东西. 优点是:极大的降低了写程序的复杂度,只需要顺着要执行的步骤,堆叠代码即可. 缺点是:一套流水线或者流程就是用来解决一个问题,代码牵一发而动全身. 应用场景:一旦完成基本很少改变的场景,著名的例子有Linux內核,git,以及Apache HTTP Server等. 面向对象的程序设计的核心是对象(上帝式思维),要理解对象为何物,…
上一节记录了大致的搭建MonoGame的环境,默认大家都是都是使用过Visual Studio的,没使用过的话,可以去https://www.visualstudio.com/下载一个试试,社区版免费的,不要钱都可以体验全宇宙最强的IDE 我们选择上一节的倒数第二个截图上的第一个选项,新建一个Windows平台的模板,当然如果你选择其他的平台也是可以的,都一样 新建好了的会在VS的解决方案窗口生成一个项目模板. 这个模板很简洁,据我了解,MonoGame没有给开发者提供类似于Cocos的那种No…
消息中间件的使用已经越来越广泛,基本上具有一定规模的系统都会用到它,在大数据领域也是个必需品,但为什么使用它呢?一个技术的广泛使用必然有它的道理. 背景与问题 以前一些传统的系统,基本上都是"用户--系统--数据库"一条线,拿下单做例子,用户下单,系统接受并处理请求,把数据存到数据库. 这样的好处就是简单,但随着需求越来越多,用户量越来越大,系统需要承载的压力就越大:如果需要扩展系统,修改代码,牵一发动全身,麻烦滴很. 消息队列可以解决这些问题,它是一个存放消息的队列,生产者往队列推数…
之前介绍了Kafka以及生产者,包括它的一些特性和参数,这回写一下消费者. 之前没看得可以点击链接阅读. Kafka从入门到放弃(一) -- 初识Kafka Kafka从入门到放弃(二) -- 详说生产者 消费者与消费者组 在Kafka中消费者是消费消息的对象.假设目前有一个消费者正在消费消息,但生产数据的速度突然上升,这时候消费者会有点力不从心,跟不上消息生产的速度,这时候咋办呢? 我们对消费者进行横向扩展,加几个消费者,达到负载均衡的作用.但是要做点限制吧,不然几个消费者消费同一个分区的消息…
Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客: Linux下安装jdk Linux下安装hadoop伪分布式 在安装之前,先了解下Hive都有哪些东西. 下载并解压缩 去主页选择镜像地址: http://www.apache.org/dyn/c…