【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界

文本文件进行统计分析：
id, name, age, city
1001,zhangsan,45,beijing
1002,lisi,35,shanghai
1003,wangwu,29,tianjin
.......

table定义：person
column定义：
id：int
name：string
age： int
city：string
hive：load data

sql: query....

Hive: 类似于sql的Hive QL语言， sql==>mapreduce
特点：mapreduce
改进：hive on tez、hive on spark、hive on mapreduce

Spark: hive on spark ==> shark(hive on spark)
shark推出：欢迎，基于spark、基于内存的列式存储、与hive能够兼容
缺点：hive ql的解析、逻辑执行计划生成、执行计划的优化是依赖于hive的
仅仅只是把物理执行计划从mr作业替换成spark作业

Shark终止以后，产生了2个分支：
1）hive on spark
Hive社区，源码是在Hive中
2）Spark SQL
Spark社区，源码是在Spark中
支持多种数据源，多种优化技术，扩展性好很多

SQL on Hadoop
1）Hive
sql ==> mapreduce
metastore ：元数据
sql：database、table、view
facebook

2）impala
cloudera ： cdh（建议大家在生产上使用的hadoop系列版本）、cm
sql：自己的守护进程执行的，非mr
metastore

3）presto
facebook
京东
sql

4）drill
sql
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive

5）Spark SQL
sql
dataframe/dataset api
metastore
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部数据源

Spark SQL is Apache Spark's module for working with structured data.

有见到SQL字样吗？
Spark SQL它不仅仅有访问或者操作SQL的功能，还提供了其他的非常丰富的操作：外部数据源、优化

Spark SQL概述小结：
1）Spark SQL的应用并不局限于SQL；
2）访问hive、json、parquet等文件的数据；
3）SQL只是Spark SQL的一个功能而已；
===> Spark SQL这个名字起的并不恰当
4）Spark SQL提供了SQL的api、DataFrame和Dataset的API；

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界的更多相关文章

【慕课网实战】八、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...) 用户行为轨迹.流量日志日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的ur ...
以慕课网日志分析为例-进入大数据Spark SQL的世界
下载地址.请联系群主第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目 ...
以某课网日志分析为例进入大数据 Spark SQL 的世界
第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop. ...
【慕课网实战】九、以慕课网日志分析为例进入大数据 Spark SQL 的世界
即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFi ...
【慕课网实战】七、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户: 方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json.parquet)写回到 ...
【慕课网实战】六、以慕课网日志分析为例进入大数据 Spark SQL 的世界
DataFrame它不是Spark SQL提出的,而是早起在R.Pandas语言就已经有了的. A Dataset is a distributed collection of data:分布式的 ...
【慕课网实战】五、以慕课网日志分析为例进入大数据 Spark SQL 的世界
提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \ ...
【慕课网实战】三、以慕课网日志分析为例进入大数据 Spark SQL 的世界
前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS=&qu ...
【慕课网实战】二、以慕课网日志分析为例进入大数据 Spark SQL 的世界
MapReduce的局限性: 1)代码繁琐: 2)只能够支持map和reduce方法: 3)执行效率低下: 4)不适合迭代多次.交互式.流式的处理: 框架多样化: 1)批处理(离线):MapRed ...

随机推荐

Jmeter固定定时器（Constant Timer）
如上图,Constant Timer是jmeter固定定时器元件一般用来设置延时的,放在某个请求下,表示Constant Timer配置的指定时间后,再开始发起这个请求操作(单位:毫秒) 根据Con ...
【CPU微架构设计】分布式多端口（4写2读）寄存器堆设计
寄存器堆(Register File)是微处理的关键部件之一.寄存器堆往往具有多个读写端口,其中写端口往往与多个处理单元相对应.传统的方法是使用集中式寄存器堆,即一个集中式寄存器堆匹配N个处理单元.随 ...
python 获取list的下标
print(your_list.index('your_item')) #your_list为列表名称 your_item为需要修该的数据
MySQL8.0.15安装教程(Windows)
下载第一步去官网下载社区版本(GPL版本) 第二步不登录,直接选下方的跳过下载解压后配置系统环境变量复制解压后的mysql到C盘或者其他磁盘下我们去系统的环境变量的path里添加一个my ...
hdu 3065 AC自动机标记数组不清零
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=3065 题目里面要我们计算每种单词出现的次数,重叠的也要计算,那么我们在查找的时候不要把标记单词结尾的 ...
使用FFmpeg解码并用swscale将YUV转为RGB
#include <stdio.h> #include <libavcodec/avcodec.h> #include <libavformat/avformat.h&g ...
php下kafka实践
Kafka是一种高吞吐的分布式发布订阅消息系统 kafka安装和简单测试安装kafka 下载 wget https://www-us.apache.org/dist/kafka/2.1.1/kafk ...
基于SoftRoCE 了解RDMA
RDMA是基于IB技术的内存直接传送,无需内核参与,硬件网卡搞定.IB需要HPC领域的专用硬件,ROCE则是RDMA协议在普通以太网卡的实现,RoCEv1是在MAC上的二层封装,局域网内可以,要通过路 ...
centos 下安装java
yum安装; 查看yum库中的java安装包 :yum -y list java* 安装需要的jdk版本的所有java程序:yum -y install java-1.8.0-openjdk* 查看j ...
对Python选修课的期望
作为一个之前完全没有接触过任何计算机语言的人我对于Python完完全全是个小白,那么我就以一个菜鸟的角度来谈谈我对这门选修课的期望吧. ...

【慕课网实战】四、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

【慕课网实战】四、以慕课网日志分析为例 进入大数据 Spark SQL 的世界的更多相关文章

随机推荐

热门专题

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界的更多相关文章