spark-sql使用笔记 - 相关文章

【spark-sql使用笔记】的更多相关文章

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…

Spark SQL笔记——技术点汇总

目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataFrame Operation 性能调优缓存数据参数调优案例数据准备查询部门职工数查询各部门职工工资总数,并排序查询各部门职工考勤信息概述 Spark SQL是Spark的结构化数据处理模块. Spark SQL特点数据兼容:可从Hive表.外部数据库(JDBC).RDD.Parqu…

Spark SQL官网阅读笔记

Spark SQL是Spark中用于结构化数据处理的组件. Spark SQL可以从Hive中读取数据. 执行结果是Dataset/DataFrame. DataFrame是一个分布式数据容器.然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema.同时,与Hive类似,DataFrame也支持嵌套数据类型(struct.array和map).从API易用性的角度上看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更…

Spark SQL笔记

HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> 128M + 2M3.NameNode.DataNode负责内容:NN:1)负责客户端请求的响应2)负责元数据(文件名称.副本系数.Block存放的DN)的管理DN:1)存储用的文件对应的数据块(Block)2)定期向NN发送心跳信息(默认3秒),汇报本身及其所有的Block信息,健康状况4. 重要提示…

Spark2.x学习笔记：Spark SQL程序设计

1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. 2 DataFrame和Dataset (1)DataFrame 由于RDD的局限性,Spark产生了DataFrame. DataFrame=RDD+Schema 其中Schema是就是元数据,是语义描述信息. 在Spark1.3之前,DataFrame被称为SchemaRDD.以行为单位构成的分…

Spark2.x学习笔记：Spark SQL的SQL

Spark SQL所支持的SQL语法 select [distinct] [column names]|[wildcard] from tableName [join clause tableName on join condition] [where condition] [group by column name] [having conditions] [order by column names [asc|desc]] 如果只用join进行查询,则支持的语法为: select state…

Spark2.x学习笔记：Spark SQL快速入门

Spark SQL快速入门本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat |tr -s "::" "," >> /tmp/data/users.dat [root@node1 ~]# tail - /tmp/data/users.dat ,F,,, ,F,,, ,F,,, ,F,,, ,M,,, [root@node1 ~]# (2…

Hive sql & Spark sql笔记

记录了日常使用时遇到的特殊的查询语句.不断更新- 1. SQL查出内容输出到文件 hive -e "...Hive SQL..." > /tmp/out sparkhive --disableQuotingForSV=true --slient=true --showHeader=false --outputformat=tsv -e "...SPARK SQL..." > /tmp/out --disableQuotingForSV=true 可以去掉…

Spark 学习笔记：（三）Spark SQL

参考:https://spark.apache.org/docs/latest/sql-programming-guide.html#overview http://www.csdn.net/article/2015-04-03/2824407 Spark SQL is a Spark module for structured data processing. It provides a programming abstraction called DataFrames and can als…

Spark SQL 笔记

Spark SQL 简介 SparkSQL 的前身是 Shark, SparkSQL 产生的根本原因是其完全脱离了 Hive 的限制.(Shark 底层依赖于 Hive 的解析器, 查询优化器) SparkSQL 支持查询原生的 RDD. 能够在 scala/java 中写 SQL 语句. 支持简单的 SQL 语法检查, 能够在 Scala 中写Hive 语句访问 Hive 数据, 并将结果取回作为RDD使用 Spark on Hive 和 Hive on Spark Spark on Hiv…