spark教程(11)-sparkSQL 数据抽象

数据抽象 sparkSQL 的数据抽象是 DataFrame,df 相当于表格,它的每一行是一条信息,形成了一个 Row Row 它是 sparkSQL 的一个抽象,用于表示一行数据,从表现形式上看,相当于一个 tuple 或者表中的一行: from pyspark.sql import Row ##### 创建 Row #### method 1 row = Row(name="Alice", age=11) print row # Row(age=11, name='Alice'…

spark教程(18)-sparkSQL 自定义函数

sparkSQL 也允许用户自定义函数,包括 UDF.UDAF,但没有 UDTF 官方 API class pyspark.sql.UDFRegistration(sparkSession)[source] register(name, f, returnType=None)[source] Register a Python function (including lambda function) or a user-defined function as a SQL function. Pa…

spark教程(10)-sparkSQL

sparkSQL 的由来我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive: hive 是把类 sql 的语句转换成 mapreduce,解决了开发难的问题,但是 hive 的底层还是 mapreduce,仍然是慢: spark 也看到了 hive 的优势,以 hive 为中心的一套框架 shark 营运而生,它是 spark 的前身,h 就是 hive 的意思: 但是为了提高 shark 的效率,spark 自己开发了一套算法…

spark教程(19)-sparkSQL 性能优化之谓词下推

在 sql 语言中,where 表示的是过滤,这部分语句被 sql 层解析后,在数据库内部以谓词的形式出现: 在 sparkSQL 中,如果出现 where,它会现在数据库层面进行过滤,一般数据库会有索引,效率不会太低, sparkSQL 只读取过滤后的数据,大大减少数据量,提高效率,特别是提高 join 的效率大致过程如图…

Spark教程——（11）Spark程序local模式执行、cluster模式执行以及Oozie/Hue执行的设置方式

本地执行Spark SQL程序: package com.fc //import common.util.{phoenixConnectMode, timeUtil} import org.apache.spark.sql.SQLContext import org.apache.spark.sql.functions.col import org.apache.spark.{SparkConf, SparkContext} /* 每天执行 */ object costDay { def mai…

node-webkit教程(11)Platform Service之shell

node-webkit教程(11)Platform Service之shell 文/玄魂目录 node-webkit教程(10)Platform Service之shell 前言 11.1 Shell是什么 11.2 示例 11.3 小结前言几个月前,要开发一个简易的展示应用,要求支持离线播放(桌面应用)和在线播放(web应用). 当时第一想到的是flex,同一套代码(或者只需少量的更改)就可以同时运行在桌面和浏览器上.由于很多展现效果要全新开发,我想到了impress.js(http…

【译】ASP.NET MVC 5 教程 - 11：Details 和 Delete 方法详解

原文:[译]ASP.NET MVC 5 教程 - 11:Details 和 Delete 方法详解在教程的这一部分,我们将研究一下自动生成的 Details 和Delete 方法. Details 方法打开Movie控制器,找到Details方法. // // GET: /Movies/Details/5 public ActionResult Details(Int32 id) { Movie movie = db.Movies.Find(id); if (movie == null) {…

spark教程

某大神总结的spark教程, 地址 http://litaotao.github.io/introduction-to-spark?s=inner…

Expression Blend实例中文教程(11) - 视觉管理器快速入门Visual State Manager(VSM）

Expression Blend实例中文教程(11) - 视觉管理器快速入门Visual State Manager(V 时间:2010-04-12 16:06来源:SilverlightChina.Net 作者:jv9 点击:次 Visual State Manager,中文又称视觉状态管理器(简称为VSM),是Silverlight 2中引进的一个概念.通过使用VSM,开发人员和设计人员可以轻松的改变项目控件的视觉效果,在项目中VSM主要用于创建自定义控件以及控件模板.为了能够打造个性绚丽的…

[转帖]Linux教程(11)- linux中的计划作业

Linux教程(11)- linux中的计划作业 2018-08-21 17:13:36 钱婷婷阅读数 160更多分类专栏: Linux教程与操作 Linux教程与使用版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_42350428/article/details/81911094 周期性计划作业–cron cron:是一个进程.可以让linux周期性的执行某一命令…

Spark面试知识点-SparkSQL(1)

0.介绍: (1)Spark SQL的前身是Shark,即Hive on Spark, 1.SparkSQL特点: (1)支持多种数据源:Hive,RDD,Parquet,JSON,JDBC等. (2)多种性能优化技术:in-memory columnar storage,byte-code generation,cost model动态评估等 (3)组件扩展:对于SQL的语法解析器.分析器以及优化器,用户都可以自己重新开发,并且动态扩展.SparkSQL的性能对比Shark来说,又有了数倍的提…

spark教程(八)-SparkSession

spark 有三大引擎,spark core.sparkSQL.sparkStreaming, spark core 的关键抽象是 SparkContext.RDD: SparkSQL 的关键抽象是 SparkSession.DataFrame: sparkStreaming 的关键抽象是 StreamingContext.DStream SparkSession 是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContext: S…

黑马lavarel教程---11、响应处理

黑马lavarel教程---11.响应处理一.总结一句话总结: 如果在昂扬状态,看学习视频和运动时间重合,会很舒服 1.jquery的$.post参数为什么不需要占位? 因为每个参数的类型不同,可以识别:$.post:$.post (地址,[参数对象,回调,期望返回类型]); 2.常见的ajax响应数据类型? 有json和xml.text/html,但是一般都用json 3.在laravel中框架如果需要响应json数据,怎么写? (和json_encode()效果一样,不用记):retur…

Directx11教程(11) 增加一个debug宏

原文:Directx11教程(11) 增加一个debug宏现在我们在common.h中增加一个debug的宏,在每个d3d11函数后调用,如果d3d函数出错,它能够给出程序中错误的代码行数. common.h代码如下: #pragma once #include <d3d11.h> #include <d3dx10math.h> #if defined(DEBUG) || defined(_DEBUG) #ifndef D3D_DEBUG_INFO #define D…

Spark教程——（7）编写spark-sql程序读取HBase定时生成报表

plugin划红线报错: maven-scala-plugin maven-shade-plugin 查找Maven仓库,发现一个没有jar包,一个jar包无法解压缩打开,删除Maven中坏的jar包,并Reimport成功,IDEA不再报错: 在IDEA的Maven面板中,设置跳过test,为打包做准备: 打包Spark程序: 打包程序报错: Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile wra…

Spark教程——（8）本地执行spark-sql程序

在程序中设定Spark SQL的运行模式: //.setMaster("local")设置本地运行模式 val conf = new SparkConf().setAppName("fdsf").setMaster("local") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) 一.可能报错: Could not locate executable null…

Spark之使用SparkSql操作Hive的Scala程序实现

依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.1.3</version> </dependency> scala代码 package com.zy.sparksql import org.apache.spark.SparkContext import…

spark教程(四)-SparkContext 和 RDD 算子

SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个: 利用 SparkContext 实例创建的对象都是 RDD,这是相对于 SparkSession 说的,因为它创建的对象都是 DataFrame: 创建 sc class SparkContext(__builtin__.object): def __i…

【Spark篇】---SparkSql之UDF函数和UDAF函数

一.前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二.UDF函数 UDF:用户自定义函数,user defined function * 根据UDF函数参数的个数来决定是实现哪一个UDF UDF1,UDF2....UDF1xxx * UDF1 传一个参数 UDF2传两个参数..... sqlContext.udf().register("StrLen", new UDF1<String,Integer…

【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用

一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.setAppName("udf"); JavaSparkContext sc = new JavaSparkContext(conf); SQLCon…

【Spark篇】---SparkSQL on Hive的配置和使用

一.前述 Spark on Hive: Hive只作为储存角色,Spark负责sql解析优化,执行. 二.具体配置 1.在Spark客户端配置Hive On Spark 在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml: 配置hive的metastore路径 <configuration> <property> <name>hive.metastore.uris</name> <value>thrif…

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

一.前述 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原生的RDD. RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础. 能够在Scala中写SQL语句.支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用. 2.Spark on Hive和Hive on Spa…

038 spark中使用sparksql对日志进行分析（属于小案例）

一:使用sparksql开发 1.sparksql开发的两种方式 HQL:SQL语句开发 eq : sqlContext.sql("xxxx") DSL : sparkSql中DataFrame的API调用方式 eq:val df=sqlContext.xxx df.select("number") 二:HQL的开发案例 1.新建目录上传日志 2.开启服务三:书写程序 1.描述这个程序一共包括两个部分. 所以写的是两个程序. 2.程序一:对日志的描述--Apac…

Spark之使用SparkSql操作mysql和DataFrame的Scala实现

通过读取文件转换成DataFrame数据写入到mysql中 package com.zy.sparksql import java.util.Properties import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSession} import org.apache.spark.sql.types.{Integ…

Expression Blend实例中文教程(11) - 视觉管理器快速入门Visual State Manager(VSM)

Visual State Manager,中文又称视觉状态管理器(简称为VSM),是Silverlight 2中引进的一个概念.通过使用VSM,开发人员和设计人员可以轻松的改变项目控件的视觉效果,在项目中VSM主要用于创建自定义控件以及控件模板.为了能够打造个性绚丽的Silverlight项目,学习掌握VSM是非常必要的.本文将介绍VSM的快速入门知识以及VSM在Blend中的使用方法. 在学习VSM前,首先,了解以下几个基本概念: 正如前文所说,VSM视觉管理器是用户控制项目控件的视觉效果,S…