Spark教程——（9）Oozie编排Spark任务

Spark教程——（11）Spark程序local模式执行、cluster模式执行以及Oozie/Hue执行的设置方式

本地执行Spark SQL程序: package com.fc //import common.util.{phoenixConnectMode, timeUtil} import org.apache.spark.sql.SQLContext import org.apache.spark.sql.functions.col import org.apache.spark.{SparkConf, SparkContext} /* 每天执行 */ object costDay { def mai…

Spark教程——（10）Spark SQL读取Phoenix数据本地执行计算

添加配置文件 phoenixConnectMode.scala : package statistics.benefits import org.apache.hadoop.conf.Configuration import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.phoenix.spark._ object phoenixConnectMode { private val zookeeper = "node3…

Spark教程——（9）Oozie编排Spark任务

进入Hue管理界面,打开Oozie Editor: 将打包好的Spark程序上传到HDFS上,拖拽Spark任务,编辑任务属性,选择打包好的Spark程序,设置主函数所在类,设置选项参数: 保存为任务: 执行: 执行结果: 该页面包含了很多信息,可以关联到任务的jobhistory:…

Oozie调用Spark实例

oozie调用spark有三样是必须有的: workflow.xml(不可改名) , job.properties(可改名) , jar包(自备). 1.workflow.xml workflow.xml需要放到hdfs中 2.job.properties job.properties放在本地目录中即可. 3.运行: oozie job -config job.properties -run -oozie http://地址:11000/oozie…

【原创】大叔经验分享（5）oozie提交spark任务如何添加依赖

spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖: 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖: 这两种方式在oozie上都行不通,首先oozie上没办法也不应该通过local运行,其次通过spark.yarn.jars方式配置你会发现根本不会生效,来看为什么查看LauncherMapper的日志 Spark Version 2.1.1 Spark Action Main class : org.apa…

【原创】大叔问题定位分享（9）oozie提交spark任务报 java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/KafkaProducer

oozie中支持很多的action类型,比如spark.hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ... oozie中sharelib用于存放每个action类型需要的依赖,可以查看当前所有的action类型以及每个action类型的依赖 oozie admin -shareliblist[Available ShareLib]hivesparkbakdistcpmapreduce-streamingsp…

spark教程

某大神总结的spark教程, 地址 http://litaotao.github.io/introduction-to-spark?s=inner…

spark教程(九)-操作数据库

数据库也是 spark 数据源创建 df 的一种方式,因为比较重要,所以单独算一节. 本文以 postgres 为例安装 JDBC 首先需要安装 postgres 的客户端驱动,即 JDBC 驱动,这是官方下载地址,JDBC,根据数据库版本下载对应的驱动上传至 spark 目录下的 jars 目录并设置环境变量 export SPARK_CLASSPATH = /usr/lib/spark/jars 编程模板如何操作数据库,不同的版本方法不同,网上的教程五花八门,往往尝试不成功. 其实…

spark教程(四)-SparkContext 和 RDD 算子

SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个: 利用 SparkContext 实例创建的对象都是 RDD,这是相对于 SparkSession 说的,因为它创建的对象都是 DataFrame: 创建 sc class SparkContext(__builtin__.object): def __i…

spark教程(18)-sparkSQL 自定义函数

sparkSQL 也允许用户自定义函数,包括 UDF.UDAF,但没有 UDTF 官方 API class pyspark.sql.UDFRegistration(sparkSession)[source] register(name, f, returnType=None)[source] Register a Python function (including lambda function) or a user-defined function as a SQL function. Pa…

spark教程(八)-SparkSession

spark 有三大引擎,spark core.sparkSQL.sparkStreaming, spark core 的关键抽象是 SparkContext.RDD: SparkSQL 的关键抽象是 SparkSession.DataFrame: sparkStreaming 的关键抽象是 StreamingContext.DStream SparkSession 是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContext: S…

spark教程(14)-共享变量

spark 使用的架构是无共享的,数据分布在不同节点,每个节点有独立的 CPU.内存,不存在全局的内存使得变量能够共享,驱动程序和任务之间通过消息共享数据举例来说,如果一个 RDD 操作使用了驱动程序中的变量,spark 会将这个变量的副本和 task 一起发送给 executor 中的执行者,对该变量的更新只存在于 task 的内部,并不会回传给驱动程序: 如果这个任务分为多个阶段,每个阶段开始时,驱动程序会把变量发送给 worker: 在实际场景中,驱动程序在 task 间共享一个巨大…

spark教程(12)-生态与原理

spark 是目前非常流行的大数据计算框架. spark 生态 Spark core:包含 spark 的基本功能,定义了 RDD 的 API,其他 spark 库都基于 RDD 和 spark core SparkSQL:像 sql 一样操作数据 SparkStreaming:实时数据处理,像操作普通 RDD 一样处理流数据 Mlib:机器学习库,算法被实现为对 RDD 的操作 GraphX:控制图.并行图操作和计算的一组算法和工具的集合 spark 特点快速:基于内存计算,官方数据表明,如…

spark教程(一)-集群搭建

spark 简介建议先阅读我的博客大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果写入 hdfs,而 spark 直接写入内存,这使得它能够实现实时计算. spark 由 scala 语言开发,他能够和 scala 完美结合,同时实现了 java.python.R 等接口. 搭建模式 spark 有 3 种搭建模式 local 模式:即单机模式,这种安装加压即可,具体安装方法穿插在 Stan…

Spark教程——（4）Spark-shell调用SQLContext（HiveContext）

启动Spark-shell: [root@node1 ~]# spark-shell Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.6.0 /_/ Us…

Spark教程——（2）编写spark-submit测试Demo

创建Maven项目: 填写Maven的pom文件如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://ma…

Spark教程——（1）安装Spark

Cloudera Manager介绍 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装.中心化管理.集群监控.报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率. CM技术架构 Agent:安装在每台主机上.该代理负责启动和停止的过程,拆包配置,触发装置和监控主机. Management Service:由一组执行各种监控,警报和报告功能角色的服务.…

Spark中文指南(入门篇)-Spark编程模型(一)

前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spark基于Standlone的运行流程 Spark基于YARN的运行流程 Apache Spark是什么? Spark是一个用来实现快速而通用的集群计算的平台.扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理.在处理大规模数据集的时候,速度是非常重要的.Spark的一个重要特点就是能够在内存中计算,因…

Spark小课堂Week1 Hello Spark

Spark小课堂Week1 Hello Spark 看到Spark这个词,你的第一印象是什么? 这是一朵"火花",官方的定义是Spark是一个高速的.通用的.分布式计算系统!!! 用途:进行大数据计算,这里要注意,大数据是一个相对概念,并没有绝对的量化指标,一般我们认为在业务特定场景要求下,一台机器处理不了的数据都能称为大数据. 前身:大数据计算的开山鼻祖Hadoop,Spark和Hadoop的主要区别就是更快,更通用. 功能:Spark内核设计的非常通用,具有很高的扩展性,目前已经发…

【Spark深入学习 -14】Spark应用经验与程序调优

----本节内容------- 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性 3.2.3 存储格式选择 3.2.4 选择高配机器 3.3 优化操作符 3.3.1 过滤操作导致多小任务 3.3.2 降低单条记录开销 3.3.3 处理数据倾斜或者任务倾斜 3.…

【Spark教程——（9）Oozie编排Spark任务】的更多相关文章

Spark教程——（11）Spark程序local模式执行、cluster模式执行以及Oozie/Hue执行的设置方式

Spark教程——（10）Spark SQL读取Phoenix数据本地执行计算

Spark教程——（9）Oozie编排Spark任务

Oozie调用Spark实例

【原创】大叔经验分享（5）oozie提交spark任务如何添加依赖

【原创】大叔问题定位分享（9）oozie提交spark任务报 java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/KafkaProducer

spark教程

spark教程(九)-操作数据库

spark教程(四)-SparkContext 和 RDD 算子

spark教程(18)-sparkSQL 自定义函数

spark教程(八)-SparkSession

spark教程(14)-共享变量

spark教程(12)-生态与原理

spark教程(一)-集群搭建

Spark教程——（4）Spark-shell调用SQLContext（HiveContext）

Spark教程——（2）编写spark-submit测试Demo

Spark教程——（1）安装Spark

Spark中文指南(入门篇)-Spark编程模型(一)

Spark小课堂Week1 Hello Spark

【Spark深入学习 -14】Spark应用经验与程序调优

【Spark深入学习-11】Spark基本概念和运行模式

转载：Spark中文指南(入门篇)-Spark编程模型(一)

（一）Spark简介-Java&Python版Spark

Spark学习（四） -- Spark作业提交

Spark入门实战系列--1.Spark及其生态圈简介

Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

Spark入门实战系列--4.Spark运行架构

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍

Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介