预览 Spark Streaming是Spark核心API的扩展,支持高扩展,高吞吐量,实时数据流的容错流处理.数据可以从Kafka,Flume或TCP socket等许多来源获取,并且可以使用复杂的算法进行处理(比如map,reduce,join,window等高级函数).最终,处理的结果数据可以推送到文件系统,数据库或实时仪表盘上.           在内部,它的工作原理如下图.Spark Streaming接收实时输入数据流并将数据分成批,然后由Spark引擎处理,进而批量生成最终结果流…
参考,http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html Overview SparkStreaming支持多种流输入,like Kafka, Flume, Twitter, ZeroMQ or plain old TCP sockets,并且可以在上面进行transform操作,最终数据存入HDFS,数据库或dashboard另外可以把Spark's in-built machine le…
预览 在高层次上,每一个Spark应用(application)都包含一个驱动程序(driver program),该程序运行用户的主函数(main function),并在集群上执行各种并行操作. Spark提供的主要抽象是一个弹性分布式数据集(resilient distributed dataset,简称RDD),它是在集群节点间进行分区的元素集合,可以并行操作.RDD是通过Hadoop文件系统中的文件创建或者由驱动程序中现有的集合转换得到的,用户可以要求Spark将RDD持久化到内存中,…
目录 Overview Quick Example Programming Model Basic Concepts Handling Event-time and Late Data Fault Tolerance Semantics API using Datasets and DataFrames Creating streaming DataFrames and streaming Datasets Input Sources Schema inference and partition…
Spark调优主要分为开发调优.资源调优.数据倾斜调优.shuffle调优几个部分.开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础:数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案:shuffle调优,面向的是对Spark的原理有较深层次掌握和研究的同学,主要讲解了如何对Spark作业的shuffle运行过程以及细节进行调优. 本文作为Spark性能优化指南的基础篇,主要讲解开发调优以及资源调优. 一 开发调优 调优概…
Spark中的对象 Spark的Conf,极简化的场景,可以设置一个空conf给sparkContext,在执行spark-submit的时候,系统会默认给sparkContext赋一个SparkConf: Application是顶级的,每个spark-submit就是一个application:官网说明:User program built on Spark. Consists of a driver program and executors on the cluster. 每个actio…
整个Spark框架都是基于RDD算子来进行计算的. What is RDD? Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构 简单地,可以将RDD看成是Spark平台上的通用货币 在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有R…
spark on yarn 的执行过程在 yarn RM 上无法直接查看,即 http://192.168.10.10:8088,这对于调试程序很不方便,所以需要手动配置 配置方法 1. 配置 spark-defaults.conf  cp spark-defaults.conf.template spark-defaults.conf 添加如下配置 spark.eventLog.enabled true spark.eventLog.dir hdfs://hadoop10:9000//user…
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html http://www.slideshare.net/databricks/a-deep-dive-into-structured-streaming   Structured Streaming is a scalable and fault-tolerant stream processing engine built on the…
前几节介绍了下常用的函数和常踩的坑以及如何打包程序,现在来说下如何调参优化.当我们开发完一个项目,测试完成后,就要提交到服务器上运行,但运行不稳定,老是抛出如下异常,这就很纳闷了呀,明明测试上没问题,咋一到线上就出bug了呢!别急,我们来看下这bug到底怎么回事~ 一.错误分析 1.参数设置及异常信息 18/10/08 16:23:51 WARN TransportChannelHandler: Exception in connection from /10.200.2.95:40888 ja…