sparkStreaming复习笔记(1)

一、SparkStreaming

　　1.sparkcore模块的扩展，具有可扩展，高吞吐量，容错机制，针对实时数据流处理，数据可以来自于kafka,flume以及tcp套接字，可以使用更加复杂的函数来进行处理

　　　　如map reduce 和filter。数据可以推送到hdfs,mysql，针对数据流可以应用到机器学习以及图计算中

　　2.在内部，spark接收实时数据流，分成小批次，所以spark不是实时计算，是小批次计算，由spark引擎来进行处理，最终在每个批次中产生结果数据流。按照时间来划分批次。

　　　　计算完成之后就变成一小块的数据。sparkstreaming提供了一个高级的抽象称为discretized stream or DStream,离散流，代表的是连续的数据流。通过kafka或者flue实时输入数据流产生，也可以通过其他的DStream进行高阶变换产生。在内部，DStream也表现为RDD流。

　　　3.体验sparkstreaming

　　　　(1)spark api编程

from pyspark import SparkContext

from pyspark.streaming import StreamingContext

# Create a local StreamingContext with two working thread and batch interval of  second

sc = SparkContext("local[2]", "NetworkWordCount") #创建一个sparkStreaming上下文对象，local要大于1

ssc = StreamingContext(sc, )#指定一个上下文对象

# Create a DStream that will connect to hostname:port, like localhost:9999与主机创建连接，localhost是9999

lines = ssc.socketTextStream("localhost", 9999)

# Split each line into words，把每一个流切换成一个单词

words = lines.flatMap(lambda line: line.split(" "))

# Count each word in each batch，计算在队列中的每一个单词，变换成对偶

pairs = words.map(lambda word: (word, 1))

wordCounts = pairs.reduceByKey(lambda x, y: x + y)

# Print the first ten elements of each RDD generated in this DStream to the console，在控制台上打印10个元素

wordCounts.pprint()

ssc.start()             # Start the computation开始计算

ssc.awaitTermination()  # Wait for the computation to terminate,等待计算结束

　　(2)启动nc服务器

　　　　nc -Ll -p 9999

sparkStreaming复习笔记(1)的更多相关文章

Java基础复习笔记系列九网络编程
Java基础复习笔记系列之网络编程学习资料参考: 1.http://www.icoolxue.com/ 2. 1.网络编程的基础概念. TCP/IP协议:Socket编程:IP地址. 中国和美国之 ...
Java基础复习笔记系列八多线程编程
Java基础复习笔记系列之多线程编程参考地址: http://blog.csdn.net/xuweilinjijis/article/details/8878649 今天的故事,让我们从上面这个图 ...
Java基础复习笔记系列七 IO操作
Java基础复习笔记系列之 IO操作我们说的出入,都是站在程序的角度来说的.FileInputStream是读入数据.?????? 1.流是什么东西? 这章的理解的关键是:形象思维.一个管道插入了一 ...
Java基础复习笔记系列五常用类
Java基础复习笔记系列之常用类 1.String类介绍. 首先看类所属的包:java.lang.String类. 再看它的构造方法: 2. String s1 = “hello”: String ...
Java基础复习笔记系列四数组
Java基础复习笔记系列之数组 1.数组初步介绍? Java中的数组是引用类型,不可以直接分配在栈上.不同于C(在Java中,除了基础数据类型外,所有的类型都是引用类型.) Java中的数组在申明时 ...
Java基础复习笔记基本排序算法
Java基础复习笔记基本排序算法 1. 排序排序是一个历来都是很多算法家热衷的领域,到现在还有很多数学家兼计算机专家还在研究.而排序是计算机程序开发中常用的一种操作.为何需要排序呢.我们在所有的系统 ...
Angular复习笔记7-路由（下）
Angular复习笔记7-路由(下) 这是angular路由的第二篇,也是最后一篇.继续上一章的内容路由跳转 Web应用中的页面跳转,指的是应用响应某个事件,从一个页面跳转到另一个页面的行为.对于使 ...
Angular复习笔记7-路由（上）
Angular复习笔记7-路由(上) 关于Angular路由的部分将分为上下两篇来介绍.这是第一篇. 概述路由所要解决的核心问题是通过建立URL和页面的对应关系,使得不同的页面可以用不同的URL来表 ...
Angular复习笔记6-依赖注入
Angular复习笔记6-依赖注入依赖注入(DependencyInjection)是Angular实现重要功能的一种设计模式.一个大型应用的开发通常会涉及很多组件和服务,这些组件和服务之间有着错综 ...

随机推荐

mysql INSERT语句语法
mysql INSERT语句语法作用:用于向表格中插入新的行. 语法:INSERT INTO 表名称 VALUES (值1, 值2,....)或者INSERT INTO table_name (列 ...
Hello Kotlin! Kotlin学习资料
今天谷歌搞了条大新闻.宣布Kotlin成为android开发的一级(One Class)语言,这说明谷歌是被甲骨文恶心坏了,打算一步步脱离掉java或者说是甲骨文公司的束缚了.原先网上大家还琢磨着会不 ...
170815-关于Filter的知识点
Filter简介: Filter翻译为中文是过滤器的意思. Filter是JavaWeb的三大web组件之一:Servlet.Filter.Listener ...
企业级技术解决方案：hbase+es
1:需求: 解决海量数据的存储,并且能够实现海量数据的秒级查询 Hbase是典型的nosql,是一种构建在HDFS之上的分布式.面向列的存储系统,在需要的时候可以进行实时的大规模数据集的读写操作:但是 ...
[CSP-S模拟测试]:炼金术士的疑惑（模拟+数学+高斯消元）
题目传送门(内部题70) 输入格式第一行一个正整数$n$,表示炼金术士已知的热化学方程式数量.接下来$n$行,每行一个炼金术士已知的热化学方程式.最后一行一个炼金术士想要求解的热化学方程式,末尾记为 ...
大数据笔记（十四）——HBase的过滤器与Mapreduce
一. HBase过滤器 1.列值过滤器 2.列名前缀过滤器 3.多个列名前缀过滤器 4.行键过滤器5.组合过滤器 package demo; import javax.swing.RowFilter; ...
JavaVM & JNIEnv
JNIEnv提供了大多数的JNI函数.你的本地方法都会接收JNIEnv作为第一个参数.JNIEnv用于本地线程存储.因此,你不能在线程间共享同一个JNIEnv.如果一个代码段没有其他方式获取它自身线程 ...
vue2.0 之 douban （二）创建自定义组件tabbar
1.大体布局这个组件分为两部分:第一个是组件的外层容器,第二个是组件的子容器item,子组件里面又分为图片和文字组合.子组件有2个状态,一个默认灰色的状态,一个选中状态,我们来实现一下这个组件的布局 ...
嵌入式Linux之虚拟内存地址空间布局(Virtual Memory Space)
虚拟内存地址空间 Linux内核属于微内核的范畴,内核控制计算机的硬件资源,运行在特权模式:用户态应用程序运行在普通用户模式,无法直接访问硬件资源,必须依托于内核提供的资源,如CPU资源.Memory ...
mysql5.6.36 源码安装过程
参考:http://www.linuxidc.com/Linux/2015-06/119354.htm cmake编译时,提示错误 CMake Error: The source directory ...

sparkStreaming复习笔记(1)

一、SparkStreaming

sparkStreaming复习笔记(1)的更多相关文章

随机推荐

热门专题