Spark Streaming 单词计数

Receiver

从数据源接收数据，然后把数据存储在内存中供spark streaming使用，在本地运行spark streaming不能设置master为local或者local[1]，此时运行的线程只有一个，因为需要一个线程去运行Receiver接收数据，因此，就没有线程去处理数据了

代码

def main(args: Array[String]) {

    val conf = new SparkConf()

    conf.setAppName("SparkStreamDemo")
    // 不能使用local或者local[1]，k必须大于1，准确的说是大于Receiver的数量

    conf.setMaster("local[*]")

    val sc = new SparkContext(conf)

    // 创建StreamingContext 第二个参数是多长时间产生一个RDD

    val ssc = new StreamingContext(sc, Seconds(1))

    // 创建DStream

    val lines = ssc.socketTextStream("m1", 9050);

    val wordCounts = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)

    wordCounts.print()

    // 启动spark streaming

    ssc.start()

    // 等待计算结束

    ssc.awaitTermination()

  }

使用nc命令向m1 9050端口发送数据

如果nc命令不存在，首先安装nc命令

1、sudo yum list nc,发现nc命令在nc.x86_64中
2、安装nc， sudo yum -y install nc.x86_64

nc -lk 9050

然后一直输入数据，就可以看到控制台的数据输出

Spark Streaming 单词计数的更多相关文章

Spark Streaming 002 统计单词的例子
1.准备事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://alamps:9000/library/SparkStreaming/data checkpoint的目录:hdfs://a ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数
文章目录步骤一.创建maven工程并导入jar包二.安装并启动生产者三.开发SparkStreaming代码四.查看结果步骤一.创建maven工程并导入jar包 <properti ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
flume+kafka+spark streaming整合
1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...

随机推荐

【leetcode】Smallest Rotation with Highest Score
题目如下: Given an array A, we may rotate it by a non-negative integer K so that the array becomes A[K], ...
多模字符串匹配算法-Aho–Corasick
背景在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下 for (String document : d ...
java构造方法和重写equals
Cell的构造函数 package Test; import java.util.Objects; public class Cell { int a; int b; public int getA( ...
Linux内核设计与实现总结笔记（第十五章）进程地址空间
一.地址空间进程地址空间由进程可寻址的虚拟内存组成,内核允许进程使用这种虚拟内存中的地址. 每个进程都有一个32位或64位的平坦地址空间,空间的具体大小取决于体系结构.“平坦”指的是地址空间范围是一 ...
【bzoj1096】[ZJOI2007]仓库建设
*题目描述: L公司有N个工厂,由高到底分布在一座山上.如图所示,工厂1在山顶,工厂N在山脚.由于这座山处于高原内陆地区(干燥少雨),L公司一般把产品直接堆放在露天,以节省费用.突然有一天,L公司的总 ...
01-pandas基础-Series与DataFrame
一.Series: 1,介绍:Series是以中类似于一维数组的对象,由一维数组以及与之相关的标签组成特点:索引在左边,值在右边.在创建时,若我们未给数据指定索引,Series会自动创建一个0到N- ...
[CSP-S模拟测试]:飘雪圣域（莫队）
题目描述 $IcePrincess\text{_}1968$和$IcePrince\text{_}1968$长大了,他们开始协助国王$IceKing\text{_}1968$管理国内事物. $IceP ...
Scrapy爬虫框架下执行爬虫的方法
在使用Scrapy框架进行爬虫时,执行爬虫文件的方法是 scrapy crawl xxx ,其中 xxx 是爬虫文件名. 但是,当我们在建立了多个文件时,使用上面的命令时会比较繁琐麻烦,我们就可以使用 ...
pve-备份
一个50g的磁盘,用了13分钟 INFO: starting new backup job: vzdump 111 --node cu-pve04 --mode snapshot --compress ...
CSS - 视觉格式化模型（Visual formatting model）
几个概念块:block,一个抽象的概念,块与块之间在垂直方向上按照顺序依次堆叠. 行内:inline,一个抽象的概念,行内与行内之间在水平方向上按照顺序依次堆叠(会有换行). 元素:element, ...

Spark Streaming 单词计数

Receiver

Spark Streaming 单词计数的更多相关文章

随机推荐

热门专题