060 SparkStream 的wordcount示例

1.SparkStream

　　入口：StreamingContext

　　抽象：DStream

2.SparkStreaming内部原理　　

　　当一个批次到达的时候，会产生一个rdd，这个rdd的数据就是这个批次所接收/应该处理的数据内容，内部具体执行是rdd job的调度

　　batchDuration: 产生RDD的间隔时间(定时任务，间隔给定时间后会生产一个RDD)，产生的RDD会缓存到一个Map<Time, RDD>；RDD的调度当集合中有一个rdd的time时间超过当前时间的时候(>=)，对应的rdd被触发操作

一：安装nc

1.说明

　　netcat(nc)是一个简单而有用的工具，被誉为网络安全界的“瑞士均道”。

　　不仅可以通过使用TCP或UDP协议的网络连接读写数据，同时还是一个功能强大的网络调试和探测工具，能够建立你需要的几乎所有类型的网络连接。

2.检测nc

3.安装

　　sudo yum install -y nc

4.检查是否可以使用

5.使用数据进行测试

　　在一个终端输入数据：

6.解决问题

　　因为，这里安装了高版本的nc，centos在6.4不适合nc。

　　不建议使用nc这种yum的方式。

7.卸载

8.重新安装

　　下载合适的版本

　　wget http://vault.centos.org/6.4/os/x86_64/Packages/nc-1.84-22.el6.x86_64.rpm

　　rpm -iUv nc-1.84-22.el6.x86_64.rpm

9.测试接受数据

　　发送：

　　接收：

10.yum install nc.x86_64

　　这样下载的nc版本是nc-1.84-24.e

　　版本还是高，和直接yum install nc的版本一样。

二：程序

1.程序

 package com.stream.it

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 import org.apache.spark.{SparkConf, SparkContext}

 object SparkStreamWordcount {

   def main(args: Array[String]): Unit = {

     val conf=new SparkConf()

         .setAppName("spark-streaming-wordcount")

           .setMaster("local[*]")

     val sc=SparkContext.getOrCreate(conf)

     val ssc=new StreamingContext(sc,Seconds(15))

     val hostname="linux-hadoop01.ibeifeng.com"

     val port=9999

     val dstream=ssc.socketTextStream(hostname,port)

     /**

       * 80%的RDD上的方法可以在DStream上直接使用

       */

     val resultWordcount=dstream

       .filter(line=>line.nonEmpty)

         .flatMap(line=>line.split(" ").map((_,1)))

         .reduceByKey(_+_)

     resultWordcount.foreachRDD(rdd=>{

       rdd.foreachPartition(iter=>iter.foreach(println))

     })

     //启动

     ssc.start()

     //等到

     ssc.awaitTermination()

   }

 }

2.发送数据

3.控制台

060 SparkStream 的wordcount示例的更多相关文章

WordCount示例深度学习MapReduce过程（1）
我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功.在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,Wou ...
WordCount示例深度学习MapReduce过程
转自: http://blog.csdn.net/yczws1/article/details/21794873 . 我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测 ...
hadoop学习第三天-MapReduce介绍&&WordCount示例&&倒排索引示例
一.MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干 ...
MapReduce 编程模型 & WordCount 示例
学习大数据接触到的第一个编程思想 MapReduce. 前言之前在学习大数据的时候,很多东西很零散的做了一些笔记,但是都没有好好去整理它们,这篇文章也是对之前的笔记的整理,或者叫输出吧.一来是加 ...
九、sparkStream的scala示例
简介 sparkStream官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview spark ...
Storm入门（四）WordCount示例
一.关联代码使用maven,代码如下. pom.xml 和Storm入门(三)HelloWorld示例相同 RandomSentenceSpout.java /** * Licensed to t ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Erlang基础 -- 介绍 -- Wordcount示例演示
在前两个blog中,已经说了Erlang的历史.应用场景.特点,这次主要演示一个Wordcount的示例,就是给定一个文本文件,统计这个文本文件中的单词以及该单词出现的次数. 今天和群友们讨论了一个问 ...

随机推荐

nodejs，javascript过滤emoj表情
1 前言由于带emoj表情的昵称无法存储在mysql character_set_server= utf8模式下,按照参考文章[1],改成utf8mb4,无效(可能使用方法不对). 总体思路是,把昵 ...
VUE 浏览器关闭时清空localStorage
1. 概述 1.1 说明 vue项目中,为了解决页面刷新时vuex数据丢失问题,使用localStorage进行存储对应的vuex数据(判断对应localStorage是否为空,不为空则为vuex中数 ...
Servet
一.Servlet 是单例吗不是. 1.你可以用多个 URL 映射同一个 Servlet.这样就会出现多个实例. 2.看看 Servlet 定义: 引用 For a servlet not host ...
numpy:dot与multiply
http://blog.csdn.net/iamzhangzhuping/article/details/52370241
乘法原理，加法原理，多重集的排列数（多个系列操作穿插的排列数）进阶指南洛谷p4778
https://www.luogu.org/problemnew/solution/P4778 非常好的题目,囊括了乘法加法原理和多重集合排列,虽然最后使用一个结论解出来的.. 给定一个n的排列,用最 ...
Nginx详解十二：Nginx场景实践篇之跨站访问相关
跨站访问浏览器请求一个页面的时候,发送了两个域名的请求此情况不安全,容易出现CSRF攻击,所以浏览器禁止跨域访问 Nginx设置打开跨站访问配置语法:add_header name value ...
Selenium CSS定位语法
大部分人在使用selenium定位元素时,用的是xpath定位,因为xpath基本能解决定位的需求.css定位往往被忽略掉了,其实css定位也有它的价值,css定位更快,语法更简洁.这一篇css的定位 ...
AI-视图组件-五个接口的最终简化版
五个接口最终版 #url.py # 序列化最贱版本 url(r'^customer/$', views.CustomerView.as_view({"get":"list ...
spring coud Feign常用配置
Ribbon配置在Feign中配置Ribbon非常简单,直接在application.properties中配置即可,如: # 设置连接超时时间 ribbon.ConnectTimeout=500 ...
论文阅读笔记十四：Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation（CVPR2015）
论文链接:https://arxiv.org/abs/1506.04924 摘要该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类 ...

060 SparkStream 的wordcount示例

060 SparkStream 的wordcount示例的更多相关文章

随机推荐

热门专题