Spark之Streaming

1. socket消息发送

import java.net.ServerSocket

import java.io.PrintWriter

import scala.collection.mutable.ListBuffer

import java.util.Random

/**

 * Created by zzy on 8/28/15.

 */

/**

 * 模拟socket消息发送

 */

object SparkSoketSender {

  def main(args: Array[String]) {

    if(args.length != 2){   //校验

      System.err.println("usage: <port> <time>")   //端口     时间（毫秒）

      System.exit(1)

    }

    val listener = new ServerSocket(args(0).toInt)

    while(true){

      val socket = listener.accept()

      new Thread(){

        override def run = {

          println("find connected from : " + socket.getInetAddress())

          val out = new PrintWriter(socket.getOutputStream(),true)

          while(true){

            Thread.sleep(args(1).toLong)

            val context = createContext(index)

            println(context)

            out.write(context + "\n")

            out.flush()

          }

          socket.close()

        }

      }.start()

    }

  }

  def createContext(index:Int) :String= {  //发送的内容

  val charList = ListBuffer[Char]()

    for( i <- 65 to 90){

      charList += i.toChar   // A B C D E F

    }

    var arr = charList.toArray

    arr(index).toString

  }

  def index = {  //产生一个随机数

  val num = new Random

    num.nextInt(5)  // 0 1 2 3 4 5

  }

}

2.

import org.apache.spark.SparkConf

import org.apache.spark.streaming.dstream.PairDStreamFunctions

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.StreamingContext._

/**

 * Created by zzy on 8/28/15.

 */

object SparkStreaming {

  def main(args: Array[String]) {

    if (args.length != 3) {

      System.err.println("usage: <hostname> <port> <seconds>")  //socket发送的机器   socket消息发送的端口    时间片

      System.exit(1)

    }

    val  ssc = new StreamingContext(new SparkConf,Seconds(args(2).toInt))

  //输入源  可以有很多种

  val lines =  ssc.socketTextStream(args(0),args(1).toInt,StorageLevel.MEMORY_ONLY_SER)  //网络数据存两份

  val words = lines.flatMap(_.split(" "))    //返回DStream checkpoint(interval)必须指定时间

  //时间间隔操作

  val wc = words.map((_,1)).reduceByKey(_+_)

  /*window操作*/

  //    val wc = words.map((_,1)).reduceByKeyAndWindow(_+_, _-_, windowDuration, slideDuration, numPartitions, filterFunc)

  /*    //带状态的操作，使用updateStateByKey

       val sDstream = words.map((_,1)).updateStateByKey(updateFunc)  //传入保存状态函数

       val updateFunc = (currValues: Seq[Int], state: Option[Int]) => {

       val currentCount = currValues.foldLeft(0)(_ + _)

          // 已累加的结果值

       val previousCount = state.getOrElse(0)

            // 返回累加后的结果，是一个Option[Int]类型

       Some(currentCount + previousCount)

       }*/

  wc.print()

  ssc.start()

  ssc.awaitTermination()

}

}

3.提交任务

Streaming

spark-submit --class cn.crxy.SocketSender original-testSpark-1.0-SNAPSHOT.jar 2015 1000

spark-submit --class cn.crxy.SparkStreaming original-testSpark-1.0-SNAPSHOT.jar crxy164 2015 10

.csharpcode, .csharpcode pre
{
font-size: small;
color: black;
font-family: consolas, "Courier New", courier, monospace;
background-color: #ffffff;
/*white-space: pre;*/
}
.csharpcode pre { margin: 0em; }
.csharpcode .rem { color: #008000; }
.csharpcode .kwrd { color: #0000ff; }
.csharpcode .str { color: #006080; }
.csharpcode .op { color: #0000c0; }
.csharpcode .preproc { color: #cc6633; }
.csharpcode .asp { background-color: #ffff00; }
.csharpcode .html { color: #800000; }
.csharpcode .attr { color: #ff0000; }
.csharpcode .alt
{
background-color: #f4f4f4;
width: 100%;
margin: 0em;
}
.csharpcode .lnum { color: #606060; }

Spark之Streaming的更多相关文章

Spark Structured streaming框架（1）之基本使用
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架.这篇是介绍Spark Structured Streamin ...
Spark Structured Streaming框架（2）之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark的Streaming + Flume进行数据采集（flume主动推送或者Spark Stream主动拉取）
1.针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2.进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@sl ...
Spark2.3（四十二）：Spark Streaming和Spark Structured Streaming更新broadcast总结（二）
本次此时是在SPARK2,3 structured streaming下测试,不过这种方案,在spark2.2 structured streaming下应该也可行(请自行测试).以下是我测试结果: ...
Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗内存比较多的问题（Memory issue with spark structured streaming）调研
在spark中<Memory usage of state in Spark Structured Streaming>讲解Spark内存分配情况,以及提到了HDFSBackedState ...
Spark2.3（三十五）Spark Structured Streaming源代码剖析(从CSDN和Github中看到别人分析的源代码的文章值得收藏)
从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveLi ...
Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMar ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
DataFlow编程模型与Spark Structured streaming
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理:对应的批量计算,更准确的说法是 ...

随机推荐

XmlReader读取XML
StringBuilder output = new StringBuilder(); String xmlString = @"<bookstore> <book gen ...
数据结构作业——sights（最短路/最近公共祖先）
sights Description 美丽的小风姑娘打算去旅游散心,她走进了一座山,发现这座山有 n 个景点,由于山路难修,所以施工队只修了最少条的路,来保证 n 个景点联通,娇弱的小风姑娘不想走那么 ...
javascript变量、作用域和内存问题......
1基本类型是指那些保存在栈内存的简单数据段,引用类型是指那些保存在堆内存中的对象,变量中保存的实际上只是一个指针. 2javascript中5种基本数据类型Undefined,Null,Boolean ...
GitHub的三个按钮
star 的作用是收藏,目的是方便以后查找. watch 的作用是关注,目的是等作者更新的时候,可以收到通知 fork 的作用是参与,目的是你可以增加新的内容,然后 Pull Request,把你的修 ...
WinForm------Reflector反编译工具下载
地址: http://www.ddooo.com/softdown/70642.htm
StringBuilder 拼接sql语句比较快
StringBuilder 拼接sql语句比较快StringBuilder strBuilder = new StringBuilder();strSql += "insert into t ...
Linux 下 Oracle 内核参数优化
数据库的性能优化涉及到整个数据库运行环境的方方面面,诸如操作系统,Oracle自身,存储,网络等等几个大块.而操作系统则是Oracle稳定运行与最大化性能的基石.本文主要描述基于Linux系统下 Or ...
QT 的下载地址
http://blog.csdn.net/friendan/article/details/44873347
Spring MVC学习笔记——POJO和DispatcherServlet
POJO(Plain Ordinary Java Object)简单的Java对象,实际就是普通JavaBeans,是为了避免和EJB混淆所创造的简称. 使用POJO名称是为了避免和EJB(Enter ...
eclipse里怎么用命令行输入args
eclipse中给java应用传args参数的方法如下:1.先写好Java代码,比如文件名为IntArrqy.java:2.在工具栏或菜单上点run as下边有个Run Configuration:3 ...

Spark之Streaming

Spark之Streaming的更多相关文章

随机推荐

热门专题