sparkStream---1

1.本地scala版

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

object SparkStreamingDemo {

  def main(args: Array[String]): Unit = {

    //local[n] n > 1

    val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    //创建Spark流上下文,批次时长是1s

    val ssc = new StreamingContext(conf, Seconds())

    //创建socket文本流

    val lines = ssc.socketTextStream("localhost", )

    //压扁

    val words = lines.flatMap(_.split(" "))

    //变换成对偶

    val pairs = words.map((_,));

    val count = pairs.reduceByKey(_+_) ;

    count.print()

    //启动

    ssc.start()

    //等待结束

    ssc.awaitTermination()

  }

}

2.java版的，本地

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.Optional;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Seconds;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import scala.Some;

import scala.Tuple2;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

/**

 * Created by Administrator on 2017/4/3.

 */

public class JavaSparkStreamingWordCountApp {

    public static void main(String[] args) throws Exception {

        SparkConf conf = new SparkConf();

        conf.setAppName("wc");

        conf.setMaster("local[4]");

        //创建Spark流应用上下文

        JavaStreamingContext jsc = new JavaStreamingContext(conf, Seconds.apply());

        jsc.checkpoint("file:///d:/scala/check");

        //创建socket离散流

        JavaReceiverInputDStream sock = jsc.socketTextStream("localhost",);

        //压扁

        JavaDStream<String> wordsDS = sock.flatMap(new FlatMapFunction<String,String>() {

            public Iterator call(String str) throws Exception {

                List<String> list = new ArrayList<String>() ;

                String[] arr = str.split(" ");

                for(String s : arr){

                    list.add(s);

                }

                return list.iterator();

            }

        });

        //映射成元组

        JavaPairDStream<String,Integer> pairDS = wordsDS.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String,Integer>(s,);

            }

        }) ;

        JavaPairDStream<String,Integer> jps = pairDS.updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {

            public Optional<Integer> call(List<Integer> v1, Optional<Integer> v2) throws Exception {

                Integer newCount = v2.isPresent() ? v2.get() :   ;

                System.out.println("old value : " + newCount);

                for(Integer i : v1){

                    System.out.println("new value : " + i);

                    newCount = newCount +  i;

                }

                return Optional.of(newCount);

            }

        });

        //聚合

        JavaPairDStream<String,Integer> countDS = jps.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        //打印

        countDS.print();

        jsc.start();

        jsc.awaitTermination();

        jsc.stop();

    }

}

3.集群跑。

将文件打成jar包，放到远程机器中

spark-submit --name wcstreaming

                --class com.spark.java.JavaSparkStreamingWordCountApp 
                  //上面是包名加类名

                --master spark://s201:7077

                SparkDemo1-1.0-SNAPSHOT.jar

sparkStream---1的更多相关文章

SparkStream：4)foreachRDD详解
转载自:http://blog.csdn.net/jiangpeng59/article/details/53318761 foreachRDD通常用来把SparkStream运行得到的结果保存到外部 ...
064 SparkStream与kafka的集成，主要是编程
这里面包含了如何在kafka+sparkStreaming集成后的开发,也包含了一部分的优化. 一:说明 1.官网指导网址:http://spark.apache.org/docs/1.6.1/st ...
060 SparkStream 的wordcount示例
1.SparkStream 入口:StreamingContext 抽象:DStream 2.SparkStreaming内部原理当一个批次到达的时候,会产生一个rdd,这个rdd的数据就是这个批次 ...
059 SparkStream介绍
离线计算框架:MR,hive-->对时间要求不严格实时计算框架:SparkCore-->要求job执行时间比较快交互式计算框架:SparkSQL,Hive,-->提供SQL操作的 ...
九、sparkStream的scala示例
简介 sparkStream官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview spark ...
Flume+kakfa+sparkStream实时处理数据测试
flume:从数据源拉取数据 kafka:主要起到缓冲从flume拉取多了的数据 sparkStream:对数据进行处理一.flume拉取数据 1.源数据文件读取配置在flume目录的 ...
记录下sparkStream的做法(scala)
一直用storm做实时流的开发,之前系统学过spark但是一直没做个模版出来用,国庆节有时间准备做个sparkStream的模板用来防止以后公司要用.(功能模拟华为日常需求,db入库hadoop环境) ...
【Spark篇】---SparkStream初始与应用
一.前述 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展.高吞吐量.容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, Zer ...
063 SparkStream数据接收方式
1.两种方式 2.Basic Source 由StreamingContext可以提供的API 上面做的wordcount中的方式就算是第一种方式. 3.Advanced Source 使用数据接收器 ...
062 SparkStream内部原理
1.DStream 内部是一系列的RDD组成的,每个RDD与RDD的产生时间形成一个pair保存在内存中(下面有) RDD包含了对应时间段的所有block数据. 2.DStream下的方法 /** T ...

随机推荐

Go语言——值方法 & 指针方法
1 package main import ( "fmt" "sort" ) type SortableStrings []string type Sortab ...
H265编码等级以及图像的基础知识
1. H265编码等级 H264编码profile & level控制 .H265编码初探 H265 profile H265 Profile & Level & Tier 介 ...
搭建简单的mongod服务器
1.首先,创建一个叫做mongodb_simple的目录,进入到目录中. 2.创建文件夹:data,用来存储数据库的数据文件. 3.创建文件夹:log,用来存储数据库的日志文件. 4.创建文件夹:bi ...
企业IT运维以及信息管理部服务器管理
方法 1.服务器有必要保持简洁.除了必要的应用软件以及安全软件之外,尽量不要安全其它的软件. 2.要做好服务器帐号权利规划和分配,分配够用的权利就行,从而降低密码泄漏带来的损失. 3.注意关注服务器软 ...
Java集合--TreeMap
转载请注明出处:http://www.cnblogs.com/skywang12345/admin/EditPosts.aspx?postid=3310928 第1部分 TreeMap介绍 TreeM ...
mysql基础篇--新增
语法 #支持单行.多行插入和子查询 insert into 表名(列名,...) values(值1,...); #单行插入 insert into 表名(列名,...) values(值1,...) ...
Vue基础认识
一:什么是Vue? vue是一个渐进式的JavaScript框架,采用的是MVVM模式.Vue 被设计为可以自底向上逐层应用.Vue 的核心库只关注视图层,不仅易于上手,还便于与第三方库或既有项目整 ...
python字典的增删改查操作
一.字典 (键值对) 1.字典的基本格式:{key1:1,key2:2} 2.字典里的键必须是不可变的(如:数字,字符串,元组,bool值);值是可变的,可用数字,字符串,列表,字典等. 3.字典里 ...
harbor1.9仓库同步迁移
harbor 1.9 实战的仓库迁移,过程实际上就是从A push 到B.16个tag 不到100G,挺快的 1分钟多. 假设我们从A迁移到B. 1.先在A上面建立一个目标仓库.
RedisTemplate 中 opsForHash()使用 (没有测试过，copy的)
1.put(H key, HK hashKey, HV value) //新增hashMap值 redisTemplate.opsForHash().put("hashValue" ...

sparkStream---1

sparkStream---1的更多相关文章

随机推荐

热门专题