【Spark】SparkStreaming从不同基本数据源读取数据

文章目录

基本数据源

文件数据源

注意事项
步骤

一、创建maven工程并导包
二、在HDFS创建目录，并上传要做测试的数据
三、开发SparkStreaming代码
四、运行代码后，往HDFS文件夹上传文件
五、控制台输出结果

自定义数据源

步骤

一、使用nc工具给指定端口发送数据
二、开发代码

RDD队列

步骤

一、开发代码

基本数据源

文件数据源

注意事项

1.SparkStreaming不支持监控嵌套目录

2.文件进入dataDirectory（受监控的文件夹）需要通过移动或者重命名实现

3.一旦文件移动进目录，则不能再修改，即使修改也不会读取修改后的数据

步骤

一、创建maven工程并导包

<properties>

    <scala.version>2.11.8</scala.version>

    <spark.version>2.2.0</spark.version>

</properties>

<dependencies>

    <dependency>

        <groupId>org.scala-lang</groupId>

        <artifactId>scala-library</artifactId>

        <version>${scala.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-core_2.11</artifactId>

        <version>${spark.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-sql_2.11</artifactId>

        <version>${spark.version}</version>

    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming -->

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-streaming_2.11</artifactId>

        <version>2.2.0</version>

    </dependency>

    <dependency>

        <groupId>org.apache.hadoop</groupId>

        <artifactId>hadoop-client</artifactId>

        <version>2.7.5</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-hive_2.11</artifactId>

        <version>2.2.0</version>

    </dependency>

    <dependency>

        <groupId>mysql</groupId>

        <artifactId>mysql-connector-java</artifactId>

        <version>5.1.38</version>

    </dependency>

</dependencies>

<build>

    <sourceDirectory>src/main/scala</sourceDirectory>

    <testSourceDirectory>src/test/scala</testSourceDirectory>

    <plugins>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-compiler-plugin</artifactId>

            <version>3.0</version>

            <configuration>

                <source>1.8</source>

                <target>1.8</target>

                <encoding>UTF-8</encoding>

                <!--    <verbal>true</verbal>-->

            </configuration>

        </plugin>

        <plugin>

            <groupId>net.alchim31.maven</groupId>

            <artifactId>scala-maven-plugin</artifactId>

            <version>3.2.0</version>

            <executions>

                <execution>

                    <goals>

                        <goal>compile</goal>

                        <goal>testCompile</goal>

                    </goals>

                    <configuration>

                        <args>

                            <arg>-dependencyfile</arg>

                            <arg>${project.build.directory}/.scala_dependencies</arg>

                        </args>

                    </configuration>

                </execution>

            </executions>

        </plugin>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-shade-plugin</artifactId>

            <version>3.1.1</version>

            <executions>

                <execution>

                    <phase>package</phase>

                    <goals>

                        <goal>shade</goal>

                    </goals>

                    <configuration>

                        <filters>

                            <filter>

                                <artifact>*:*</artifact>

                                <excludes>

                                    <exclude>META-INF/*.SF</exclude>

                                    <exclude>META-INF/*.DSA</exclude>

                                    <exclude>META-INF/*.RSA</exclude>

                                </excludes>

                            </filter>

                        </filters>

                        <transformers>

                            <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

                                <mainClass></mainClass>

                            </transformer>

                        </transformers>

                    </configuration>

                </execution>

            </executions>

        </plugin>

    </plugins>

</build>

二、在HDFS创建目录，并上传要做测试的数据

cd /export/servers/

vim wordcount.txt

hello world

abc test

hadoop hive

HDFS上创建目录

hdfs dfs -mkdir /stream_data

hdfs dfs -put wordcount.txt /stream_data

三、开发SparkStreaming代码

package cn.itcast.sparkstreaming.demo1

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.streaming.{Seconds, StreamingContext}

object getHdfsFiles {

  // 自定义updateFunc函数

  /**

   * updateFunc需要两个参数

   *

   * @param newValues    新输入数据计数累加的值

   * @param runningCount 历史数据计数累加完成的值

   * @return 返回值是Option

   *

   *         Option是scala中比较特殊的类，是some和none的父类,主要为了解决null值的问题

   */

  def updateFunc(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {

    val finalResult: Int = newValues.sum + runningCount.getOrElse(0)

    Option(finalResult)

  }

  def main(args: Array[String]): Unit = {

    //获取SparkConf

    val sparkConf: SparkConf = new SparkConf().setAppName("getHdfsFiles_to_wordcount").setMaster("local[6]").set("spark.driver.host", "localhost")

    // 获取SparkContext

    val sparkContext = new SparkContext(sparkConf)

    // 设置日志级别

    sparkContext.setLogLevel("WARN")

    // 获取StreamingContext

    val streamingContext = new StreamingContext(sparkContext, Seconds(5))

    // 将历史结果都保存到一个路径下

    streamingContext.checkpoint("./stream.check")

    // 读取HDFS上的文件

    val fileStream: DStream[String] = streamingContext.textFileStream("hdfs://node01:8020/stream_data")

    // 对读取到的文件进行计数操作

    val flatMapStream: DStream[String] = fileStream.flatMap(x => x.split(" "))

    val wordAndOne: DStream[(String, Int)] = flatMapStream.map(x => (x, 1))

    // reduceByKey不会将历史消息的值进行累加，所以需要用到updateStateByKey，需要的参数是updateFunc，需要自定义

    val byKey: DStream[(String, Int)] = wordAndOne.updateStateByKey(updateFunc)

    //输出结果

    byKey.print()

    streamingContext.start()

    streamingContext.awaitTermination()

  }

}

四、运行代码后，往HDFS文件夹上传文件

五、控制台输出结果

-------------------------------------------

Time: 1586856345000 ms

-------------------------------------------

-------------------------------------------

Time: 1586856350000 ms

-------------------------------------------

-------------------------------------------

Time: 1586856355000 ms

-------------------------------------------

(abc,1)

(world,1)

(hadoop,1)

(hive,1)

(hello,1)

(test,1)

-------------------------------------------

Time: 1586856360000 ms

-------------------------------------------

(abc,1)

(world,1)

(hadoop,1)

(hive,1)

(hello,1)

(test,1)

-------------------------------------------

Time: 1586856365000 ms

-------------------------------------------

(abc,1)

(world,1)

(hadoop,1)

(hive,1)

(hello,1)

(test,1)

-------------------------------------------

Time: 1586856370000 ms

-------------------------------------------

(abc,2)

(world,2)

(hadoop,2)

(hive,2)

(hello,2)

(test,2)

-------------------------------------------

Time: 1586856375000 ms

-------------------------------------------

(abc,2)

(world,2)

(hadoop,2)

(hive,2)

(hello,2)

(test,2)

自定义数据源

步骤

一、使用nc工具给指定端口发送数据

nc -lk 9999

二、开发代码

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

object CustomReceiver {

  /**

   * 自定义updateFunc函数

   * @param newValues

   * @param runningCount

   * @return

   */

  def updateFunc(newValues:Seq[Int], runningCount:Option[Int]):Option[Int] = {

    val finalResult: Int = newValues.sum + runningCount.getOrElse(0)

    Option(finalResult)

  }

  def main(args: Array[String]): Unit = {

    // 获取SparkConf

    val sparkConf: SparkConf = new SparkConf().setAppName("CustomReceiver").setMaster("local[6]").set("spark.driver.host", "localhost")

    // 获取SparkContext

    val sparkContext = new SparkContext(sparkConf)

    sparkContext.setLogLevel("WARN")

    // 获取StreamingContext

    val streamingContext = new StreamingContext(sparkContext, Seconds(5))

    streamingContext.checkpoint("./stream_check")

    // 读取自定义数据源的数据

    val stream: ReceiverInputDStream[String] = streamingContext.receiverStream(new MyReceiver("node01", 9999))

    // 对数据进行切割、计数操作

    val mapStream: DStream[String] = stream.flatMap(x => x.split(" "))

    val wordAndOne: DStream[(String, Int)] = mapStream.map((_, 1))

    val byKey: DStream[(String, Int)] = wordAndOne.updateStateByKey(updateFunc)

    // 输出结果

    byKey.print()

    streamingContext.start()

    streamingContext.awaitTermination()

  }

}

import java.io.{BufferedReader, InputStream, InputStreamReader}

import java.net.Socket

import java.nio.charset.StandardCharsets

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.receiver.Receiver

class MyReceiver(host:String,port:Int) extends Receiver[String](StorageLevel.MEMORY_AND_DISK_2){

  /**

   * 自定义receive方法接收socket数据，并调用store方法将数据保存起来

   */

  private def receiverDatas(): Unit ={

    // 接收socket数据

    val socket = new Socket(host, port)

    // 获取socket数据输入流

    val stream: InputStream = socket.getInputStream

    //通过BufferedReader ，将输入流转换为字符串

    val reader = new BufferedReader(new InputStreamReader(stream,StandardCharsets.UTF_8))

    var line: String = null

    //判断读取到的数据不为空且receiver没有被停掉时

    while ((line = reader.readLine()) != null && !isStopped()){

      store(line)

    }

    stream.close()

    socket.close()

    reader.close()

  }

  /**

   * 重写onStart和onStop方法，主要是onStart，onStart方法会被反复调用

   */

  override def onStart(): Unit = {

    // 启动通过连接接收数据的线程

    new Thread(){

      //重写run方法

      override def run(): Unit = {

        // 定义一个receiverDatas接收socket数据

        receiverDatas()

      }

    }

  }

  // 停止结束的时候被调用

  override def onStop(): Unit = {

  }

}

RDD队列

步骤

一、开发代码

package cn.itcast.sparkstreaming.demo3

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.dstream.{DStream, InputDStream}

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import scala.collection.mutable

object QueneReceiver {

  def main(args: Array[String]): Unit = {

    //获取SparkConf

    val sparkConf: SparkConf = new SparkConf().setMaster("local[6]").setAppName("queneReceiver").set("spark.driver.host", "localhost")

    //获取SparkContext

    val sparkContext = new SparkContext(sparkConf)

    sparkContext.setLogLevel("WARN")

    //获取StreamingContext

    val streamingContext = new StreamingContext(sparkContext, Seconds(5))

    val queue = new mutable.SynchronizedQueue[RDD[Int]]

    // 需要参数 queue: Queue[RDD[T]]

    val inputStream: InputDStream[Int] = streamingContext.queueStream(queue)

    // 对DStream进行操作

    val mapStream: DStream[Int] = inputStream.map(x => x * 2)

    mapStream.print()

    streamingContext.start()

    //定义一个RDD队列

    for (x <- 1 to 100){

      queue += streamingContext.sparkContext.makeRDD(1 to 10)

      Thread.sleep(3000)

    }

    streamingContext.awaitTermination()

  }

}

【Spark】SparkStreaming从不同基本数据源读取数据的更多相关文章

spark SQL （五）数据源 Data Source----json hive jdbc等数据的的读取与加载
1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row].这个转换可以SparkSession.read.json()在一个Dataset[Str ...
spark SQL（三）数据源 Data Source----通用的数据加载/保存功能
Spark SQL 的数据源------通用的数据加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作.DataFrame可以使用关系变换进行操作,也可以用来创建临 ...
echarts通过ajax向服务器发送post请求,servlet从数据库读取数据并返回前端
1.echarts的官网上的demo,都是直接写死的随机数据,没有和数据库的交互,所以就自己写了一下,ok,我们开始一步一步走一遍整个流程吧. 就以官网最简单的那个小demo来做修改吧.官网上的小de ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
创建spark_读取数据
在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext,不过在Spark2.0中只要创建一个SparkSession就够了,SparkConf.SparkContext ...
kettle7.1无法从Mongo中读取数据
今天使用kettle读取mongo数据库时,刚开始一直无法读取数据: 在配置项中偶然选择了一个nearest然后成功了,麻蛋. 然后百度查询了下Read Reference是干嘛的,原来是读取源的模式 ...
Ado.Net基础拾遗一：读取数据
从数据库中读取数据: 使用DataReader对象从数据库中读取数据首先需要添加几个命名空间 //需要添加的命名空间 using System.Configuration; using System ...
Spark SQL - 对大规模的结构化数据进行批处理和流式处理
Spark SQL - 对大规模的结构化数据进行批处理和流式处理大体翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/con ...
Power BI 的数据源及数据刷新
Power BI 目前可以连接超过100种数据源,包含常见的各种数据库,文件,数据仓库,云等等. 不同的数据源支持不同的连接方式,通常来讲,Power BI 支持两种数据连接方式: 导入(import ...

随机推荐

令人迷惑的Gamma
概述首先我想说,接触到Gamma的概念也很长时间了,一直没有认真的去学习它.知其然而不知其所以然.最近恰巧学到了这一部分,就想彻底地搞懂它. CRT 说起Gamma,肯定离不开CRT(阴极射线管). ...
ModuleNotFoundError: No module named 'sklearn.cross_validation'
本文为CSDN博主「不服输的南瓜」的原创文章,遵循 CC 4.0 BY-SA 版权协议原文链接 ModuleNotFoundError: No module named 'sklearn.cross ...
gdb 调试中No symbol “***” in current context解决方法
主要是因为GCC/G++版本和GDB不匹配造成的,网上也有说是因为O2优化问题,具体啥原因需要自己尝试一下. 解决: 放狗搜索,解决办法是在编译是加-gdwarf-3即可,出现这样的原因是gcc,gd ...
JS Math&Date的方法 (上)
数学对象&时间对象本篇文章主要介绍Math 和 Date 的常用方法! 一 :Math & Date Math 数学对象 - 处理数学计算和数学类 ...
Android | 教你如何在安卓上实现通用卡证识别，一键各种卡绑定
目录前言通用卡证识别的应用场景如何使用通用卡证识别服务集成通用卡证识别服务的关键流程开发实战 1 开发准备 1.1 在项目级gradle里添加华为maven仓 1.2 在应用级的build. ...
简单了解下CAP定理与BASE定理
分布式环境下的各种问题通信异常网络不可用风险高,消息丢失.消息延迟非常普遍网络分区(脑裂) 网络发生异常情况,延迟增加,导致所有组成分布式系统的节点中,只有部分节点之间能够正常通信,而另一些 ...
SringMVC入门程序
Spring MVC是Spring Framework的一部分,是基于Java实现MVC的轻量级Web框架 1.Spring优点轻量级,简单易学高效 , 基于请求响应的MVC框架与Spring兼 ...
Thymeleaf+SpringBoot+Mybatis实现的齐贤易游网旅游信息管理系统
项目简介项目来源于:https://github.com/liuyongfei-1998/root 本系统是基于Thymeleaf+SpringBoot+Mybatis.是非常标准的SSM三大框架( ...
用 Python 黄图批量鉴别审核
前言最近写了一款微信小程序需要用到图片审核,人工审核是不可能的人工审核的太费精力了,所以我就写了一个多线程批量识别脚本来处理,主要是调用百度AI的接口,这里我是付费了也不贵审核一条1分钱不到,再说我 ...
filter和interceptor的区别
前言最近在面试的时候,被问到了这个问题,觉得答得不是很好,在此进行整理和记录,供自己学习,也希望能帮助到大家. 什么是Filter 在java的javax.servlet下有一个接口Filter.任 ...

【Spark】SparkStreaming从不同基本数据源读取数据

文章目录

基本数据源

文件数据源

注意事项

步骤

一、创建maven工程并导包

二、在HDFS创建目录，并上传要做测试的数据

三、开发SparkStreaming代码

四、运行代码后，往HDFS文件夹上传文件

五、控制台输出结果

自定义数据源

步骤

一、使用nc工具给指定端口发送数据

二、开发代码

RDD队列

步骤

一、开发代码

【Spark】SparkStreaming从不同基本数据源读取数据的更多相关文章

随机推荐

热门专题