【sparkStreaming】将DStream保存在MySQL

package SparkDemo

import java.sql.{Connection, DriverManager, PreparedStatement}

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

object DStreamToMySQL {

    //定义更新函数

    def updateFunc(newValues : Seq[Int],state :Option[Int]):Option[Int] = {

        val currentCount = newValues.foldLeft(0)(_+_)

        val  previousCount = state.getOrElse(0)

        Some(currentCount+previousCount)

    }

    def main(args : Array[String]): Unit ={

        //建立SparkStream

        val conf = new SparkConf().setAppName("DStreamToMySQL")

        val ssc = new StreamingContext(conf,Seconds(1))

        //设置日志等级

        StreamingLoggingExample.setStreamingLogLevels()

        val lines = ssc.textFileStream("/tmp/yuhang.zhang/data")

        val words = lines.flatMap(_.split(" "))

        val pairWord = words.map((_,1))

        //累计更新

        val stateWordCount = pairWord.updateStateByKey[Int](updateFunc)

        //将stateWordCount存入数据库

        //stateWordCount中包含一堆的Rdd

        //我们需要对每个Rdd中的每条数据进行处理储存

        stateWordCount.foreachRDD(rdd => {

            //每个rdd中包含的数据类型为(String,Int)

            //我们把所有数据records定义为Iterator类型，方便我们遍历

            def func(records:Iterator[(String,Int)]): Unit ={

                //注意，conn和stmt定义为var不能是val

                var conn: Connection = null

                var stmt : PreparedStatement = null

                try{

                    //连接数据库

                    val url = "jdbc:mysql://localhost:3306/spark" //地址+数据库

                    val user = "root"

                    val password = ""

                    conn = DriverManager.getConnection(url,user,password)

                    //

                    records.foreach(p =>{

                        //wordcount为表名，word和count为要插入数据的属性

                        //插入数据

                        val sql = "insert into wordcount(word,count) values(?,?)"

                        stmt = conn.prepareStatement(sql)

                        stmt.setString(1,p._1.trim)

                        stmt.setInt(2,p._2.toInt)

                        stmt.executeUpdate()

                    })

                }catch {

                    case e : Exception => e.printStackTrace()

                }finally {

                    if(stmt != null)

                        stmt.close()

                    if(conn != null)

                        conn.close()

                }

            }

            val repairtitionedRDD = rdd.repartition(3)//将每个rdd重新分区

            repairtitionedRDD.foreachPartition(func)//对重新分区后的rdd执行func函数

        })

        ssc.start()//启动

        ssc.awaitTermination()//等待终止命令

    }

}

【sparkStreaming】将DStream保存在MySQL的更多相关文章

消费kafka的消息，并将其SparkStreaming结果保存到mysql
将数据保存到mysql,需要用到jdbc.为了提高保存速度,我写了一个连接池 1.保存到mysql的代码 package test05 import org.apache.log4j.{Level, ...
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,typ ...
Asp.net Session 保存到MySql中
一网站项目引入"mysql.web.dll" 二 web.config配置中添加mysql数据库连接字符串 <connectionStrings> <remov ...
pandas对象保存到mysql出错提示“BLOB/TEXT column used in key specification without a key length”解决办法
问题将DataFrame数据保存到mysql中时,出现错误提示: BLOB/TEXT column used in key specification without a key length 原因 ...
php将图片以二进制保存到mysql数据库并显示
一.存储图片的数据表结构: -- -- 表的结构 `image` -- CREATE TABLE IF NOT EXISTS `image` ( `id` int(3) NOT NULL AUTO_I ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...
微信昵称有特殊符号怎么保存到mysql库里？
微信昵称有特殊符号怎么保存到mysql库里? mysql库怎么保存emoji表情? 这里提供 1 种稳妥有效的方法: // 入库之前,使用 Base64 编码 String nickname = re ...
爬取伯乐在线文章（四）将爬取结果保存到MySQL
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
将爬取的数据保存到mysql中
为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库 1.pip install pymysql(根据版本来装) 2.创建数据打开终端键入mysql -u root -p ...

随机推荐

django博客项目3：创建 Django 博客的数据库模型
设计博客的数据库表结构博客最主要的功能就是展示我们写的文章,它需要从某个地方获取博客文章数据才能把文章展示出来,通常来说这个地方就是数据库.我们把写好的文章永久地保存在数据库里,当用户访问我们的博客 ...
django--mysql设置
mysql基本配置 'default': { 'ENGINE': 'django.db.backends.mysql', 'HOST': '127.0.0.1', 'PORT': 3306, 'USE ...
Java中Collections和Collection的区别
java.util.Collection Collection 层次结构中的根接口.Collection 表示一组对象,这些对象也称为 collection 的元素.一些 collection 允许 ...
const,var,let区别（转载）
1.const定义的变量不可以修改,而且必须初始化. const b = 2;//正确 // const b;//错误,必须初始化 console.log('函数外const定义b:' + b);// ...
Hadoop源码如何查看
如何查看hadoop源码 1解压hadoop安装压缩文件成为文件夹,再进入解压后的文件夹下的src文件夹,选中core,hdfs,mapred三个文件夹
xpath(待补充)
from lxml import etree html=""" <div> <ul> <li>1</li> <li ...
转：oralce常用操作、查询语句(查看表空间)
http://highill.iteye.com/blog/1534858 最近整理一下oralce的常用语句,借此记录一下,在网上都应该能搜到,这里主要是整理分享. 一.操作语句建立表空间 MYD ...
hdu1711 Number Sequence kmp应用
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=1711 题目: Problem Description Given two sequences of n ...
linux 清理cache中的内存
1. sync 2. sysctl -w vm.drop_caches=1
iOS 和服务端交互数据加密策略
总体逻辑: 客户端:对称加密数据,上传...回执对称解密同理服务端:获取上传数据对称解密 ...下发:对称加密当且仅当登录接口和拉新(更新nonce 和 key的接口)是对称加密上传非对称解 ...

【sparkStreaming】将DStream保存在MySQL

【sparkStreaming】将DStream保存在MySQL的更多相关文章

随机推荐

热门专题