Spark Streaming里面使用文本分析模型

功能：接收来自kafka的数据，数据是一篇文章，来判断文章的类型，把判断的结果一并保存到Hbase，并把文章建立索引（没有代码只有一个空壳，可以自己实现，以后有机会了可能会补上）

import org.apache.spark.ml.PipelineModel

import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}

import org.apache.spark.ml.linalg.{Vector, Vectors}

import org.apache.spark.SparkConf

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream

import org.apache.spark.SparkConf

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream.fromReceiverInputDStream

import org.apache.spark.rdd.RDD

import org.apache.spark.ml.classification.NaiveBayesModel

import org.omg.CORBA_2_3.portable.OutputStream

import java.io.FileOutputStream

class UseModel1 {

}

object UseModel1{

  //流程代码

  def main(args: Array[String]): Unit = {

    val Array(zkQuorum, group, topics, numThreads) =Array("192.168.10.199:2181","order","order","");

    val conf = new SparkConf().setAppName("useModel").setMaster("local[4]");

    val ssc = getStreamingContext(conf, );

    val dstreams = getKafkaDstream(ssc, topics, zkQuorum, group, numThreads);

    val dstream = dstreams.inputDStream.map(_._2);

    dstream.persist()

    //测试

    dstream.print()

    //如果能判断不为空就更好了

    dstream.foreachRDD(rdd =>everyRDD(rdd))

    ssc.start()

    ssc.awaitTermination()

  }

   //得到StreamingContext

  def getStreamingContext(conf:SparkConf,secend:Int):StreamingContext = {

    return new StreamingContext(conf, Seconds(secend))

  }

  //得到sparkSession

  def getSparkSession(conf:SparkConf): SparkSession = {

    val spark = SparkSession.builder()

          .config(conf)

          .config("spark.sql.warehouse.dir", "warehouse/dir")

          .getOrCreate()

    return spark;

  }

  //得到kafkaDStream

  def getKafkaDstream(ssc:StreamingContext,topics:String,zkQuorum:String,group:String,numThreads:String):JavaPairReceiverInputDStream[String,String] ={

     ssc.checkpoint("directory")

     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap;

     val stream = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)

     return stream;

  }

  //文件保存测试

  def savaString(str:String):Unit={

    val out = new FileOutputStream("D:\\decstop\\file.txt",true);

    out.write(str.getBytes)

    out.flush()

    out.close()

  }

  //每一个rdd做动作

  def everyRDD(rdd:RDD[String]){

    val sameModel = NaiveBayesModel.load("resoult")

    val spark = getSparkSession(rdd.context.getConf)

    import spark.implicits._

    val rddDF = rdd.map { line => (,line) }.toDF("label","text").persist()

    //rddDF.show()

    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val tokenizerRDD = tokenizer.transform(rddDF)

    //tokenizerRDD.show(false)

    val hashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val hashingTFRDD = hashingTF.transform(tokenizerRDD) 

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(hashingTFRDD)

    val rescaledData = idfModel.transform(hashingTFRDD)

    //rescaledData.show(false)

    //转化为贝叶斯需要的格式

    val useDataRdd = rescaledData.select($"label", $"features").map{

      case Row(label:Int , features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val predictions = sameModel.transform(useDataRdd)

    predictions.persist()

    //predictions.show(false)

    //参照下面可以实现各种的逻辑，可以把下面的保存，建索引都加上

    predictions.select($"label",$"prediction").foreach { x => savaString((""+x.getAs("label")+" "+x.getAs("prediction")+"\n\r")) }

    //测试

    predictions.createOrReplaceTempView("prediction")

    rddDF.createOrReplaceTempView("atical")

    //spark.sql("select p.label,p.prediction,a.text from prediction p,atical a where p.label=a.label").select(col, cols)

  }

  //简历索引 主要的建立索引的有hbase_rowKay(time) aothor title article

  def buiderIndex(){}

  //保存到hbase

  def savaToHbase(){

  }

  //发送到下一个kafka 发送的数据 time 正舆情数量 负面舆情数量 百分比 是否报警 

  def sendToKafka(){

  }

}

代码实现：

Spark Streaming里面使用文本分析模型的更多相关文章

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
Spark Streaming 入门指南
这篇博客帮你开始使用Apache Spark Streaming和HBase.Spark Streaming是核心Spark API的一个扩展,它能够处理连续数据流. Spark Streaming是 ...
9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）
本文由网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
Spark Streaming入门
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文将帮助您使用基于HBase的Apache Spark Streaming.Spark Streaming是Spark API核心的一个扩 ...

随机推荐

原生js获取元素样式
摘要: 我们在开发过程中经常会遇到通过js获取或者改变DOM元素的样式,方法有很多,比如:通过更改DOM元素的class.现在我们讨论原生js来获取DOM元素的CSS样式,注意是获取不是设置在开始之 ...
NodeJS-001-Nodejs学习文档整理(转-出自http://www.cnblogs.com/xucheng)
Nodejs学习文档整理 http://www.cnblogs.com/xucheng/p/3988835.html 1.nodejs是什么: nodejs是一个是javascript能在后台运行的平 ...
ajax的原理及实现方式
Ajax:Asynchronous javascript and xml,实现了客户端与服务器进行数据交流过程同时是异步发送请求.使用技术的好处是:不用页面刷新,并且在等待页面传输数据的同时可以进行其 ...
#error和line
#error message ----注:message不需要用双引号包围, #error 编译指示字用于自定义程序特有的编译错误消息类似的, #warning用于生成编译警告,但不会停止编译. 在l ...
nutch 存储到数据库
就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎. 是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HF ...
UITextView 实现placeholder的方法
本文转载至 http://www.cnblogs.com/easonoutlook/archive/2012/12/28/2837665.html 在UITextField中自带placeholder ...
Change Base
Given an integer m in base B (2 ≤ B ≤ 10) (m contains no more than 1000 digits), find the value of t ...
【Java nio】java nio笔记
缓冲区操作:缓冲区,以及缓冲区如何工作,是所有I/O的基础.所谓“输入/输出”讲的无非就是把数据移出货移进缓冲区.进程执行I/O操作,归纳起来也就是向操作系统发出请求,让它要么把缓冲区里的数据排干,要 ...
【Spring Boot && Spring Cloud系列】构建Springboot项目实现restful风格接口
项目代码如下: package hello; import org.springframework.boot.SpringApplication; import org.springframework ...
Android 微信分享，分享到朋友圈与分享到好友，以及微信登陆
extends:http://www.cnblogs.com/android100/p/Android-qq.html 一.申请你的AppID http://open.weixin.qq.com/ 友 ...

Spark Streaming里面使用文本分析模型

Spark Streaming里面使用文本分析模型的更多相关文章

随机推荐

热门专题