Spark Streaming里面使用文本分析模型
功能:接收来自kafka的数据,数据是一篇文章,来判断文章的类型,把判断的结果一并保存到Hbase,并把文章建立索引(没有代码只有一个空壳,可以自己实现,以后有机会了可能会补上)
import org.apache.spark.ml.PipelineModel
import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream
import org.apache.spark.SparkConf
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream.fromReceiverInputDStream
import org.apache.spark.rdd.RDD
import org.apache.spark.ml.classification.NaiveBayesModel
import org.omg.CORBA_2_3.portable.OutputStream
import java.io.FileOutputStream class UseModel1 { }
object UseModel1{
//流程代码
def main(args: Array[String]): Unit = {
val Array(zkQuorum, group, topics, numThreads) =Array("192.168.10.199:2181","order","order","");
val conf = new SparkConf().setAppName("useModel").setMaster("local[4]");
val ssc = getStreamingContext(conf, );
val dstreams = getKafkaDstream(ssc, topics, zkQuorum, group, numThreads);
val dstream = dstreams.inputDStream.map(_._2);
dstream.persist()
//测试
dstream.print()
//如果能判断不为空就更好了
dstream.foreachRDD(rdd =>everyRDD(rdd))
ssc.start()
ssc.awaitTermination()
} //得到StreamingContext
def getStreamingContext(conf:SparkConf,secend:Int):StreamingContext = {
return new StreamingContext(conf, Seconds(secend))
} //得到sparkSession
def getSparkSession(conf:SparkConf): SparkSession = {
val spark = SparkSession.builder()
.config(conf)
.config("spark.sql.warehouse.dir", "warehouse/dir")
.getOrCreate()
return spark;
} //得到kafkaDStream
def getKafkaDstream(ssc:StreamingContext,topics:String,zkQuorum:String,group:String,numThreads:String):JavaPairReceiverInputDStream[String,String] ={
ssc.checkpoint("directory")
val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap;
val stream = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)
return stream;
} //文件保存测试
def savaString(str:String):Unit={
val out = new FileOutputStream("D:\\decstop\\file.txt",true);
out.write(str.getBytes)
out.flush()
out.close()
} //每一个rdd做动作
def everyRDD(rdd:RDD[String]){
val sameModel = NaiveBayesModel.load("resoult") val spark = getSparkSession(rdd.context.getConf)
import spark.implicits._
val rddDF = rdd.map { line => (,line) }.toDF("label","text").persist()
//rddDF.show()
val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")
val tokenizerRDD = tokenizer.transform(rddDF)
//tokenizerRDD.show(false) val hashingTF =
new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()
val hashingTFRDD = hashingTF.transform(tokenizerRDD) val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(hashingTFRDD)
val rescaledData = idfModel.transform(hashingTFRDD)
//rescaledData.show(false)
//转化为贝叶斯需要的格式
val useDataRdd = rescaledData.select($"label", $"features").map{
case Row(label:Int , features:Vector) =>
LabeledPoint(label.toDouble, Vectors.dense(features.toArray))
}
val predictions = sameModel.transform(useDataRdd)
predictions.persist()
//predictions.show(false)
//参照下面可以实现各种的逻辑,可以把下面的保存,建索引都加上
predictions.select($"label",$"prediction").foreach { x => savaString((""+x.getAs("label")+" "+x.getAs("prediction")+"\n\r")) } //测试
predictions.createOrReplaceTempView("prediction")
rddDF.createOrReplaceTempView("atical") //spark.sql("select p.label,p.prediction,a.text from prediction p,atical a where p.label=a.label").select(col, cols) } //简历索引 主要的建立索引的有hbase_rowKay(time) aothor title article
def buiderIndex(){} //保存到hbase
def savaToHbase(){ } //发送到下一个kafka 发送的数据 time 正舆情数量 负面舆情数量 百分比 是否报警 def sendToKafka(){ }
}
代码实现:
Spark Streaming里面使用文本分析模型的更多相关文章
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
- Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源 ...
- Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
- Spark Streaming 入门指南
这篇博客帮你开始使用Apache Spark Streaming和HBase.Spark Streaming是核心Spark API的一个扩展,它能够处理连续数据流. Spark Streaming是 ...
- 9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
- Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...
- Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)
本文由 网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
- Spark Streaming入门
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文将帮助您使用基于HBase的Apache Spark Streaming.Spark Streaming是Spark API核心的一个扩 ...
随机推荐
- mysql中什么是物理备份?
需求描述: 今天在看数据库备份,恢复的内容,就是对于一个概念,物理备份的理解,在这里记录下. 概念解释: 物理备份:就是对存储数据库内容的目录和文件的直接拷贝.简单来说,就是对物理文件的拷贝. 文档创 ...
- nginx配置技巧汇总
https://segmentfault.com/a/1190000000437323
- 工欲善其事 之 Web 前端调试工具格式化混淆过的 JS 代码
工欲善其事 之 Web 前端调试工具格式化混淆过的 JS 代码 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致&q ...
- nyoj-655-光棍的yy(大数)
光棍的yy 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描写叙述 yy常常遇见一个奇怪的事情.每当他看时间的时候总会看见11:11,这个非常纠结啊. 如今给你m个1,你能够 ...
- nodejs搭建简单web服务器!!
var http = require("http"), url = require("url"), path = require("path" ...
- Python MySQLdb 模块
MySQLdb 是 Python2 连接 MySQL 的一个模块,常见用法如下: [root@localhost ~]$ yum install -y MySQL-python # 安装 MySQLd ...
- 苹果降频门:旧款iPhone哪些功能受到影响
要说苹果最近发生的大事,就数网络上传的沸沸扬扬的降频门事件了,近期苹果在新发布的iOS 11系统中新增了一项功能,意在降低旧款手机的电量消耗,但限制了旧款iPhone的性能,那么iPhone有哪些功能 ...
- SPI接口功能描述
- 报错程序包org.springframework.test.context不存在
在pom.xml文件中找到 加入了依赖,但是maven update 或者Reimport后 启动还是报错 最后使出绝招: 在maven仓库的位置 找到对应的文件夹 更奇怪了 发现明明有jar包啊! ...
- IP地址转、整数互相转换
知识点:一个二进制数,按位左移n位,就是把该数的值乘以2的n次方 二进制除二即右移一位 1.IP地址转换为整数 原理:IP地址每段可以看成是8位无符号整数即0-255 ...