Spark中文文本分析建模

实用的朴素贝叶斯模型建模
建模过程主要是把文本转化成向量然后再作分析
数据格式：

，善良 美丽

，丑陋 阴险 卑鄙

，温和

.......

注：前面是给文章贴的标签，后面是文章的分词，分词可以找关于分词的文章去查看，后面我也会写关于分词的文章

import org.apache.spark.SparkConf

import org.apache.spark.sql.SparkSession

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.Tokenizer

import org.apache.spark.ml.feature.HashingTF

import org.apache.spark.sql.Row

import org.apache.spark.ml.linalg.Vector

import org.apache.spark.ml.linalg.Vectors

import org.apache.spark.ml.feature.LabeledPoint

import org.apache.spark.ml.feature.IDF

import org.apache.spark.ml.classification.NaiveBayes

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

class CreatModel {

}

object CreatModel{

  case class RawDataRecord(category: String, text: String)

  def main(args: Array[String]): Unit = {

    val config = new SparkConf().setAppName("createModel").setMaster("local[4]");

    val sc =new  SparkContext(config);

    val spark = SparkSession.builder().config(config).config("spark.sql.warehouse.dir", "warehouse/dir").getOrCreate();

    import spark.implicits._

    //分数据

    val Array(srcDF,testDF) = sc.textFile("D:\\decstop\\testFiles\\sougou").map {

      x =>

        val data = x.split(",")

        RawDataRecord(data(),data())

    }.toDF().randomSplit(Array(0.7,0.3))

    //分词

    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val wordsData = tokenizer.transform(srcDF)

    wordsData.show(false)

    val testtokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val testwordsData = testtokenizer.transform(testDF)

    //文档词频

    val hashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val featurizedData = hashingTF.transform(wordsData)

    val testhashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val testfeaturizedData = testhashingTF.transform(testwordsData)

    //逆文档词频

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(featurizedData)

    val rescaledData = idfModel.transform(featurizedData)

    val testidf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val testidfModel = testidf.fit(testfeaturizedData)

    val testrescaledData = testidfModel.transform(testfeaturizedData)

    rescaledData.show(false)

    //转换成贝叶斯的输入格式

    val trainDataRdd = rescaledData.select($"category",$"features").map {

      case Row(label: String, features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val testtrainDataRdd = testrescaledData.select($"category",$"features").map {

      case Row(label: String, features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val model =new NaiveBayes().fit(trainDataRdd)

    val predictions = model.transform(testtrainDataRdd)

    println("predictln out:");

    predictions.show();

    model.write.overwrite().save("resoult")

    //模型评估

    val evaluator = new MulticlassClassificationEvaluator()

      .setLabelCol("label")

      .setPredictionCol("prediction")

      .setMetricName("accuracy")

    val accuracy = evaluator.evaluate(predictions)

    println("accuracy out :")

    println("Accuracy:"+accuracy)

  }

}

Spark中文文本分析建模的更多相关文章

基于 Spark 的文本情感分析
转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.ht ...
LSTM实现中文文本情感分析
1. 背景介绍文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
Spark 的情感分析
Spark 的情感分析本文描述了基于 Spark 如何构建一个文本情感分析系统.文章首先介绍文本情感分析基本概念和应用场景,其次描述采用 Spark 作为分析的基础技术平台的原因和本文使用到技术组件 ...
万字总结Keras深度学习中文文本分类
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文 ...
Solr：文本分析
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引 ...
ChineseCounter.cs 统计中文文本中常用字占比
http://www.tuicool.com/articles/qmMba2 1 using System; using System.IO; using System.Collections.Gen ...
为网上流行论点“UIAutomator不能通过中文文本查找控件”正名
1. 问题描述和起因相信大家学习UIAutomator一开始的时候必然会看过一下这篇文章. Android自动化测试(UiAutomator)简要介绍因为你在百度输入UIAutomator搜索的时 ...
Spark源码分析之Spark Shell（下）
继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上 ...
用R进行文本分析初探——以《红楼梦》为例
一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...

随机推荐

MathType编辑物理单位的方法
在用MathType编辑物理公式时,由于物理单位很多都是复合单位,所以在编辑时如果能够有这种复合单位直接使用的话,编辑效率就会大大提高.实际上这种想法在MathType中是可行的,MathType中也 ...
mysql中如何在命令行中，执行一个SQL脚本文件？
需求描述: 在mysql数据库的使用中,有的时候,需要直接在shell的命令行中,执行某个SQL脚本文件, 比如,要初始化数据库,创建特定的存储过程,创建表等操作,这里进行一个基本的测试. 一般情况, ...
cocos2d-x游戏引擎核心之八——多线程
一.多线程原理 (1)单线程的尴尬重新回顾下 Cocos2d-x 的并行机制.引擎内部实现了一个庞大的主循环,在每帧之间更新各个精灵的状态.执行动作.调用定时函数等,这些操作之间可以保证严格独立,互 ...
Extjs6.2.0搭建项目框架
1.安装首先你总要去官网下载ext-6.2.0-gpl.zip和安装Sencha CMD工具来管理ExtJs项目,ext-6.2.0-gpl.zip下载完成解压先放在一边,一会用到. Sencha ...
MVC AJAX Pager Helper
MVCPager 分页控件: Author:杨涛 http://www.webdiyer.com/mvcpager/demos/ajaxpagers/ https://yunpan.cn/cq4HDc ...
android基础组件---->Checkboxe的使用
由于使用比较简单,这篇博客涵盖Checkboxes和Radio Buttons和Toggle Buttons.好了我们开始今天的学习.我被世俗隐瞒,转身又被自己撞倒.从莫须有的罪名起步,行色简单,心术 ...
Kotlin——初级篇（一）：最详细的环境搭建
众所周知,Kotlin出来已经良久了.Kotlin有着众多优势,不管是用于Android开发中,还是Java开发,都能缩减很大的代码量,大大提高了工作效率.而小生本人也是才从忙碌的个工作中抽身出来,有 ...
Eclipse打包Egret App （Egret4.1.0）
Egret官方提供eclipse和androidstudio打包. 这里使用eclipse. 1 下载配置android环境 2 Egret打包App 3 Eclipse设置 4 Eclipse调试 ...
【office2010】office2010安装问题的解决方案。
今天想在公司电脑上按上一个office2010,结果出现一个问题,导致研究了一下午才解决:现总结解决方案: 安装office 2010,提示需要安装MSXML版本6.10.1129.0组件.但是在网上 ...
mysql表大小写问题
查看大小写区分 mysql> show variables like "%case%"; linux在mysql安装完后默认:区分表名的大小写,不区分列名的大小写改变表名的 ...

Spark中文文本分析建模

Spark中文文本分析建模的更多相关文章

随机推荐

热门专题