Spark WordCount 文档词频计数

一.使用数据

Apache Spark is a fast and general-purpose cluster computing system.It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.

It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.

二.实现代码

package big.data.analyse.wordcount

import org.apache.spark.sql.SparkSession

/**

  * Created by zhen on 2019/3/9.

  */

object WordCount {

  def main(args: Array[String]) {

    val spark = SparkSession.builder().appName("WordCount")

      .master("local[2]")

      .getOrCreate()

    // 加载数据

    val textRDD = spark.sparkContext.textFile("src/big/data/analyse/wordcount/wordcount.txt")

    val result = textRDD.map(row => row.replace(",", ""))//去除文字中的,防止出现歧义

      .flatMap(row => row.split(" "))//把字符串转换为字符集合

      .map(row => (row, ))//把每个字符串转换为map，便于计数

      .reduceByKey(_+_)//计数

    // 打印结果

    result.foreach(println)

  }

}

三.计算结果

(Spark,)

(GraphX,)

(graphs.,)

(learning,)

(general-purpose,)

(Python,)

(APIs,)

(provides,)

(that,)

(is,)

(a,)

(R,)

(high-level,)

(general,)

(processing,)

(fast,)

(including,)

(higher-level,)

(optimized,)

(Apache,)

(in,)

(SQL,)

(system.,)

(Java,)

(of,)

(data,)

(tools,)

(cluster,)

(also,)

(graph,)

(structured,)

(execution,)

(It,)

(MLlib,)

(for,)

(Scala,)

(an,)

(computing,)

(machine,)

(supports,)

(and,)

(engine,)

(set,)

(rich,)

(Streaming.,)

Spark WordCount 文档词频计数的更多相关文章

NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 关于相似性以及文档特征.词特征有太多种说法.弄 ...
教你用java统计目录下所有文档的词频
本文是统计目录下所有文档的词频top10,非单个文档,包含中文和英文. 直接上代码: package com.huawei.wordcount; import java.io.BufferedRead ...
TF-IDF词频逆文档频率算法
一.简介 1.RF-IDF[term frequency-inverse document frequency]是一种用于检索与探究的常用加权技术. 2.TF-IDF是一种统计方法,用于评估一个词对于 ...
使用Python对文档单词进行计数
做hacker.org上面的题目时,遇到了一个题目需要对RFC3280种长度为9的单词进行计数,并找出这些单词中出现次数最多的那个:Didactic Byte RFC3280文档有7000多行,靠人工 ...
Spark Streaming + Flume整合官网文档阅读及运行示例
1,基于Flume的Push模式(Flume-style Push-based Approach) Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Stre ...
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这 ...
python统计文档中词频
python统计文档中词频的小程序 python版本2.7 效果如下: 程序如下,测试文件与完整程序在我的github中 #统计空格数与单词数本函数只返回了空格数需要的可以自己返回多个值 def ...
Spark文档阅读之二：Programming Guides - Quick Start
Quick Start: https://spark.apache.org/docs/latest/quick-start.html 在Spark 2.0之前,Spark的编程接口为RDD (Resi ...
Mahout源码分析之 -- 文档向量化TF-IDF
fesh个人实践,欢迎经验交流!Blog地址:http://www.cnblogs.com/fesh/p/3775429.html Mahout之SparseVectorsFromSequenceFi ...

随机推荐

EntityFramework中对象的状态管理（笔记）
刚开始接触EF框架的时候总是不明白: 为什么查询出来的对象 Remove().再 SaveChanges()就会把数据删除.而自己 new 一个Person()对象,然后 Remove()不行? 为什 ...
【数据科学】Python数据可视化概述
注:很早之前就打算专门写一篇与Python数据可视化相关的博客,对一些基本概念和常用技巧做一个小结.今天终于有时间来完成这个计划了! 0. Python中常用的可视化工具 Python在数据科学中的地 ...
PYTHON 中 SQL 带参数
使用 PYTHON 的字符串填充方式 import mysql.connector sql = 'select \* from school.student where age > {age} ...
mysql的"双1设置"-数据安全的关键参数（案例分享）
mysql的"双1验证"指的是innodb_flush_log_at_trx_commit和sync_binlog两个参数设置,这两个是是控制MySQL 磁盘写入策略以及数据安全性 ...
#1 Python灵活技巧
前言 Python基础系列博文已顺利结束,从这一篇开始将进入探索更加高级的Python用法,Python进阶系列文章将包含面向对象.网络编程.GUI编程.线程和进程.连接数据库等.不过在进阶之前,先来 ...
Linux命令-用户及权限管理
一.权限管理linux系统中对文件权限的描述机制: u g od r w x r w x r - x (r读,w写,x执行)文件所有者所属组其他人可以表示为二进制: 111 111 101也可以 ...
Python爬虫的N种姿势
问题的由来前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/ ...
第一册：lesson fifteen。
原文:Your passports,please. A:Are you Swedish? B:No,we are not. We are Danish. A:Are your friends Dani ...
C#基础知识总结(三)
摘要关系表达式.逻辑表达式.分支结构的总结:if-else.if-else if-else.switch-case一.关系运算符 >,==,<… 关系表达式的结果是bool类型,true ...
菜鸟入门【ASP.NET Core】15:MVC开发：ReturnUrl实现、Model后端验证、Model前端验证
ReturnUrl实现我们要实现returnUrl,我们需要在注册(Register)方法中接收传进的returnUrl并给它默认值null,然后将它保存在ViewData里面然后我们定义一个内部 ...

Spark WordCount 文档词频计数

一.使用数据

二.实现代码

三.计算结果

Spark WordCount 文档词频计数的更多相关文章

随机推荐

热门专题