日期:2019.5.4 博客期:066 星期六 今天写了统计一篇文章中的单词数量,把出现最多的前几个显示出来,差不多就是这么个程序! 实现思想: 分布处理: 1.读取文件,将文件里的字符串按照换行符和空格作为分隔符的方式进行获取 2.对字符串进行去除基础标点符号的处理 3.将剩余的合法单词字符串进行库存储备,重复的数量+1,记录总数量 4.每个单词的频率也就可以算了…
本文要解决的问题:"键盘输入一段英语语句,将这段话写入content.txt中,然后输出这段话,并且统计语句中英文单词的数目以及各个单词出现的次数." 分析问题知,核心是文件读写和单词统计. 单词统计可以参考我以前的一篇文章:java源码--统计字符串中字符出现的次数,不过要注意的是以前这篇文章是统计字符,不用判断是否是单词,本问题中统计单词就要判断多少字符是一个单词,同时忽略大小写问题. 文件读写不是很难,方法基本是死的,不用考虑方法.代码解决问题的难点还是单词的统计,我的代码中用了…
原文链接: https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数,比如下面的数据源 其中,最终出现的次数结果应该是下面的显示 那么在MapReduce中该如何编写代码并出现最终结果? 首先我们把文件上传到HDFS中(hdfs dfs –put -) 数据名称:data.txt,大小是size是2G 红黄绿三个块表示的是数据存放的块 然后数据data.txt进入map阶段,会以<K,V>(KV对)的形式进入,K表示的…
第1步:输出单个文件中的前 N 个最常出现的英语单词. 功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列. 功能2: 指定文件目录,对目录下每一个文件执行统计的操作. 功能3:指定文件目录,是会递归遍历目录下的所有子目录的文件进行统计单词的功能. 功能4:输出出现次数最多的前 n 个单词, 前几个功能已经在之前的博客园中回答相应的解决方法,所以重点来看一下第三个功能,如何递归查询所有子目录下的文件,并进行单词统计. 那么我们首先要解决的是判断这个文件是…
MapReduce 单词统计案例编程 一.在Linux环境安装Eclipse软件 1.   解压tar包 下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz到/opt/software目录下. 解压到/opt/tools目录下: [hadoop@bigdata-senior01 tools]$ tar -zxf /opt/sofeware/eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz -C /op…
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Data can be ingested from many sources like Kafka,…
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" 使用var声明的变量值是可变的 (3)val s = "hi" scala编译器会自动推断变量的类型,必要的时候可以指定类型,变量名在前,类型在后 2.常用的类型 Scala和Java一样,有7种数值类型Byte.Char.Short.Int.Long.Float和Double(无包装…
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据流的生成者Spout和数据流的运算者Bolt组成.如下图所示: 在Storm系统中,数据主要是通过tuple数据结构进行传输的.tuple就是一个列表,列表中可以存放任何类型的数据(该数据类型必须要实现序列化). Spout的作用就是从数据源中获取需要的数据,起到一个数据采集器的作用.然后spout…
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看看文章中各个单词出现频次如何.为了便于大家下载文本.可以到GitHub上下载文本以及对应的代码.我将文本放在项目的目录下. 首先我们要读取该文件,就要用到SparkContext中的textFile的方法,我们尝试先读取第一行. scala实现 import org.apache.spark.{SparkCo…
最近在使用 Java 作为 WebSocket 客户端连接 Node.js 的 WebSocket 服务器的时候,由于使用的客户端库比较老,所以遇到了字节符号的问题,上网查了一下,看到这篇文章写的很有意思,就翻译一下. 原文地址:http://www.darksleep.com/player/JavaAndUnsignedTypes.html 原文作者:Sean R. Owens 以下是正文 Java 中的无符号类型是怎么回事儿? 在 C 和 C++ 这样的语言中,都提供了不同长度的整数类型:c…