Spark——统计文本中单词出现的次数

【Spark——统计文本中单词出现的次数】的更多相关文章

Spark——统计文本中单词出现的次数

示例一:统计所有单词出现的次数 1.在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2.在spark中,创建一个RDD并读取文件 %spark var data = sc.textFile("/data.txt") data.collect 3.将读取到的文本使用flatMap方法(数据流映射)组合split方法拆分为单个单词 //注意:split("")引号中…

shell统计文本中单词的出现次数

Ubuntu14.04 给定一个文本,统计其中单词出现的次数方法1 # solution 1 grep与awk配合使用,写成一个sh脚本 fre.sh sh fre.sh wordfretest.txt #! /bin/bash# solution 1 ] then echo "Usage:$0 args error" exit fi ] then echo "analyse the first file $1" fi #get the first file fi…

java统计文本中单词出现的个数

package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; import java.util.Scanner; import java.util.Set; public class test { public static void main(String[] args) throws Exception { new test().wordCount(); }//…

Linux统计文件中单词出现的次数

grep -E "\b[[:alpha:]]+\b" /etc/fstab -o | sort | uniq -c 或 awk '{for(i=1;i<NF;i++){count[$i]++}}END{for(i in count) {print i,count[i]}}' /etc/fstab -E 使用正则进行匹配 \b : backspace 退格 print 参数表示每行匹配完了回车 [[:alpha:]] : 代表所有字符 sort 去重 uniq -c 排序 -…

Python 统计文本中单词的个数

1.读文件,通过正则匹配 def statisticWord(): line_number = 0 words_dict = {} with open (r'D:\test\test.txt',encoding='utf-8') as a_file: for line in a_file: words = re.findall(r'&#\d+;|&#\d+;|&\w+;',line) for word in words: words_dict[word] = words_dict.…

python统计文本中每个单词出现的次数

.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc.txt') as file1:#打开文本文件 str1=file1.read().split(' ')#将文章按照空格划分开 print "原文本:\n %s"% str1 print "\n各单词出现的次数:\n %s" % collections.Counter(s…

N个任务掌握java系列之统计一篇文章中单词出现的次数

问题:统计一篇文章中单词出现的次数思路: (1)将文章(一个字符串存储)按空格进行拆分(split)后,存储到一个字符串(单词)数组中. (2)定义一个Map,key是字符串类型,保存单词:value是数字类型,保存该单词出现的次数. (3)遍历(1)中得到的字符串数组,对于每一个单词,考察Map的key中是否出现过该单词,如果没出现过,map中增加一个元素,key为该单词,value为1(第一次出现): 如果,在map的key中发现了该单词,则通过key找到对应的value(单词出现的次数)…

C#统计给定的文本中字符出现的次数，使用循环和递归两种方法

前几天看了一个.net程序员面试题目,题目是”统计给定的文本中字符出现的次数,使用循环和递归两种方法“. 下面是我对这个题目的解法: 1.使用循环: /// <summary> /// 使用For循环统计文本字符串中某一字符出现的次数 /// </summary> /// <param name="c">指定字符</param> /// <param name="text">文本字符串</param&…

Python的 counter内置函数，统计文本中的单词数量

counter是 colletions内的一个类可以理解为一个简单的计数 import collections str1=['a','a','b','d'] m=collections.Counter(str1) print(m) str2=['你','好','你','你'] m1=collections.Counter(str2) print(m1) 器,可以统计字符出现的个数,例子如下输出: Counter({'a': 2, 'b': 1, 'd': 1}) Counter({'你':…

Linux统计文本中某个字符串出现的次数

常用的有如下两种方式: 1.VIM 用vim打开文件,然后输入: :%s/hello//gn 如下图: 图中的例子就是统计文本中"hello"字符串出现的次数说明: %s/pattern/string/flags 意思是把pattern替换为string 参数说明: % - 指明操作区间,%表示全文本:可以使用1,$或者行区间代替 %s相当于1,$s s – substitute,表示替换 g是全局 pattern - 要查找的字符串 // - 替代文本应该放在这里,两个斜杠中间没有…