英文词频统计的java实现方法】的更多相关文章

需求概要 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 分析 1.读取文件可使用BufferedReader类按行读取 2.针对读入行根据分隔符拆分出单词,使用java.util工具提供的Map记录单词和其出现次数的信息,HashMap和TreeMap均可,如果排序结果按字母序可选用TreeMap,本例选择用HashMap. 3.将Map中存储的键值对,存入List中,List中的元素为二维字符串数组,并…
需求概要 原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命令行输入英文作品的文件名 3. 支持命令行输入存储有英文作品文件的目录名,批量统计. 4. 从控制台读入英文单篇作品 程序输入: 1.控制台输入文本 2.英文文本文件 3.英文目录,目录下包含单个或多个英文文本文件 程序输出: 1.英文单词在本文件或控制台输入中的出现的次数,按出现次数排序…
java效能分析可以使用JProfiler 词频统计处理的文件为WarAndPeace,大小3282KB约3.3MB,输出结果到文件 在程序本身内开始和结束分别加入时间戳,差值平均为480-490ms. 结果如下: 1.统计概要 2.CPU运行曲线:程序运行高峰可以达到21.44%,原因可能的添加不同单词到map中之前对字符处理导致的,第二高峰可能是按词频序排序导致 3.内存占用情况:char数组占用较大,其原因也是读入文件进行处理必须的.String和StringBuffer,StringBu…
一.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码 网址观察与批量生成 2.凯撒密码编码与解码 凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左或向右移动一个固定数目的位置.例如,当偏移量是左移3的时候(解密时的密钥就是3),所有的字母A将被替换成D,B变成E,以此类推X将变成A,Y变成B,Z变成C.由此可见,位数就是凯撒密码加密和解密的密钥. def change(c,i): c = c.lower() num = ord(c) if n…
练习: 总结列表,元组,字典,集合的联系与区别.列表,元组,字典,集合的遍历. 区别: 一.列表:列表给大家的印象是索引,有了索引就是有序,想要存储有序的项目,用列表是再好不过的选择了.在python中的列表很好区分,遇到中括号(即[ ]),都是列表,定义列表也是如此.列表中的数据可以进行增删查改等操作: 增加有两种表达方式(append().expend()),关于append的用法如下(注:mylist定义的列表名称):不难看出,用append方法增加元素,不用给元素加中括号,而用exten…
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不清楚配置可看<Hadoop之词频统计小实验初步配置> 3)本文由于过长,无法一次性上传.其相邻相关的博文,可参见<Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构>,以阅览其余三篇剩余内容文档. (五)单机伪分布的英文词频统计Python&Streamin…
1.字符串操作: 解析身份证号:生日.性别.出生地等. ID = input('请输入十八位身份证号码: ') if len(ID) == 18: print("你的身份证号码是 " + ID) else: print("错误的身份证号码") ID_add = ID[0:6] ID_birth = ID[6:14] ID_sex = ID[14:17] ID_check = ID[17] # ID_add是身份证中的区域代码,如果有一个行政区划代码字典,就可以用获取…
一.英文词频统计 英文词频统计很简单,只需借助split断句,再统计即可. 完整MATLAB代码: function wordcount %思路:中文词频统计涉及到对"词语"的判断,需要导入词典或编写判断规则,很复杂. %最简单的办法是直接统计英文词频,并由空格直接划分词语.然后再翻译即可得到中文词频. %从官方网站上下载的pdf,转成reportfulltext.txt,存到workspace进行操作 全文共25003个字符. clc; clear; report=fileread(…
1.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码 网址观察与批量生成 解析身份证号:生日.性别.出生地等 def function3(): print('请输入身份证号') ID = input() if len(ID) != 18: print('请输入有效的身份证号码') else: print('身份证号码格式正确') birth = ID[6:14] print('您的生日是:', format(birth)) check = ID[14:17] if int(…
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列表操作如下所示: #列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's', 't'] #列表->字符串 string1 = ''.join(list1) #list #列表的增删改查 list1 = list('this…