Java实现的词频统计—

　　本次改进是在原有功能需求及代码基础上额外做的修改，保证了原有的基础需求之外添加了新需求的功能。

功能：

　　1. 小文件输入——从控制台由用户输入到文件中，再对文件进行统计；

　　2.支持命令行输入英文作品的文件名；

　　3.支持命令行输入存储有英文作品文件的目录名，批量统计；

　　4.从控制台读入英文单篇作品，重定向输入流。

实现：

　　1.判断输入方式，如果从命令行传递参数则直接对文件进行统计；如果未传递参数，其方式同控制台相同，由用户从标准输入流输入到文件，再对文件进行词频统计。这里如果传入文件路径时会对其是否是文件夹进行判断，如果是文件夹，则对其目录中的文件进行统计。

 if (args.length == 0) {

             Scanner in = new Scanner(System.in);

             FileWriter out = new FileWriter("Content.txt");

             System.out.println("请输入内容，最后以Q结束：");

             while (in.hasNext()) {

                 out.write(in.nextLine()+"\r\n");

             }

             out.close();

             in.close();

             new FileProccessing("Content.txt");

         }

         for (int i = 0; i < args.length; i++) {

             String FileName = args[i];

             File fs = new File(FileName);

             if (fs.isDirectory()) {

                 File[] filelist = fs.listFiles();

                 for (int n = 0; n < filelist.length; n++) {

                     new FileProccessing(filelist[n].getAbsolutePath());

                 }

             } else {

                 new FileProccessing(FileName);

             }

         }

　　2.对ByValueComparator类做了修改，使其能够按词频降序排列的同时，对同频率的单词进行升序排列。

 public class ByValueComparator implements Comparator<Entry<String,Integer>> {

     Map<String, Integer> hashmap;

     public ByValueComparator(Map<String, Integer> hm) {

         this.hashmap = hm;

     }

     @Override

     public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {

         // TODO Auto-generated method stub

         if (o1.getValue().compareTo(o2.getValue()) == -1) {

             return 1;

         } else if (o1.getValue().compareTo(o2.getValue()) == 0) {

             return o1.getKey().compareTo(o2.getKey());　　//单次出现频率相同时，对单词进行升序排列

         } else {

             return -1;

         }

     }

 }

　　3.与上一次相比，为了方便调用，将对文件进行统计操作的代码归入新的类FileProccessing。同时将readline()改为read(char[] c)，解决了当一行字符过多时报错的问题。当进行统计的文件过大时，原本输出到屏幕会自动改为输出到文件中，避免了因输出而占用了大部分时间，同时方便用户查阅（默认输出到工程目录下）。

　　其中有个小细节：程序中char数组默认大小为64，当读到最后一块时，字符不足64个时，多余未读入字符的数组元素默认为'\0'，拆分之后输出结果中会多出一项“ ——1”。因此，在StringTokenizer方法中要录入"\0"作为分隔字符。

　　读入文件并进行统计，结果存入到hashmap中：

         int i = 0;

         char[] c = new char[64];

         String thelast = "";

         String wordpart = "";

         while ((i = br.read(c)) > 0) {

             wordpart = "";

             int m = i - 1;

             while (Character.isLetter(c[m])) {

                 wordpart = String.valueOf(c[m]) + wordpart;

                 c[m] = ' ';

                 m--;

             }

             String s = thelast + String.valueOf(c);

             StringTokenizer st = new StringTokenizer(s, " ,.!?\"\';:0123456789\n\r\t“”‘’·——-=*/()[]{}…（）【】｛｝\0"); // 用于切分字符串

             while (st.hasMoreTokens()) {

                 String word = st.nextToken();

                 if (hm.get(word) != null) {

                     int value = ((Integer) hm.get(word)).intValue();

                     value++;

                     hm.put(word, new Integer(value));

                 } else {

                     hm.put(word, new Integer(1));

                 }

             }

             thelast = wordpart;

         }

         if (!wordpart.isEmpty()) {

             if (hm.get(wordpart) != null) {

                 int value = ((Integer) hm.get(wordpart)).intValue();

                 value++;

                 hm.put(wordpart, new Integer(value));

             } else {

                 hm.put(wordpart, new Integer(1));

             }

         }

　　判断输出内容多少，自动匹配标准输出还是文件输出。其中运用了正则替换，用来打印当前文件名。同时还对总单词量及词汇量进行了统计：

         int NumofWord = 0;

         Iterator iter = hm.entrySet().iterator();

         while (iter.hasNext()) {

             Map.Entry entry = (Map.Entry) iter.next();

             NumofWord += (Integer) entry.getValue();

         }

         String reg = ".*\\\\(.*)";

         String name = filename.replaceAll(reg, "$1");

         if (hm.size() > 100) {

             FileWriter result = new FileWriter("Result.txt", true);

             result.write("~~~~~~~~~~~~~~~~~~~~\r\n");

             result.write(name.substring(0, name.lastIndexOf(".")) + "\r\n");

             result.write("number of the words:" + NumofWord + "\r\n");

             result.write("totals:" + hm.size() + "\r\n");

             for (Map.Entry<String, Integer> str : ll) {

                 result.write(str.getKey() + "——" + str.getValue() + "\r\n");

             }

             result.write("~~~~~~~~~~~~~~~~~~~~\r\n");

             System.out.println("由于" + name.substring(0, name.lastIndexOf(".")) + "文件过大，输出到文件Result中。");

             result.close();

         } else {

             System.out.println("~~~~~~~~~~~~~~~~~~~~");

             System.out.println(name.substring(0, name.lastIndexOf(".")));

             System.out.println("number of the words:" + NumofWord);

             System.out.println("totals:" + hm.size());

             for (Map.Entry<String, Integer> str : ll) {

                 System.out.println(str.getKey() + "——" + str.getValue());

             }

             System.out.println("~~~~~~~~~~~~~~~~~~~~");

         }

运行结果：

　　1.命令行标准输入界面：

　　2.执行结果：

　　3.控制台界面：

　　4.命令行传入文件：

　　5.同时传入大文件及文件夹：

　　6.重定向输入：

代码地址：

　　HTTPS https://coding.net/u/regretless/p/WordFrequencyCount/git

　　SSH git@git.coding.net:regretless/WordFrequencyCount.git

　　GIT git://git.coding.net/regretless/WordFrequencyCount.git

Java实现的词频统计——功能改进的更多相关文章

【第二周】Java实现英语文章词频统计（改进1）
本周根据杨老师的spec对英语文章词频统计进行了改进 1.需求分析: 对英文文章中的英文单词进行词频统计并按照有大到小的顺序输出, 2.算法思想: (1)构建一个类用于存放英文单词及其出现的次数 cl ...
Java实现的词频统计——Web迁移
本次将原本控制台工程迁移到了web工程上,依旧保留原本控制台的版本. 需求: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件: 2.在页面上给出链接 (如果有封皮.作者.字数.页数等信息 ...
Java实现中文词频统计
昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧! 与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的 ...
Java实现的词频统计——单元测试
前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenize ...
Java实现的词频统计
要求: 1.读取文件: 2.记录出现的词汇及出现频率: 3.按照频率降序排列: 4.输出结果. 概要: 1.读取的文件路径是默认的,为了方便调试,将要统计的文章.段落复制到文本中即可:2.只支持英文: ...
MapReduce 入门之一步步自实现词频统计功能
原创播客,如需转载请注明出处.原文地址:http://www.cnblogs.com/crawl/p/7687120.html ------------------------------------ ...
awk词频统计功能
[root@test88 ~]# vim word_freq.sh #!/bin/bash if [ $# -ne 1 ];then echo "Usage: $0 filename&quo ...
如何用java完成一个中文词频统计程序
要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...
使用HDFS完成wordcount词频统计
任务需求统计HDFS上文件的wordcount,并将统计结果输出到HDFS 功能拆解读取HDFS文件业务处理(词频统计) 缓存处理结果将结果输出到HDFS 数据准备事先往HDFS上传需要进行 ...

随机推荐

mysql 日志log
my.ini log-error=D:/phpStudy/PHPTutorial/MySQL/log/error.loglog=D:/phpStudy/PHPTutorial/MySQL/log/my ...
使用VS2015 编译 64位的boost库
别人写的编译参考: 目标:使用VS2015 编译 64位的boost库. 一直以来都是在Win32环境下Build和使用boost,但现在基本上每天都在64位Win7下工作,所以很有必要把这几天的经验 ...
ubuntu18.04 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用)解决方法
出现问题: 最近打开系统之后没声儿,抽空解决以下,谁知道安装的时候出现了这个问题,一看就是锁被占了呗直接重启大法.....不行,看来是锁分配出问题了,找了个解锁命令 jiang@ryzen:~$ s ...
PetaLinux安装及使用
Description/说明 PetaLinux版本:2016.4 操作系统版本:Ubuntu 16.04(如使用Ubuntu,墙裂建议使用16.04,其他版本官方手册并没有标明支持,可能会出现莫名其 ...
梯度下降、随机梯度下降、方差减小的梯度下降(matlab实现)
梯度下降代码: function [ theta, J_history ] = GradinentDecent( X, y, theta, alpha, num_iter ) m = length(y ...
C# 访问修饰符和const、readonly
今天被人问起const和readonly,竟然有点咬不准,复习一遍. 访问修饰符 public 公有访问.不受任何限制. private 私有访问.只限于本类成员访问,子类,实例都不能访问. prot ...
Linux入门进阶第三天——软件安装管理（下）
一.yum在线安装之前的rpm包各种依赖性太强!安装复杂,yum的好处就来了: // yum 在redhat是付费服务 1.yum源文件先进入到yum目录: 我们打开默认生效的Base包 2.光盘 ...
Linux下IPC机制
Linux下IPC机制实践要求研究Linux下IPC机制:原理,优缺点,每种机制至少给一个示例,提交研究博客的链接共享内存管道 FIFO 信号消息队列 IPC 进程间通信(IPC,Inter ...
实验一：实现求正整数1-N之间所有质数的功能，并进行测试。
实验一 Java开发环境的熟悉(Linux + Eclipse) 实验内容 1.使用JDK编译.运行简单的Java程序: 2.使用Eclipse 编辑.编译.运行.调试Java程序. 命令行下的程序开 ...
Apache入门篇（二）之apache 2.2.x常用配置解析
一.httpd 2.2.x目录结构 Cnetos 6.10 YUM安装httpd 2.2.x # yum install -y httpd 程序环境主配置文件: /etc/httpd/conf/ht ...

Java实现的词频统计——功能改进

Java实现的词频统计——功能改进的更多相关文章

随机推荐

热门专题