java单词统计

要求1：输出某个英文文本文件中26字母出现的频率，由高到低排序，并显示字母出现的百分比，精确到小数点后两位。

思路：分别设存放字母和字母出现次数的数组，遍历文件内容，将字母及出现频率按由高到低的顺序输出

源码：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Scanner;

public class word
{
    static String str="";
    static String str1="abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
    static char ch1 []=str1.toCharArray();//存放字母的数组
    public static double num[]=new double[100];//存放字母出现次数的数组
    public static int sum=0;//出现的字母个数
    //读取文件内容
    public static void read()
    {
        Scanner scan =new Scanner(System.in);
        File file = new File("D:\\h\\halibote\\Harry Potter and the Sorcerer's Stone.txt");
        int score = 0;
        StringBuffer result = new StringBuffer();
        try
        {
            FileReader r = new FileReader(file);
            BufferedReader br = new BufferedReader(r);
            int i=0;
            str=br.readLine();
            while(str!=null)
            {
               for(int j=0;j<str.length();j++)
               {
                   for(int k=0;k<str1.length();k++)
                   {
                       if(str.charAt(j)==str1.charAt(k))
                       {
                           sum++;
                           num[k]++;
                       }
                   }
               }
               str=br.readLine();
           }
            br.close();
            for(int p=0;p<str1.length()-1;p++)
            {
                int o=p;
                for(int q=p;q<str1.length();q++)
                {
                    if(num[o]<num[q])
                    {
                        o=q;
                    }
                }
                if(o!=p)
                {
                    char ff=ch1[o];
                    ch1[o]=ch1[p];
                    ch1[p]=ff;
                    double fff=num[o];
                    num[o]=num[p];
                    num[p]=fff;
                }
            }
            for(int k=0;k<str1.length();k++)
            {
                   num[k]=num[k]/sum*100;
                   System.out.print(ch1[k]);
                   System.out.printf("%.2f",num[k]);
                   System.out.println("%");
            }
        }
        catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    public static void main(String[] args)
    {
        read();
    }
}

要求2：输出单个文件中的前n个最常出现的单词

思路：

遍历文件，读取所有单词并存入数组

对读取的单词进行去重并存入新数组

统计单词出现次数并将所统计每个单词的出现次数存入一数组

按出现次数由高到低的顺序输出n个单词及出现次数

源码

import java.io.File;
import java.io.InputStreamReader;
import java.io.Reader;
import java.nio.file.FileVisitResult;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.nio.file.SimpleFileVisitor;
import java.nio.file.attribute.BasicFileAttributes;
import java.util.Scanner;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

public class word1
{
    private static String str="";
    private static Scanner sc=new Scanner(System.in);
    private static BufferedReader cin=null;
    private static String a[]=new String[1000000];//存放从文件中读取的所有单词
    private static String c[]=new String[10000000];//存放去重后单词
    private static int b[]=new int[1000000];//存放单词出现次数
    private static int length=0;//单词总个数
    private static int length1=0;//去重后单词个数
    private static int nn=0;
    private static int j=0;
    static File[] list = new File("D:\\h").listFiles();

    //读取文件内容
    public static void Readfile()
    {
        File file=new File("D:\\h\\halibote\\Harry Potter and the Sorcerer's Stone.txt");
        try
        {
            InputStreamReader read = new InputStreamReader(new FileInputStream(file),"UTF-8");
            cin=new BufferedReader(read);
            str=cin.readLine();
            cun();
            cin.close();
            read.close();
        }
        catch(IOException e) {
            System.out.println("读取失败！");
            e.printStackTrace();
        }
    }

    //将单词存到数组a
    public static void cun() throws IOException
    {
    {
      while(str!=null)
      {
       int i=0;
       str=str.toLowerCase(); //把大写改成小写
       for(i=0;i<str.length();i++)
       {
        if((str.charAt(i)>96&&str.charAt(i)<123))
        {
         a[j]=a[j]+str.charAt(i);
        }
        if(str.charAt(i)==' '||str.charAt(i)==','||str.charAt(i)=='.')
        {
         if(!a[j].equals(""))
         {
          j=j+1;
          a[j]="";
         }
        }
       }
       str=cin.readLine();
      }
      length=j;
    }
    }

    //去重
    public static void Statistics()
    {
        for(int k=0;k<length;k++)
        {
            b[k]=0;
        }
        c[0]=a[0];
        int tt=1;
        Boolean rt=true;
        for(int i=1;i<length;i++)
        {
            rt=false;
            for(int j=0;j<tt;j++)
            {
                if(a[i].equals(c[j]))
                {
                    rt=true;
                    break;
                }
            }
            if(!rt)
            {
                c[tt]=a[i];
                tt++;
            }
        }
        length1=tt;
        for(int i=0;i<length1;i++)
        {
            for(int j=0;j<length;j++)
            {
                if(c[i].equals(a[j]))
                {
                    b[i]++;
                }
            }
        }
    }

    //排序
    public static void Sorting()
    {
        int t3=0;
        int t2=0;
        String sr="";
        for(int i=0;i<length1-1;i++)
        {
            t3=i;
            for(int j=i+1;j<length1;j++)
            {
                if(b[t3]<b[j])
                {
                    t3=j;
                }
            }
            if(t3!=i)
            {
               t2=b[i];
               b[i]=b[t3];
               b[t3]=t2;
               sr=c[i];
               c[i]=c[t3];
               c[t3]=sr;
            }
         }
    }

    //显示
    public static void show()
    {
        for(int k=0;k<nn;k++)
        {
            System.out.print(c[k]+"\t"+b[k]+"   ");
            System.out.printf("%.2f",(double)b[k]/length1*100);
            System.out.print("%");
            System.out.println("");
        }
    }

    public static void main(String[] args) throws IOException
    {
           System.out.println("请输入需要统计的个数：");
           nn=sc.nextInt();
           a[0]="";
           Readfile();
           Statistics();
           Sorting();
           show();
    }
}

功能1：输出文件中所有不重复的单词，按照出现次数由多到少排列，出现次数同样多的，以字典序排列

思路：只需将输出结果改为单词加出现次数并写入文件，其他与要求2一致

源码：

public class word2
{
    private static String str="";
    private static Scanner sc=new Scanner(System.in);
    private static BufferedReader cin=null;
    private static String a[]=new String[1000000];
    private static String c[]=new String[10000000];
    private static int b[]=new int[1000000];
    private static int length=0;
    private static int length1=0;
    private static int nn=0;
    private static int j=0;
    static File[] list = new File("D:\\h").listFiles();

    public static void Readfile()
    {
        File file=new File("D:\\h\\halibote\\Harry Potter and the Sorcerer's Stone.txt");
        try
        {
            InputStreamReader read = new InputStreamReader(new FileInputStream(file),"UTF-8");
            cin=new BufferedReader(read);
            str=cin.readLine();
            cun();
            cin.close();
            read.close();
        }
        catch(IOException e) {
            System.out.println("读取失败！");
            e.printStackTrace();
        }
    }

    //将单词存到数组a
    public static void cun() throws IOException
    {
    {
      while(str!=null)
      {
       int i=0;
       str=str.toLowerCase(); //把大写改成小写
       for(i=0;i<str.length();i++)
       {
        if((str.charAt(i)>96&&str.charAt(i)<123))
        {
         a[j]=a[j]+str.charAt(i);
        }
        if(str.charAt(i)==' '||str.charAt(i)==','||str.charAt(i)=='.')
        {
         if(!a[j].equals(""))
         {
          j=j+1;
          a[j]="";
         }
                    }
       }
       str=cin.readLine();
      }
      length=j;
    }
    }

    //去重
    public static void Statistics()
    {
        for(int k=0;k<length;k++)
        {
            b[k]=0;
        }
        c[0]=a[0];
        int tt=1;
        Boolean rt=true;
        for(int i=1;i<length;i++)
        {
            rt=false;
            for(int j=0;j<tt;j++)
            {
                if(a[i].equals(c[j]))
                {
                    rt=true;
                    break;
                }
            }
            if(!rt)
            {
                c[tt]=a[i];
                tt++;
            }
        }
        length1=tt;
        for(int i=0;i<length1;i++)
        {
            for(int j=0;j<length;j++)
            {
                if(c[i].equals(a[j]))
                {
                    b[i]++;
                }
            }
        }
    }

    //排序
    public static void Sorting()
    {
        int t3=0;
        int t2=0;
        String sr="";
        for(int i=0;i<length1-1;i++)
        {
            t3=i;
            for(int j=i+1;j<length1;j++)
            {
                if(b[t3]<b[j])
                {
                    t3=j;
                }
            }
           if(t3!=i)
           {
               t2=b[i];
               b[i]=b[t3];
               b[t3]=t2;
               sr=c[i];
               c[i]=c[t3];
               c[t3]=sr;
           }
        }
    }

    //将输出结果写入文本文件
    public static void Writefile() throws IOException
    {
        File file=new File("D:\\h\\halibote\\t1.txt");
        if(!file.exists())
            file.createNewFile();
        FileWriter write = new FileWriter(file,true);
        BufferedWriter out=new BufferedWriter(write);
        for(int i=0;i<length1;i++)
        {
            StringBuffer sb=new StringBuffer();
            out.write("这是第"+(i+1)+"个: ");
            out.write(c[i]+"\t"+b[i]);
            out.write("\r\n");
        }
        out.close();
    }

    //显示
    public static void show1()
    {
        for(int k=0;k<length1;k++)
        {
                System.out.print(c[k]+"\t \t\t"+b[k]+"\n");
        }
    }

    public static void main(String[] args) throws IOException
    {
           a[0]="";
           Readfile();
           Statistics();
           Sorting();
           System.out.println("程序中所有不重复的单词！");
           show1();
           Writefile();
    }
}

java单词统计的更多相关文章

Java实验--统计字母出现频率及其单词个数
本周的实验要求在之前实现统计单词的基础之上(可以见之前博客的统计单词的那个实验),对其进行修改成所需要的格式,统计字母出现频率的功能,并按照一定的格式把最终结果的用特定的格式在文本中显示出来统计过程 ...
JAVA实验--统计文章中单词的个数并排序
分析: 1)要统计单词的个数,就自己的对文章中单词出现的判断的理解来说是:当出现一个非字母的字符的时候,对前面的一部分字符串归结为单词 2)对于最后要判断字母出现的个数这个问题,我认为应该是要用到ma ...
java源码——文件读写和单词统计
本文要解决的问题:"键盘输入一段英语语句,将这段话写入content.txt中,然后输出这段话,并且统计语句中英文单词的数目以及各个单词出现的次数." 分析问题知,核心是文件读写和 ...
java课程课后作业190502之单词统计续集
第1步:输出单个文件中的前 N 个最常出现的英语单词. 功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列. 功能2: 指定文件目录,对目录下每一个文件执行统 ...
Java实现单词统计
原文链接: https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数,比如下面的数据源其中,最终出现的次数结果应该是下面的 ...
MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
scala基本语法和单词统计
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...
Storm基础概念与单词统计示例
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...

随机推荐

Java高级项目实战03：CRM系统数据库设计
接上一篇:Java高级项目实战02:客户关系管理系统CRM系统模块分析与介绍欢迎点击回顾,接下来我们说说 CRM系统数据库设计. 我们根据产品的原型搞以及UI组的设计稿, 接下来就要设计数据库, 一 ...
Android中DatePicker日期选择器的使用和获取选择的年月日
场景实现效果如下注: 博客: https://blog.csdn.net/badao_liumang_qizhi 关注公众号霸道的程序猿获取编程相关电子书.教程推送与免费下载. 实现将布局改 ...
使用 linux kernel +busybox 定制linux系统
目的: 了解linux的启动过程主要内容: 1.grub 是启动程序的bootloader 2.linux-kernel 是linux的开源内核 3.busybox 是linux的工具集合启动顺序 ...
Android 调试桥 (adb) 是命令行命令--官方拷贝过来的,留作自己查看
Android 调试桥 (adb) 是一种功能多样的命令行工具,可让您与设备进行通信.adb 命令便于执行各种设备操作(例如安装和调试应用),并提供对 Unix shell(可用来在设备上运行各种命令 ...
Mysql 两种引擎的区别
MyISAM与InnoDB的区别是什么? 1. 存储结构 MyISAM:每个MyISAM在磁盘上存储成三个文件.第一个文件的名字以表的名字开始,扩展名指出文件类型..frm文件存储表定义.数据文件的扩 ...
thingsboard入坑记（一）本机编译运行
开发环境: windows10 x64 专业版工具准备: git 2.16.2 windows命令行版 java jdk 1.8:https://www.cnblogs.com/harmful-ch ...
IDEA创建mybatisDemo，并实现简单的CRUD
Mybatis 是支持普通SQL查询,存储过程和高级映射的优秀持久层框架.在Java或者Java Web项目中,添加Mybatis必须的核心包,就能对数据表进行增删改查操作了.下面以MySQL数据库o ...
声明式服务调用：Spring Cloud Feign
最近在学习Spring Cloud的知识,现将声明式服务调用:Spring Cloud Feign 的相关知识笔记整理如下.[采用 oneNote格式排版]
逻辑卷管理（LVM）-快照
1.需要在逻辑卷相同的卷组中创建逻辑卷快照.-s :表示快照 -p r:表示只读 /dev/vg0/mysql 为那个卷的快照 2.查看快照卷信息. 3.快照恢复,必须先取消挂载,还原成功之后,快 ...
Patter discovery VS clustering
“pattern driven” (PD) is based on enumerating candidate patterns in a given solution space and picki ...

java单词统计

java单词统计的更多相关文章

随机推荐

热门专题