先来几个原始数据的截图,如下所示:

示例图就举一个吧,因为这些数据量还挺大的,大概的总结了一下,这下列这几栏中不合规范的数据占比很大:

  (1)民族(经分析,在此表中所涉及到的民族分别为:汉族,满族,蒙古族,回族,土家族,侗族,瑶族,彝族,苗族,藏族,东乡族,壮族,傣族,仫佬族)原始数据中有写汉族,也有写汉的,其他民族的写法类似,为了将这些数据规范化,我们利用Excel中的批量替换功能,直接按快捷键Ctrl+f,如下:选中民族这一列,然后先进行查找,确认一下那些只写‘汉’的这些数据行,然后再进行批量替换。如图所示:

然后在替换,如下图所示:

这样就把单个字‘汉’, 替换成‘汉族’, 同时也将那些写成‘汉族’的规范的数据替换成了‘汉族族’, 这个并不碍事,利用同样的功能,选中民族这一列,先查找‘汉族族’,然后再进行替换,如下图:

然后点击全部替换,如下图:

这样一来,民族这一列中所有关于“汉”,“汉族”的替换也就完成了,数据的规范化工作也就完成了一小部分。同样其他的'民族' 也使用这种方法修改,这样就效率提高很多。

  (2)年级:年级这一栏基本出现的是这样的情况:92级,88,还有范围的数据2009-2013,还有一些莫名其妙的数字例如40098。这些数据的修改应当统一规范,对刚才这几种情况的数据应该改成: 1992, 1988, 2009, 对于40098类似的不合规范的数据将其标注红色。下面是一组原始数据与修改之后数据的对比: 

这一栏的修改基本就采用这样的方法。

  (3)学院:学院这一栏基本都是写的学院的简称,这一栏同样采用批量代换的方法,根据已建好的学院表将其进行替换,学院表如下:

替换方法和上面所用到的方法一样,下面给一组原始数据与替换后的数据对比,如下图所示:

  (4)专业:专业这一栏同样也是写的简称,也有一些现在所属的学院中没法找到的一些专业(估计是换了专业名字吧)土木学院的居多,同样的方法批量替换,将那些不合规范和找不见的专业红底标注,参照已建立好的专业表对其进行数据规范化,现有学院对应的专业表如下:

一共是71个现有专业。替换过程和上边用到的过程一样,再次不在啰嗦,,,下面给一组原始数据与修改完成的数据的比对:

红底标注的专业是不合规范的或者是在现有学院中找不到的专业。

  (5)学历:学历这一栏经分析写的大概都是这样的(大学本科,大学,本科,,研究生,硕士,博士毕业生,大专,专科,本科毕业生,工程硕士,工学硕士等等),在新建好的学历数据表中一般将学历分成下列几种,如图:

根据数据表中规范的数据,对学历这一栏进行修改,也是采用同样的方法,批量代换,将(大专)替换成专科,将(大学本科,大学,本科毕业生)替换成本科,将(研究生,工程硕士,工学硕士)替换成硕士,将(博士毕业生)替换成博士,这样对这一列的数据规范化,给出一组原始数据与规范化之后的数据的比对:

其他的地方也采用一样的方法进行修改。

附录:一些常见的统计分析函数,

在excel中,统计个数有三个常用的函数:
1 COUNT函数
COUNT函数可以统计一个区域中数字的个数。
如:=COUNT(A1:A10)可以统计A1:A10区域数字的个数
2 COUNTA函数
COUNTA函数可以统计非空单元格的个数,只要是非空都可以统计在内。
3 COUNTIF函数
COUNTIF函数可以按条件求和。是一个非常有用的EXCEL函数。
countif函数是使用频率最高的几个函数之一,下面针对这个函数做一个小小的专题.以方便大家学习,此文是本站原创。转载请注明转自“excel精英培训”

一、countif函数的用途
countif函数是根据条件在另一个区域进行个数的统计,一方面它可以完成符合条件的统计计算。另一方面由此扩展出它可以进行重复值的查找我表格的核对。
二、countif的基本语法:
COUNTIF(单元格引用, 条件)

参数说明:
1 第一个参数只能是单元格引用方式,不能使用内存数组
2 第二个参数是条件,条件可以是值,可以是字符串构成的复合条件,可以使用通配符进行模糊统计,可以使用内存数组。
应用示例:
例1:统计在A列是“公司A”的个数
公式=Countif(A:A,"公司A")
例2:统计A列包含“公司A”的个数
公式=Countif(A:A,"*公司A*")
注:这里使用通配*表示字符前后有任意个字符。
例3:统计C列成绩大于60的学生个数
公式 =Countif(C:C,">60")
注:这里是用运算对比符号和数字构成的条件
例4:统计大于C1单元格数值的C列个数。
公式:=Countif(c:c,">" & c1)
注:这里是用&插入了一个变量,即C1的值。
例5:统计C列大于平均数的个数
公式:=Countif(c:c,">" & average(c:c))
注:这里是使用了平均值函数average先计算平均值,然后作为条件。
例6:统计A列为“公司A”或“公司B”的个数
公式:{=Sum(Countif(A:A,{"公司A","公司B"})) }
注:这里在第二个参数里加入了常量数组,使用countif的结果是分别按两个公司名称统计的结果,也是一个数组假如是{3,4},得到数组后用sum函数对两个数进行求和,得到总的个数,这个公式是数组公式,所以一定要输入公式后把光标放在公式最后,按ctrl+shift,然后按enter键结束输入。
另:也许也还会问,如果设置更多条件该怎么弄,兰色幻想建议使用另一个可以多条件求和与计数的函数:sumproduct
例:统计大于1000,小于3000的数字个数
=sumprodcut((a1:a100>1000)*(a1:a100<3000))

利用Excel做一些简单的数据分析的更多相关文章

  1. java结合testng,利用excel做数据源的数据驱动实例

    数据驱动部分,是自动化测试常用部分,也是参数化设计的重要环节,前面分享了,mysql.yaml做数据源,那么再来分享下excel做数据驱动 思路: 先用POI读取excel.解析读取数据,返回list ...

  2. 利用 html2canvas 做个简单的诗词卡片生成器

    html2canvas 简介 html2canvas 顾名思义,就是一个可以把 DOM 元素转换成图片的类库,常用于网页截图.网页截图常见的应用场景是,在意见反馈里对当前页面进行截图,方便反馈页面出现 ...

  3. 利用jmeter做一个简单的性能测试并进行参数化设置

    1.新增一个线程组,并在下面添加基本原件,包括:监听器.http请求默认值和一个事务控制器 在http请求默认值中填写 ip 地址和端口号,协议类型默认为http 2.添加代理服务器,以便之后进行录制 ...

  4. 利用Django做一个简单的分页页面

    views代码: from django.shortcuts import render from django.conf import settings from booktest.models i ...

  5. 无插件,无com组件,利用EXCEL、WORD模板做数据导出(一)

    本次随笔主要讲述着工作中是如何解决数据导出的,对于数据导出到excel在日常工作中大家还是比较常用的,那导出到word呢,改如何处理呢,简单的页面导出问题应该不大,但是如果是标准的公文导出呢,要保证其 ...

  6. 我用Python做了一个咖啡馆数据分析

    在做案例前,我还想回答大家一个疑问,就是excel做数据分析可以实现Python一样的效果,那用Python的意义在哪呢? 经过这段时间学习理解,我的回答是: (https://jq.qq.com/? ...

  7. 别人都在用数据分析软件,你还在用excel做数据分析?

    之前听朋友吐槽过,他们是上千人的企业,但做数据分析居然还是靠手动上传数据,而且还是用的excel做的.但其实excel并不是企业做数据分析的好工具. 数据分析是指用适当的统计分析方法对收集来的大量数据 ...

  8. 利用Apache POI 实现简单的Excel表格导出

    1.利用POI API实现简单的Excel表格导出 首先假设一个学生实体类: package com.sun.poi.domain; import java.io.Serializable; impo ...

  9. 《深入浅出数据分析》-利用Excel的Solver求橡皮玩具的最大利润

    背景:一玩具厂可以生产两种浴盆玩具,分别是橡皮鸭和橡皮鱼,并且原材料和生产时间都有所限制,求如何才分配生产两种玩具的数量才可以让厂商达到最大利润. 假设条件如下: 产品名称 数量   duck a   ...

随机推荐

  1. Set ,List,ArrayList,LinkedList,Vectory,HashMap,Hashtable,HashSet,TreeSet,TreeSet

    Set与List区别: 两者都是接口,并继承Collection接口:List有序,允许重复:Set无序,不能重复: ArrayList与LinkList区别: ArrayList是动态数组,查询效率 ...

  2. AIX误删除LV后如何进行现场保护和数据恢复工作

    在AIX环境下,若因维护误操作.存储mapping错误等,不小心将LV误删除,这种损失通常是巨大的.删除后的不当保护及恢复操作可能使数据无法恢复,也可能增加处理的时间与算法复杂度.如何有效保护现场,并 ...

  3. 进程间通信系列 之 socket套接字实例

    进程间通信系列 之 概述与对比   http://blog.csdn.net/younger_china/article/details/15808685  进程间通信系列 之 共享内存及其实例   ...

  4. CentOS_5.6下使用cmake编译MySQL_5.5.11

    MySQL 最新的版本5.5.11需要cmake编译安装,估计以后的版本也会采用这种方式,网上找了一些安装方法有些地方是错的,自己整理一份 所以特地记录一下安装步骤及过程,以供参考!1 mysql 5 ...

  5. 结束C#2的讲解:最后的一些特性

    分部类型 可以在多个源文件中为一个类型编写代码.特别适合用于部分代码是自动生成,而其他部分的代码为手动类型. 多个源代码文件组成的类型为分部类型 #region 7-1演示分部类型的混合声明 part ...

  6. 蓝桥杯- 移动距离-java

    /* (程序头部注释开始) * 程序的版权和版本声明部分 * Copyright (c) 2016, 广州科技贸易职业学院信息工程系学生 * All rights reserved. * 文件名称: ...

  7. openwrt通过libcurl上传图片,服务器端通过PHP接收文件

    一.客户端文件上传 libcurl上传文件有两种方式: 1.直接上传文件,类似form表单<input type=”file” />,<form enctype=”multipart ...

  8. hdu1281二分图匹配

    小希和Gardon在玩一个游戏:对一个N*M的棋盘,在格子里放尽量多的一些国际象棋里面的"车",并且使得他们不能互相攻击,这当然很简单,但是Gardon限制了只有某些格子才可以放, ...

  9. java文件创建和删除

    流的操作在项目开发中用的很普遍,虽然每次在网上都可以百度到,但是总感觉心里不踏实,对此,关于流的操作做一个详细的总结--- 1.根据数据的流向来分:输出流:是用来写数据的,是由程序(内存)---> ...

  10. windows10 配置 华为vpn客户端

    2017-05-08 1. 安装客户端软件VPNClient_V100R001C02SPC703.exe 2. 新建vpn 安装完成后,打开客户端连接vpn,发现未启用虚拟网卡(这是因为还需要安装客户 ...