一般我们进行数据统计的时候要进行数据摸查,可能是摸查整体的分布情况啊。平均值,标准差,总数,各分段的人数啊。这时候用excel或者数据库统计都不方便。

我要统计的一个文件,太大了,还得分成15个文件,结果导一个进mysql都要导很久。再mysql进行编程,执行更久,很费事。

但是用python直接统计就很方便啦。

 @author: pc
"""
import matplotlib as mpb
import pandas as pd
import pylab as pl
import numpy as np
#读取文件
#mnames=[' product_type','phone_num',' flow_total',' flow_used', 'phone_total',' phone_used' ]
mnames=['time']
product=pd.read_table('C:\\Users\\pc\\Desktop\\time.txt',encoding='utf-8',sep='|',header=None,names=mnames)
# print(product['product_subtotal'])
#选取产品小计列
time=product['time']
#按分位数划分区间
cats=pd.qcut(time,[0,0.2,0.4,0.6,0.8,1.0])
# print(cats)
# print(pd.value_counts(cats))
# print(product_subtotal)
count=time.value_counts()
#写入csv文件
count.to_csv('C:\\Users\\pc\\Desktop\\counts9.csv')
#输出描述性统计结果
print(time.describe())
#根据电话号码查询某行的值
#num=product['phone_num']
#print(product[product['phone_num']==18948482538])
bins=np.arange(0,5000,100)
pl.hist(time, bins)

但是这是适合一个一个文件算,如果存在多个文件,我们可以使用python合并后计算。

#-*-coding:utf-8-*-

import codecs
import os
filepath = "E:\\workspace\\test\\source\\usebill\\" #把要合并的文件放入一个文件夹
flist = os.listdir(filepath)
fileWrite =codecs.open("../source/alluse.txt",'w+','utf-8')#编码方便
for file in flist:
child = os.path.join('%s%s'%(filepath,file))#连接路径
print(child)
fh = codecs.open(child,'r','utf-8')
for line in fh.readlines():
fileWrite.write(line)
fileWrite.close() import pandas as pd
product=pd.read_table('..\\source\\alluse.txt',encoding='utf-8',sep='|',header=None)
print(product[5][:10])
print(product[5].describe())

再说下编码一个小问题吧。多数的挖掘在unicode文件进行,f=open('XXXXX', 'r')
content=f.read().decode('utf-8')这是解码成unicode

参考  文件(gbk, utf-8...)   decode 成为   unicode 文件  编码  encode- 成为  文件(gbk, utf-8...)

python数据统计,总数,平均值等的更多相关文章

  1. python数据统计出海品牌

    当国内市场处于红海之中时,市场全球化已成为大势所趋.越来越多的国产品牌远走高飞,纷纷将品牌拿出来. 2019年,中国品牌十大品牌中,华为品牌力指数同比增长22%,阿里巴巴品牌力指数增长48%,小米品牌 ...

  2. python数据统计之禅道bug统计

    背景 通过定期输出 每条产品的 BUG 情况,以此来反馈开发解决问题.测试跟进问题的情况:钉钉群推送提醒开发及时解决 以此我这边开始着手准备编写一个小工具,最终达到目的:自动定期发送统计报告,报告维度 ...

  3. 用python实现简单EXCEL数据统计的实例

    用python实现简单EXCEL数据统计的实例 下面小编就为大家带来一篇用python实现简单EXCEL数据统计的实例.小编觉得挺不错的,现在就分享给大家,也给大家做个参考.一起跟随小编过来看看吧 任 ...

  4. Python数据分析之双色球高频数据统计

    Step1:基础数据准备(通过爬虫获取到),以下是从第一期03年双色球开奖号到今天的所有数据整理,截止目前一共2549期,balls.txt 文件内容如下 : 备注:想要现成数据的可以给我发邮件哟~ ...

  5. Python数据可视化的四种简易方法

    摘要: 本文讲述了热图.二维密度图.蜘蛛图.树形图这四种Python数据可视化方法. 数据可视化是任何数据科学或机器学习项目的一个重要组成部分.人们常常会从探索数据分析(EDA)开始,来深入了解数据, ...

  6. python --数据可视化(一)

    python --数据可视化 一.python -- pyecharts库的使用 pyecharts--> 生成Echarts图标的类库 1.安装: pip install pyecharts ...

  7. python数据统计分析

    1. 常用函数库   scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了 ...

  8. MySQL统计总数就用count(*),别花里胡哨的《死磕MySQL系列 十》

    有一个问题是这样的统计数据总数用count(*).count(主键ID).count(字段).count(1)那个效率高. 先说结论,不用那么花里胡哨遇到统计总数全部使用count(*). 但是有很多 ...

  9. 有关“数据统计”的一些概念 -- PV UV VV IP跳出率等

    有关"数据统计"的一些概念 -- PV UV VV IP跳出率等 版权声明:本文为博主原创文章,未经博主允许不得转载. 此文是本人工作中碰到的,随时记下来的零散概念,特此整理一下. ...

随机推荐

  1. 从感知器到SVM

    这篇文章主要是分析感知器和SVM处理分类问题的原理,不涉及求解 感知器: 感知器要解决的是这样的一个二分类问题:给定了一个线性可分的数据集,我们需要找到一个超平面,将该数据集分开.这个超平面的描述如下 ...

  2. linux mint 崩溃

    换完linux mint 今天突然崩溃了.出现如下错误 因为是双屏.一个屏幕显示一般,这么不重要.搜了一下,找到解决方案 解决办法 ctrl+atl+f1 login sudo apt-get ins ...

  3. CentOS下Apache配置多域名或者多端口映射

    CentOS下Apache默认网站根目录为/var/www/html,假如我默认存了一个CI项目在html文件夹里,同时服务器的外网IP为ExampleIp,因为使用的是MVC框架,Apache需开启 ...

  4. 安卓 JDK、SDK、ADT 区别

    问题一:android软件开发是用java语法,但是为什么开发环境还需要jdk,有android sdk不就可以了吗? 答: 我知道写字要用笔,但为什么还需要笔芯(墨水),有笔杆不就可以了吗? 问题二 ...

  5. matlab的滤波器仿真——低通滤波器与插值滤波器

    项目里面有用到插值滤波器的场合,用matlab做了前期的滤波器性能仿真,产生的滤波器系数保存下来输入到FPGA IP中使用即可. 下面是仿真的代码 % clear all close all Nx = ...

  6. Node.js 自学之旅

    学习基础,JQuery 原生JS有一定基础,有自己一定技术认知(ps:原型链依然迷糊中.闭包6不起来!哎!) 当然最好有语言基础,C#,java,PHP等等.. 最初学习这个东西的原因很简单,在园子里 ...

  7. .net 中select和where的区别

    Select(p=>p.ID==id) 这里选择的结果是通过p,访问迭代器,然后选取的是p.ID==id的结果,选择到的是bool对象 Where(p=>p.ID==id) 这里是过滤,p ...

  8. Asynchronous javascript and xml

    关于Ajax,学习了原生的ajax和JQ的ajax,如今,它已是无处不在,首先,我们知道开发或者使用的软件分为c/s和b/s两种,分别是客户端/服务端和浏览器端/服务端. 前者的优点是响应速度快,但是 ...

  9. nil与NULL的区别

    首先nil表示无值,任何变量在没有被赋值之前的值都为nil,对于真假判断,只有nil与false表示假,其余均为真.而NULL是一个宏定义,值为0.并且,nil一般赋值给空对象,NULL一般赋值给ni ...

  10. python中x,y交换值的问题

    今天碰到了python和其他语言不同的问题:赋值语句 x,y,z=1,2,3,执行 z,x,y=y,z,x 后,x.y.z 中分别含有什么值? 我想的是 x=2  y=2  z=2 可调试后应该是:x ...