从数据库中读取数据,具体操作为:

  1. # -*- coding: utf-8 -*-
  2. from numpy import *
  3. import numpy as np
  4. import pandas as pd
  5. from sqlalchemy import create_engine
  6. engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/db_websiterecommend?charset=utf8')
  7. sql = pd.read_sql('t_url_classify', engine, chunksize = 110000)
  8. output='C:\\Users\\lenovo\\Desktop\\count_.xls'
  9. '''z
  10. 用create_engine建立连接,连接地址的意思依次为“数据库格式(mysql)+程序名(pymysql)+账号密码@地址端口/数据库名(test)”,最后指定编码为utf8;
  11. all_gzdata是表名,engine是连接数据的引擎,chunksize指定每次读取1万条记录。这时候sql是一个容器,未真正读取数据。
  12. '''
  13. counts = [ i['classify'].value_counts() for i in sql] #逐块统计
  14. counts = pd.concat(counts).groupby(level=0).sum() #合并统计结果,把相同的统计项合并(即按index分组并求和)
  15. counts = counts.reset_index() #重新设置index,将原来的index作为counts的一列。
  16. counts.columns = ['type', 'num']
  17. counts=pd.DataFrame(counts)
  18. print(counts)
  19. import matplotlib.pyplot as plt
  20. plt.rcParams['font.sans-serif']=['SimHei']
  21. plt.rcParams['axes.unicode_minus']=False
  22. print(counts.type)
  23. print(counts.num)
  24. #plt.style.use('mystyle')
  25. x=np.arange(counts.type.size)
  26. plt.bar(x,counts.num,color='red')
  27. ax=plt.gca()
  28. ax.set_xticklabels(counts.type)
  29. plt.show()

然后对于统计出来的数据是列表的,所以要进行整合成两个类别,所以就要将其转换成pandas,然后进行赋给其值列名,然后才方便后面的操作

否则不进行上面的操作的话,就得出以下的结果,这样子的话就达不到目的:

画图的代码为:

  1. import matplotlib.pyplot as plt
  2. plt.rcParams['font.sans-serif']=['SimHei']
  3. plt.rcParams['axes.unicode_minus']=False
  4. print(counts.type)
  5. print(counts.num)
  6. #plt.style.use('mystyle')
  7. x=np.arange(counts.type.size)
  8. plt.bar(x,counts.num,color='red')
  9. ax=plt.gca()
  10. ax.set_xticklabels(counts.type)
  11. plt.show()
使用plt.bar()去画图
首先是数据是dataframe格式的。
也就是两个变量,即两列
例如:
type num
0 优秀作品 11120
1 创新与合作 823
2 教学资源 24914
3 新闻动态 3177
4 竞赛与评奖 14114
5 竞赛组织 9645
6 视频教学 98
7 项目与招聘 4734
接下来:使用bar()绘制图形:
由于plot只接受数值类型,所以我们首先要:
输入:x = np.arange(data.category.size)
就是转换为其有多少个数据
画出来的图为:

接下来要设置x轴标识为类别:
  1. ax=plt.gca()
  2. ax.set_xticklabels(counts.type)
然后画出来的图为:

注意:

红色部分不能定义为index,否则输不出来,因为其默认就是有index
或者对于使用D.plot()的方式的话,就是可以这样子:
  1. counts.plot(kind='bar',color='red')
  2. ax=plt.gca()
  3. ax.set_xticklabels(counts.type)
  4. plt.show()

保存图片:

  1. plt.savefig("bar.jpg"

统计类别数量并且使用pyplot画出柱状图的更多相关文章

  1. 深度学习原理与框架-神经网络-线性回归与神经网络的效果对比 1.np.c_[将数据进行合并] 2.np.linspace(将数据拆成n等分) 3.np.meshgrid(将一维数据表示为二维的维度) 4.plt.contourf(画出等高线图,画算法边界)

    1. np.c[a, b]  将列表或者数据进行合并,我们也可以使用np.concatenate 参数说明:a和b表示输入的列表数据 2.np.linspace(0, 1, N) # 将0和1之间的数 ...

  2. 利用ggplot2画出各种漂亮图片详细教程

    1.Why use ggplot2 ggplot2是我见过最human friendly的画图软件,这得益于Leland Wilkinson在他的著作<The Grammar of Graphi ...

  3. 利用python画出动态高优先权优先调度

    之前写过一个文章. 利用python画出SJF调度图 动态高度优先权优先调度 动态优先权调度算法,以就绪队列中各个进程的优先权作为进程调度的依据.各个进程的优先权在创建进程时所赋予,随着进程的推进或其 ...

  4. 从BUG工具redmine上获取数据后借助python模块pycha 画出BUG分析类报表

    整体代码比较冗长,但是很好读.写的方法全是按照BUG分类去写的.所以写死了,凑合看吧,画出饼图,树状图和生成对应的数据excel,希望大家举一反三能帮助自己分析BUG #__author__ = 'x ...

  5. 情人节,教大家使用css画出一朵玫瑰花。

    情人节到了,给大家来一朵高端的玫瑰花. 在网上看到的一个canvas实现的玫瑰花,效果很好,但是代码被压缩过,也没有注释,看的云里雾里的. 今天我教大脚用CSS来实现一朵玫瑰花. 先看效果 首先我们画 ...

  6. 机器学习进阶-图像特征sift-SIFT特征点 1.cv2.xfeatures2d.SIFT_create(实例化sift) 2. sift.detect(找出关键点) 3.cv2.drawKeypoints(画出关键点) 4.sift.compute(根据关键点计算sift向量)

    1. sift = cv2.xfeatures2d.SIFT_create() 实例化 参数说明:sift为实例化的sift函数 2. kp = sift.detect(gray, None)  找出 ...

  7. 机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分,生成新的特征)

    函数说明: 1.  .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2.  plt.axvline()  # 用于画 ...

  8. 机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)

    在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性. 在这个博客中,我们将从两方面来研究数据对预测结果的影响 第一方面:特征不变,只增加样本的数据 第二方面:增加特征数,增加样 ...

  9. python文本挖掘输出权重,词频等信息,画出3d权重图

    # -*- coding: utf-8 -*- from pandas import read_csv import numpy as np from sklearn.datasets.base im ...

随机推荐

  1. tomcat PermGen space

    centos: 修改Tomcat中的catalina.sh文件.--用了这个 在catalina.sh文件中,找到cygwin=false,在这一行的前面加入参数,具体如下 # vim TOMCAT_ ...

  2. As Easy As Possible

    题目链接 题意:一个只含e, a, s, y的字符串,问[l, r]内有多少个easy序列? 题解:倍增. #include <bits/stdc++.h> using namespace ...

  3. commons-logging日志系统

    日志的重要性是随着系统的膨胀而显现的,在一个庞大的系统中查错没有各种日志信息    是寸步难行的.所以在系统加入日志是必须的. 最原始的日志方式,就是在程序的适当地方添加System.out.prin ...

  4. Java中的JDBC数据库连接

    JDBC编程步骤 1.加载数据库驱动. // 加载驱动 Class.forName(driverClass) // 加载mysql驱动 Class.forName("com.mysql.jd ...

  5. unsigned 整型实现无溢出运算

    普通的 int 整型能表示的范围很有限,所以刷题时很多时候不得不用 long long 来存更大的数据.或者找出数列中某个只出现一次(或奇数次)的数(其余的数均出现两次 / 偶数次),用异或运算的经典 ...

  6. [html] Quirks Standards

    [产生] Standards : 从IE6开始,引入了Standards模式 Quirks  : 在IE6之前CSS还不够成熟,所以IE5等之前的浏览器对CSS的支持很差,为了兼容ie5之前的页面, ...

  7. maven实战_01_搭建maven开发环境

    一 下载maven 在maven官网上可下载maven:http://maven.apache.org/download.cgi 下载好后,解压.我的解压到了:D:\maven\apache-mave ...

  8. JavaScript的事件对象_鼠标事件

    鼠标事件是 Web 上面最常用的一类事件,毕竟鼠标还是最主要的定位设备.那么通过事件对象可以获取到鼠标按钮信息和屏幕坐标获取等. 一.鼠标按钮 只有在主鼠标按钮被单击时(常规一般是鼠标左键)才会触发 ...

  9. 机器学习与R语言

    此书网上有英文电子版:Machine Learning with R - Second Edition [eBook].pdf(附带源码) 评价本书:入门级的好书,介绍了多种机器学习方法,全部用R相关 ...

  10. genymotion是一款完全超越BlueStacks

    今天给大家推荐一款超赞的神器:genymotion. 一:什么是genymotion      genymotion是一款完全超越BlueStacks的安卓模拟器,正如它中文官网的介绍:快到极致的An ...