python+matplotlib+web.py

最近看了厦门大学数据库实验室林子雨老师的《大数据课程实验案例：网站用户行为分析》，可视化这块是用的R语言，我决定用Python来实现一下。

参考文献 http://dblab.xmu.edu.cn/post/7499/

数据来源 http://pan.baidu.com/s/1nuOSo7B

 # -*- coding: utf-8 -*-

 """

 Created on Wed Apr 19 17:26:53 2017

 @author: touristlee

 TO:Don't worry,be happy!

 """

 import pandas as pd

 import numpy as np

 import matplotlib.pylab as plt

 import matplotlib.patches as mpatches

 #数据下载地址https://pan.baidu.com/s/1nuOSo7B

 #本案例采用的数据集为user.zip，包含了一个大规模数据集raw_user.csv（包含2000万条记录），

 #和一个小数据集small_user.csv（只包含30万条记录）。

 #小数据集small_user.csv是从大规模数据集raw_user.csv中抽取的一小部分数据。

 #之所以抽取出一少部分记录单独构成一个小数据集，是因为，在第一遍跑通整个实验流程时，

 #会遇到各种错误，各种问题，先用小数据集测试，可以大量节约程序运行时间。

 #等到第一次完整实验流程都顺利跑通以后，就可以最后用大规模数据集进行最后的测试。

 #user_id（用户id）

 #item_id(商品id)

 #behaviour_type（包括浏览、收藏、加购物车、购买，对应取值分别是1、2、3、4）

 #user_geohash(用户地理位置哈希值，有些记录中没有这个字段值，所以后面我们做数据预处理时把这个字段全部删除，用随机生成的省份代替)

 #item_category（商品分类）

 #time（该记录产生时间）

 #读取数据

 df = pd.read_csv('small_user.csv',encoding='utf-8')

 #随机生成一个省份列表

 def get_province(x):

     youlist = []

     for i in x:

         maplist = [u'北京',u'天津',u'上海',u'重庆',u'河北',u'山西',u'辽宁',u'吉林',u'黑龙江',u'江苏',u'浙江',u'安徽',u'福建',u'江西',u'山东',u'河南',u'湖北',u'湖南',u'广东',u'海南',u'四川',u'贵州',u'云南',u'陕西',u'甘肃',u'青海',u'台湾',u'内蒙古',u'广西',u'西藏',u'宁夏',u'新疆',u'香港',u'澳门']

         youlist.append(maplist[i])

     return youlist

 #切割字符串

 def format_time(x):

     return str(x).split(' ')[0]

 #格式化

 df = df[['user_id','item_id','behavior_type','item_category','time']]

 df['province'] = get_province(np.random.randint(0,33,len(df)))

 df['time'] = df['time'].map(format_time)

 df.columns=['uid','itemid','behavior','itemcagegory','time','province']

 df['time']=df['time'].astype('datetime64')

 print df.dtypes

 #查询

 #查询有多少条数据

 print df.count()

 #查询有多少用户

 print df.drop_duplicates(['uid']).count()

 #查询有多少不重复的数据

 print df.drop_duplicates().count()

 #条件查询

 #查询2014年12月10日到2014年12月13日有多少人浏览了商品

 print df[('2014-12-13'>=df['time']) & (df['time'] >= '2014-12-10') & (df['behavior']==1)].head()

 #每天网站卖出去的商品的个数

 df2=df.drop_duplicates()

 print df2[df2['behavior']==4].groupby('time').itemcagegory.count()

 #取给定时间和给定地点，求当天发出到该地点的货物的数量

 print df[(df['time']=='2014-12-12') & (df['province']==u'山西') & (df['behavior']==4)].itemcagegory.count()

 #根据用户行为分析

 #查询一件商品在某天的购买比例或浏览比例

 print df[df['time']=='2014-12-11'].itemcagegory.count()

 print df[(df['time']=='2014-12-11') & (df['behavior']==4)].itemcagegory.count()

 print float(df[(df['time']=='2014-12-11') & (df['behavior']==4)].itemcagegory.count())/float(df[df['time']=='2014-12-11'].itemcagegory.count())

 ##查询某个用户在某一天点击网站占该天所有点击行为的比例（点击行为包括浏览，加入购物车，收藏，购买）

 print df[(df['uid']==10001082) & (df['time']=='2014-12-12')].behavior.count()

 print float(df[(df['uid']==10001082) & (df['time']=='2014-12-12')].behavior.count())/float(df[df['time']=='2014-12-12'].behavior.count())

 #用户实时查询分析

 #各个地区浏览网站的访问次数

 df2=df[df['behavior']==1]

 df2=df2.drop_duplicates('uid')

 print df2.groupby('province').uid.count()

 #可视化

 #分析各省份消费者对商品的行为（浏览）

 fig=plt.figure(figsize=(8,4))

 ax1=fig.add_subplot(111)

 plt.title(u'behavior by province')

 plt.xlabel('province')

 plt.ylabel('count')

 df2=df[df['behavior']==1]

 df2=df2.groupby('province').uid.count()

 df2.plot(kind='bar')

 #分析消费者对商品的行为

 df3=df[['behavior']]

 df3=df3.groupby('behavior').behavior.count()

 fig2=plt.figure(figsize=(8,4))

 ax2=fig2.add_subplot(111)

 plt.title(u'behavior')

 plt.xlabel('behavior')

 plt.ylabel('count')

 df3.plot(kind='bar')

 ##分析被购买最多的商品是哪一类 TOP10

 df4=df[['behavior','itemcagegory']]

 df4=df4[df4['behavior']==4]

 df4=df4.groupby('itemcagegory').itemcagegory.count()

 df5=df4.sort_values(ascending=False).head(10)

 fig3=plt.figure(figsize=(8,4))

 ax3=fig3.add_subplot(1,1,1)

 colors=['red','blue','yellow','green','white','black','magenta','cyan','yellowgreen','lightcoral']

 ax3.scatter(df5.index,df5.values,c=colors)

 plt.xlabel('var')

 plt.ylabel('freq')

 plt.title('TOP10 category')

 plt.legend(handles=[mpatches.Patch(color=x, label=y,joinstyle='round') for (x,y) in zip(colors,df5.index)],bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

 plt.show()

 ##分析每年的那个月份购买商品的量最多

 #先增加一列 月份

 df6=df[df['behavior']==4]

 df7=df6.copy()

 df7['month']=np.array([i.month for i in df7['time']])

 df7=df7[['behavior','month']]

 df7=df7.groupby('month').count()

 df7.plot(kind='bar')

 ##分析每年的每个月份的行为习惯

 df7=df.copy()

 df7['month']=np.array([i.month for i in df7['time']])

 df7=df7[['behavior','month']]

 tmp=df7.groupby(['month','behavior']).behavior.count()

 tmp.plot(kind='bar',color=['red','blue','green','yellow'])

 #分析各省份消费者对商品的行为（收藏）

 #分析国内哪个省份的消费者最有购买欲望 即收藏

 df8=df[df['behavior']==3]

 df8=df8.drop_duplicates('uid')

 tmp8=df8.groupby('province').uid.count()

 fig8=plt.figure(figsize=(8,4))

 ax8=fig.add_subplot(111)

 plt.title(u'behavior by province')

 plt.xlabel('province')

 plt.ylabel('count')

 tmp8.plot(kind='bar')

最后一个分析那个省份的消费者最有购买欲望的，原文用的是R语言的地图，matplotlib画地图很麻烦。

我想到的办法是用第三方模块来替代。首先想到的是百度的echarts了，这可以说是百度的良心产品了。

使用这个可以用Django或者web.py，这里我选择最简单的web.py。

代码我上传到了 https://github.com/touristlee/webpy.git

python+matplotlib+web.py的更多相关文章

【Python】【Web.py】详细解读Python的web.py框架下的application.py模块
详细解读Python的web.py框架下的application.py模块这篇文章主要介绍了Python的web.py框架下的application.py模块,作者深入分析了web.py的源码, ...
【Python】web.py初识学习
简单而直接的Python web 框架:web.py 2016年11月03日 14:09:08 擒贼先擒王阅读数:35157更多个人分类: Web From:https://www.oschi ...
python使用web.py开发httpserver，解决post请求跨域问题
使用web.py做http server开发时,遇到postman能够正常请求到数据,但是浏览器无法请求到数据,查原因之后发现是跨域请求的问题. 跨域请求,就是在浏览器窗口中,和某个服务端通过某个 “ ...
mac OS X 配置Python+Web.py+MySQLdb环境
MAC默认支持Python 2.7所以不用安装. 1.安装pip sudo easy_install pip 2.安装Web.py sudo pip install Web.py 3.安装MySQLd ...
Python Web.py
安装Web.py root@bt:~# sudo pip install web.py Downloading/unpacking web.py Downloading web.py-0.37.tar ...
python web.py安装使用
官方首页:http://webpy.org/) 它的源代码非常整洁精干,学习它一方面可以让我们快速了解python语法(遇到看不懂的语法就去google),另一方面可以学习到python高级特性的使用 ...
python学习笔记(十四)、web.py
使用web.py 通过python进行网页的编写,下面我们来简单了解一哈web.py 的使用 1 url处理使用特定的url结构来解析我们发送的请求.如下面所示: urls = ( '/login' ...
python web.py实现简单的get和post请求
使用web.py框架,实现简单的get和post请求: py文件名:mytest.py import web urls = ( '/', 'hello' ) app = web.application ...
python web py安装与简单使用
web.py是一个轻量级的python web框架,简单而且功能强大.相对flask和Django,web.py更适合初学者来学习和了解web开发的基础知识. 安装: pip install we ...

随机推荐

Python 关于字符串处理技巧
1.使用多个字符或字符串作为分隔符分割字符串 str.split()方法只能制定单个字符或字符串作为分割符, re.split()方法可以用正则表达式作为分割符, re.split()跟str.spl ...
Eclipse之文件【默认编码格式设置】，防止乱码等问题
文件默认编码格式设置步骤如下: 这里显示的是workspace的视图其他格式文件的视图如下:
[转]tomcat部署
转载博客原文地址: http://www.cnblogs.com/xing901022/p/4463896.html 阅读目录介绍静态部署——在tomcat启动时部署动态部署——在tomcat ...
Coursera 机器学习笔记（二）
主要为第三周课程内容:逻辑回归与正则化逻辑回归(Logistic Regression) 一.逻辑回归模型引入分类问题是指尝试预测的是结果是否属于某一个类. 维基百科的定义为:根据已知训练区提供的 ...
文件快速删除工具, 解决你的node_modules
摘要: 还在为删除文件慢烦恼吗?强大工具dlf来帮助你.作为一名前端开发,最常见的就是node_modules,如果dependencies很多,osx系统删除还好,Windows用户就麻烦了.本文分 ...
JSON字符串和JS对象
JSON和JS对象一 JSON是什么 JSON是基于文本的,轻量的,用于数据交换的,一种格式. 可以看到JSON的定义里面有很多的定语,现在就每个限定解释一下: 1. 基于文本这里的意思是相对于哪 ...
Hibernate入门（三）
一 Hibernate生成器类 Hibernate中,标签id中的generator标签用于生成持久化类对象的唯一标识.所有的生成器类都实现了org.hibernate.id.IdentifierGe ...
springmvc 之 Controller
一.简介在SpringMVC 中,控制器Controller 负责处理由DispatcherServlet 分发的请求,它把用户请求的数据经过业务处理层处理之后封装成一个Model ,然后再把该Mo ...
flask笔记一
最近学习flask,由于web开发方面接触的并不是很多,所以看官方文档有点焦头烂额,好多的概念不理解. <Flask web 开发>比较基础,先用这本书做个入门. 1.Flask实例化对象 ...
oracle表空间增长异常或表空间占用过高问题分析
本人对oracle调优还处在不断学习状态,这个问题是之前处理的项目上遇到过的,顺利解决了,分享下此类问题的处理思路,不足之处,还请指正. 项目上反馈说业务表空间增长越来越快,上次新增的30G数据文件, ...

python+matplotlib+web.py

python+matplotlib+web.py的更多相关文章

随机推荐

热门专题