一、数据分析的步骤

二、提出问题

分析药店商品销售情况

1)月均消费次数

2)月均消费金额

3)客单价

4)消费趋势

5)热销商品、滞销商品

三、理解数据

销售数据源为excel文件

字段的含义:

共有6579条销售数据

共有7个字段分别为:购买时间、社保卡号、商品编码、商品名称、销售数量、应收金额、实收金额

四、清洗数据

本次分析采用Jupyter Notebook分析,数据集为本地excel文件

(1)选择子集

本次分析的excel工作簿里面只有一个工作表

  1. #导入数据分析包
  2. import pandas as pd
  3. salesDf = pd.read_excel('./朝阳医院2018年销售数据.xlsx')
  4. # head()打印前5行
    # df = pd.read_excel(path,sheet_name=4,header=6)# 指定序号为4的工作簿,用第6行做为行索引
  1. """sheet_name,工作簿的序号从0开始 """
    #header从0开始计数
  1. print(salesDf.head())

(2)列表重命名

  1. #字典:旧列名和新列名对应关系
  2. colNameDict = {'购药时间':'销售时间'}
  3.  
  4. '''
  5. inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,
  6. 默认的inplace是False
  7. inplace=True,数据框本身会改动
  8. '''
  9. salesDf.rename(columns = colNameDict,inplace=True)
  10. salesDf.head()

(3)删除重复值

  1. print('删除重复值前大小',salesDf.shape)
  2.  
  3. # 删除重复销售记录
  4. salesDf = salesDf.drop_duplicates()
  5.  
  6. print('删除重复值后大小',salesDf.shape)

删除前后数据进行对比,发现本数据集没有重复值

(4)缺失值处理  info也可以查看字段的数据类型

  1. """整体观察"""
  2. df.info()
  3. """如果缺失的数据很少,可以直接进行删除"""
  4. """如果缺失的数据量较大,超过了10%,要根据业务情况,进行删除或填充"""
  5. """填充数据时,可以采用均值,中位数进行填充"""
  6. """如果数据记录之间有明显的顺序关系,可以采用附近相邻的数据进行填充"""
  7.  

  8. 总共有6578行数据只有2个缺失值,可以直接删除
  1. """删除缺失值"""
  2. df.dropna()# 删除出现缺失值得行
  3. # df.dropna(axis=1)
  4.  
  5. df.dropna(how='all') # 当整行数据都为nan 时才删除
  6. df.dropna(how='any') # 只要出现缺失值就删除
  7. df.dropna(subset=['房价'])# 指定列出现缺失值才删除
  1. print('删除缺失后大小',salesDf.shape)
  2. # 查询是否有空值
  3. print(salesDf.isnull().any())

处理后,结果显示没有缺失值

(5)一致化处理

  1. #查看每一列的数据类型
  2. salesDf.dtypes

只需要将销售时间改为:字符串转换为日期数据类型

  1. #获取“销售时间”这一列
  2. timeSer=salesDf.loc[:,'销售时间']
  3. #对字符串进行分割,获取销售日期
  4. timeList=[]
  5. for value in timeSer:
  6. #例如2018-01-01 星期五,分割后为:2018-01-01
  7. dateStr=value.split(' ')[0]
  8. timeList.append(dateStr)
  9.  
  10. #将列表转行为一维数据Series类型
  11. timeSer=pd.Series(timeList)
  12. print(timeSer.head())

  1. #修改销售时间这一列的值
  2. salesDf.loc[:,'销售时间']=dateSer
  3. salesDf.head()
  1. '''
  2. 数据类型转换:字符串转换为日期
  3. '''
  4. #errors='coerce' 如果原始数据不符合日期的格式,转换后的值为空值NaT
  5. #format 是你原始数据中日期的格式
  6. salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],
  7. format='%Y-%m-%d',
  8. errors='coerce')

# 查询是否有空值
print(salesDf.isnull().any())

  1. '''
  2. 转换日期过程中不符合日期格式的数值会被转换为空值,
  3. 这里删除列(销售时间)中为空的行
  4. '''
  5. salesDf=salesDf.dropna(subset=['销售时间'],how='any')
  6.  
  7. # 查询是否有空值
  8. print(salesDf.isnull().any())

(6)数据排序

按照销售时间进行排序

  1. '''
  2. by:按哪几列排序
  3. ascending=True 表示升序排列,
  4. ascending=True表示降序排列
  5. na_position=first表示排序的时候,把空值放到前列,这样可以比较清晰的看到哪些地方有空值
  6. 官网文档:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html
  7. '''
  8. #按销售日期进行升序排列
  9. salesDf=salesDf.sort_values(by='销售时间',
  10. ascending=True,
  11. na_position='first')

print('排序后的数据集')
salesDf.head(3)

  1. #重命名行名(index):排序后的列索引值是之前的行号,需要修改成从0到N按顺序的索引值
  2. salesDf=salesDf.reset_index(drop=True)
  3. salesDf.head()

(7)异常值处理

  1. #描述指标:查看出“销售数量”值不能小于0
  2. salesDf.describe()

  1. #删除异常值:通过条件判断筛选出数据
  2. #查询条件
  3. querySer=salesDf.loc[:,'销售数量']>0
  4. #应用查询条件
  5. print('删除异常值前:',salesDf.shape)
  6.  
  7. # 筛选数据
  8.  
  9. salesDf=salesDf.loc[querySer,:]
  10.  
  11. print('删除异常值后:',salesDf.shape)
  12. print(salesDf.head())

五、构建模型

(1)业务指标1:月均消费次数=总消费次数 / 月份数

  1. '''
  2. 总消费次数:同一天内,同一个人发生的所有消费算作一次消费
  3. #根据列名(销售时间,社区卡号),如果这两个列值同时相同,只保留1条,将重复的数据删除
  4. '''
  5.  
  6. kpi1_Df=salesDf.drop_duplicates(
  7. subset=['销售时间', '社保卡号']
  8. )
  9.  
  10. #总消费次数:有多少行
  11. # shape几行几列
  12. totalI=kpi1_Df.shape[0]
  13.  
  14. print('总消费次数=',totalI)

  1. '''
  2. 计算月份数:时间范围
  3. '''
  4. #第1步:按销售时间升序排序
  5. kpi1_Df=kpi1_Df.sort_values(by='销售时间',
  6. ascending=True)
  7. #重命名行名(index)
  8. kpi1_Df=kpi1_Df.reset_index(drop=True)
  1. #第2步:获取时间范围
  2. #最小时间值
  3. startTime=kpi1_Df.loc[0,'销售时间']
  4. #最大时间值 totallI总行数
  5. endTime=kpi1_Df.loc[totalI-1,'销售时间']
  6.  
  7. #第3步:计算月份数
  8. #天数
  9. daysI=(endTime-startTime).days
  10. #月份数: 运算符“//”表示取整除
  11. #返回商的整数部分,例如9//2 输出结果是4
  12. monthsI=daysI//30
  13. print('月份数:',monthsI)

  1. #业务指标1:月均消费次数=总消费次数 / 月份数
  2. kpi1_I=totalI // monthsI
  3. print('业务指标1:月均消费次数=',kpi1_I)
  1. 业务指标1:月均消费次数= 890

(2)指标2:月均消费金额 = 总消费金额 / 月份数

  1. #总消费金额
  2. totalMoneyF=salesDf.loc[:,'实收金额'].sum()
  3. #月均消费金额
  4. monthMoneyF=totalMoneyF / monthsI
  5. print('业务指标2:月均消费金额=',monthMoneyF)
  1. 业务指标2:月均消费金额= 50668.35166666666

(3)指标3:客单价=总消费金额 / 总消费次数

  1. '''
  2. totalMoneyF:总消费金额
  3. totalI:总消费次数
  4. '''
  5. pct=totalMoneyF / totalI
  6. print('客单价:',pct)
  7. 客单价: 56.909417821040805

(4)指标4:消费趋势,画图:折线图

  1. #在进行操作之前,先把数据复制到另一个数据框中,防止对之前清洗后的数据框造成影响
  2. groupDf=salesDf
  3. #第1步:重命名行名(index)为销售时间所在列的值
  4. groupDf.index=groupDf['销售时间']
  5. groupDf.head()
  1. #第2步:分组
  2.  
  3. print(groupDf.index.month)
  4. gb=groupDf.groupby(groupDf.index.month)

  1. # Pandas 无法显示中文问题 解决方案##
  2. plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
  3. plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
  1. import matplotlib.pyplot as plt
    ax = data_mounth.plot(
  2. secondary_y=['销售数量'],
  3. x_compat=True,
  4. grid=True,figsize=(10,4))
  5. ax.right_ax.set_ylabel('销售数量')
  6. ax.set_ylabel(['应收金额','实收金额'])
  7. #ax.set_ylabel()
  8. plt.show()

(5)热销商品、滞销商品

  1. product = salesDf.groupby('商品名称').count()
  2. #print(product)
  3. # print(type(product))
  4. sum_product = product.loc[:,'销售数量']
  5. # print(sum_product)
  6. # 可以看出商品整体的销量情况
  7. print(sum_product.sort_values(ascending=True))

六、总结和建议

总结:
(1)总消费次数= 5342,6个月,月均消费次数= 890,平均每天消费30人次。
(2)月均消费金额:月均消费金额= 50668元
(3)客单价:57元
(4)消费趋势:2-4月销量上升,4月销售数量出现峰值,4-7月销量下降
(5)定义销量过百的属于热销商品:共16种商品,滞销商品(非热销)78-16=62种
建议:
1.月均消费次数890,平均每天消费次数30次,月均50668元,客单价57元,数据可观。
2.重点分析4月销量高的原因,以及4月后销量下降的影响因素
3.研究热销商品的属性,可以考虑重点营销,对滞销商品进行下架退货处理

药店商品销量分析(python)的更多相关文章

  1. 用Python爬取分析【某东618】畅销商品销量数据,带你看看大家都喜欢买什么!

    618购物节,辰哥准备分析一波购物节大家都喜欢买什么?本文以某东为例,Python爬取618活动的畅销商品数据,并进行数据清洗,最后以可视化的方式从不同角度去了解畅销商品中,名列前茅的商品是哪些?销售 ...

  2. Python 爬取淘宝商品数据挖掘分析实战

    Python 爬取淘宝商品数据挖掘分析实战 项目内容 本案例选择>> 商品类目:沙发: 数量:共100页  4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...

  3. Kaggle 商品销量预测季军方案出炉,应对时间序列问题有何妙招

    https://www.leiphone.com/news/201803/fPnpTdrkvUHf7uAj.html 雷锋网 AI 研习社消息,Kaggle 上 Corporación Favorit ...

  4. 电商打折套路分析 —— Python数据分析练习

    电商打折套路分析 ——2016天猫双十一美妆数据分析 数据简介 此次分析的数据来自于城市数据团对2016年双11天猫数据的采集和整理,原始数据为.xlsx格式 包括update_time/id/tit ...

  5. B2C电子商务系统研发——商品SKU分析和设计(二)

    转:http://www.cnblogs.com/winstonyan/archive/2012/01/07/2315886.html 上文谈到5种商品SKU设计模式,本文将做些细化说明. 笔者研究过 ...

  6. 让ecshop显示商品销量或者月销量

    首先,ecshop的信息显示模块在. ./includes/lib_goods.php文件 在其末尾添加下面这个函数 月销量:(和总销量二选一) function ec_buysum($goods_i ...

  7. ecshop获取商品销量函数

    以下函数会获取订单状态为已完成的订单中该商品的销量,此函数放在lib_goods.php文件中即可调用 /** * 获取商品销量 * * @access      public * @param    ...

  8. arp协议分析&python编程实现arp欺骗抓图片

    arp协议分析&python编程实现arp欺骗抓图片 序 学校tcp/ip协议分析课程老师布置的任务,要求分析一种网络协议并且研究安全问题并编程实现,于是我选择了研究arp协议,并且利用pyt ...

  9. [深度分析] Python Web 开发框架 Bottle

    [深度分析] Python Web 开发框架 Bottle(这个真的他妈的经典!!!) 作者:lhf2009913 Bottle 是一个非常精致的WSGI框架,它提供了 Python Web开发中需要 ...

随机推荐

  1. 80道最新java基础部分面试题(五)

    自己整理的面试题,希望可以帮到大家,需要更多资料的可以私信我哦,大家一起学习进步! 48.同步和异步有何异同,在什么情况下分别使用他们?举例说明.  如果数据将在线程间共享.例如正在写的数据以后可能被 ...

  2. 【使用篇二】SpringBoot使用JdbcTemplate操作数据库(12)

    Spring对数据库的操作在jdbc上面做了深层次的封装,提供了JdbcTemplate模板. 在SpringBoot使用JdbcTemplate很简单: 引入数据库驱动包(mysql或oracle) ...

  3. 这样修改有哪些优缺点 wcf service via attribute setting vs config

    客户要恢复数据,结果就是block在某个阶段,在server端log一圈下来,发现原来是client端出了问题,就是这个log: ERROR - Identity check failed for o ...

  4. MongoDB创建集合和删除集合05-14学习笔记

    MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写,是一个基于分布式文件存储的开源数据库系统.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介于关 ...

  5. JDBC进阶 元数据

    1:resultSet 1.1最基本的ResultSet. 1.2 可滚动的ResultSet类型 1.3 可更新的ResultSet 1.4 可保持的ResultSet 2:PrepareState ...

  6. 跟着高淇学Python——第一到第三章总结

    2019/10/26 第一章:Python介绍 Python是一种解释型,面向对象的语言.特点是: 可读性强 简洁,简洁 面向对象 免费开源 可移植性和跨平台性 丰富的库 可扩展性 应用范围:1.人工 ...

  7. 开发常用Git/Linux/idea命令快捷键总结(持续更新)

    在开发过程中,会使用越来越多的命令,或快捷键,来帮助我们提高工作效率.本文记录了我在平时积累的常用命令,分享给大家. git命令 基本命令 set LESSCHARSET=utf-8 --idea T ...

  8. 部署asp.net core Kestrel 支持https 使用openssl自签ssl证书

    通过openssl生成证书 openssl req -newkey rsa:2048 -nodes -keyout my.key -x509 -days 365 -out my.cer openssl ...

  9. wpf dual monitor

    <Window x:Class="DualMonitors.Views.WinLeft" xmlns="http://schemas.microsoft.com/w ...

  10. DevExpress的TreeList实现自定义右键菜单打开文件选择对话框

    场景 DevExpress的TreeList实现节点上添加自定义右键菜单并实现删除节点功能: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/det ...