pandas 用户数据分析

import pandas as pd

import numpy as np

from matplotlib import pyplot as plt

"""

第一部分:数据类型处理

数据加载

   字段含义:

       user_id:用户ID

       order_dt:购买日期

       order_product:购买产品的数量

       order_amount:购买金额

观察数据

   查看数据的数据类型

   数据中是否存储在缺失值

   将order_dt转换成时间类型

   查看数据的统计描述

       计算所有用户购买商品的平均数量

       计算所有用户购买商品的平均花费在源数据中添加一列表示月份:astype(datetime64[M])

"""

# 加载数据，定义字段含义

df = pd.read_csv("./CDNOW_master.txt", header=None, sep="\s+",

                names=["user_id", "order_dt", "order_product", "order_amount"])

# 将order_dt转换成时间类型，格式化时间

df["order_dt"] = pd.to_datetime(df["order_dt"], format="%Y%m%d")

# 添加month列

df["month"] = df["order_dt"].values.astype(r"datetime64[M]")

"""

题外

将Datetime类型中的月份提取出来

df["month"] = df["month"].astype("str")

months = df["month"].str.split("-")

print(months.loc[1][1])

for i in range(len(months)):

   months.loc[i] = months.loc[i][1]

df["month"] = months

"""

"""

第二部分:按月数据分析

用户每月花费的总金额

   绘制曲线图展示

所有用户每月的产品购买量

所有用户每月的消费总次数

统计每月的消费人数

"""

# 用户每月花费的总金额，并绘制折线图

total = df.groupby(by="month")["order_amount"].sum()

# plt.plot(total)

# 所有用户每月的产品购买量

scale = df.groupby(by="month")["order_product"].sum()

# plt.plot(scale)

# 所有用户每月的消费总次数

count = df.groupby(by="month")["order_amount"].count()

print((count))

# 统计每月的消费人数()

headcount = df.groupby(by="month")["user_id"].nunique()

print(headcount)

"""

第三部分: 用户个体消费数据分析

用户消费总金额和消费总次数的统计描述

用户消费金额和消费次数的散点图

各个用户消费总金额的直方分布图(消费金额在1000之内的分布)

各个用户消费的总数量的直方分布图(消费商品的数量在100次之内的分布)

"""

# 用户消费总金额

print(df.groupby(by="user_id")["order_amount"].sum())

# 用户消费总次数

print(df.groupby(by="user_id").count()["order_amount"])

# 用户消费金额和消费次数的散点图

# 用户消费金额

user_amount_sum = df.groupby(by="user_id")["order_amount"].sum()

# 用户消费次数

user_product_sum = df.groupby(by="user_id")["order_product"].sum()

# 绘图

plt.figure(figsize=(20, 8), dpi=80)

# plt.scatter(user_product_sum, user_amount_sum)

# 各个用户消费总金额的直方分布图(消费金额在1000之内的分布)

user_order_10000 = df.groupby(by="user_id").sum().query(

   "order_amount < 1000")["order_amount"]

# plt.hist(user_order_10000)

# 各个用户消费的总数量的直方分布图(消费商品的数量在100次之内的分布)

user_product_100 = df.groupby(by="user_id").sum().query(

   "order_product < 100")["order_product"]

# plt.hist(user_product_100)

"""

第四部分: 用户消费行为分析

用户第一次消费的月份分布，和人数统计

   绘制线形图

用户最后一次消费的时间分布，和人数统计

   绘制线形图

新老客户的占比

   消费一次为新用户

   消费多次为老用户

       分析出每一个用户的第一个消费和最后一次消费的时间

       agg(['func1func2]):对分组后的结果进行指定聚合

       分析出新老客户的消费比例

用户分层

   分析得出每个用户的总购买量和总消费金额and最近一次消费的时间的表格rfm

   RFM模型设计

       R表示客户最近一次交易时间的间隔

           /np.timedelta64(1，"D"):去除days。

       F表示客户购买商品的总数量,F值越大，表示客户交易越频繁，反之则表示客户交易不够活跃。

       M表示客户交易的金额。M值越大，表示客户价值越高，反之则表示客户价值越低。

       将R，F，M作用到rfm表中

   根据价值分层，将用户分为:

       "重要价值客户"

       "重要保持客户"

       "重要挽留客户"

       "重要发展客户"

       "一般价值客户"

       "一般保持客户"

       "一般挽留客户"

       "一般发展客户"

           使用已有的分层模型rfm_func

"""

# 用户第一次消费的月份统计，和人数统计，绘制折线图

# first_con = df.groupby(by="user_id")["month"].min().value_counts().plot()

# 用户最后一次消费的月份统计和人数统计，绘制折线图

# last_con = df.groupby(by="user_id")["month"].max().value_counts().plot()

# 新老用户占比

# 消费一次新用户,消费多次老用户

# 如何获知用户是否为第一次消费? 可以根据用户的消费时间进行判定?

# 如果用户的第一次消费时间和最后一次消费时间一样，则该用户只消费了一次为新用户，否则为老用户

new_old_user_df = df.groupby(by="user_id")["order_dt"].agg(["min", "max"])

# True为新用户，False为老用户

new_old = (new_old_user_df["min"] == new_old_user_df["max"]).value_counts()

# 分析得出每个用户的总购买量和总消费金额and最近一次消费的时间的表格rfm 用透视表

rfm = df.pivot_table(index="user_id", aggfunc={

                    "order_product": "sum", "order_amount": "sum", "order_dt": "max"})

# R表示用户最近一次交易时间的间隔

max_dt = df["order_dt"].max()  # 今天的日期

# 每个用户最后于一次交易的时间

rfm["R"] = (max_dt - df.groupby(by="user_id")

           ["order_dt"].max()) / np.timedelta64(1, "D")

# 删除消费时间字段

rfm.drop(labels="order_dt", axis=1, inplace=True)

# 重命名字段名

rfm.columns = ["M", "F", "R"]

# RFM模型

def rfm_func(x):

   level = x.map(lambda x: "1" if x >= 0 else "0")

   label = level.R + level.F + level.M

   d = {

       "111": "重要价值客户",

       "011": "重要保持客户",

       "101": "重要挽留客户",

       "001": "重要发展客户",

       "110": "一般价值客户",

       "010": "一般保持客户",

       "100": "一般挽留客户",

       "000": "一般发展客户"

   }

   result = d[label]

   return result

# 将rfm_func计算的结果返回给新建label列 (lambda x: x - x.mean()).rfm_func

rfm["label"] = rfm.apply(lambda x: x - x.mean()).apply(rfm_func, axis=1)

"""

第五部分: 用户的生命周期

将用户划分为活跃用户和其他用户

   统计每个用户每个月的消费次数

   统计每个用户每个月是否消费，消费记录为1否则记录为0

       知识点: DataFrame的apply和applymap的区别

           applymap:返回df

               将函数做用于DataFrame中的所有元素(elements)

           apply:返回Series

               apply()将一个函数作用于DataFrame中的每个行或者列

将用户按照每一个月份分成:

   unreg:观望用户(前两月没买，第三个月才第一次买,则用户前两个月为观望用户)。

   unactive:首月购买后，后序月份没有购买则在没有购买的月份中该用户的为非活用户。

   new:当前月就进行首次购买的用户在当前月为新用户

   active:连续月份购买的用户在这些月中为活跃用户

   return:购买之后间隔n月再次购买的第一个月份为该月份的回头客

"""

# 统计每个用户每个月的消费次数

user_month_count_df = df.pivot_table(

   index="user_id", values="order_dt", aggfunc="count", columns="month").fillna(value=0)

# 统计每个用户每个月是否消费，消费记录为1否则记录为0

df_purchase = user_month_count_df.applymap(lambda x: 1 if x >= 1 else 0)

# 将df_purchase中的原始数据0和1修改为new,unactive...返回新的df叫df_purchase_new

# 用户生命周期模型，固定算法

def active_status(data):

   status = []

   for i in range(18):

       # 若本月没有消费

       if data[i] == 0:

           if len(status) > 0:

               if status[i-1] == "unreg":

                   status.append("unreg")

               else:

                   status.append("unactive")

           else:

               status.append("unreg")

       # 若本月消费

       else:

           if len(status) == 0:

               status.append("new")

           else:

               if status[i-1] == "unactive":

                   status.append("return")

               elif status[i-1] == "ureg":

                   status.append("new")

               else:

                   status.append("active")

   return status

pivoted_status = df_purchase.apply(active_status, axis=1)

# 将pivoted_status的values转成list，再将list转成DataFrame

# 将df_purchase的index作为df_pruchase_new的index，columns相同

df_pruchase_new = pd.DataFrame(

   data=pivoted_status.values.tolist(), index=df_purchase.index, columns=df_purchase.columns)

# 将每月不同活跃用户进行计数

purchase_status_ct = df_pruchase_new.apply(

   lambda x: pd.value_counts(x), axis=0).fillna(value=0)

# 转置

t_purchase_status_ct = purchase_status_ct.T

print(t_purchase_status_ct.head())

pandas 用户数据分析的更多相关文章

万字长文，Python数据分析实战，使用Pandas进行数据分析
文章目录很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
基于 Python 和 Pandas 的数据分析(4) --- 建立数据集
这一节我想对使用 Python 和 Pandas 的数据分析做一些扩展. 假设我们是亿万富翁, 我们会想要多元化地进行投资, 比如股票, 分红, 金融市场等, 那么现在我们要聚焦房地产市场, 做一些这 ...
基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础
在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数 ...
基于 Python 和 Pandas 的数据分析(1)
基于 Python 和 Pandas 的数据分析(1) Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性 ...
Python 数据分析：让你像写 Sql 语句一样，使用 Pandas 做数据分析
Python 数据分析:让你像写 Sql 语句一样,使用 Pandas 做数据分析一.加载数据 import pandas as pd import numpy as np url = ('http ...
手把手教你快速使用数据可视化BI软件创建互联网用户数据分析大屏
灯果数据可视化BI软件是新一代人工智能数据可视化大屏软件,内置丰富的大屏模板,可视化编辑操作,无需任何经验就可以创建属于你自己的大屏.大家可以在他们的官网下载软件. 本文以互联网用户数据分析大屏为 ...
python 抓取金融数据，pandas进行数据分析并可视化系列 (一)
终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说. 今天这篇写的是明白需求 ...
基于 Python 和 Pandas 的数据分析(6) --- Joining and Merging
这一节我们将看一下如何通过 join 和 merge 来合并 dataframe. import pandas as pd df1 = pd.DataFrame({'HPI':[80,85,88,85 ...
基于 Python 和 Pandas 的数据分析(3) --- 输入/输出基础
这一节, 我们要讨论 Pandas 的输入与输出, 并且应用在现实的实际例子中. 为了得到大量的数据, 向大家推荐一个网站 Quandl. Quandl 有很多免费和付费的资源. 这个网站最大的优势在 ...

随机推荐

Python-函数-算术函数
#python-函数-算术函数 #(1)加减乘除 #加法 add(),减法 subtract(),乘法 multiply(),除法 divide() #作用:数组间的加减乘除 import numpy ...
选择DOM中除一个元素以外的所有元素[Jquery]
$(function(){ $('body > *').not('#myDiv') .on('mouseover', function(){ //... }) .on('click', func ...
.NET周刊【1月第2期 2024-01-21】
国内文章 NCC Mocha v0.1.0 发布,.NET 开发的基于 OpenTelemetry 的 APM 系统 https://mp.weixin.qq.com/s/gUx-dqlYqcwgQN ...
SqlSugar DbContext
title: SqlSugar DbContext date: 2023-02-16 20:01:41 tags: SqlSugar categories: ORM description: 总结整理 ...
[转帖]SQL Server 2008~2022版本序列号/密钥/激活码汇总
https://www.cnblogs.com/cqpanda/p/16148822.html SQL Server 2022# Enterprise: J4V48-P8MM4-9N3J9-HD97X ...
[转帖]JVM 输出 GC 日志导致 JVM 卡住，我 TM 人傻了
https://www.jianshu.com/p/51380e04eab1 最近,我们升级了 Java 17.后来,我们的 k8s 运维团队为了优化我们的应用日志采集, 将我们所有 pod (你可以 ...
[转帖]自动清理_详解centos7和centos6系统的/tmp目录自动清理规则及区别
概述分享最近应用碰到的一个奇怪bug,一开始以为是代码上的问题,找了一段时间发现居然是因为系统的一个自动清理规则导致,下面一起来看看吧~ 一.应用报错: logwire.core.exception ...
[转帖]wiki Rust
Rust[编辑] 维基百科,自由的百科全书跳到导航跳到搜索此条目介绍的是由Mozilla主导开发的编程语言.关于"rust"在英文中的本意,请见"铁锈 ...
【转帖】淫技巧 | 如何查看已连接的wifi密码
主题使用方法:https://github.com/xitu/juejin-markdown-themes theme: juejin highlight: github 一.引言在实际工作中,常常 ...
[转帖]SYSTEMD 配置文件
https://www.cnblogs.com/xiexun/p/13643952.html [Unit]区块通常是配置文件的第一个区块,用来定义 Unit 的元数据,以及配置与其他 Unit 的关系 ...

pandas 用户数据分析

pandas 用户数据分析的更多相关文章

随机推荐

热门专题