o2o优惠券使用预测

前沿：

这是天池的一个新人实战塞题目，原址 https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.e1321db7ydQmSB&raceId=231593 ，下文会分析以下几个过程。

1.数据预处理

2.特征的选取

3.算法的说明

4.结果分析

5.其他

第一部分：数据预处理

原始数据可以从上边链接中下载，拿到.csv文件，可以使用pandas处理。

比如：

dfoff = pd.read_csv('ccf_offline_stage1_train.csv', keep_default_na=False)

参数 keep_default_na默认为True，当为True时，文件中的'null'则读物Nan, 此时不能使用 dfoff['Date'] != 'null' 判断，为了对‘null’可以使用 “==”，“！=”，此处设置 keep_default_na=False 。

我们需要得出优惠券与购买的关联数据，以此得出Label。

有以下4中组合：

　　有优惠券，购买商品条数
　　无优惠券，购买商品条数
　　有优惠券，不购买商品条数
　　无优惠券，不购买商品条数

代码如下：

print('有优惠券，购买商品条数', dfoff[(dfoff['Date_received'] != 'null') & (dfoff['Date'] != 'null')].shape[0])

print('无优惠券，购买商品条数', dfoff[(dfoff['Date_received'] == 'null') & (dfoff['Date'] != 'null')].shape[0])

print('有优惠券，不购买商品条数', dfoff[(dfoff['Date_received'] != 'null') & (dfoff['Date'] == 'null')].shape[0])

print('无优惠券，不购买商品条数', dfoff[(dfoff['Date_received'] == 'null') & (dfoff['Date'] == 'null')].shape[0])

　　文件中有买多少减多少，需要格式化为折扣率，距离门店格式化为数字等

def convertRate(row):

    if row == 'null':

        return 1.0

    elif ':' in row:

        rows = row.split(':')

        return 1.0 - float(rows[1])/float(rows[0])

    else:

        return float(row)

def getDiscountMan(row):

    if ':' in row:

        rows = row.split(':')

        return int(rows[0])

    else:

        return 0

def getDiscountJian(row):

    if ':' in row:

        rows = row.split(':')

        return int(rows[1])

    else:

        return 0

def getWeekday(row):

    if row == 'null':

        return row

    else:

        return date(int(row[0:4]), int(row[4:6]), int(row[6:8])).weekday() + 1

def processData(df):

    df['discount_rate'] = df['Discount_rate'].apply(convertRate)

    df['discount_man'] = df['Discount_rate'].apply(getDiscountMan)

    df['discount_jian'] = df['Discount_rate'].apply(getDiscountJian)

    df['discount_type'] = df['Discount_rate'].apply(getDiscountType)

    print(df['discount_rate'].unique())

    df['distance'] = df['Distance'].replace('null', -1).astype(int)

    return df

　　调用 dfoff = processData(dfoff) 即可格式化以上信息。

注意代码中apply()函数，apply()函数是pandas里面所有函数中自由度最高的函数。该函数如下：

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

对收到优惠券日期处理：

date_received = dfoff['Date_received'].unique()  #.unique()删除重复项

date_received = sorted(date_received[date_received != 'null']  #排序

print('优惠券收到日期从',date_received[0],'到', date_received[-1])  #输出最小日期和最大日期

同样对于消费日期处理：

date_buy = dfoff['Date'].unique()

date_buy = sorted(date_buy[date_buy != 'null'])

date_buy = sorted(dfoff[dfoff['Date'] != 'null']['Date'])

print('消费日期从', date_buy[0], '到', date_buy[-1])

将发放的优惠券与被使用的优惠券画图：

couponbydate = dfoff[dfoff['Date_received'] != 'null'][['Date_received', 'Date']].groupby(['Date_received'], as_index=False).count()

couponbydate.columns = ['Date_received','count']

buybydate = dfoff[(dfoff['Date'] != 'null') & (dfoff['Date_received'] != 'null')][['Date_received', 'Date']].groupby(['Date_received'], as_index=False).count()

buybydate.columns = ['Date_received','count']

sns.set_style('ticks')

sns.set_context("notebook", font_scale= 1.4)

plt.figure(figsize = (12,8))

date_received_dt = pd.to_datetime(date_received, format='%Y%m%d')

plt.subplot(211)

plt.bar(date_received_dt, couponbydate['count'], label = 'number of coupon received' )

plt.bar(date_received_dt, buybydate['count'], label = 'number of coupon used')

plt.yscale('log')

plt.ylabel('Count')

plt.legend()

plt.subplot(212)

plt.bar(date_received_dt, buybydate['count']/couponbydate['count'])

plt.ylabel('Ratio(coupon used/coupon received)')

plt.tight_layout()

plt.show()

　　得到一幅图：

第二部分：特征的选取

第三部分：算法的说明

第四部分：结果分析

第五部分：其他

o2o优惠券使用预测的更多相关文章

数据挖掘实战 - 天池新人赛o2o优惠券使用预测
数据挖掘实战 - o2o优惠券使用预测一.前言大家好,家人们.今天是2021/12/14号.上次更新是2021/08/29.上篇文章中说到要开两个专题,果不其然我鸽了,这一鸽就是三个多月.今天,我 ...
天池新人赛-天池新人实战赛o2o优惠券使用预测（一）
第一次参加天池新人赛,主要目的还是想考察下自己对机器学习上的成果,以及系统化的实现一下所学的东西.看看自己的掌握度如何,能否顺利的完成一个分析工作.为之后的学习奠定基础. 这次成绩并不好,只是把整个机 ...
2016天池-O2O优惠券使用预测竞赛总结
第一次参加数据预测竞赛,发现还是挺有意思的.本文中的部分内容参考第一名“诗人都藏在水底”的解决方案. 从数据划分.特征提取.模型设计.模型融合/优化,整个业务流程得到了训练.作为新手在数据划分和模型训 ...
《阿里云天池大赛赛题解析》——O2O优惠卷预测
赛事链接:https://tianchi.aliyun.com/competition/entrance/231593/introduction?spm=5176.12281925.0.0.7e157 ...
天池历届大赛答辩PPT及视频
1.阿里移动推荐算法: 答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2.资金流入流出预测: 答辩视频:https://space.dingtalk.com ...
悖论当道，模式成空：汽车O2O真是死得其所？
O2O热潮的兴起似乎来得颇为蹊跷--或许是线上连接线下的模式太过空泛,具有极大的包容性,让各个行业都忍不住在其中横插一脚.在经历过最初的崛起和后来的火爆之后,最终形成目前的寒冬.究其原因,O2O并不是 ...
GBDT 总结文档
在做阿里的o2o优惠券预测的时候学习了GBDT.听闻GBDT的威力,自然要学习学习. 接下来从以下几个方面记录下我对于GBDT的理解. GBDT的用途,优势 GBDT的结构和算法流程 GBDT如何训练 ...
当谈 SQL 优化时谈些什么？
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:孙银行背景 Mysql数据库作为数据持久化的存储系统,在实际业务中应用广泛.在应用也经常会因为SQL遇 ...
当我们谈 SQL 优化时在谈些什么？
作者 |孙银行编辑 | 顾乡背景 Mysql数据库作为数据持久化的存储系统,在实际业务中应用广泛.在应用也经常会因为SQL遇到各种各样的瓶颈.最常用的Mysql引擎是innodb,索引类型是B-Tr ...

随机推荐

MFC 如何为控件关联变量
所关联的变量常见有两种,一种就是控件变量,一种就是数字变量. 为控件关联变量的方法也有两种,一种是通过软件工具添加,一种是手动添加代码. 软件工具添加,方便简单,但是根据软件的版本不同,以及不同的空间 ...
vue.js 2.0 官方文档学习笔记 —— 01. vue 介绍
这是我的vue.js 2.0的学习笔记,采取了将官方文档中的代码集中到一个文件的形式.目的是保存下来,方便自己查阅. !官方文档:https://cn.vuejs.org/v2/guide/ 01. ...
Hadoop日记Day14---MapReduce源代码回顾总结
一.回顾单词统计源码 package counter; import java.net.URI; import org.apache.hadoop.conf.Configuration; import ...
[BZOJ4857][JSOI2016]反质数序列[最大点独立集]
题意在长度为 $n$ 的序列 $a$ 中选择尽量长的子序列,使得选出子序列中任意两个数的和不为质数. $n\leq3000\ ,a_i\leq10^5$. 分析直接按照奇偶性建立二分图 ...
ZAB协议和Paxos算法
前言在上一篇文章Paxos算法浅析中主要介绍了Paxos一致性算法应用的场景,以及对协议本身的介绍:Google Chubby是一个分布式锁服务,其底层一致性实现就是以Paxos算法为基础的:但这篇文 ...
SSIS 事件的向上传递
在SSIS中,Package是Task组件的有序组合,具有层次结构,Package处于层次结构的顶层(Root Level),对于父子包结构,父包(Parent Package)通过Execute P ...
Monkey稳定性测试
1.环境准备:Android SDK环境配置 2.手机连接/模拟器连接 : 1)手机打开开发者模式并允许USB连接 2)校验手机是否连接:打开cmd 输入 adb devices 3.查找apk包名及 ...
DICOM 协议学习笔记之 How Does DICOM Work ?
How Does DICOM Work ? DICOM有一套自己自己的模型体系,在进行具体介绍之前,首先讲解下DICOM模型: 在DICOM世界当中,所有的包括患者.检查.医学设备等都可以被视为具有不 ...
3. Python3 基本数据类型
Python3 基本数据类型 Python 中的变量不需要声明.每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建. 在 Python 中,变量就是变量,它没有类型,我们所说的"类型& ...
Mabatis中#{}和${}的区别
动态 sql 是 mybatis 的主要特性之一,在 mapper 中定义的参数传到 xml 中之后,在查询之前 mybatis 会对其进行动态解析.mybatis 为我们提供了两种支持动态 sql ...

o2o优惠券使用预测

o2o优惠券使用预测的更多相关文章

随机推荐

热门专题