使用Databricks进行零售业需求预测的应用实践
简介:本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。
作者:李锦桂 阿里云开源大数据平台开发工程师
本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。
本文分为以下四部分:
1.消费者需求预测对零售业的重要性
2.数据的准备与可视化
3.基于DDI建立预测单个商店-商品模型
4.将预测模型扩展到每个商店-商品的预测
一、消费者需求预测对零售业的重要性
首先,需求预测对零售商至关重要。如果商店的商品过多,货架和仓库的空间紧张,产品容易过期,财务资源被库存束缚。零售商无法利用制造商带来的新机会,从而错过消费模式的转变。
由于商店内商品过少,客户无法从上商店内买到需要的商品。不但会造成零售商的收入损失,而且随着时间的推移,消费者的失望情绪,会驱使消费者转向竞争对手。
综上所述,预测消费者需求的准确性和及时性,对零售商非常重要。
二、数据的准备与可视化
下面我们使用零售数据模拟如何使用DDI的notebook和Facebook prophet来对消费者的需求进行建模和预测。
现在我们需要的数据已经上传到了OSS的Bucket里面,接下来,开始对消费者的需求进行建模和预测。当数据上传到OSS上之后,可以在DDI的Notebook上对数据进行分析和建模。
本次使用的数据集是2012年到2017年,10个商店中的50商品销售数据。数据包含四列。第一列是日期;第二列是商店的ID(1-10);第三列是商品的ID(1-50);第四列是当日商品的销售量。
实验目的是预测未来三个月,这些商品在各个商店的销量,对商店未来的库存备货提供指导。
在默认配置下,YARN分配的executor CPU为1core,memory为2G,为了让我们的分析更快一些,我们可以适度调高分配的cpu核心数和分配的内存大小。
通常,在读取大量CSV格式的数据之前,会预先定义Schema。这项简单预处理,可以免去Spark自动推测数据类型的繁重工作,让Spark更加快速的读入数据。
定义Schema之后,将训练数据读取到spark的DataFrame中。
读取DataFrame之后,通过熟悉的SQL语句对数据进行分析,可以使用dataframe的createOrReplaceTempView方法,创建一个临时的视图。
创建view之后,对dataframe中的数据进行分析。首先分析销售数据随年份的走势。从图表可以看出,在过去几年,商店的销售额稳步增长,总体呈现线性增长的趋势。在预测下一年的销售额时,可以参考过去几年的增长率。
三、基于DDI建立预测单个商店-商品模型
与此同时,商品销售往往有很强的季节性,特别是服装行业。T恤在夏季的销售额肯定高于羽绒服的销售额。因此,在预测商品的销售额时,季节性是不可忽略的因素。
如上图所示,从2013年到2017年,商品销量不断上涨。一年之中,商品的销售额呈现很强的周期性。
在12月或1月时,商品销量到达波谷,随着月份不断攀升,7月销量到达波峰。所以在进行建模时,月份是很重要的特征之一。
在上图中,0代表的周一,1代表周二……销售额在每周七天,也呈现出很强的周期性,在周日的销售额达到最高,周一跌到最低,然后慢慢回到高位。
Prophet是facebook开源的一个时间序列预测算法。Prophet的使用非常简单,只需要输入已知的时间序列的时间戳和相应的值以及需要预测的时间序列的长度,Prophet就能输出未来的时间序列走势。
接下来,对所有商店和商品的组合进行预测之前。先选择store 1和item 1进行预测,熟悉Prophet的使用。
预测第一步,组装历史数据用于模型训练。Prophet的模型比较简单,相当于Prophet的对象。在这个对象里,把growth定义为线性。
在数据探索阶段,得到的结论是,一个商品的销量,不但有周与周之间的周期性,而且有月份之间的周期性。所以weekly,yearly作为true。然后使用fit方法,对模型进行训练。
训练之后,可以使用这个模型预测未来90天的走势。
从上图可以看到,商品整体销量呈逐年增加的趋势。商品销量受季节和节假日变化影响显著。
最后,把真实数据和未来90天的预测数据它拼接到一起。真实数据从2017年到2018年的1月。未来90天的预测数据,从2018年1月到4月。如上图所示,带有黑点的数据是真实数据。
通过获取历史数据和预测数据的准确性。可以预测一些准确性指标,比如MAE、MSE和RMSE。
四、将预测模型扩展到每个商店-商品的预测
接下来,开始建立更加完善的模型对商店(10个商店)和商品(50件商品)的所有组合进行预测。建立模型的第一步是准备数据。
训练数据主要有四列。对应的是每一种商店商品的组合,在特定日期的销量。然后,针对这些数据进行建模。
创建一个Prophet对象,建立模型。weekly和yearly被设为true,然后预测未来90天的趋势。
从预测数据中,抽取出一些需要的字段和历史数据。将历史数据和预测数据拼接到一起,设置结果数据中的商店ID和商品ID,返回数据集。将模型训练应用到每个商店和商品组合,将预测结果写入OSS。
接下来,把OSS中的预测结果,加载到spark里。选择时间戳,商店和的预测值。选择日期应大于2018年1月1号。根据时间和商店组合。预测的商店销售额,如上图所示。
接下来,开始计算每个模型的测试指标。首先,定义一个UDF用于计算模型的测试指标。获取训练日期,计算训练指标,进行组装。
上图是针对10家商店的50种商品形成的预测结果。最终完成了每个商店和商品的组合,以及销售额的模型建立与预测。
本文为阿里云原创内容,未经允许不得转载。
使用Databricks进行零售业需求预测的应用实践的更多相关文章
- StartDT AI Lab | 需求预测引擎如何助力线下零售业降本增效?
在当下经济明显进入存量博弈的阶段,大到各经济体,小到企业,粗放的增长模式已不适宜持续,以往高增长的时代已经成为过去,亟需通过变革发掘新的增长点.对于竞争激烈的线下零售行业而言,则更需如此. 零售行业一 ...
- BI案例:BI在连锁零售业应用(ZT)【转】
第一部分:连锁零售企业上BI的必要性. 目前国内的连锁零售行业的发展趋势,呈现出产业规模化,经营业态多样化,管理精细化的特点.所谓管理精细化就是"精耕细作搞管理,领先一步订系 统" ...
- BI案例:BI在连锁零售业应用(ZT)
第一部分:连锁零售企业上BI的必要性. 目前国内的连锁零售行业的发展趋势,呈现出产业规模化,经营业态多样化,管理精细化的特点.所谓管理精细化就是"精耕细作搞管理,领先一步订系统". ...
- BI在连锁零售业应用
BI案例:BI在连锁零售业应用(ZT) Posted on 2015-08-25 09:31 xuzhengzhu 阅读(42) 评论(0) 编辑 收藏 第一部分:连锁零售企业上BI的必要性. 目前国 ...
- 利用BI搭建零售业数据信息平台
某百货公司是全市规模最大的以零售为主.多元化经营的股份制商业企业.拥有员工数千人,经营国内外品牌2300余种,年商品销售额逾10亿人元. 销售体量如此庞大的企业近几年在IT建设上出现了问题,集团内部的 ...
- odoo:开源 ERP/CRM 入门与实践
看了这张图,或许你对odoo有了一些兴趣. 这次就是和大家一起交流开源ERP/CRM系统:odoo 对以下读者有帮助:研发.产品.项目.市场.服务.运营.管理等. 一.背景趋势 社交网络.电商O2O: ...
- GC调优在Spark应用中的实践(转载)
Spark是时下非常热门的大数据计算框架,以其卓越的性能优势.独特的架构.易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用.与Hadoop.HBase生态圈的众多项目一样,Spark的 ...
- odoo:开源 ERP/CRM 入门与实践 -- 上海嘉冰信息技术公司提供咨询服务
odoo:开源 ERP/CRM 入门与实践 看了这张图,或许你对odoo有了一些兴趣. 这次Chat就是和大家一起交流开源ERP/CRM系统:odoo 对以下读者有帮助:研发.产品.项目.市场.服务. ...
- 虎牙直播运维负责人张观石 | SRE实践指南
虎牙直播运维负责人张观石 本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. ...
- 京东无人超市的成长之路 如何利用AI技术在零售业做产品创新?
随着消费及用户体验的需求升级.人货场的运营效率需求提升.人工智能技术的突破以及零售基础设施的变革等因素共同推动了第四次零售革命的到来,不仅在国内,国外一线巨头互联网亚马逊等企业都在研发无人驾驶.无人超 ...
随机推荐
- Kettle实战视频教程
kettle实战视频教程 欢迎关注笔者的公众号: java大师, 每日推送java.kettle运维等领域干货文章,关注即免费无套路附送 100G 海量学习.面试资源哟!!个人网站: http://w ...
- find第二天
find第二天 1.找出/tmp目录下,属主不是root,且文件名不以f开头的文件 find /tmp ! -user root -a ! -name 'f*' 或者 find /tmp ! -use ...
- Android 开发Day4
我们双击进入activity_main.xml 先将android.support.constraint.ConstraintLayout改为LinerLayout线性的,意思就是水平的的结构 并加入 ...
- 如何让AR物体更真实?
在增强现实中,除了虚拟物体本身的模型材质等因素,影响物体真实性的主要是光照.反射.阴影.接下来3DCAT实时渲染云平台将带您从这三个方面探索如何让AR物体更真实! AR光估测 要让一个虚拟物体很好的融 ...
- struts2-66漏洞复现
Strut2-66漏洞从搭建到复现到原理 0x0 创建JavaEE环境 使用idea创建JavaEE项目,添加Strut2的依赖 点击右上角创建新项目 下一步,依赖项只选择一个Servlet就行了,版 ...
- AXI4的主从机的收发机制
AXI4的收发机制 1.AXI4的译码器 对于多个主机和从机的AXI4总线的互联架构,译码器都是重要的.主机的端口一般有三个译码器,分别是读地址通道.写地址通道和写数据通道的译码器.主要作用是将通道的 ...
- KingbaseES Insert On Conflict 功能
针对数据写入时有主键冲突的情况,INSERT ON CONFLICT语法可以将冲突主键的INSERT行为转换为UPDATE行为,从而实现冲突主键的覆盖写入.该特性又称UPSERT覆盖写,与MySQL的 ...
- 【Java面试题】SpringMVC
九.SpringMVC 63)SpringMVC 的流程 a.用户向服务器发送请求,请求被 SpringMVC 前端控制器 DispatchServlet 捕获: b.DispatcherServle ...
- Java面试题【2】
11)abstract class 和 interface 有什么区别? 含有 abstract 修饰符的 class 即为抽象类,abstract 类不能创建的实例对象.含有 abstract 方法 ...
- #贪心,构造#AT2266 [AGC008D] K-th K
题目 给你一个长度为 \(N\) 的整数序列 \(X\),请判断是否存在一个满足下列条件的整数序列 \(a\),如果存在,请构造一种方案 条件如下: \(a\) 的长度为 \(N^2\),并且满足数字 ...