数据挖掘实战 - o2o优惠券使用预测 一.前言 大家好,家人们.今天是2021/12/14号.上次更新是2021/08/29.上篇文章中说到要开两个专题,果不其然我鸽了,这一鸽就是三个多月.今天,我不鸽(还要鸽).那两个专题关于ResNet和GoogLeNet的文章还等缓缓一缓(一月份一定发),今天这篇文章是关于数据挖掘实战入门的例子,题目及数据集来源于 天池新人实战赛o2o优惠券使用预测,题目地址:https://tianchi.aliyun.com/competition/entrance…
第一次参加天池新人赛,主要目的还是想考察下自己对机器学习上的成果,以及系统化的实现一下所学的东西.看看自己的掌握度如何,能否顺利的完成一个分析工作.为之后的学习奠定基础. 这次成绩并不好,只是把整个机器学习的流程熟悉了下.我本人总结如下: 步骤一:读懂题目含义,分析赛题的数据 步骤二:特征工程的设计,这部分非常重要,好的特征工程能大大提高模型的准确率 步骤三:训练算法.区分训练集.测试集等. 步骤四:测试模型,看效果如何. 赛题可以去天池的官网查看,里面有赛题说明,赛题数据等等 https://…
第一次参加数据预测竞赛,发现还是挺有意思的.本文中的部分内容参考第一名“诗人都藏在水底”的解决方案. 从数据划分.特征提取.模型设计.模型融合/优化,整个业务流程得到了训练.作为新手在数据划分和模型训练以及模型融合上做的不够好(都是套路). 首先,数据划分方式最自然的按照月份->后面的月份这种自然顺序(滑窗)即可,在整个数据集上做特征提取实在是不能发挥出 特征的优势,因为数据量本身挺大,太多的脏数据,会导致训练出的模型不准确. 看来这个竞赛并没有涉及到太多的数据清洗处理等工作. 用户特征.商户特…
前沿: 这是天池的一个新人实战塞题目,原址 https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.e1321db7ydQmSB&raceId=231593 ,下文会分析以下几个过程. 1.数据预处理 2.特征的选取 3.算法的说明 4.结果分析 5.其他 第一部分:数据预处理 原始数据可以从上边链接中下载,拿到.csv文件,可以使用pandas处理. 比如: dfoff = pd.read_csv('…
赛事链接:https://tianchi.aliyun.com/competition/entrance/231593/introduction?spm=5176.12281925.0.0.7e157137DpLQO6 代码下载:https://github.com/luxuantao/alibaba_tianchi_book 请自己阅读赛题描述和下载代码 1.数据探索 1.1数据说明 本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取…
    顶尖大数据挖掘实战平台 (TipDM-H8)           产  品  说  明  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: services@tipdm.com 热线: 40068-40020 企业QQ:40068-40020 邮编: 510663 电话: (020)82039399 目  录 1                     引言....................…
数据行业有一句很经典的话--"垃圾进,垃圾出"(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的.而对于数据分析挖掘而言,只有一份高质量的基础数据,才可能得到正确.有用的结论.本文主要介绍数据质量检查的基本思路和方法,并基于Python进行具体实现. 另外,数据质量检查是数据治理中的一个重要课题,涉及内容广,由于笔者经验水平有限,本文不做涉及,只从分析挖掘中的数据质量检查工作说起. 数据质量检查…
SAS数据挖掘实战篇[五] SAS--预测模型 6.1 测模型介绍 预测型(Prediction)是指由历史的和当前的数据产生的并能推测未来数据趋势的知识.这类知识可以被认为是以时 间为关键属性的关联知识,可以应用到以时间为关键属性的源数据挖掘中.从预测的主要功能上看,主要是对未来 数据的概念分类和趋势输出.统计学中的回归方法等可以通过历史数据直接产生对未来数据预测的连续值.因而这 些预测型知识己经蕴藏在诸如趋势曲线等输出形式中.常见的预测模型主要有逻辑回归.决策树和神经网络. 1 逻辑回归模型…
SAS数据挖掘实战篇[四] 今天主要是介绍一下SAS的聚类案例,希望大家都动手做一遍,很多问题只有在亲自动手的过程中才会有发现有收获有心得. 1 聚类分析介绍 1.1 基本概念 聚类就是一种寻找数据之间一种内在结构的技术.聚类把全体数据实例组织成一些相似组,而这些相似组被称作聚类.处于相同聚类中的数据实例彼此相同,处于不同聚类中的实例彼此不同.聚类技术通常又被称为无监督学习,因为与监督学习不同,在聚类中那些表示数据类别的分类或者分组信息是没有的. 通过上述表述,我们可以把聚类定义为将数据集中在某…
SAS数据挖掘实战篇[三] 从数据挖掘概念到SAS EM模块和大概的流程介绍完之后,下面的规划是[SAS关联规则案例][SAS聚类][SAS预测]三个案例的具体操作步骤,[SAS的可视化技术]和[SAS的一些技巧和代码],至于像SAS的数据导入导出数据处理等一些基本的代码,不作大的讲解.到时候会穿插在每周日常里进行介绍,只有多操作才能熟练. 贵在平时实践和坚持! OK,废话不多说,今天主要写这篇"SAS数据挖掘实战篇[三]"主要介绍,SAS的关联规则应用数据挖掘. 1 关联规则 1.1…
SAS数据挖掘实战篇[二] 从SAS数据挖掘实战篇[一]介绍完目前的数据挖掘基本概念之外,对整个数据挖掘的概念和应用有初步的认识和宏观的把握之后,我们来了解一下SAS数据挖掘实战篇[二]SAS工具的应用.首先来看一下SAS大概的一个软件界面.(这里面实际操作性较强,建议都打开软件,step by step自己操作一遍,印象深刻)操作流程如下:   1 认识 SAS Enterprise Miner 1启动SAS EM 方式1:首先打开SAS,然后在SAS命令栏输入miner,回车即可:   方式…
SAS数据挖掘实战篇[一] 1数据挖掘简介 1.1数据挖掘的产生 需求是一切技术之母,管理和计算机技术的发展,促使数据挖掘技术的诞生.随着世界信息技术的迅猛发展,信息量也呈几何指数增长,如何从巨量.复杂的数据中获取有用的信息,成为了信息技术研究领域的一道新课题.在这样的背景下,数据挖掘技术诞生并成为了近年来的研究热点.机器学习.数据库技术和数理统计是数据挖掘的三个技术支柱. 今天,这些技术已经相当成熟,加上高性能关系数据库引擎和广泛的数据集成,让数据挖掘技术得到了广泛的实际应用.目前数据挖掘相关…
SAS数据挖掘实战篇[七] 6.5  SAS EM数据挖掘-----预测模型 1  问题定义 目标:建立模型预测贷款申请的信用状态,选择最优的模型来预测和减少损失. 数据集:SAMPSIO.DMAGECR 数据集大小:1000 变量数目:21(20个输入变量,1个目标变量) 变量描述   该损失矩阵将产生和第一个损失矩阵相似的决策,但是第二个矩阵产生的统计描述更加容易理解. 先验概率 在训练数据集中, 未预测数据:SAMPSIO.DMAGESCR 数据集大小:75(没有GOOD_BAD变量)  …
SAS数据挖掘实战篇[六] 6.3  决策树 决策树主要用来描述将数据划分为不同组的规则.第一条规则首先将整个数据集划分为不同大小的 子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同,这样就形成第二层数 据集的划分.一般来说,一个子数据集或者被继续划分或者单独形成一个分组. 1  问题背景 预测模型案例概述 一家金融服务公司为客户提供房屋净值贷款.该公司在过去已经拓展了数千净值贷款服务.但是, 在这些申请贷款的客户中,大约有20%的人拖欠贷款.通过使用地理.人口和金融变量,该公…
1. 比赛介绍 比赛地址:阿里云恶意程序检测新人赛 这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备 因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑. 首先是文件上传比较慢,几个G的文件直接上传比较耗时,上传压缩包后解压又出现了问题,最后还是得等着上传完,期间换了好几个VPN节点. 解压缩的问题:用unzip命令解压,速度很慢,经常解压到一半就不动了或者与colab的连接断掉了(可能是网…
摘要: 我们经常思考机器学习,深度学习,以至于人工智能给我们带来什么?在数据相对充足,足够真实的情况下,好的学习模型可以发现事件本身的内在规则,内在联系.我们去除冗余的信息,可以通过最少的特征构建最简单.误差最小的模型,以此将学习到的规则,逻辑应用到具体的场景中,帮助我们可以快速准确的处理某些繁琐重复的工作. 模型训练与在线预测服务.推荐算法四部曲.机器学习PAI实战.更多精彩,尽在开发者分会场 [机器学习PAI实战]—— 玩转人工智能之商品价格预测 [机器学习PAI实战]—— 玩转人工智能之你…
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 Mahout主页:http://mahout.apache.org/ Mahout 最新版本0.8下载: http://mirrors.hust.edu.cn/apache/mahout/0.8/ 使用mahout-distribution-0.8.tar.g…
TF-IDF模型调参 1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df: 上一篇博客调了ngram_range这个参数,得出了ngram_range=(1, 4)时效果最好这个结论,并在线上验证了下. 本篇博客继续调其他的参数.考虑到训练的速度,先将ngram_range设置为(1, 1),调min_df: min_df train-mlogloss val-mlogloss 1 0.103793 0.406085 2 0.1091895 0.…
使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右. 求和:然后再将每行数据中的每个词的词向量加和,得到每行的词向量表示. 其他还可以通过求平均,求众数或者最大值等等方法得到每行的词向量表示. 代码如下: import time import csv import pickle import numpy as np import xgboost as xgb from sklearn.model_sele…
XGBoost学习: 集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果.要想得到最好的集成效果,这些弱学习器应当"好而不同". 根据个体学习器的生成方法,集成学习方法可以分为两大类,序列化方法,并行化方法.序列化方法的代表就是Boosting方法,其中XGBoost和lightGBN都属于此类. Boosting的方法是先从初始训练集训练出一个基学习器.然后再对训练样本的分布做一些调整,使得前一个学习器分类错误的样本得到更多的关注,再以此训练下一个基学习器. 依次类推,…
主要工作 本周主要是跑了下n-gram模型,并调了下参数.大概看了几篇论文,有几个处理方法不错,准备下周代码实现一下. xgboost参数设置为: param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 'objective': 'multi:softprob', 'num_class': 8, 'subsample': 0.5, 'colsample_bytree': 0.85} n-gram模型…
Colab连接与数据预处理 Colab连接方法见上一篇博客 数据预处理: import pandas as pd import pickle import numpy as np # 训练数据和测试数据路径 train_path = './security_train.csv' test_path = './security_test.csv' # 将csv格式的训练数据处理为txt文本,只包含文件标签和api序列 def read_train_file(path): labels = [] #…
加载数据 加载的是完整版的数据 happiness_train_complete.csv . import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns sns.set_style('whitegrid') # 将 id 列作为 DataFrame 的 index 并且指定 survey_time 为时间序列 data_origin…
关键词:tensorflow2.LSTM.时间序列.股票预测 Tensorflow 2.0发布已经有一段时间了,各种新API的确简单易用,除了官方文档以外能够找到的学习资料也很多,但是大都没有给出实战的部分找了好多量化分析中的博客和代码,发现在tensorflow方面大家都还是在用1.x的版本,始终没有找到关于2.x的代码,于是自己写了一段,与大家共勉. import numpy as np import matplotlib.pyplot as plt import pandas as pd…
作者:Gianluca Malato deephub翻译组:刘欣然 当今世界正在与一个新的敌人作斗争,那就是Covid-19病毒. 该病毒自首次在中国出现以来,在世界范围内迅速传播.不幸的是,意大利的Covid-19感染人数是欧洲最高的,为19人.我们是西方世界第一个面对这个新敌人的国家,我们每天都在与这种病毒带来的经济和社会影响作斗争. 在本文中,我将用Python向您展示感染增长的简单数学分析和两个模型,以更好地理解感染的演变. 数据收集(Data collection) 意大利民防部门每天…
1.阿里移动推荐算法: 答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2.资金流入流出预测: 答辩视频:https://space.dingtalk.com/c/gQHOEnXi6w 3.阿里移动推荐&资金流入流出预测答辩PPT下载: https://tianchi.shuju.aliyun.com/mini/reply.htm?spm=5176.100259.100259.15.QVIzfX#nav1 4.新浪微博互动预测大赛&公交线路客流预测…
[ 亿欧导读 ] 11月13日亿欧网将走入杭州,联合B座12楼.正和岛召开“2014 中国O2O新商业峰会“.亿欧网据O2O产业图谱,整理出杭州十家O2O企业:点我吧.快的打车.杭州19楼.婚礼纪.淘点点.风先生.养车点点.丁香园.树熊以及卡考网络. 杭州是除北京.上海.深圳之外的另一互联网重镇,O2O发展近年来也风生水起.2014年11月13日亿欧网也将走入杭州,联合B座12楼.正和岛召开“2014 中国O2O新商业峰会”,届时线上线下代表性公司将实战强手论道O2O.亿欧网根据O2O产业图谱,…
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展.高性能.高并发.性能优化.Spring boot.Redis.ActiveMQ.Nginx.Mycat.Netty.Jvm大型分布式项目实战视频教程 视频课程包含: 高级Java架构师包含:Spring boot.Spring  cloud.Dubbo.Redis.ActiveMQ.Nginx.Mycat.S…
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩 展.高性能.高并发.性能优化.Spring boot.Redis.ActiveMQ.Nginx.Mycat.Netty.Jvm大型分布 式项目实战视频教程 视频课程包含: 高级Java架构师包含:Spring boot.Spring  cloud.Dubbo.Redis.ActiveMQ.Nginx.Mycat…
15套Java架构师详情 * { font-family: "Microsoft YaHei" !important } h1 { background-color: #006; color: #FF0 } 15套java架构师.集群.高可用.高可扩展.高性能.高并发.性能优化.Spring boot.Redis.ActiveMQ.Nginx.Mycat.Netty.Jvm大型分布式项目实战视频教程 视频课程包含: 高级Java架构师包含:Spring boot.Spring  clo…