GitHub 干货 | 各大数据竞赛 Top 解决方案开源汇总
AI 科技评论编者按:现在,越来越多的企业、高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案,也为之后的数据研究者留下有价值的经验。
Smilexuhc 在 GitHub 社区对各大数据竞赛名列前茅的解决方案进行了整理,包括纯数据竞赛、自然语言处理(NLP)领域数据赛事的 Top 解决方案。对这些赛事感兴趣的小伙伴可以一起来看一下这篇干货满满的汇总贴:
纯数据竞赛
本次大赛要求参赛者基于提供的讯飞 AI 营销云的海量广告投放数据,通过人工智能技术构建来预测模型预估用户的广告点击概率。比赛提供了 5 类数据,包括基础广告投放数据、广告素材信息、媒体信息、用户信息和上下文信息,总共为 1001650 初赛数据 和 1998350 条复赛数据(复赛训练数据为:初赛数据+复赛数据)。
本次比赛要求参赛者以阿里电商广告为研究对象,基于提供的淘宝平台的海量真实交易数据,通过人工智能技术构建来预测模型预估用户的购买意向。本次比赛为参赛者提供了 5 类数据,包括基础数据、广告商品信息、用户信息、上下文信息和店铺信息。用于初赛的数据包含了若干天的样本;最后一天的数据用于结果评测,对选手不公布;其余日期的数据作为训练数据,提供给参赛选手。
本次算法大赛的题目源自一个基于真实业务场景的广告技术产品——腾讯社交广告 Lookalike 相似人群拓展。本题目要求参赛者基于提供的几百个种子人群、海量候选人群对应的用户特征,以及种子人群对应的广告特征,构建算法准确标定测试集中的用户是否属于相应的种子包。
出于业务数据安全保证的考虑,比赛所提供的所有数据均为脱敏处理后的数据。整个数据集分为训练集和测试集:训练集中标定了人群中属于种子包的用户与不属于种子包的用户(即正负样本),测试集将检测参赛选手的算法能否准确标定测试集中的用户是否属于相应的种子包,训练集和测试集所对应的种子包完全一致。初赛和复赛所提供的种子包除量级有所不同外,其他的设置均相同。
Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018
Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th
Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th
rank10(初赛): https://github.com/ShawnyXiao/2018-Tencent-Lookalike
Rank11: https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest
本次大赛要求参赛者基于脱敏和采样后的数据信息,预测未来一段时间活跃的用户。参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照指定的评价指标使用在线评测数据进行评测和排名。大赛提供的数据为脱敏和采样后用户行为数据,日期信息进行统一编号,第一天编号为 01,第二天为 02,以此类推,所有文件中列使用 tab 分割。
Rank13(初赛 a 榜 rank2;b 榜 rank5):https://github.com/luoda888/2018-KUAISHOU-TSINGHUA-Top13-Solutions
本次大赛要求参赛者基于给定的近 3 个月购买过目标商品的用户以及他们在前一年的浏览、购买、评价等数据信息,自行设计数据处理相关操作、训练模型,从而预测未来 1 个月内最有可能购买目标品类的用户,并预测他们在考察时间段内的首次购买日期。数据主要包括用户基本信息、SKU 基本信息、用户行为信息、用户下单信息及评价信息。
本次大赛要求参赛者基于风机 SCADA 实时数据,通过机器学习、深度学习、统计分析等方法建立叶片开裂早期故障检测模型,对叶片开裂故障进行提前告警。比赛提供的数据集包括训练集和测试集:训练集一共有 25 类风机共 4 万个样本,测试集没有风机编号,共 8 万个样本。
Rank2:https://github.com/SY575/DF-Early-warning-of-the-wind-power-system
本次大赛要求参赛者在分析光伏发电原理的基础上,论证辐照度、光伏板工作温度等影响光伏输出功率的因素,通过实时监测的光伏板运行状态参数和气象参数建立预测模型,预估光伏电站瞬时发电量,并根据光伏电站 DCS 系统提供的实际发电量数据进行对比分析,验证模型的实际应用价值。
比赛提供训练集 9000 个点,测试集 8000 个,包括光伏板运行状态参数(太阳能电池板背板温度、其组成的光伏阵列的电压和电流)和气象参数(太阳能辐照度、环境温湿度、风速、风向等)。
Rank1:https://zhuanlan.zhihu.com/p/44755488?utm_source=qq&utm_medium=social&utm_oi=623925402599559168(这一方案也可查看微信文章:《XGBoost+LightGBM+LSTM:一次机器学习比赛中的高分模型方案》https://mp.weixin.qq.com/s/Yix0xVp2SiqaAcuS6Q049g)
8.AI 全球挑战者大赛—违约用户风险预测
本次大赛要求参赛者基于马上金融平台提供的近 7 万贷款用户的基本身份信息、消费行为、银行还款等数据信息,建立准确的风险控制模型,来预测用户是否会逾期还款。
本次大赛要求参赛者基于由融 360 与平台上的金融机构合作的提供近 7 万贷款用户的基本身份信息、消费行为、银行还款等数据信息,建立准确的风险控制模型,来预测用户是否会逾期还款。
本次大赛要求参赛者基于给定的用户在 2016 年 1 月 1 日至 2016 年 6 月 30 日之间真实线上线下消费行为,预测用户在 2016 年 7 月领取优惠券后 15 天以内是否核销。比赛评测指标采用 AUC,先对每个优惠券单独计算核销预测的 AUC 值,再对所有优惠券的 AUC 值求平均作为最终的评价标准。
本次大赛要求参赛者基于 2016 年 6 月以前的农产品价格数据,预测 7 月的农产品价格。本题目初赛基于全国各农场品交易市场的价格数据,复赛则加上天气等多源数据。
国家电网通过对用户及所属变压器进行异常监测,并通过现场检修人员根据异常情况对用户进行抽检,并反馈检查结果,如发现为窃电用户,将反馈窃电用户信息。本赛题要求参赛者通过提供的相关数据与检查人员检查结果,建立窃电检测模型,识别用户窃电行为。
本题目初赛时要求参赛者基于给出的 2 万用户的百万级搜索词,以及经过调查得到的真实性别、年龄段、学历这一训练集,通过机器学习、数据挖掘技术构建分类算法对另外 2 万人群的搜索关键词进行分析,并给出其性别、年龄段、学历等用户属性信息。复赛时,训练集与测试集规模均扩展至 10 万用户。
精准营销是互联网营销和广告营销的新方向,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送,成为了很多互联网和非互联网企业的新发展方向。本赛题以其中一个营销场景为例,要求参赛者基于提供的用户位置信息、商户分类与位置信息等数据,完成用户画像的刻画并进行商户匹配。
仅 2016 上半年,AdMaster 反作弊解决方案认定平均每天能有高达 28% 的虚假流量,即由机器人模拟和黑 IP 等手段导致的非人恶意流量。本赛题要求参赛者通过用户行为日志,自动检测出这些虚假流量。
16.菜鸟-需求预测与分仓规划
本赛题要求参赛者以历史一年海量买家和卖家的数据为依据,预测某商品在未来二周全国和区域性需求量。参赛者需要用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。比赛提供商品从 2014年 10 月 10 日到 2015 年 12 月 27 日的全国和区域分仓数据。
Rank6: https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning
自然语言处理(NLP)
此次比赛要求参赛者基于达观数据提供的一批长文本数据和分类信息,结合当下最先进的 NLP 和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。比赛提供的数据包含训练数据集和测试数据集 2 个 csv 文件。
本次大赛要求参赛者基于拍拍贷提供的智能客服聊天机器人真实数据,以自然语言处理和文本挖掘技术为主要探索对象,利用这些资源开发一种提高智能客服的识别能力和服务质量的算法。
3.2018JD Dialog Challenge 任务导向型对话系统挑战赛
本次大赛要求参赛者基于京东用户与京东人工客服真实对话数据(脱敏后)以及给定的对话数据进行分析,构建端到端的任务驱动型多轮对话系统,输出满足用户需求的答案——该答案需要能正确、完整且高效地解决问题,为用户带来简单、省心、智能的购物咨询体验。
4.2018CIKM AnalytiCup – 阿里小蜜机器人跨语言短文本匹配算法竞赛
本次大赛关注短文本匹配在语言适应的问题,源语言为英语,目标语言为西班牙语。比赛要求参赛者建立跨语言短文本匹配模型,来提升智能客服机器人的能力。
另外,Smilexuhc 还为大家提供了两篇经验文章,大家感兴趣的话可以一并收藏向前辈们取取经。
经验文章
《介绍 featexp一个帮助理解特征的工具包》:http://www.sohu.com/a/273552971_129720
《Ask Me Anything session with a Kaggle Grandmaster Vladimir I. Iglovikov》PDF:https://pan.baidu.com/s/1XkFwko_YrI5TfjjIai7ONQ
Via:https://github.com/Smilexuhc/Data-Competition-TopSolution
此前,雷锋网(公众号:雷锋网) AI 科技评论也对一些数据竞赛进行了报道,感兴趣的同学可以前往阅读往期报道:
京东 AI Fashion-Challenge 挑战赛冠军方案详解(风格识别+时尚单品搜索):https://www.leiphone.com/news/201809/LBNzpCx58L98oK7M.html
ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang 字:https://www.leiphone.com/news/201808/CkFtca7oz5h2oCp8.html
KDD Cup 2018 冠军「 first floor to eat latiao」:为什么取这个队名?因为大家都爱辣条:https://www.leiphone.com/news/201808/srcNcc3AWQTTJl4z.html
「2018 机器阅读理解技术竞赛」落下帷幕,看奇点机智如何从 800 多支队伍中杀出重围:https://www.leiphone.com/news/201805/zB0caxkxv73YF8F9.html
看阿里 AliOS 神灯团队在推荐系统上的独门秘籍:https://www.leiphone.com/news/201804/du0koPNyTZwLSb7x.html
专访讯飞病灶分割比赛优胜团队,年内会将该算法投入实用:https://www.leiphone.com/news/201803/B5qXDGkp5JUrJYWQ.html
Kaggle 大神 Eureka 的高手进阶之路:https://www.leiphone.com/news/201803/QtcJFW9OoDI8CMWA.html
亚马逊 Alexa Prize 比赛冠军团队专访:聊天机器人的突破与创新:https://www.leiphone.com/news/201801/ySAXM1p2Qhy20vts.html
KDD Cup 2017双料冠军是如何炼成的?我们向Convolution团队讨教了他们的「成功方法论」:https://www.leiphone.com/news/201708/KVadVGXYYIudv6lr.html
图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读:https://www.leiphone.com/news/201806/sFpN5c4zd0Z0fw32.html 雷锋网雷锋网
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
GitHub 干货 | 各大数据竞赛 Top 解决方案开源汇总的更多相关文章
- Kaggle大数据竞赛平台入门
Kaggle大数据竞赛平台入门 大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kagg ...
- 阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
- WCF大数据量传输解决方案
文章内容列表:1. 场景:2. 解决方案3. WCF契约与服务实现设计静态图4. WCF契约与服务实现设计详细说明6. 服务端启动服务代码:7. 客户端代码8. WCF大数据量传输解决方案源码下载 ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第14门课程:Android软硬整合设计与框架揭秘: HAL&Framework &Native Service &App&HTML5架构设计与实战开发
掌握Android从底层开发到框架整合技术到上层App开发及HTML5的全部技术: 一次彻底的Android架构.思想和实战技术的洗礼: 彻底掌握Andorid HAL.Android Runtime ...
- [转]POI大数据量Excel解决方案
全文转载自:jinshuaiwang的博客 目前处理Excel的开源javaAPI主要有两种,一是Jxl(Java Excel API),Jxl只支持Excel2003以下的版本.另外一种是Apach ...
- 【原创干货】大数据Hadoop/Spark开发环境搭建
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深 ...
- (转载)2016 CCF大数据与计算智能大赛 开源资料整理
本文转载自:http://blog.sina.com.cn/s/blog_5399b8660102wxks.html 2016 CCF 大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项, ...
随机推荐
- [转帖]ASML EUV光刻机累计生产450万块晶圆:一台12亿元
ASML EUV光刻机累计生产450万块晶圆:一台12亿元 来源驱动之家 ...网页被我关了 就这样吧. 截至目前,华为麒麟990 5G是唯一应用了EUV极紫外光刻的商用芯片,台积电7nm EUV工艺 ...
- 【leetcode-200 深度优先+广度优先】 岛屿数量
给定一个由 '1'(陆地)和 '0'(水)组成的的二维网格,计算岛屿的数量.一个岛被水包围,并且它是通过水平方向或垂直方向上相邻的陆地连接而成的.你可以假设网格的四个边均被水包围. 示例 1: 输入: ...
- 2019-11-29-WPF-如何在绑定失败异常
原文:2019-11-29-WPF-如何在绑定失败异常 title author date CreateTime categories WPF 如何在绑定失败异常 lindexi 2019-11-29 ...
- XmlExtensions帮助类
public static class XmlExtensions { static Lazy<XmlWriterSettings> _settings = new Lazy<Xml ...
- ASP.NET MVC中Log4Net记录错误日志的使用
第一.在管理NuGet程序包 =>下载 Log4Net 第二.在web.config配置Log4Net 1:在<configuration>节点下 <configSection ...
- java 手写 jvm高性能缓存
java 手写 jvm高性能缓存,键值对存储,队列存储,存储超时设置 缓存接口 package com.ws.commons.cache; import java.util.function.Func ...
- 遇到了Microsoft Visual Studio is Busy!
最近两天,我点击F5进入调试模式,VS左下角状态显示一直在加载符号文件,然后加载的超级慢,不多一会儿,显示VS正忙!如上图所示. 然后的然后,VS就卡死了~~~.之后,在网上查找原因和解决办法,找来找 ...
- Spring cloud简单学习总结
微服务简介 一.spring boot和spring cloud 的关系 spring boot来写各个拆分出来的微服务,spring cloud把各个微服务联系起来,比如各个微服务通过eurke找 ...
- itext生成pdf如何使用windows系统下的各种字体
一.首先是,使用windows字体的正常方式. @Test /** * 使用windows系统下的字体,new Font方式 */ public void test1_1() throws Docum ...
- 利用python制作在线视频播放器遇到的一些问题
经过前期的调研,我准备使用PyQT+PyAV+PyAudio+pillow.期间也尝试过使用ffmpeg-python,但最后还是选择了av这个更底层,自由度更大的库来完成音视频的处理. ==== ...