【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧!
写这个系列写了两个月了,对paddlepaddle的使用和越来越熟悉,不过一直没找到合适的应用场景。最近百度搞了个AI大赛,据说有四个赛题,现在是第一个----综艺节目精彩片段预测 ,大家可以去检测一下最近的学习成果啊!还有丰厚的奖金10W元软妹币哦!
这是啥比赛?
我们希望参赛选手使用PaddlePaddle深度学习框架、利用BROAD数据集、利用K-Lab,着手解决行业中的真实问题,从而让AI真正应用于行业、真正服务于行业。本次大赛,我们将目光放在电视综艺行业,希望选手们利用BROAD中全球首创的公开精彩片段标注数据集,帮助电视综艺的后期剪辑工作者们在给定的任一段长视频中识别出“精彩片段”——想为剪辑师们的辛苦工作给予些小小的辅助,别再连续熬夜啦
详细的赛题背景请戳这里!
数据集是啥?
在11月百度世界大会 AI 技术与平台论坛上,百度3D视觉首席科学家杨睿刚就宣布推出了百度 AI 公开数据集计划——BROAD(Baidu Research Open-Access Dataset),并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。
这些数据或是首次发布的,或是目前国际同类型公开数据集中最大的:
- 室外场景理解数据集是世界范围内第一个带像素级语义标签的室外3D图像数据,来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,目标实现更精准、安全的自动驾驶。
- 视频精彩片段数据集主要来源于爱奇艺。视频类型为综艺节目,目前囊括近1500个长视频,视频总时长约1200小时,还从中手动收取出18000个精彩小视频,同时能够提供视频帧的图片特征序列,是全球首创的公开精彩片段标注数据集。
- 百度阅读理解数据集 DuReader是迄今为止规模最大的中文公开领域阅读理解数据集。数据集基于真实应用需求,所有问题都来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案基于问题与文档由人工撰写生成。数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题、100万文档及42万人工撰写的优质答案,并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑,希望加速相关技术和应用的发展。
在这个比赛中,我们用的是第二个:视频精彩片段数据集。戳这里可以下载!不过文件太大了,训练集有97G,验证和测试各有8,8G,在本机上做明显不太现实,所以kesci直接提供了数据集,在指定路径下就可以看到啦。我们可以直接运用Kesci的平台K-Lab来进行模型训练~大家可以在这里看一下提供的视频样例和数据集的说明~
一个小tips:大家一定要先报名,再创建比赛项目才能查看数据集哦!不然看不到!亲身经历,略坑 - -
如何报名?
在Kesci官网注册,然后报名,就可以啦!提交结果的时候要以团队的名义提交哦!团队可以是一个人,也可以组队,大家可以在比赛的qq群里拉人组队哦!(见比赛介绍)
赛题、日程与奖项
本次大赛分为两个阶段。
第一比赛阶段:2017年12月28日0:00:00--2018年2月4日23:59:59
此阶段中,K-Lab使用百度云计算优化型CPU,4核8GB内存。K-Lab单次运行时长为3小时。
任务:
训练:使用已抽取的约10%的视频数据训练集(共124个视频),学习视频帧的图片特征序列数据,在K-Lab中训练精彩片段检测模型。
验证:使用验证集的数据与开放的测评脚本K-Lab,评价训练好的模型在验证集视频上的预测结果。
输出结果:对测试集中的视频使用训练好的模型,得出预测结果,通过K-Lab上传结果到测评系统得到评价分数。
2018年1月14日23:59:59,第一比赛阶段中期截止,分数排名第一的队伍获得鼓励奖。
2018年1月15日0:00:00起,用户通过K-Lab上传结果的同时也需上传K-Lab notebook报告。
2018年2月4日23:59:59,第一比赛阶段截止,且报名截止。选拔使用了PaddlePaddle训练模型且上传了K-Lab notebook报告的队伍中,分数前50名的队伍晋级到第二比赛阶段。
第二比赛阶段:2018年2月9日0:00:00--2018年3月15日23:59:59
此阶段中,K-Lab的配置为GPU(百度免费提供的英伟达深度学习开发卡,CPU:6核40GB),单次运行时长为3小时。选手无需任何申请或安装,直接打开K-Lab在其中使用即可。
任务:
训练:选手必须使用PaddlePaddle训练模型,使用全量视频数据训练集(共1262个视频),学习视频帧的图片特征序列数据,在K-Lab中训练精彩片段检测模型。
验证:使用验证集的所有数据与开放的测评脚本K-Lab,评价训练好的模型在验证集视频上的预测结果。
输出结果:对测试集中的所有视频使用训练好的模型,得出预测结果,通过K-Lab上传结果与K-Lab notebook报告到测评系统得到评价分数。
2018年2月25日23:59:59,第二比赛阶段中期截止,分数排名第一的队伍获得鼓励奖。
2018年3月15日23:59:59,第二比赛阶段截止,百度专家对分数排名前10名的队伍评审K-Lab notebook报告,评选出一名一等奖(5万人民币),2名二等奖(各2万人民币),3名三等奖(各3千人民币)。
写在最后
其实刚看到这个题目的时候觉得有点难,因为这个属于比较新的领域,时序视频检测这个方向大家可以多搜搜论文,看看别人怎么实现的,先试着用最简单的方法做一下。不太建议完全不懂机器学习的人报名,小白可以先参加一些基础的练练手,如果对机器学习和深度学习有些了解的可以报名试试看。目前排名第一的大神已经开放了随机测试的视频,大家可以先用这个代码跑一下,看看提交的格式是啥样的。不管怎么说,重在参与啦~
【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧!的更多相关文章
- 【深度学习系列】关于PaddlePaddle的一些避“坑”技巧
最近除了工作以外,业余在参加Paddle的AI比赛,在用Paddle训练的过程中遇到了一些问题,并找到了解决方法,跟大家分享一下: PaddlePaddle的Anaconda的兼容问题 之前我是在服务 ...
- 【深度学习系列】PaddlePaddle垃圾邮件处理实战(二)
PaddlePaddle垃圾邮件处理实战(二) 前文回顾 在上篇文章中我们讲了如何用支持向量机对垃圾邮件进行分类,auc为73.3%,本篇讲继续讲如何用PaddlePaddle实现邮件分类,将深度 ...
- 【深度学习系列3】 Mariana CNN并行框架与图像识别
[深度学习系列3] Mariana CNN并行框架与图像识别 本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框 ...
- 【深度学习系列2】Mariana DNN多GPU数据并行框架
[深度学习系列2]Mariana DNN多GPU数据并行框架 本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架. 深度神经网络( ...
- 深度学习系列 Part(3)
这是<GPU学习深度学习>系列文章的第三篇,主要是接着上一讲提到的如何自己构建深度神经网络框架中的功能模块,进一步详细介绍 Tensorflow 中 Keras 工具包提供的几种深度神经网 ...
- 基于TensorFlow的深度学习系列教程 2——常量Constant
前面介绍过了Tensorflow的基本概念,比如如何使用tensorboard查看计算图.本篇则着重介绍和整理下Constant相关的内容. 基于TensorFlow的深度学习系列教程 1--Hell ...
- 使用腾讯云 GPU 学习深度学习系列之二:Tensorflow 简明原理【转】
转自:https://www.qcloud.com/community/article/598765?fromSource=gwzcw.117333.117333.117333 这是<使用腾讯云 ...
- 【深度学习系列】PaddlePaddle之手写数字识别
上周在搜索关于深度学习分布式运行方式的资料时,无意间搜到了paddlepaddle,发现这个框架的分布式训练方案做的还挺不错的,想跟大家分享一下.不过呢,这块内容太复杂了,所以就简单的介绍一下padd ...
- 【深度学习系列】用PaddlePaddle和Tensorflow进行图像分类
上个月发布了四篇文章,主要讲了深度学习中的"hello world"----mnist图像识别,以及卷积神经网络的原理详解,包括基本原理.自己手写CNN和paddlepaddle的 ...
随机推荐
- Android 异步消息处理机制终结篇 :深入理解 Looper、Handler、Message、MessageQueue四者关系
版权声明:本文出自汪磊的博客,转载请务必注明出处. 一.概述 我们知道更新UI操作我们需要在UI线程中操作,如果在子线程中更新UI会发生异常可能导致崩溃,但是在UI线程中进行耗时操作又会导致ANR,这 ...
- 预防onion比特币勒索病毒,如何快速关闭135,137,138,139,445端口
预防onion比特币勒索病毒,如何快速关闭135,137,138,139,445等端口 如果这种网络端口关闭方法行不通,可以尝试一种新的关闭网络端口方法(比较繁琐)见106楼,补丁安装教程见126 ...
- 游标遍历所有数据库循环执行修改数据库的sql命令
MSSQL数据库服务器上有很多类似的数据库,需要将这些数据库统一修改其中的某些表或者某些命令,那么就会想到用游标来遍历. 先来说思路: 1,首先需要查询出所有的数据库: select [name] f ...
- C++ IO操作API及注意事项(包含一个日志类的实现)
C++是一个抽象程度比C高很多的语言,在使用C++时,编译器做了很多工作,如果我们不对C++的某些特性的实现机制进行了解,那么编程时也许会有很多疑惑,我们也许知道怎样做才是正确的,但不知道为什么要这样 ...
- 用shell制作IP脚本
vim ip.sh #!/bin/bashread -p "eth:" eread -p "ip:" ip1read -p "netmask:&qu ...
- Java爬虫——人人网模拟登录
人人网登录地址:http://www.renren.com/ 此处登录没有考虑验证码验证码. 首先对登录方法进行分析 有两种方法. 一)在Elements中分析源码 发现登录点击后的事件是http:/ ...
- 美杂志初次取得答应走进google奥秘研讨所Google X
Google X作为google最奥秘的研讨部分.开发过google眼镜.无人驾驶轿车等多项创新项目.至今为止.Google X从未答应媒体进入採訪.但近日,据日本GIGAZINE站点报导,美国杂志& ...
- Material使用05 自定义主题、黑夜模式\白天模式切换
需求: 1 不使用materil依赖内建的主题,使用自己创建的主题 2 利用自己创建的主题实现白天模式和黑夜模式 1 自定义主题 1.1 创建自定义主题文件 them.scss // 引入materi ...
- 【 全干货 】5 分钟带你看懂 Docker !
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者丨唐文广:腾讯工程师,负责无线研发部地图测试. 导语:Docker,近两年才流行起来的超轻量级虚拟机,它可以让你轻松完成持续集成.自动交付 ...
- js实现刷新
Javascript刷新页面的几种方法: 代码如下:1,history.go(0) 2,location.reload() 3,location=location 4,location.assign( ...