腾讯 AI Lab 计算机视觉中心人脸 & OCR团队近期成果介绍(3)
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~
作者:周景超
在上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享。
1 人脸进展
人脸是最重要的视觉信息之一。以貌识人、以貌取人是人的本性,也是最自然、最常用的身份确认和交互方式之一。互联网和移动互联网上每天上传和传播的天文数字级别的照片中有很大一部分都是和人脸相关的(比如国际知名互联网公司Facebook每天都有亿级以上的海量人脸照片和视频上传),因此人脸检测与识别技术在学术界和工业界都备受关注,是各种国际前沿视觉技术的重要检验场之一。
在上一期中已介绍了我们团队在人脸检测与人脸识别上所取得的世界领先的原创性成果,迄今为止,我们团队在人脸检测的国际最权威评测平台WIDER FACE的所有三个测试子集、人脸识别的国际最权威评测平台Megaface Challenge 2(不同于Megaface Challenge 1,Megaface Challenge 2严格限定参赛者使用官方提供的固定的训练数据以公平地对比不同人脸算法的性能)的所有测试任务中都取得世界第一的性能。众所周知,原创性技术和落地应用这二者是密切相关、相辅相成的,一方面,原创性技术需要在落地应用场景中检验其有效性并帮助解决工业界的实际需求。另一方面,工业界的很多实际需求是之前长期存在但是在技术层面长期解决不了的,对这些技术难题如果没有真正创新性的技术突破也就难以真正解决。
就应用进展而言,我们团队自主研发的人脸技术已经接入公司的若干重要场景下的应用业务。其中一个是TEG信安业务场景,目的是精准识别海量上传图像中的敏感人物,针对带有敏感人物的图片或视频进行拦截。该项目的难点在于待识别的敏感人物会以各种形式出现在图片当中,比如漫画和处理过的照片都是比较难的情况。我们采用自主研发的人脸识别模型对该问题进行了建模,同时利用TEG信安提供的业务数据对业务场景进行了优化。
我们的人脸技术接入的另一个重要业务是MIG互联网+合作事业部政企项目组的腾讯慧眼项目。腾讯慧眼项目主要针对政务和生活场景,通过人脸验证完成自动化的身份鉴别,方便百姓远程办事,让数据多跑路,百姓少跑腿,为百姓带来更多“刷脸”办政务的创新场景。在政务场景下的人证比对中,我们的人脸技术在内测的业务数据上已达到甚至超过了知名人脸公司依图科技(与商汤科技、旷世科技齐名的人脸巨头公司)的精度。目前该项目正在进展中,并将在近期开放至腾讯慧眼项目的开放平台上。
此外,我们的人脸技术还广泛应用在了内部团队其他视觉相关项目中。例如在我们的图像数据分类项目中,人脸检测技术用于辅助半自动的标注任务。在AI Lab自研的AI有嘻哈项目中,人脸技术也将被用于识别图片中的名人脸,以便进一步的提高图片配文的质量。
2 OCR进展
2.1 ICDAR竞赛
在上一期中介绍了我们团队在OCR的ICDAR Robust Reading竞赛中所取得的佳绩。该竞赛有两个很重要的竞争很激烈的场景:互联网图片场景图像(Born-Digital Images)和对焦自然场景文本图像(Focused Scene Text Images)。我们在这两个场景的文本定位任务(Task 1: Text Localization)和单词识别任务(Task 3: Word Recognition),一共四个任务上都取得第一名的佳绩。一般对每个场景的Robust Reading竞赛,传统上分成四个任务:文本定位、文本分割(Text Segmentation)、单词识别、和端到端识别(End to End)。在传统OCR时代,识别图片中的文本必然经过检测、分割和识别三个阶段。在深度学习时代,近年来由于RNN的出现,对于检测到的单词可以直接训练网络做识别,分割这个任务已没有太大意义,成为鸡肋,也没有团队参加这项任务,ICDAR 2017年公布的新的竞赛数据集,如:COCO-Text,直接取消了这项任务。
近期我们向OCR的ICDAR Robust Reading竞赛的最终目标(端到端识别,即采用端到端的方法识别图片中的文本)发起冲击,并取得突破,在上述两大重要场景的端到端识别上也都获得第一名。值得一提的是,迄今为止我们在这OCR的两大重要场景上都实现了大满贯,超过了该领域的众多强劲对手(百度、阿里、商汤、旷世科技、和各大高校),囊括了所有的6项冠军(忽略已经被淘汰的分割任务)。
就技术手段而言,我们基于在该领域的深厚技术底蕴(人脸与OCR的很多底层技术是相通的)以及在参加文本定位和单词识别任务中所积累的国际领先技术,进一步采用了级联训练(Cascade Training)的方法,把文本定位网络和单词识别网络集成起来,使得结果可以正向流动、反馈可以逆向传播。凭借着这种方法,我们在互联网图片和对焦自然场景文本图片这两个重要场景的端到端任务上都获得第一名的佳绩,截图如下所示。
相关链接:http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=4
图2. 互联网图片端到端任务上的排名
互联网图片端到端任务部分结果如下图所示,详细结果可在网站上查询:http://rrc.cvc.uab.es/?ch=1&com=evaluation&view=method_samples&task=4&m=31774>v=1
图3. 互联网图片端到端任务的部分结果
相关链接:http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=4
图4. 对焦自然场景文本图片端到端任务上的排名
对焦自然场景文本图像端到端任务部分结果如下图所示,详细结果可在网站上查询:http://rrc.cvc.uab.es/?ch=2&com=evaluation&view=method_samples&task=4&m=31791>v=1
图5. 对焦自然场景文本图片端到端任务的部分结果
3 小结
人脸&OCR团队一直以来按照“夯实基础,做既有创新性又能落地应用的国际前沿工作”这个研究思路开展和推进工作,迄今为止我们不仅在人脸与OCR的多项国际权威榜单名列榜首,而且我们的技术在公司的多个重要的场景中得到了很好的应用。近期,我们团队参与的“AI在腾讯信息安全中的应用”项目获得了2017年下半年技术突破奖银奖,截图如下。
在2017腾讯全球合作伙伴大会上,AI Lab计算机视觉中心负责人刘威博士也向公司的合作伙伴和行业精英介绍了我们团队在人脸与OCR上的若干研究成果,如下图所示:
人脸&OCR团队将继续以踏实、进取的态度做好研究工作和项目落地,不忘初心,继续为人脸与OCR的技术发展贡献自己的力量。
相关阅读
腾讯 AI Lab 计算机视觉中心人脸 & OCR团队近期成果介绍(3)的更多相关文章
- ECCV 2018 | UBC&腾讯AI Lab提出首个模块化GAN架构,搞定任意图像PS组合
通常的图像转换模型(如 StarGAN.CycleGAN.IcGAN)无法实现同时训练,不同的转换配对也不能组合.在本文中,英属哥伦比亚大学(UBC)与腾讯 AI Lab 共同提出了一种新型的模块化多 ...
- 【转载】NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩、机器学习及最优化算法
原文:NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩.机器学习及最优化算法 导读 AI领域顶会NeurIPS正在加拿大蒙特利尔举办.本文针对实验室关注的几个研究热点,模型压缩.自 ...
- 未来已来,腾讯AI计算网络
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 作者:由鹅厂网事发表在云+社区 "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流 ...
- StartDT AI Lab | 视觉智能引擎——Re-ID赋能线下场景顾客数字化
人货场的思路是整个新零售数字化链路的核心,人是整个业务生命周期的起始点,图像算法的首要目标就是从图像中得到“人” .前一篇我们主要讲了Face ID的发展,Face ID帮助商家赋能了线下用户画像,把 ...
- 王磊:AI 时代物流行业的 OCR 应用
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ OCR 是人工智能里面非常重要的基础能力之一.腾讯云人工智能产品总监王磊,结合物流场景解读了OCR技术."OCR文本识别能够优化 ...
- StartDT AI Lab | 数据增强技术如何实现场景落地与业务增值?
有人说,「深度学习“等于”深度卷积神经网络算法模型+大规模数据+云端分布式算力」.也有人说,「能够在业内叱咤风云的AI都曾“身经百战”,经历过无数次的训练与试错」.以上都需要海量数据做依托,对于那些数 ...
- StartDT AI Lab | 视觉智能引擎之算法模型加速
通过StartDT AI Lab专栏之前多篇文章叙述,相信大家已经对计算机视觉技术及人工智能算法在奇点云AIOT战略中的支撑作用有了很好的理解.同样,这种业务牵引,技术覆盖的模式也收获了市场的良好反响 ...
- StartDT AI Lab | 视觉智能引擎——从Face ID说起,浅析顾客数字化
“顾客就是上帝”,这句西谚揭示了顾客占据着商业活动中心地位这一客观规律.为了能更好地服务顾客,优化商家自身的服务与产品,对顾客的分析与需求调研一直是商业经营分析中的重中之重. 在商业互联网化.社会数字 ...
- 腾讯AI开放平台的使用
一.腾讯AI开放平台 https://ai.qq.com/ 二.腾讯AI平台支持的功能 三.签名机制 1.计算步骤 用于计算签名的参数在不同接口之间会有差异,但算法过程固定如下4个步骤. 1.将< ...
随机推荐
- octave中的一些基本操作
1.矩阵的表示:v = [1 2 2] %表示1行3列的矩阵 v = [1; 2; 2] %表示3行1列的矩阵 v = [1 2; 2 3; 4 5] %3*2矩阵 size(v) % 求v的行与列 ...
- Leetcode题解(十四)
39.Combination Sum 题目 题目要求找出和为target的数字组合,并且每个整数可以多次使用.仔细思考可以发现,这道题目可以采用递归的方法来完成,比如举的例子,target=7,一开始 ...
- 【开源】【前后端分离】【优雅编码】分享我工作中的一款MVC+EF+IoC+Layui前后端分离的框架——【NO.1】框架概述
写博客之前总想说点什么,但写的时候又忘了想说点什么,算了,不说了,还是来送福利吧. 今天是来分享我在平时工作中搭建的一套前后端分离的框架. 平时工作大多时候都是在做管理类型的软件开发,无非就是增.删. ...
- js获取浏览器版本
获取火狐,谷歌,ie,常见浏览器的方法 function myBrowser(){ var userAgent = navigator.userAgent, rMsie = /(msie\s|trid ...
- 脚本检测 media query 分界点
当需要为不同屏幕大小添加不同脚本的时候,首先需要检测对应的media query 是否起效 也就是CSS( @screen only and (min-width: 40em) {})和javascr ...
- 北京地铁换乘算法(二维坐标系,图的深度搜索)开源下载Android源码、性能最优解
距离2012年11月2日下午2:05:31 已经过去158751270这么多秒了,不小心暴露了我的当前时间. java代码贴出来. private static long gettimelong() ...
- 接受第三方app分享的数据
前段时间公司项目需要一个需求: 把第三方的app分享的数据接受到自己的apk中, 涉及到的第三方app是: Youtube/Amazon/NetFlix, 这些app通过分享功能把当前的信息分享出去. ...
- Python之random
random 伪随机数生成模块.如果不提供seed,默认使用系统时间. 使用相同seed,可获得相同的随机数序列,常用于测试. >>> from random import * &g ...
- 72、django之简单验证码实现与form表单钩子函数补充
本篇主要讲解简单的验证码实现,验证码使用基本都是找现成的组件来实现,用代码实现这个简单功能主要是了解了解验证码内部的实现. 本篇导航: 五位验证码图示 代码实现 登录验证 Form组件钩子函数补充 一 ...
- Cache类缓存
此处主要总结System.Web.Caching.Cache类 该类是用于存储常用信息的类,HttpRuntime.Cache以及HttpContext.Current.Cache都是该类的实例. 该 ...