​ 1.

两年前,来自山东农村的王磊成为了一位数据标注员。彼时的他,工作内容非常简单且枯燥:识别图片中人的性别。

然而,一段时间之后,他注意到分配给他的任务开始变得越来越复杂:从识别性别到年龄,从框选2D物体到3D物体,图片场景从白天到深夜,甚至出现了多雾天气,用他自己的话来形容,就是“越来越奇怪了”。

小赵今年25岁,别看年龄不大,但是她已经做了足足8年的餐厅服务员。她的人生计划是再做几年服务员,攒上一笔钱就回到老家开一家只属于自己的餐厅。然而,2017年随着她所在的餐厅因质检不合格而关停后,她的人生也因此发生了重大改变。

她本想再找一家餐厅,继续从事“老本行”,然而身边的一位朋友却给小赵推荐了一个新的职业:数据标注员。

她决心尝试一下。

两年之后的现在,小赵已经成为了一家数据标注公司的标注组组长。

“我们会把原始数据分配给一个标注组,通常包括10个标注员和3个质检员。这些专门的标注小组是经过特别训练的,得益于标注工具的技术领先性,我们可以以95%的准确率在8天左右的时间完成大概10,000张自动驾驶车道检测的标注工作。”

2.

现如今,像王磊、小赵这样的普通数据标注员在国内已不下上百万。数据标注员有时候会被称为“AI劳工”或者是“AI领域看不见的工人”。他们标注的数据会用来训练机器学习模型,然后我们才能享受到通过机器学习赋能的产品和服务。

三十年以前机器视觉系统还几乎不能识别手写的数字,但是今天人工智能系统已经可以控制自动驾驶汽车、在病理幻灯片中检测肿瘤细胞,甚至审阅法律合同。先进的算法和强大的底层计算资源,以及精确的标准数据集,在人工智能的复兴中起到了至关重要的作用。

相关数据标注页面

对数据标注需求的持续增长催生了专业数据服务企业的蓬勃发展。以小赵的主要合作企业曼孚科技为例,曼孚科技旗下拥有超过10万+像小赵这样经过严格训练的标注、质检人员,曼孚科技所研发的数据标注工具每天会被数以万计的标注员所操作。

随着数据服务公司规模的扩大,相关企业的估值也水涨船高。旧金山一家名为Scale的AI企业获得了1亿美金的投资,抢占了今夏科技圈的头条。值得注意的是,这家公司是由一位仅仅22岁的MIT毕业生于2016年创立的,现在Scale已经成为了硅谷最受追捧的AI初创企业之一。

Scale AI的高估值归功于他们在自动驾驶领域所提供的多样性数据标注服务。Waygo、Lyft、Zoox、Cruise和Toyota研究所都是他们的客户。TechCrunch报告称Scale AI旗下有将近30,000的签约标注员提供文本、语音、图像和视频的数据标注服务。

另外一家热门的数据标注公司是Mighty AI(以前称为Spare5).今年夏天他们被共享驾驶巨头Uber收购,此举被视为Uber推动自身自动驾驶技术发展的关键一步。

自动驾驶技术

这些新兴的数据标注公司有一些共同点:他们都以自己能提供高质量数据标注服务即经过严格质量控制的专项领域数据而区别于Mturk等传统的数据众包平台;他们的众包标注员都是在全世界范围内经过严格筛选并且接受过专业的培训与管理;此外,这些公司内部的算法则是通过不断研究如何应用算法模型来提高标注效率。

AI公司的训练数据除了来自内部的数据标注团队,通常还非常依赖这些可控、高质量的数据标注服务提供商。Synced被告知,有一些自动驾驶企业每个月需要支付给数据标注企业几百万美金用于数据标注服务。

2019年出现了大批可用的自动驾驶标注数据集。Waygo、Ford自动驾驶分支Argo AI和Lyft都开源了高质量的自动驾驶数据集,这对于高度依赖数据的自动驾驶技术研究的发展是一个非常好的信号。

相比构建一个图像分类数据集,构建一个高质量的自动驾驶数据集要复杂的多。Waygo Open Dataset有16.7个小时的视频数据、3,000个驾驶场景、600,000视频帧、将近2500万3D多边形和2200万2D多边形标注,而这只是Waygo大量私有自动驾驶数据集中的一小部分。

中国领先的自动驾驶服务提供商Baidu Apollo告诉Synced一个典型的高质量自动驾驶数据集一般包括:

---像素级语义标注

---3D语义标注

---像素级物体类别标注(pixel-wise object instance annotation)

---精准道路分割

---移动物体关系标注

---高精度的GPS/IMO信息

自动驾驶这个领域本身的一些特质,要求自动驾驶相关企业必须制定严格的数据标注标准。当一个语言模型出错时,最多只是句子不通顺。但是一个自动驾驶数据集的错误可能会造成自动驾驶车辆在行驶过程中出现灾难性的后果。

去年UC Berkeley开源了包括100K驾驶录像视频的BDD100K数据集,成为了当时最大的自动驾驶数据集。

Fisher Yu,BDD100K的主要贡献者之一,告诉Synced,出于对传统众包平台糟糕的标注数据质量的担忧,他们选择把标注工作外包给了第三方的数据服务企业。

“传统众包标注员很难交付自动驾驶所需的高质量,高精度的分割数据集,所以企业一般依赖公司内部的标注团队或者第三方的数据标注服务企业”,Yu这样告诉记者,“Garbage in, garbage out”(没有高精度训练数据,就没有高精度模型产出)。

3.

横店影视城,也被称为“中国的好莱坞”,是亚洲最大的电影拍摄基地。它位于浙江省中部,由数千公里的农田改造而成,数以千计的影视工作者在这里拍摄电影、电视剧以及网络剧。

曼孚科技就在这里设立了一个基地。不过他们不是在拍摄电视剧,而是用来专门拍摄和记录演员的面部表情——大笑,哭泣,愤怒等等,这些合法采集的数据可以被AI公司拿来做面部关键点标注的素材。

曼孚科技成立于2018年,随着人工智能在中国的迅猛发展,团队成员已经由最初的几个人扩展到几十人,同时曼孚科技还与数以万计的全职标注员合作。另外,曼孚科技还设有专门的算法团队致力于把最新的AI技术应用到数据标注中。

中国的科技公司在高质量标注数据对算法的重要性方面有着深刻的理解。一些企业在数据标注的精度、复杂性、时间等方面有了更高的要求。去年众多数据标注企业的倒下与他们不能满足这些新的要求有很大关系。

曼孚科技的CEO章越(以下简称“章”)告诉Synced:“回到2015年和2016年,AI企业通过开源数据集或者爬取网络上公开数据训练出来的AI模型就可以获得融资。但是如果他们想把算法应用在现实场景中,就必须提高标注数据质量。”

章以面部关键点识别为例介绍说:“几年以前,标注员只需要在人脸上标注几个点就可以了,但是现在面部关键点标注需要206点:每个眉毛上8个,嘴唇个20多个,脸颊17个等等。”

章继续说道:“领域内的专家在标注中发挥了关键的作用。那些廉价的标注员一般只能标注不需要什么背景知识的数据,对于法律合同分类,医学图像和科学文献等,必须要有相关领域的专业知识才可以做。

一般情况下,有驾驶经验的人比没有驾驶证的人,可以更好更有效的标注自动驾驶的数据集。相同的,有医学,病理学,放射学或者其他医学方面有学术背景的人,可以更准确的标注医学图像。但是领域专家的使用成本可不便宜。”

4.

Wilson Pang是Appen的首席技术官,Appen是一家位于悉尼的标注数据交易公司,拥有180多种语言的专业知识,在130多个国家拥有超过100万名熟练标注员。Pang告诉Synced,当公司购买数据时,成本不再是最重要的决定因素。

“如果数据质量不合格,AI模型的性能将不尽如人意。 当发生这种情况时,人们通常需要再次收集和标注数据,这会浪费大量数据科学家的时间,并增加训练这些模型的硬件成本。”

“但最重要的是,当公司无法得到高质量的训练数据时,他们无法及时推出算法模型,也就不能赶上竞争对手的进度 ”Pang说。 今年3月,Appen以3亿美元的价格收购了位于旧金山的高质量数据标注公司FigureEight(以前称为Crowdflower)。

5.

鲍里索夫在莫斯科国立大学获得计算机科学博士学位。两年前,他联合创立了Supervise.ly,这是一家位于硅谷的创业公司,该公司研发的软件旨在用深度学习模型提高数据标注的效率。 Supervise.ly平台现已被超过15,000家公司和工程师使用,主要来自农业、建筑、消费电子、医疗保健和自动驾驶汽车等行业。

Supervisely.ly是过去几年数据标注潮流中涌现出的众多公司之一。Borisov说最近几年复杂耗时的数据注释工作(如头发分割和视频标注)的需求激增,推动了公司的快速发展。

“在头发分割的过程中需要耗费多少标注员并不重要,重要的是高质量准确像素级的标注。”数据标注软件公司Watchful的联合创始人Singleton说,大多数需要高质量标注数据的公司在数据科学和机器学习专业知识方面本身相对不成熟,而且发展人工智能项目的预算也有限。

相关数据标注页面

“数据标注往往是由一个小型并且已经工作量饱和的数据团队完成的,以致于他们不能专心的研究算法模型,而这个才是真正有意义的工作”,Singleton说。

对于Watchful和Supervise.ly,这些中小型客户代表了一个不断扩大的机器学习工具市场,这些工具可以帮助他们从有限数据中提取尽可能多的信息。根据Grand View Research的一项新研究,全球数据标注工具的市场规模预计在2025年将达到16亿美元。

机器学习辅助数据标注的方式有很多。 Borisov描述了一种“人在环”的图像分割方法,其中用户首先在未标记图像上应用预训练过的分割模型来自动生成大概的轮廓。然后用户手动调整轮廓。其中一个例子是Polygon RNN,这是由多伦多大学和NVIDIA开发的一个研究项目,目的是为分割数据集提供高效标注。

Supervise.ly还设计了一个交互式标注模式。用户首先在一个物体周围画一个框。然后,模型会自动创建粗略的轮廓并预测其类/域。用户可以通过简单的鼠标点击来调整模型的预测 :绿色表示正确的预测;红色表示错误的预测。

Kaggle首席技术官Ben Hamner表示,主动学习是数据标注领域的的另一个热门话题。在最近在旧金山举行的种子奖活动中,Hamner告诉Synced“使用主动学习是为了辨别哪些数据点需要分类或值得标注。这样我们就只需要对机器尚未了解或不确定的数据进行分类。”

6.

学术界在推动数据标注方面的努力:“我怎样才能使用你刚才介绍的数据标注工具?”Huan Ling说这是他今年6月在加利福尼亚州长滩举行的顶级人工智能会议计算机视觉和模式识别(CVPR)2019中听到的最常见问题。

Ling是多伦多大学Vector Institute的研究生。他的研究团队最近发表了使用Curve-GCN进行快速交互式物体标注的文章,该文章已被CVPR 2019接收。该研究的一项重大创新是使用图形卷积网络(GCN)自动勾勒出物体的轮廓。在实验中,这种端到端框架表现优于目前所有自动和交互的模型。

Ling的顾问是Sanja Fidler教授,他是一位受人尊敬的研究员,带领NVIDIA的多伦多AI实验室。她的团队在对象分割和图像标注方面投入了大量精力,并为PolyGon RNN及其改进版PolyGon RNN ++的创建做出了重要贡献。新的GCN方法比PolyGON RNN ++快10倍(在自动模式下)和100倍(在交互模式下)。 Ling的CVPR2019报告会议受到与会者的热烈欢迎。

与Fidler教授的团队一样,谷歌、Adobe、苏黎世联邦理工学院和其他大型AI实验室也对图像和视频标注非常感兴趣,谷歌的Open Image,Adobe的交互式视频分割以及ETH的Dextr代表着对这个领域的强大投资力量。

Ling告诉Synced,数据标注中的难题主要是3D标注和视频标注。 Appen CTO Pang表示,目前基于机器学习的对象跟踪算法已经可以辅助视频标注。标注员在第一帧上标注对象,然后算法通过后续帧跟踪这些对象。标注员只需在算法跟踪功能不正确时调整标注。该方法比没有辅助标注时快100倍。

“监督学习仍然是人工智能解决方案最有效的方法,尤其是那些创新性的系统,而且我认为这种趋势短期不会改变。”

曼孚科技:数据标注,AI背后的百亿市场的更多相关文章

  1. AI数据标注行业面临的5大发展困局丨曼孚科技

    根据艾瑞咨询发布的行业白皮书显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破113亿元,行业年复合增长率达到了23.5%.​ 作为人工智能产业的基石,数据 ...

  2. 破局AI落地难,数据标注行业需率先变革丨曼孚科技

    ​2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业 ...

  3. 曼孚科技:“四管齐下”筑牢AI数据隐私安全防线

    谈及数据,绕不开的一个话题就是数据隐私与数据安全.随着数字化进程加快,数据安全事件频发,据Risk Based Security统计,去年国际数据泄露事件近5000起,被泄露数据近41亿条,数据造成的 ...

  4. 战“疫”背后的AI身影丨曼孚科技

    近期新型冠状病毒肺炎的疫情,牵动着全国上下人民的心. 截止2月11日上午10点,全国确诊人数已达42708人,疑似病例21675人. 突发的疫情让部分地区的快速诊疗能力出现了结构性的缺失,为了打赢这场 ...

  5. 曼孚科技:AI算法领域常用的39个术语(下)

    算法是人工智能(AI)核心领域之一. 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科. 本文为下半部分,上半部分见本账号上一篇文章. 19.迁移学习(Transfer Lear ...

  6. 一文看懂AI深度学习丨曼孚科技

    深度学习(Deep Learning)是机器学习的一种,而机器学习是实现人工智能的必经途径. 目前大部分表现优异的AI应用都使用了深度学习技术,引领了第三次人工智能的浪潮. 一. 深度学习的概念 深度 ...

  7. 曼孚科技:AI算法领域常用的39个术语(上)

    ​算法是人工智能(AI)核心领域之一. 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科. 1. Attention 机制 Attention的本质是从关注全部到关注重点.将有限 ...

  8. 曼孚科技:AI自然语言处理(NLP)领域常用的16个术语

    ​自然语言处理(NLP)是人工智能领域一个十分重要的研究方向.NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法. 本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解 ...

  9. 曼孚科技:AI机器学习领域常用的15个术语

    机器学习是人工智能(AI)的核心,是使计算机具有智能的根本途径.​ 本文整理了一下机器学习领域常用的15个术语,希望可以帮助大家更好的理解这门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多个领 ...

随机推荐

  1. 反弹shell备忘录

    反弹shell备忘录 简单理解,通常是我们主动发起请求,去访问服务器(某个IP的某个端口),比如我们常访问的web服务器:http(https)://ip:80,这是因为在服务器上面开启了80端口的监 ...

  2. centos7安装mysql-5.6.43二进制包

    卸载老版本的MySQL.查找并删除mysql有关的文件 # find / -name mysql # rm -rf /usr/lib64/mysql /usr/share/mysql [root@lo ...

  3. ASPNetCore 发布到IIS

    ASPNetCore 发布到IIS 准备工作 1.1.  安装IIS.(具体操作不再说明) 安装成功后再浏览器输入localhost得到的页面如下 1.2.  安装dotnet-hosting-2.2 ...

  4. Python3标准库:itertools迭代器函数

    1. itertools迭代器函数 itertools包括一组用于处理序列数据集的函数.这个模块提供的函数是受函数式编程语言(如Clojure.Haskell.APL和SML)中类似特性的启发.其目的 ...

  5. python基础入门之四 —— 列表

    1.格式 [数据1,数据2,数据3,...] 列表可以一次性存多个数据,可以为不同的数据类型 2.下标 从0开始循序向下分配 3.常用函数 查找 index():返回指定数据所在位置下标,不存在就报错 ...

  6. github无法访问的解决实践

    无废话版: ----------------------------- 1.复制下面内容,添加到hosts文件里(C:\Windows\System32\drivers\etc)不能修改的话,则把文件 ...

  7. Python核心编程:《8个实践性建议》

    前言 我们在用Python进行机器学习建模项目的时候,每个人都会有自己的一套项目文件管理的习惯,我自己也有一套方法,是自己曾经踩过的坑踩过的雷总结出来的,现在在这里分享一下给大家,因为很多伙伴是接触P ...

  8. JSP其余内置对象及四大范围对象的使用

    一.application String getContextPath():获取虚拟路径String getRealPath():获取虚拟路径对应的绝对路径 实例 application.jsp &l ...

  9. clr from c# 字符 ,字符串 和 文本处理

    1,字符----------在.net中,字符总是16位的Unicode代码值.每个字符都是一个System.Char结构(值类型)的一个实列. using System; public class ...

  10. jmeter导入jmx文件报错:missing class com.thoughtworks.xstream.converters.ConversionException

    有的时候我们会参考别人的jmx文件,但是在导入的时候会报错如下图: 实际上是告诉我们缺少jar包所引起的,下载对应jar包放到jmeter安装目录对应的lib/ext下就可以了,如下图: jmeter ...