面向视频的全新AI架构 —— 阿里云智能视觉技术全解
我们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都需要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型。如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题。
市场上的AI服务非常多,但是在视觉领域,通用的AI服务主要是基于图像的架构来做的,视频时代已经到来,基于图像的AI架构是否还能被广泛应用?阿里云视频云团队专注于视频领域,所以在针对视频的AI处理方面也有独特的思考和实践。3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,阿里云高级计算专场周源针对图像和视频的AI处理有什么不同?团队是如何基于视频构建全新的AI架构?针对AI大量的数据、训练效果不够好、时间与成本消耗大等痛点,他们如何解决等以上问题做了悉数解答。
一、市场上通用的图像架构是怎样的?
市场上大部分AI的服务,输入的都是图像,也就是图片文件,是基于图片进行处理。在业界,图像的算法比较成熟,数量也较多,从大类来看有图像分类、检测、识别、分割等等。大部分AI服务的架构也是基本类似,一般包含图像算法层、引擎框架层、资源管理层、硬件基础层,之后基于各自的业务领域知识,构建一个面向特定领域的AI推理服务,然后通过API提供对外的访问。
二、挑战:视频与图像的不同
随着现在视频(直播、点播、短视频)的越来越广泛应用,内容从原先的图像分析升级到视频分析。因为复用已有的技术以及架构的改造成本等等因素,一般的AI服务一般会保持现有的框架,不同是把视频转换成图像来进行处理。一般做法是按照固定的时间间隔采样截取视频的图像信息,这样整个服务架构不需要做任何改动,只是在最上面一层增加了视频帧截取和结果汇聚的服务。
当然,这个架构在视频时代就会存在很多问题:
1. 时效性差
因为增加了视频截帧和结果汇聚这样的中间操作,所以处理时间长;视频下载下来,处理后图片再上传,网络传输也会导致时效性变差;举个例子,在相同画质下,使用一张张图片组成的视频,和H.264编码的视频,大小的比是10:1,图片是10倍于视频的存储量。
2. 稳定性
视频截帧一般会采用开源的FFmpeg,如果遇到问题需要解决,比较依赖于开源社区。比如格式和编码的兼容性、直播、点播中遇到数据异常、时间戳不准、定制协议、分辨率切换、卡死等。
3. 复杂性高
把视频转换成批量的图片,就需要对这些临时的图片进行管理,另外还涉及顺序处理、异步操作、网络抖动等问题,需要关注的非核心业务功能就要求非常多,导致业务系统整体的复杂性变高。
4. 信息丢失
截帧是一种采样,会引起信息丢失,丢失的信息中很有可能包含了关键图像。另外,截帧的处理是对没有时间信息的图像结果的简单累加,效果也不理想。
既然有这么多问题,基于视频的AI计算该怎么做呢?
三、阿里云解决方案:面向视频的新架构
周源所在的阿里云视频云团队,具有多年音视频编解码、媒体处理相关技术经验,他们推出的面向视频的新架构是:把视频作为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程能够大幅度缩短处理时间,从时间维度提升分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。
新架构具有以下几个特点:
1. 时效性高
相较于之前多余的截帧、上传等一系列操作,新方案不产生临时图片,同时能减轻存储的带宽和空间需求。能充分利用视频的并行分片机制,大幅度缩短整体处理时间。
2. 复杂性低
面向视频的架构,视频处理和AI计算集成在一起,简化了对图片的处理过程,进而简化整个处理逻辑,降低复杂度。
3. 稳定性高
阿里云视频云团队是具有10多年丰富视频处理经验的专业团队,兼容性、运维各种问题都不需要用户考虑。
4. 效果更佳
对离散的图像结果按照时间的关系进行更合理的汇聚,获得更优的效果。
四、AI应用的痛点和解法
周源团队自研的新架构很好的解决了图像AI架构时效性差、稳定性差、复杂度高、效果不佳的问题。然而在AI的应用上,开发者也会关注到一些其他问题,比如:
- 目前,分类算法有ResNet、Inception、VGG等等,识别算法有FasterRCNN、SSD、YOLO等等,物体检测、人脸识别算法也有很多,那么如何选择最适合自己的呢?
- 针对自身业务标注数据,需要大量人力投入,同时真实数据少,采集十分困难,通常需要花费非常多的视觉才能够收集足够多的数据,怎么办?
- 每次模型训练时间长、反馈慢,训练好的模型更是需要复杂的上线流程,整体业务反馈太慢,怎么办?
智能视觉产品针对关键的数据和时间问题,给出了如下解法:
1. 选择最合适的算法
基于阿里巴巴在视频和AI领域的长期积累,已经帮大家选择好了算法,现在推出的是分类和识别,之后将推出更多算法。
2. 迁移学习——少量数据快速训练
迁移学习的基本原理是,根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征,并且通过在浅层网络中复用这些基础特征,来减少标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减少数据需求,进一步减少计算量,达到缩短新模型训练时间的效果,使业务迭代更快。
3. 数据增广——少量数据更优效果
在深度学习层面,在其他条件相同的情况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果一定需要更多的数据,这需要花费大量的人力去标注。
智能视觉采用数据增广策略,增加数据的多样性,加强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增加数据量的同时保持增广数据的真实性,实现了少量数据情况下效果增强10-15%的训练效果,同时有效降低标注数据的人力和时间成本。
智能视觉可以帮助零算法基础的用户,快速训练自己领域的定制化模型,仅需要少量标注数据,完成快速的模型生成、增强的场景效果,并将训练模型转换成高可用、弹性可扩展的视频AI服务,让用户能够以最低的成本实现AI技术的落地。
目前智能视觉已经支持图像分类、物体检测、直播识别等AI能力,可应用在视频监控、互联网短视频内容识别归类、新零售物件统计、工业质检、农业养殖、医疗诊断等场景。
本文作者:樰篱
本文为云栖社区原创内容,未经允许不得转载。
面向视频的全新AI架构 —— 阿里云智能视觉技术全解的更多相关文章
- 新一代视频AI服务 —— 阿里云智能视觉重磅发布
3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,本次产品发布会首次面向全网用户深入的解读了智能视觉的前世今生. 行业背景 随着人工智能的技术不断成熟,AI逐渐在各行业内落地.在新零售领 ...
- 阿里云智能推荐AIRec产品介绍
一.智能推荐(AIRec)简介 AIRec背景介绍 智能推荐(简称AIRec)基于阿里巴巴集团领先的大数据和人工智能技术,结合阿里巴巴在电商.内容.新闻.视频直播和社交等多个行业领域的积累,为全球企业 ...
- 本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛
摘要: 本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云.混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责 ...
- 阿里云96页报告详解《云上转型》(10个案例、10大趋势/完整版PPT)
阿里云96页报告详解<云上转型>(10个案例.10大趋势/完整版PPT) 2017-12-29 14:20阿里云/云计算/技术 ﹃产业前沿超级干货﹄ ﹃数据观○重磅速递﹄ 阿里云研究中心云 ...
- 阿里云智能数据构建与管理 Dataphin公测,助力企业数据中台建设
阿里云智能数据构建与管理 Dataphin (下简称“Dataphin”)近日重磅上线公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客 ...
- 短视频服务大PK,阿里云、腾讯云、又拍云、七牛云、金山云5强横向对比
继直播后,短视频又再次爆发,在这个风口,国内的各大云厂商也都相继推出了自己的一站式短视频解决方案.上周由于公司短视频功能开发的需要,对比了阿里云.腾讯云.又拍云.七牛云.金山云5家的短视频服务. 先介 ...
- 智慧航空AI大赛-阿里云算法大赛总结 第一赛季总结
[以前的文章]最后一公里极速配送 - 阿里云算法大赛总结 总结一下新的教训 1.由于都是NP难题,获得最优解用常规的方法非常困难,对于不是算法科班出身的人来说,首先应该到网络上寻找一下论文,是否有一些 ...
- 阿里云杨敬宇:边缘计算行业通识与阿里云ENS的技术演进之路
近日,阿里云杨敬宇在CSDN阿里云核心技术竞争力在线峰会上进行了<5G基础设施-阿里云边缘计算的技术演进之路>主题演讲,针对5G时代下,行业和技术的趋势.边缘计算产业通识以及阿里云边缘计算 ...
- 阿里云部署SSL证书详解
http://mp.weixin.qq.com/s/NV7Zad4DVEgzG2GCHYJVLw 查找中间证书 为了确保兼容到所有浏览器,我们必须在阿里云上部署中间证书,如果不部署证书,虽然安装过程可 ...
随机推荐
- Ajax.NET-Professional
https://github.com/michaelschwarz/Ajax.NET-Professional Ajax.NET Professional Ajax.NET Professional ...
- redis学习笔记04-事务
1.redis事务 事务实际上指的是一组命令的集合,执行时会按顺序串行的执行,中途不能加入其它命令.它用来解决批处理需求. 在redis中的基本使用如下: >multi ok >incr ...
- 15分钟构建超低成本数据大屏:DataV + DLA
第一步:准备低成本存储的业务数据和DLA表 OSS(https://www.aliyun.com/product/oss)是云上低成本数据存储的优选方案 DLA(https://www.aliyun. ...
- uni-app开发微信小程序引入UI组件库(Vant-weapp)步骤
uni-app开发微信小程序引入UI组件库(Vant-weapp)步骤 这里以vant-weapp为例 uni-app官方文档介绍引入组件的方法 1. 新建相关目录 根目录下创建 wxcomponen ...
- 实现一个函数clone,使JavaScript中的5种主要的数据类型(包括Number、String、Object、Array、Boolean)进行值复制
实现一个函数clone,可以对JavaScript中的5种主要的数据类型(包括Number.String.Object.Array.Boolean)进行值复制. 1 /** 对象克隆 2 * 支持基本 ...
- js数组操作方法
数组的操作方法在js中可谓是诸子百家,各种某乱的方法让人眼花缭乱,有时候就会分不清什么是自带的什么是曾今写的api了 数组的增删 1 . push() , pop() 和 shift() unshi ...
- java 的安装
下载 java的官方下载地址:https://www.java.com/zh_CN/ 安装 下载完成后,可以按照默认安装路径,也可以自行设置安装路径.例如我的安装路径为:D:\Program File ...
- 006-使用python编写一个猜数字的程序
题目:随机生成一个数字,共有三次机会对该数字进行猜测. #功能点# 1.猜错的时候给出提示,告诉用户输入的值是大了还是小了# 2.最多提供三次机会# 3.随机生成需要猜的数字答案 编写思路: 1.刚开 ...
- 备忘录模式(Memento、Originator、Caretaker)(状态保存,备份恢复)
定义:在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态.这样就可以将该对象恢复到原先保存的状态 类型:行为类 类图: 我们在编程的时候,经常需要保存对象的中间状态,当需要的时 ...
- python基础--闭包and装饰器
闭包函数:函数内部定义的函数:引用了外部变量但非全局变量 装饰器:有了闭包的概念再去理解装饰器就会相对容易一些.python装饰器本质上就是一个函数,它可以让其他函数在不需要做任何代码变动的前提下增加 ...