Azure 认知服务概述
背景知识
近些年随着机器学习、深度学习等技术的不断发展,人工智能在越来越多的场景得到了应用,如人脸识别、图像识别、语音识别、语音生成、自然语言处理、决策分析等等,让机器拥有了听、说、看和思考的能力,很大程度上解放了原来需要耗费的巨大人力,提高了生产力。
正因为如此,现在越来越多的行业和场景,想要拥有人工智能,作为自己业务的重要部分。在过去,想要实现自己的人工智能,需要组建人工智能算法团队、采集大量的数据并做标记、再经过长时间大数据量的训练后得出模型,这是一个漫长且高成本的过程。尤其是大量的数据采集和标记,对于大部分团队来说是不现实的。所以后来市面上就出现了很多把某项人工智能能力封装好的 SDK,这些团队把模型训练封装后,以收取授权费的方式提供给使用方,在这方面人脸识别 SDK 和 OCR SDK 算是较早成型的产品,Face++ 和商汤等团队都做过这样的实现。这样就很大程度上降低了人工智能引入的成本,让应用场景可以快速落地和运行,不过这种实现慢慢的也展现出一些弊端,因为数据模型本身的体积大、不易更新等问题,应用在接入几个不同能力的 SDK 后,体积就会变得很大,而且只能通过重新发布才能接入新的 SDK,所以后来就出现了基于云服务的 API 形式,运算过程和模型都在云端,应用中只需要通过认证和 API 调用就可以完成人工智能服务的使用,随着 5G 网络传输速度的提升和云服务器运算能力的不断提升,云服务中的人工智能被广泛的运用起来。
在各大云服务中,AWS、Azure、Google Cloud 和国内的阿里云、腾讯云、京东云、百度云等都提供了很丰富的人工智能服务。而 Microsoft Azure 认知服务,算是其中实现全面性和效果都很不错的一个,我们针对它做一下更详细的分析。
服务概述
Azure 认知服务是基于微软 Azure 云服务的 AI 能力的集合,开发者可以使用它快速使用人工智能服务,主要分为视觉、语音、语言、Web 搜索和决策五个部分,每个部分包含了一下服务能力。
官网介绍:https://azure.microsoft.com/zh-cn/services/cognitive-services/
1. 视觉
视觉是现在市面上非常常用的 AI 能力,国内的 AI 四小龙旷视、商汤、云从、依图都是从计算机视觉,或者更具体的人脸识别开始的。视觉主要会覆盖人脸识别、人脸检测、人体检测、物体识别、证件识别、文字识别等等。
而微软 Azure 认知服务的定义是识别和确定你的图片、视频和数字墨迹内容,为它们添加描述文字和索引,并审查这些内容,服务范围包括了:计算机视觉、自定义视觉服务、人脸、表单识别器、墨迹识别器和视频索引器。
计算机视觉 - 通用的计算机图像识别分类能力,对开发者提供的图像进行处理并返回图像的信息,包括标签、分类和识别等,通常会用于图像分类、图像打标签和图像三鉴等;
自定义视觉服务 - 自定义视觉是一种认知服务,用于生成、部署和改进自己的图像分类器。 这项服务的特点是支持用户自定义的图像数据集和标签分类,对于没有机器学习训练环境的开发者还是很实用的;
人脸 - 人脸相关的 AI 能力,主要包括人脸检测和人脸识别。这项能力被广泛的应用在人群分析、人脸身份验证、刷脸支付、根据人脸的相册分组等场景;
表单识别器 - 该服务使用机器学习技术从表单文档中识别和提取文本、键值对和表数据。 它会引入表单中的文本并输出包含原始文件中的关系的结构化数据;
墨迹识别器 - 识别输入中的形状和手写内容,以墨迹笔划为输入内容,输出为识别后的结果数据;
视频索引器 - 根据多个通道(语音、声乐、视觉对象)使用机器学习模型来提取视频中的深度见解,在很多 UGC 视频平台中,可以方便的为用户作品进行索引和标签化,并能很方便的检测视频的合法合规性等;
2. 语音
语音服务也是用途很广泛的服务能力,国内的讯飞、思必驰等公司都是在语音方面很有建树的公司,语音服务一般会包括语音识别、语音合成等方向。
微软的语音服务,主要包括语音识别、语音合成、发音人识别和检测等,服务包括:语音服务、说话人识别。
语音服务 - 语音服务主要包括语音识别、语音合成、语音翻译、语音助手等功能;常见的语音搜索就是利用了语音识别功能,而语音合成主要用户机器由文字合成语音,高德的地图播报使用的就是语音合成功能,语音翻译主要是实现对语音输入进行分析和翻译,而语音助手比如 Siri、Cortana 等利用的就是 bot 对用户语音的识别和分析等;
说话人识别 - 说话人识别主要包括说话人检测和说话人识别能力,分别为了解决是不是真人在说话和是谁在说话的问题,常用在语音验证信息的真人验证和说话人身份识别;
3. 语言
语言服务主要用于语言内容理解、文本内容分析等,通过该服务可以很好地进行语言内容的理解和关键信息分析提取、语言的情绪分析等。
微软的语言服务,主要包括语言理解、QnA Maker、文本分析、文本翻译。
语言理解 - 可将自定义机器学习智能应用到自然语言文本,以便预测整体含义并提炼出相关的详细信息;
QnA Maker - 一个基于云的自然语言处理 (NLP) 服务,它可以轻松地基于数据创建自然对话层。 使用该服务可以基于自定义的信息知识库 (KB),针对任何给定的自然语言输入查找最适当的回答;
文本分析 - 一种基于云的服务,它对原始文本提供高级自然语言处理,并且包含四项主要功能:情绪分析、关键短语提取、语言检测和实体识别;
文本翻译 - 文本翻译是一种基于云的机器翻译服务,使用先进的神经机器翻译技术并提供统计机器翻译技术;
4. 搜索
搜索服务的应用场景很多,可以实现对网页、文字、图像、视频和新闻能内容的搜索,在很多应用场景中可以基于搜索内容做进一步处理。
微软的搜索服务包括必应新闻搜索、必应视频搜索、必应 Web 搜索、必应自动建议、必应自定义搜索、必应实体搜索、必应图像搜索、必应视觉搜索、必应当地企业搜索和必应拼写检查。通过这些服务的名称,很容易能发现服务的能力范围,比如必应视频搜索,就是基于搜索词对视频内容和标签进行的搜索,而必应图像搜索,显然是针对图像集的搜索。
5. 决策
决策服务主要是基于 AI 能力对决策进行支持,包括对决策风险的分析和检测,基于数据对决策进行数据支撑分型、个性化分析决策支撑等场景。
微软的决策服务包括异常探测器、内容审查器和个性化体验创建服务。
异常探测器 - 可以使用异常检测器 API 来监视并检测与机器学习配合使用的时序数据中的异常。 异常检测器 API 可以自动标识最佳适配模型并将其应用到数据,不限行业、场景或数据量,通过这种方式进行适应;
内容审查器 - 一项认知服务,用于检查文本、图像和视频中是否存在可能的违规性内容、有风险内容或其他令人不适的内容,该审查器会用到文本分析和图像检测、视频索引器等基础能力;
个性化体验创建服务 - 根据你提供的有关内容和上下文的实时集合信息,从内容项中选择最佳项,常见的应用场景包括千人千面的个性化推荐等;
结语
上面通过简单的文字描述,介绍了 Azure 认知服务的概况,接下来会针对各种不同的服务进行更深入的分析、基础使用方式介绍和基于实际场景的用法分析等。
Azure 认知服务概述的更多相关文章
- 技术博客:Azure 认知服务
Azure 认知服务 1.概述 微软认知服务(Microsoft Cognitive Services)集合了多种智能API以及知识API,使每个开发人员无需具备机器学习的专业知识就能接触到 AI ...
- Azure 认知服务 (2) 计算机视觉API - 分析图像
<Windows Azure Platform 系列文章目录> 在上一节内容中,笔者介绍了微软认知服务的概览. 在本节中,笔者将详细介绍微软认知服务中的一种:计算机视觉 (Computer ...
- Azure 认知服务 (5) 计算机视觉API - 使用C#代码实现读取图片中的文字(OCR)功能
<Windows Azure Platform 系列文章目录> 在笔者之前的文章:Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR) 介绍了使用用户界面,在海 ...
- Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR)
<Windows Azure Platform 系列文章目录> 微软Azure认知服务的计算机视觉API,还提供读取图片中的文字功能 在海外的Windows Azure认知服务的读取图片功 ...
- Azure认知服务之Face API上手体验
Azure认知服务:Face API Face API是Azure认知服务之一,Face API有两个主要功能: 人脸检测 Face API可在图像中以高精度人脸位置检测多达64个人脸.图像可以通过文 ...
- Azure 认知服务 (3) 计算机视觉API - 分析图像,使用C#代码
<Windows Azure Platform 系列文章目录> 在上一节中Azure 认知服务 (2) 计算机视觉API - 分析图像,笔者介绍了如何使用API测试控制台进行调试. 本章将 ...
- Azure认知服务的实际应用-资讯采集推送
Azure认知服务的实际应用-资讯采集推送 演示 实现的是通过使用各种azure服务,每天自动获取资讯.博客,定时推送到公众号的功能! 微信公众号搜索TechViews,或直接扫描二维码关注,每天推送 ...
- Azure 认知服务--计算机视觉 API - 分析图像
在本节中,笔者将详细介绍 Azure 认知服务中的一种:计算机视觉 (Computer Vision) API. 我的一个客户有需求,他们需要消费者与自己的产品合照,然后上传到服务器并转发到朋友圈. ...
- Azure认知服务之表格识别器
认知服务 Azure 认知服务的目标是帮助开发人员创建可以看.听.说.理解甚至开始推理的应用程序. Azure 认知服务中的服务目录可分为五大主要支柱类别:视觉.语音.语言.Web 搜索和决策.开发人 ...
随机推荐
- js实现php函数urlencode
原文链接:https://www.cnblogs.com/xiaochaohuashengmi/archive/2010/05/28/1746168.html 本文介绍了php函数urlencode的 ...
- PHP四大主流框架的优缺点总结
本篇文章我们来讲讲PHP四大框架的优缺点都有哪些,让你们在开发中更好的去选择使用哪款PHP框架去完成项目,废话不多说,我们一起来看看吧!! ThinkPHP ThinkPHP(FCS)是一个轻量级的中 ...
- 【题解】LOJ2759. 「JOI 2014 Final」飞天鼠(最短路)
[题解]LOJ2759. 「JOI 2014 Final」飞天鼠(最短路) 考虑最终答案的构成,一定是由很多飞行+一些上升+一些下降构成. 由于在任何一个点上升或者下降代价是一样的,所以: 对于上升操 ...
- 关于面试题:[1, 2, 3].map(parseInt)问题的剖析
一.前言 最近有小伙伴在公号中咨询了胡哥这道面试题,窃以为是比较有意思的一道面试题,于此分享给各位小伙伴.先把答案给了各位,和你理解的一样吗?! [1, 2, 3].map(parseInt) // ...
- 小白学 Python 爬虫(36):爬虫框架 Scrapy 入门基础(四) Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 2019 年百度之星 初赛一 1002 Game
传送门 Problem Description 度度熊在玩一个好玩的游戏.游戏的主人公站在一根数轴上,他可以在数轴上任意移动,对于每次移动,他可以选择往左或往右走一格或两格.现在他要依次完成 n 个任 ...
- UGUI之MaskableGraphic
MaskableGraphic继承自Graphic,并且继承了IClippable, IMaskable, IMaterialModifier三个接口.它是RawImage.Image和Text的父类 ...
- 使用rabbitmq手动确认消息的,定时获取队列消息实现
描述问题 最近项目中因为有些数据,需要推送到第三方系统中,因为数据会一直增加,并且需要与第三方系统做相关交互. 相关业务 本着不影响线上运行效率的思想,我们将增加的消息放入rabbitmq,使用另一个 ...
- pair 数组
当有两个元素需要绑定在一起的时候可以用结构体 , 此时也可以用 pair 数组去替代结构体 . 定义 : pair<int, double> p1; //使用默认构造函数 pair< ...
- 图解kubernetes调度器抢占流程与算法设计
抢占调度是分布式调度中一种常见的设计,其核心目标是当不能为高优先级的任务分配资源的时候,会通过抢占低优先级的任务来进行高优先级的调度,本文主要学习k8s的抢占调度以及里面的一些有趣的算法 1. 抢占调 ...