背景知识

近些年随着机器学习、深度学习等技术的不断发展,人工智能在越来越多的场景得到了应用,如人脸识别、图像识别、语音识别、语音生成、自然语言处理、决策分析等等,让机器拥有了听、说、看和思考的能力,很大程度上解放了原来需要耗费的巨大人力,提高了生产力。

正因为如此,现在越来越多的行业和场景,想要拥有人工智能,作为自己业务的重要部分。在过去,想要实现自己的人工智能,需要组建人工智能算法团队、采集大量的数据并做标记、再经过长时间大数据量的训练后得出模型,这是一个漫长且高成本的过程。尤其是大量的数据采集和标记,对于大部分团队来说是不现实的。所以后来市面上就出现了很多把某项人工智能能力封装好的 SDK,这些团队把模型训练封装后,以收取授权费的方式提供给使用方,在这方面人脸识别 SDK 和 OCR SDK 算是较早成型的产品,Face++ 和商汤等团队都做过这样的实现。这样就很大程度上降低了人工智能引入的成本,让应用场景可以快速落地和运行,不过这种实现慢慢的也展现出一些弊端,因为数据模型本身的体积大、不易更新等问题,应用在接入几个不同能力的 SDK 后,体积就会变得很大,而且只能通过重新发布才能接入新的 SDK,所以后来就出现了基于云服务的 API 形式,运算过程和模型都在云端,应用中只需要通过认证和 API 调用就可以完成人工智能服务的使用,随着 5G 网络传输速度的提升和云服务器运算能力的不断提升,云服务中的人工智能被广泛的运用起来。

在各大云服务中,AWS、Azure、Google Cloud 和国内的阿里云、腾讯云、京东云、百度云等都提供了很丰富的人工智能服务。而 Microsoft Azure 认知服务,算是其中实现全面性和效果都很不错的一个,我们针对它做一下更详细的分析。

服务概述

Azure 认知服务是基于微软 Azure 云服务的 AI 能力的集合,开发者可以使用它快速使用人工智能服务,主要分为视觉、语音、语言、Web 搜索和决策五个部分,每个部分包含了一下服务能力。

官网介绍:https://azure.microsoft.com/zh-cn/services/cognitive-services/

1. 视觉

视觉是现在市面上非常常用的 AI 能力,国内的 AI 四小龙旷视、商汤、云从、依图都是从计算机视觉,或者更具体的人脸识别开始的。视觉主要会覆盖人脸识别、人脸检测、人体检测、物体识别、证件识别、文字识别等等。

而微软 Azure 认知服务的定义是识别和确定你的图片、视频和数字墨迹内容,为它们添加描述文字和索引,并审查这些内容,服务范围包括了:计算机视觉、自定义视觉服务、人脸、表单识别器、墨迹识别器和视频索引器。

计算机视觉 - 通用的计算机图像识别分类能力,对开发者提供的图像进行处理并返回图像的信息,包括标签、分类和识别等,通常会用于图像分类、图像打标签和图像三鉴等;

自定义视觉服务 - 自定义视觉是一种认知服务,用于生成、部署和改进自己的图像分类器。 这项服务的特点是支持用户自定义的图像数据集和标签分类,对于没有机器学习训练环境的开发者还是很实用的;

人脸 - 人脸相关的 AI 能力,主要包括人脸检测和人脸识别。这项能力被广泛的应用在人群分析、人脸身份验证、刷脸支付、根据人脸的相册分组等场景;

表单识别器 - 该服务使用机器学习技术从表单文档中识别和提取文本、键值对和表数据。 它会引入表单中的文本并输出包含原始文件中的关系的结构化数据;

墨迹识别器 - 识别输入中的形状和手写内容,以墨迹笔划为输入内容,输出为识别后的结果数据;

视频索引器 - 根据多个通道(语音、声乐、视觉对象)使用机器学习模型来提取视频中的深度见解,在很多 UGC 视频平台中,可以方便的为用户作品进行索引和标签化,并能很方便的检测视频的合法合规性等;

2. 语音

语音服务也是用途很广泛的服务能力,国内的讯飞、思必驰等公司都是在语音方面很有建树的公司,语音服务一般会包括语音识别、语音合成等方向。

微软的语音服务,主要包括语音识别、语音合成、发音人识别和检测等,服务包括:语音服务、说话人识别。

语音服务 - 语音服务主要包括语音识别、语音合成、语音翻译、语音助手等功能;常见的语音搜索就是利用了语音识别功能,而语音合成主要用户机器由文字合成语音,高德的地图播报使用的就是语音合成功能,语音翻译主要是实现对语音输入进行分析和翻译,而语音助手比如 Siri、Cortana 等利用的就是 bot 对用户语音的识别和分析等;

说话人识别 - 说话人识别主要包括说话人检测和说话人识别能力,分别为了解决是不是真人在说话和是谁在说话的问题,常用在语音验证信息的真人验证和说话人身份识别;

3. 语言

语言服务主要用于语言内容理解、文本内容分析等,通过该服务可以很好地进行语言内容的理解和关键信息分析提取、语言的情绪分析等。

微软的语言服务,主要包括语言理解、QnA Maker、文本分析、文本翻译。

语言理解 - 可将自定义机器学习智能应用到自然语言文本,以便预测整体含义并提炼出相关的详细信息;

QnA Maker - 一个基于云的自然语言处理 (NLP) 服务,它可以轻松地基于数据创建自然对话层。 使用该服务可以基于自定义的信息知识库 (KB),针对任何给定的自然语言输入查找最适当的回答;

文本分析 - 一种基于云的服务,它对原始文本提供高级自然语言处理,并且包含四项主要功能:情绪分析、关键短语提取、语言检测和实体识别;

文本翻译 - 文本翻译是一种基于云的机器翻译服务,使用先进的神经机器翻译技术并提供统计机器翻译技术;

4. 搜索

搜索服务的应用场景很多,可以实现对网页、文字、图像、视频和新闻能内容的搜索,在很多应用场景中可以基于搜索内容做进一步处理。

微软的搜索服务包括必应新闻搜索、必应视频搜索、必应 Web 搜索、必应自动建议、必应自定义搜索、必应实体搜索、必应图像搜索、必应视觉搜索、必应当地企业搜索和必应拼写检查。通过这些服务的名称,很容易能发现服务的能力范围,比如必应视频搜索,就是基于搜索词对视频内容和标签进行的搜索,而必应图像搜索,显然是针对图像集的搜索。

5. 决策

决策服务主要是基于 AI 能力对决策进行支持,包括对决策风险的分析和检测,基于数据对决策进行数据支撑分型、个性化分析决策支撑等场景。

微软的决策服务包括异常探测器、内容审查器和个性化体验创建服务。

异常探测器 - 可以使用异常检测器 API 来监视并检测与机器学习配合使用的时序数据中的异常。 异常检测器 API 可以自动标识最佳适配模型并将其应用到数据,不限行业、场景或数据量,通过这种方式进行适应;

内容审查器 - 一项认知服务,用于检查文本、图像和视频中是否存在可能的违规性内容、有风险内容或其他令人不适的内容,该审查器会用到文本分析和图像检测、视频索引器等基础能力;

个性化体验创建服务 - 根据你提供的有关内容和上下文的实时集合信息,从内容项中选择最佳项,常见的应用场景包括千人千面的个性化推荐等;

结语

上面通过简单的文字描述,介绍了 Azure 认知服务的概况,接下来会针对各种不同的服务进行更深入的分析、基础使用方式介绍和基于实际场景的用法分析等。

Azure 认知服务概述的更多相关文章

  1. 技术博客:Azure 认知服务

    Azure 认知服务 1.概述 ​ 微软认知服务(Microsoft Cognitive Services)集合了多种智能API以及知识API,使每个开发人员无需具备机器学习的专业知识就能接触到 AI ...

  2. Azure 认知服务 (2) 计算机视觉API - 分析图像

    <Windows Azure Platform 系列文章目录> 在上一节内容中,笔者介绍了微软认知服务的概览. 在本节中,笔者将详细介绍微软认知服务中的一种:计算机视觉 (Computer ...

  3. Azure 认知服务 (5) 计算机视觉API - 使用C#代码实现读取图片中的文字(OCR)功能

    <Windows Azure Platform 系列文章目录> 在笔者之前的文章:Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR) 介绍了使用用户界面,在海 ...

  4. Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR)

    <Windows Azure Platform 系列文章目录> 微软Azure认知服务的计算机视觉API,还提供读取图片中的文字功能 在海外的Windows Azure认知服务的读取图片功 ...

  5. Azure认知服务之Face API上手体验

    Azure认知服务:Face API Face API是Azure认知服务之一,Face API有两个主要功能: 人脸检测 Face API可在图像中以高精度人脸位置检测多达64个人脸.图像可以通过文 ...

  6. Azure 认知服务 (3) 计算机视觉API - 分析图像,使用C#代码

    <Windows Azure Platform 系列文章目录> 在上一节中Azure 认知服务 (2) 计算机视觉API - 分析图像,笔者介绍了如何使用API测试控制台进行调试. 本章将 ...

  7. Azure认知服务的实际应用-资讯采集推送

    Azure认知服务的实际应用-资讯采集推送 演示 实现的是通过使用各种azure服务,每天自动获取资讯.博客,定时推送到公众号的功能! 微信公众号搜索TechViews,或直接扫描二维码关注,每天推送 ...

  8. Azure 认知服务--计算机视觉 API - 分析图像

    在本节中,笔者将详细介绍 Azure 认知服务中的一种:计算机视觉 (Computer Vision) API. 我的一个客户有需求,他们需要消费者与自己的产品合照,然后上传到服务器并转发到朋友圈. ...

  9. Azure认知服务之表格识别器

    认知服务 Azure 认知服务的目标是帮助开发人员创建可以看.听.说.理解甚至开始推理的应用程序. Azure 认知服务中的服务目录可分为五大主要支柱类别:视觉.语音.语言.Web 搜索和决策.开发人 ...

随机推荐

  1. win7+oracle11,vmbox中winxp连接

    重启TNSLSNR  打开CMD,输入以下命令. lsnrctl stop lsnrctl start lsnrctl stat /////////////////////////////////// ...

  2. 一张图帮你记忆,Spring Boot 应用在启动阶段执行代码的几种方式

    前言 有时候我们需要在应用启动时执行一些代码片段,这些片段可能是仅仅是为了记录 log,也可能是在启动时检查与安装证书 ,诸如上述业务要求我们可能会经常碰到 Spring Boot 提供了至少 5 种 ...

  3. 20191024-3 互评Alpha阶段作品——扛把子组

    此作业要求参见:https://edu.cnblogs.com/campus/nenu/2019fall/homework/9860 基于NABCD评论作品,及改进建议 1.根据(不限于)NABCD评 ...

  4. 洛谷$P4884$ 多少个1? 数论

    正解:$BSGS$ 解题报告: 传送门$QwQ$ 首先看到这个若干个一,发现不好表示,考虑两遍同时乘九加一,于是变成$10^n\equiv 9\cdot K+1(mod\ m)$ 昂然后不就是$bsg ...

  5. $Poj3714/AcWing\ Raid$ 分治/平面最近点对

    $AcWing$ $Sol$ 平面最近点对板子题,注意要求的是两种不同的点之间的距离. $Code$ #include<bits/stdc++.h> #define il inline # ...

  6. Linux开发环境及应用—《第一、二周单元测验》

    一单元 使用more命令逐屏显示文本文件时,使得显示内容上滚一行而不是滚动一屏,应按下哪个键? 回车 Linux中用来实现计数功能,比如:统计系统有多少个登录用户,实现计数功能的命令是: wc -l ...

  7. 1092 最好吃的月饼 (20分)C语言

    月饼是久负盛名的中国传统糕点之一,自唐朝以来,已经发展出几百品种. 若想评比出一种"最好吃"的月饼,那势必在吃货界引发一场腥风血雨-- 在这里我们用数字说话,给出全国各地各种月饼的 ...

  8. 1044 火星数字 (20 分)C语言

    火星人是以 13 进制计数的: 地球人的 0 被火星人称为 tret. 地球人数字 1 到 12 的火星文分别为:jan, feb, mar, apr, may, jun, jly, aug, sep ...

  9. EF 学习系列二 数据库表的创建和表关系配置(Fluent API、Data Annotations、约定)

    上一篇写了<Entity Farmework领域建模方式 3种编程方式>,现在就Code First 继续学习 1.数据库表的创建 新建一个MVC的项目,在引用右击管理NuGet程序包,点 ...

  10. InnoDB与MyISAM的区别(高性能MySQL笔记)

    1.InnoDB支持事务,MyISAM不支持,也就是说MyISAM不支持事务回滚操作,这个功能可能是致命的 2.InnoDB支持行锁,MyISAM只支持表锁,不过InnoDB的行锁是建立在索引之上的, ...