色情行业,或许是对信息渠道最敏锐、利用各类信息渠道进行传播最“充分”的“行业”。这些年,社交 App、直播、短视频等新的互联网应用方式,都难逃色情内容的“骚扰”。哪里人多,色情内容就能立刻扑过去,在海量内容的浪潮中输出色情图片、视频等不法内容,严重影响网站、App 的运营安全。高效并准确地鉴别、剔除色情信息成为一项艰巨的任务。

早期对于此类信息,都是通过“鉴黄师”对图片等信息“人工”一张张“智能“识别方式进行审核筛选。人员投入大,效率低下,长期接触此类信息会对审核人员的身心健康造成不良影响。

随着近年来 AI 技术迅猛发展, AI 结合大数据,通过机器学习的分类器算法,取代“人工”,“智能”地对图片、视频等信息审核方式,把“鉴黄师”从职业变成一种“算法”和“模型”。解放人力,并且大大提升处理效率,帮助企业减少投入成本。

人工智能鉴黄——数据、模型、计算

从计算机的角度看,本质上是一个分类问题:给定一张图片,让计算机判断是不是“色情图片”。

△ 图片区分标准

色情:裸露敏感部位,包含露骨镜头,描述性行为和色情场景的图片。

性感:衣着暴露但没有裸露敏感部位。

正常:非色情,非性感图片。

我们要做的就是研发一个“分类器”,它能根据输入的图片计算出该图片属于那种类别的概率,然后再根据这个概率值输出一个“是”或者“否”的结果。众所周知,计算机擅长的是数学运算,所以我们要把这个“分类器”先抽象成某种数学模型,这样才有可能用它来计算,然后通过大数据。利用成千上万的图片样本去“训练”它,根据性别、肤色、姿态、场景、人体比例、身体裸露程度等信息,提取图片中的特征并不断记忆。

利用大数据样本,在学习的过程中不断提高识别精度。得益于近年来计算机性能的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,机器学习可以被广泛运用,大大提升鉴黄效率。

人工神经网络,让鉴黄师自愧不如

机器学习算法有多种,最常见的有朴素贝叶斯分类、SVM 算法、K - 近邻算法和人工神经网络算法,其中又拍云内容识别用的就是人工神经网络算法。下面先来简单介绍下这个算法:

人工神经网络,是一种模仿生物神经网络结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。

△ 人工神经网络

△ 反向传播

反向传播通过梯度下降的算法,运用梯度下降的算法可以找出一组 W 和 B,使得函数 C 最小,在样本上找到最优或者近似最优的 W 和 B ,之后使用 W 和 B 进行预测。

人工神经网络的特性,使之在语音、图片、视频、游戏等各类应用场景展现出了优异的性能,但需要大量的数据进行训练来提高准确性的问题。由于目前所处的互联网时代,数据积累相对比较容易,非常适合机器深度学习。

又拍云内容识别:机器学习与人工审核相结合

内容识别是又拍云基于人工智能、大数据而研发的新型安全解决方案,能实时对多媒体内容(直播、视频、图片等)内容进行鉴别。色情识别的完整过程是将它拿到鉴黄中心鉴别,再把结果发送至图片审核平台进行最终确认。这部分将会随着训练次数的增加而不断减少,帮助企业大幅度节省安全成本,和提高安全处理效率。

△ 内容识别管理后台

又拍云内容识别 VS 鉴黄师

我们以 1 个月 100 万张图片为例,横向比较一下又拍云内容识别 VS 鉴黄师的效率和成本。

效率:又拍云内容识别目前最高的识别速度可达每秒 1 万张,所以审核 100 万张图片,开足马力的话只需要 100 秒,不到 2 分钟。公开报道显示,一个满负荷的鉴黄师每天看图5万张,那么组建一个 10 人规模的鉴黄师团队,审核完 100 万张图片需要 2 天。

费用:同样鉴别 100 万张图片,我们来看下又拍云内容识别“支持版”套餐,5000 元,可以在一年内最多识别 400 万张图片,折合到 100 万张也仅是 1250元 的成本。如果是 10 人的鉴黄师团队……这个人力成本各地有异,我就不算了,但肯定远远高于 1250 元。

其他:又拍云内容识别,开通迅速,配置简单,稳定高效;鉴黄师属于高负荷工作,人员流失率高,一个鉴黄师里还包含了不菲的招聘成本和培训成本。

综合来看,又拍云内容识别服务依托于人工智能,在效率、费用、稳定性上,都领先于鉴黄师团队,实在是社交、直播、短视频等服务安全运营的必备利器。

小福利:又拍云内容识别服务推出永久免费套餐,提供总量 2000 次/天的图片检测,等效于2000 条/天的文本鉴别,或 120 分钟/天的视频点播与视频直播检测。

AI 这么优秀,连我鉴黄师的饭碗都抢了的更多相关文章

  1. AI音乐创作,让每一个人都成为音乐家

    从录音带.MP3到专业的耳机.音箱,随着音乐消费方式的不断升级,音乐创作的专业"门槛"也在AI技术的加持下逐渐大众化,创作者的创新设计.创作频率也在持续增强,能降低创作门槛且智能化 ...

  2. 基于android平台的斗地主AI

    本软件是基于android平台的斗地主AI,我们在源代码的基础之上,旨在改进AI的算法,使玩家具有更丰富的体验感,让NPC可以更为智能. (一)玩法解析: (1)发牌和叫牌:一副扑克54张,先为每个人 ...

  3. AI,如何影响你在看的影视剧和综艺?

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 |  涵的硅谷成长笔记(公众号ID:HanGrowth) 作者 | Han涵 前段时间,作为奥斯 ...

  4. 聊聊找AI算法岗工作

    https://blog.csdn.net/weixin_42137700/article/details/81628028 首先,本文不是为了增加大家的焦虑感,而是站在一名学生的角度聊聊找AI算法岗 ...

  5. 为何谷歌围棋AI AlphaGo可能会把李世石击溃

    /* 版权声明:可以随意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 谷歌DeepMind开发的人工智能围棋程序AlphaGo以5:0的压倒性优势击败了欧洲围棋冠军.专业二 ...

  6. 谷歌AI中国中心成立,人工智能势不可挡?

    昨日,谷歌在上海举办了一年一度的Google中国开发者大会.在本届大会上,谷歌云首席科学家李飞飞宣布了一个重磅消息,即在北京将成立谷歌AI中国中心.对于这个即将成立的AI中心谷歌寄予厚望,希望与中国本 ...

  7. 谷歌 AI 中国中心成立,人工智能势不可挡?

    昨日,谷歌在上海举办了一年一度的Google中国开发者大会.在本届大会上,谷歌云首席科学家李飞飞宣布了一个重磅消息,即在北京将成立谷歌AI中国中心.对于这个即将成立的AI中心谷歌寄予厚望,希望与中国本 ...

  8. 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记

    贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...

  9. 我们为什么不愿意相信AI?

    人工智能--即AI已经变得越来越聪明,甚至能够预测未来.比如警察可以用AI来提前预判出犯罪的时间或地点,医生可以用AI预测病人最有可能心脏病发作或是中风.甚至研究人员还试图为AI添加上更多的想象力,因 ...

随机推荐

  1. 微信小程序之支付密码输入demo

    在小程序中实现支付密码的输入,要解决几个问题: 1.小程序要想唤起键盘,必须要借助input控件.通过input控件和其属性focus来唤起和隐藏输入键盘. 2.要让input控件不可见.让光标和输入 ...

  2. ubuntu 16.04 安装 vscode

    ubuntu 安装 vscode sudo add-apt-repository ppa:ubuntu-desktop/ubuntu-make sudo apt-get update sudo apt ...

  3. java无需解压zip压缩包直接读取包内的文件名(含中文)

    java自带了java.util.zip工具可以实现在不解压zip压缩包的情况下读取包内文件的文件名:(注:只能是ZIP格式的,rar我试了不行)代码如下: public static String ...

  4. tomcat运行后提示Could not create the Java Virtual Machine.

    大致的问题是Java虚拟机(JVM)分配的内存大于系统可用内存,一开始去网上找了些资料,大多是都是说修改MyEclipse安装目录下的elicpse.ini文件中的内存大小.但我试了之后发现然并软,后 ...

  5. C语言的整型溢出问题 int、long、long long取值范围 最大最小值

    类型名称 字节数 取值范围 signed char 1 -128-+127 short int 2 -32768-+32767 int 4 -2147483648-+2147483647 long i ...

  6. CICD - Teamcity 配置之一: 数据库自动部署

    数据库开发过程不是一次完成的,也是一个迭代的过程.如何快速开发和部署新的数据库对象,部署到不同的环境中,还有就是可不可以快速重建数据库对象,这里不包括数据部分. 首先从官网下载Teamcity:htt ...

  7. C++输出

    setiosflags 意思就是设置输入输出的标志iso::fixed 是操作符setiosflags 的参数之一,该参数指定的动作是以带小数点的形式表示浮点数,并且在允许的精度范围内尽可能的把数字移 ...

  8. Oracle导入大数据量(百万以上)dmp文件,报错ora-12592 :包错误

    进行自动化测试过程中,发现需要重新搭建一套自动化测试库,然后利用pl/sql对数据库导出: 进行导入后发现报错ora-12592 :包错误 原因分析,数据量过大,传输超时,需要在Oracle服务端以及 ...

  9. windows系统dos窗口全屏

    第一次进入博客园 2017年12月7日 之前使用dos窗口时都输入的是简短的指令,今天突然感觉小框看着不舒服,就找了一下度娘,在这里感谢万能的百度,一鞠躬. 1.win+r打开dos命令窗口 2.cm ...

  10. C++中几种输入输出cin、cin.getline()、getline()、sscanf()、sprintf()、gets()等

    1.cin和cout cout是输出流对象的名字,cin是输入流对象的名字 ,“<<”是流插入运算符(也可称流插入操作符〉,作用是将需要输出的内容插入到输出流中,默认的输出设备是显示器. ...