简介： ModelScope上开源了达摩院众多业界最强多模态模型，其中就有首超人类的多模态视觉问答模型mPLUG，小编从页面体验（一探）、开发体验（二探）、开放测试（三探）来探究多模态预训练模型能力。

ModelScope上开源了达摩院众多业界最强多模态模型，其中就有首超人类的多模态预训练视觉问答模型mPLUG，小编激动的搓搓小手，迫不及待的体验了一下。

一探：浅草才能没马蹄

市面上有好多号称“用户上手简单”，“一步到位”，“傻瓜式”，但是真的，如果不懂两三行代码，没有一些机器学习基础，不趟几次浑水，是真的没办法上手的。浅草才能没马蹄，ModelScope真的做到了，一步即可体验，所见即所得，没有任何的冗余，如丝般顺滑的的在线体验。

一步，点击「执行测试」，有手就行!

那么这个号称超人类的模型怎么样呢？小编马上开始测试模型！就拿小编最近去西双版纳的图片来测试！！！西双版纳是中国热带生态系统保存最完整的地区，素有“植物王国”、“动物王国”、“生物基因库”、“植物王国桂冠上的一颗绿宝石”等美称。同时西双版纳还有好多好吃的，舂鸡脚、泰国菜、孔雀宴、老挝冰咖啡、小菠萝、傣式烧烤等等。

测完之后，真服了，真的是全知全能的问答模型，无论问物种、问数量、问位置，模型都能回答出来。图中小编刚认识的睡莲(lily pads)--泰国的国花都是精准无比，还有图4也能把背景中大象也能识别出来，实在太厉害了！

小编又想了个办法，我要测试孔雀&孔雀舞，这下终于难倒了模型！

二探：觉知此事要躬行

遇到这么强的模型，小编当然想深刻了解一下，觉知此事要躬行嘛！其实是想自己拥有一个，将来出去玩的时候可以把导游费给省了。ModelScope也为我考虑到了，右上角「在Notebook中打开」，点它！这里有CPU环境和GPU环境，看到GPU，小编眼睛都直了，这不就是和3090Ti齐名的V100，如此高性能的GPU，羊毛党果断薅一下。

测试过程非常流程，只需要会import就能实现整体流程，小编也整理了相关代码放出来可以使用！

###

!pwd

!mkdir data

!wget http://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/visual-question-answering/visual_question_answering.png -O data/visual_question_answering.png

###

from PIL import Image

image = Image.open('data/visual_question_answering.png')

image.show()

###

from PIL import Image

from modelscope.pipelines import pipeline

from modelscope.utils.constant import Tasks

model_id = 'damo/mplug_visual-question-answering_coco_large_en'

input_vqa = {

    'image': Image.open('data/visual_question_answering.png'),

    'question': 'What is grown on the plant?',

}

pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)

print(pipeline_vqa(input_vqa))

为了方便大家，小编也把运行中间步骤展示出来，这样无论是小白还是新手，都可以玩起来了。

离部署只差最后一步了，用gradio就可以满足你，按照文档提示即可完成。

三探：无招胜有招

多模态预训练模型mPLUG是建立在千万图文数据预训练的基础上，小编就想探究下模型是不是真的都学会了吗？最近文本生成图像模型DALLE和扩散模型开始如火如荼根据文本生成各种想象的图片，小编就想对于这些生成出来的图片，视觉问答模型mPLUG还可以正确回答吗？会不会因为没见过类似的样本就没有办法回答呀？

小编先尝试了对大名鼎鼎的DALLE生成的图像进行问答，DALLE是OpenAI放出的文本生成图像模型，取名DALL-E，是为了向艺术家萨尔瓦多-达利（Salvador Dali ）和皮克斯的机器人WALL-E致敬。测试之后，看看下面的结果，连艺术家dali都能识别出来，不愧是见多识广，知识也太渊博了！

###

from modelscope.msdatasets import MsDataset

# from icecream import ic

dataset = MsDataset.load('vqa_trial', subset_name='vqa_trial', split="test")

print(dataset[0])

def resize_img(img):

    # set the base width of the result

    basewidth = 300

    # determining the height ratio

    wpercent = (basewidth/float(img.size[0]))

    hsize = int((float(img.size[1])*float(wpercent)))

    # resize image and save

    img = img.resize((basewidth,hsize), Image.ANTIALIAS)

    return img

resize_img(dataset[0]['image']).show()

###

from PIL import Image

from modelscope.pipelines import pipeline

from modelscope.utils.constant import Tasks

model_id = 'damo/mplug_visual-question-answering_coco_large_en'

pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)

for item in dataset:

    input_vqa = {

        'image': item['image'],

        'question': item['question'],

    }

    answer = pipeline_vqa(input_vqa)

    resize_img(item['image']).show()

    print('Q: ' + item['question'])

    print('A: ' + answer['text'])

同时小编也拿了ModelScope上的文生图模型进行测试，测试结果如下：

可以看到视觉问答模型mPLUG具有非常强的泛化能力，针对各种生成的图片，各个不同领域的来源，都能回答正确。这就是训练了千万次，理解了视觉特征之后，达到了“无招胜有招”，实际测试中就可以融会贯通!

结语

到这里就结束了，赶紧上ModelScope一键体验超人类的视觉问答模型，一键直达：https://www.modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en/summary 。

原文链接：https://click.aliyun.com/m/1000357088/

本文为阿里云原创内容，未经允许不得转载。

【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类的更多相关文章

五分钟轻松搞定产品需求文档！这可能史上最全PRD文档模板
本文由 @JustWu 原创发布于社区为什么写这篇文章? 第一:写PMCAFF的PRD文档,大家都是用户,比较好参考与理解,方便大家来找我写的不好的地方. 第二:我在自学PRD文档的编写过程中,总 ...
5分钟让你理解K8S必备架构概念，以及网络模型（上）
写在前面在这用XMind画了一张导图记录Redis的学习笔记和一些面试解析(源文件对部分节点有详细备注和参考资料,欢迎关注我的公众号:阿风的架构笔记后台发送[导图]拿下载链接, 已经完善更新): ...
2018ccpc湖南邀请赛后记
第一次出省去打邀请赛,赛前给队友定的目标是打个铜,这样奖金就可以报销我们的伙食费了 5.12 热身赛,ak的心态冲进去,爆零逃出来 (为什么热身赛没有签到题啊),出来一度以为这场比赛要打铁,毕竟老远过 ...
深度视觉盛宴——CVPR 2016
小编按: 计算机视觉和模式识别领域顶级会议CVPR 2016于六月末在拉斯维加斯举行.微软亚洲研究院在此次大会上共有多达15篇论文入选,这背后也少不了微软亚洲研究院的实习生的贡献.大会结束之后,小编第 ...
十分钟学会 tmux
tmux 是一款终端复用命令行工具,一般用于 Terminal 的窗口管理.在 macOS 下,使用 iTerm2 能应付绝大多数窗口管理的需求. 如上图所示,iTerm2 能新建多个标签页(快捷键 ...
Zabbix中获取各用户告警媒介分钟级统计
任务内容: 获取Zabbix各用户告警媒介分钟级统计,形成趋势图,便于观察各用户在每分钟收到的告警数量,在后续处理中,可以根据用户在某时间段内(例如3分钟内)收到的邮件总数,来判断是否有告警洪水的现象 ...
[转] - spark推荐 - 从50多分钟到3分钟的优化
原文地址从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要 ...
Vue.js 60 分钟快速入门
Vue.js 60 分钟快速入门转载作者:keepfool 链接:http://www.cnblogs.com/keepfool/p/5619070.html Vue.js介绍 Vue.js是当下 ...
不会几个框架，都不好意思说搞过前端： Vue.js - 60分钟快速入门
Vue.js——60分钟快速入门 Vue.js是当下很火的一个JavaScript MVVM库,它是以数据驱动和组件化的思想构建的.相比于Angular.js,Vue.js提供了更加简洁.更易于理 ...
返回日期格式：2017-12-03T13:58:58.901Z，判断时间间隔如 “刚刚”，“一分钟前”，“一小时前”等
后台返回的格式如下: 实现输出如下: 我的处理如下: // 处理数据 2017-11-28T02:41:09.487Z // 请求的时间戳.日期格式按照ISO8601标准表示,并需要使用UTC时间. ...

随机推荐

如何在forEach内使用异步调用 async/await
翻自: How to use async and await in a forEach JS loop? https://learn.coderslang.com/0144-how-to-use-as ...
[置顶] linux与windows之间传输文件工具rz上传大文件失败问题解决方案
rz,sz是Linux/Unix同Windows进行ZModem文件传输的命令行工具. windows端需要支持ZModem的telnet/ssh客户端(比如SecureCRT),运行命令rz即是接收 ...
记录-new Date() 我忍你很久了！
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助大家平时在开发的时候有没被new Date()折磨过?就是它的诸多怪异的设定让你每每用的时候,都可能不小心踩坑.造成程序意外出错,却一下子 ...
Flux中的map、flatMap、concatMap的区别
flatMap.map和concatMap都是在Flux中用于进行数据转换和处理的方法,但它们在处理元素和顺序上有一些区别: map方法: map方法用于对Flux中的每个元素进行一对一的转换. 对于 ...
FPT：又是借鉴Transformer，这次多方向融合特征金字塔 | ECCV 2020
论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强.借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各 ...
程序员/后端开发方向Java 跳槽注意事项（简历和面试经验分享）
程序员/后端开发方向Java 跳槽注意事项(简历和面试经验分享) 应届生面试经验参考:https://www.cnblogs.com/rainbow-1/p/16779048.html 简历: 1.个 ...
详解SSL证书系列(8)了解HTTPS及和HTTP的区别
上一篇我们介绍了HTTP协议的三大缺点,那么怎么避免和解决HTTP的缺点呢,是时候请出我们的HTTPS了,那HTTPS和HTTP有什么区别呢? HTTP加上加密处理和认证以及完整性保护后即是HTTPS ...
WPF实现树形表格控件(TreeListView)
前言本文将探讨如何利用WPF框架实现树形表格控件,该控件不仅能够有效地展示复杂的层级数据,还能够提供丰富的个性化定制选项.我们将介绍如何使用WPF提供的控件.模板.布局.数据绑定等技术来构建这样一个 ...
Zookeeper解决了什么问题？
在公司中用到了zookeeper协调分布式系统,在这里记录下. (一). 首先是什么? 是一种适用于分布式应用程序的高性能协调服务.它在一个简单的界面中公开常见服务(如命名.配置管理.同步和组服务), ...
2024-04-06：用go语言，给你两个非负整数数组 rowSum 和 colSum，其中 rowSum[i] 是二维矩阵中第 i 行元素的和， colSum[j] 是第 j 列元素的和，换言之你
2024-04-06:用go语言,给你两个非负整数数组 rowSum 和 colSum, 其中 rowSum[i] 是二维矩阵中第 i 行元素的和, colSum[j] 是第 j 列元素的和,换言之你 ...

【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类

一探：浅草才能没马蹄

二探：觉知此事要躬行

三探：无招胜有招

结语

【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类的更多相关文章

随机推荐

热门专题