近期,第十九届中国图象图形学学会青年科学家会议(简称“会议”)在广州召开。会议由中国图象图形学学会(CSIG)主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。会议面向国际学术前沿与国家战略需求,致力于支持图象图形领域的优秀青年学者,提供学术交流与研讨的平台,促进学者之间的交流与合作,鼓励图象图形领域的“产学研”合作。
 
当下,以大模型为代表的人工智能技术正重塑着千行百业。相较于通用大模型,垂直领域大模型专注于特定场景的数据和知识,在处理复杂、专业的场景问题时具有更高的准确性和效率。垂直领域大模型的作用与发展前景也成为了各界研究的重点。因此,在主办单位中国图象图形学学会的指导下,合合信息联合琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会共同承办了《垂直领域大模型论坛》(简称“论坛”)。论坛汇聚了高校及办公、医疗、工业等多个行业代表性企业的技术专家,共同分享前沿技术成果与实战思路,为大模型在垂直领域中的应用寻找新的落脚点。
 
文档处理是垂直领域大模型的重要研究方向。受制于图像质量低下,版式丰富,文字字体、颜色多样等因素的影响,文档图像智能分析与理解能力的大幅度提升面临着挑战。2023年9月,继GPT-4后,Open AI发布了具有视觉功能的多模态模型GPT-4V(V即“Vision”),具备突出的文档图像理解能力,引起行业广泛关注。
 
论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析,并对公司在智能文档处理领域的研究工作进行了分享。
 
丁凯表示,GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。相对应地,GPT-4V在中文、手写公式,场景文字识别,表格识别上存在缺陷;面对多栏目、表格等复杂版式的文档时,大模型的处理效果距离当前SOTA(State Of The Art)的方法尚有较大差距。

 
 
 
“在智能文档处理领域,大模型支持识别和理解的文档元素类型远超传统算法,大幅度拓展了AI技术在文档分析与识别领域的能力边界,端到端实现了文档从识别到理解的全过程。不足在于,目前大模型的OCR精度距离领域最佳模型有较大差距,长文档依赖外部的文档解析引擎。”丁凯认为,技术公司可以把“感知”层面的事情做好,让大模型更好地去做“认知”,这种融合研究范式在智能文档处理领域中具有积极的意义。
 
目前,合合信息-华南理工大学文档图像分析识别与理解联合实验室针对大模型文档处理中的像素级OCR统一模型、OCR大一统模型等重点技术方向进行了深入研究,相关工作成果在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。此外,实验室还通过创新的文档识别分析与LLM(自然语言模型)应用设计,充分利用序列预测的优势,更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。
 
合合信息是一家人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案,为全球企业和个人用户提供创新的数字化、智能化服务。通过自然语言处理(NLP)、计算机视觉(CV)、深度学习等人工智能技术,合合信息智能文档处理系统可实现“文档导入-图像处理-文字检测与识别-信息抽取-数据验证-语义检索与摘要”全流程智能化处理,相关产品及解决方案已在全球范围内被应用于金融业、物流业、制造业等多个行业中。

CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式的更多相关文章

  1. 微信小程序——demo合集及简单的文档解读【五】

    官方Demo https://github.com/wechat-miniprogram/miniprogram-demo 其他Demo https://www.cnblogs.com/ytkah/p ...

  2. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  3. Tidyverse|数据列的分分合合,爱恨情仇

    Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...

  4. 【Python自动化Excel】pandas处理Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  5. 【Python自动化Excel】pandas操作Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  6. 如何教你在NIPS会议上批量下载历年的pdf文档(另附04~14年NIPS论文下载链接)

    如何获得NIPS会议上批量下载的链接? NIPS会议下载网址:http://papers.nips.cc/ a.点击打开上述网站,进入某一年的所有会议,例如2014年,如下图 b.然后对着当前网页点击 ...

  7. 03-组合逻辑电路设计之译码器——小梅哥FPGA设计思想与验证方法视频教程配套文档

    芯航线——普利斯队长精心奉献 课程目标:    1. 再次熟悉Quartus II工程的建立以及完整的FPGA开发流程 2. 以译码器为例学会简单组合逻辑电路设计 实验平台:无 实验原理: 组合逻辑, ...

  8. 合工大OJ 1331 回文数

    Description 一个正整数,如果从左向右读(称之为正序数)和从右向左读(称之为倒序数)是一样的,这样的数就叫回文数. 任取一个正整数,如果不是回文数,将该数与他的倒序数相加,若其和不是回文数, ...

  9. 关于上架AppStore最后一步的“出口合规信息”、“内容版权”、“广告标识符”的选择(转)

    这里只当作记录:http://blog.csdn.net/ashimar_a/article/details/51745675

  10. Tokyocabinet/Tokyotyrant文档大合集

    1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...

随机推荐

  1. C# 轻量级 ORM 框架 NPoco 的简单应用

    目录 简介 快速入门 安装 NuGet 包 实体类User 数据库类DbFactory 增删改查 Insert Select Update Delete 总结 简介 NPoco 是 PetaPoco ...

  2. 小程序-云数据库的add,get,remove,update

    云数据库的使用就是使用简单的原生封装wx.cloud.database().collection("list"),然后就是add,get,remove,update四个方法 初始化 ...

  3. Java 知识总结大汇总!看完哪个都变大佬!

    免费编程资源大全项目:https://github.com/liyupi/free-programming-resources 大家好,我是鱼皮,今天分享 十几个 让人直呼 "哇塞" ...

  4. NOIP2023

    坐标HA 背景 打完CSP-S后觉得自主招生稳了,就想着NOIP摆烂,所以此游记仅仅是为了凑数. 正文 Day 0 不出所料,机房统一集训,但是在CSP集训后导致的期中挂分的影响下,这一想法被家长以及 ...

  5. JavaScript小面试~href和src的区别

    href:中文名称叫超文本引用 src:中文叫资源 先要知道它们两个的区别,我们首先要看哪些元素在使用这些属性. href:a,link src:img,style,input,script,ifra ...

  6. vue 路由缓存 keep-alive include和exclude无效

    <keep-alive :include="keepAliveData"> <router-view v-if="isShowRouter" ...

  7. 【Java】Collection 集合框架概述

    Collection 集合框架概述 1.集合.数组都是为了存储数据而产生的 2.为什么需要集合?为了更灵活方便的存储数据,且集合能存储的容量比数组更大 3.存储的概念还停留在内存活动范围内,也只是短暂 ...

  8. 【H5】11 表格

    概述: 在HTML中一个很普通的任务是构建表格数据,有大量的元素和属性是来满足这种需求的. 只需要一点儿的CSS来设定风格,HTML让在web上显示表格数据变的很容易,例如你的学校的教学计划,你当地的 ...

  9. python高性能计算:cython入门代码

    三种实现的对比: (1)纯python x.py def is_prime(num): for j in range(2, num): if (num%j)==0: return False retu ...

  10. mybatis-plus系统化学习之查询专题

    1.背景 查询在实际生产中用得最多,也最灵活. 2.查询案例 表结构: CREATE TABLE `sys_user` ( `id` int(32) NOT NULL AUTO_INCREMENT C ...