搜索NLP行业模型和轻量化客户定制
简介:开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用。
特邀嘉宾:
徐光伟(昆卡)--阿里巴巴算法专家
搜索NLP算法
搜索链路
这是一个完整的从查询词到搜索结果的链路, 其中NLP算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP 算法模块,如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等。系统是结合文本和语义向量多路召回排序的架构,从而满足不同业务场景的搜索效果需求。当然除了查询分析,在第一阶段的搜索引导以及第四阶段的排序服务中也有很多NLP 算法的应用。
查询分析
NLP 算法主要在这里的几个子模块发挥作用:

- 分词,精准的分词可以提高检索效率,也会让召回结果更加精准,
- 拼写纠错,对用户输入的query中出现拼拼写错误可以自动去纠错,提高搜索的体验。
- 实体识别,可以对query 中的每个词打上对应的实体标签,从而为后续的query改写和排序提供关键的特征。
- 词权重模型,会对每个词打上高、中、低的档位,在查询结果时去做丢词的重查。
- 同义词,扩展出相同意思的词来扩大召回范围。
- 最后是经过完整的查询分析模块之后的一个整体的query改写,将用户输入的query转换成我们搜索引擎能识别到的查询串。
现在开放搜索不仅支持了阿里自研的搜索引擎,也对开源的ES引擎做了兼容,可以让用户更方便的使用到我们的算法能力。
行业模型
客户痛点
1.通用模型领域适配难
- 通用模型主要解决新闻资讯行业问题;
- 在具体行业上效果会大打折扣;
例如:通用领域和电商领域的模型的区别
2.公开行业模型少
- 云服务产商基本只提供通用模型
- 公开行业数据集也主要覆盖通用领域
解决难度
构建一个行业搜索NLP 模型的流程:
- 首先是标注数据集这一步对于行业知识的要求非常高,同时对于数据量的要求也需要达到万级别,标注这样的数据同时也需要数个月的时间。
- 接着是模型训练,这一步是需要有专业的算法人员,如果不是对算法不熟悉的话,模型的迭代效率会很低
- 最后是模型上线这一步需要工程人员去部署运维,如果涉及到深度模型的一些上线,还会有很多效率优化的工作需要去做。在数据集标注阶段其实就已经存在了很多的挑战。
分词标注难点
1.领域知识要求高
例如:
- 药物的名称:利多卡因氯己定气雾剂 | 利多卡因 氯己定 气雾剂
- 地址:南召县四棵树乡王营村 | 南召 县 四棵树 乡 王营 村
2.交叉歧义判断难
例如:
- 洗衣服粉 | 洗衣 服 粉
实体识别标注难点
1.领域知识要求高
例如:
- 澳洲爱他美(母婴品牌)金装一段、科比(球鞋系列)4
- pytorch实现GAN(算法模型)
解决方法
开放搜索基于阿里巴巴内部搜索的数据积累,结合自动化数据挖掘和自研的算法模型,对行业模型的构建链路做了一个改造。
同样是以分词和NER为例,下面模型图是分词的流程。我们首先通过自动的新词发现算法去挖掘目标领域的领域新词,得到这些新词之后,我们会在目标领域上去构建一个远程监督的训练数据。
基于这样的远程监督训练数据,我们提出了一个对抗学习网络的结构模型,结构可以达到降噪的效果,从而去年得到一个我们目标领域的领域模型。
下面的模型图是NER的流程,我们采用了结合图神经网络的graph NER的模型结构,它可以融合知识库和标注数据。 知识库是由刚才分词的链路中新词发现模块自动挖掘出的新词,然后我们做一个自动的实体词打标,从而去构建出领域的知识库。对应的技术论文我们都已经发表在NLP 领域顶会ACL上。
小结一下,通过上面提到的技术方案,以电商行业为例,看一下开放搜索行业模型上达到的效果。
可以看到开放搜索的电商行业增强版都明显比通用版效果会好很多。
这套方案不仅仅适用于电商行业,只要是有数据积累的行业,都可以快速构建出一套行业模型。
开放搜索轻量化客户定制
客户痛点
首先可以看到通用模型直接使用大概能达到一个60分的效果。
刚刚提到的行业模型,适用能力可以达到80分的效果。
但具体到每个客户又存在细分领域的定制问题。 一般客户的目标可能是要达到90分。
比如下面的两个例子:
- 左边的这个“万斯汽水系列”,这其实是一个球鞋的一个具体的品牌和系列名称, 虽然开放搜索电商模型已经可以把品牌和普通词识别正确,但是对于汽水这个具体的细分的系列并没有正确的识别好。
- 下面右边的这个例子是“汉本萃葆蔚饮品”。这里开放搜索的电商模型完全没有识别出其中特有的品牌和它的子系列,客户在我们提供的行业模型基础上如果去做自主的定制优化一样会遇到上面介绍行业模型解决方案时的那些问题,从而最终很难去突破85分,

我们的目标是减少客户的标注成本,完全无标注或者少量简单的标注,让客户的定制会更加易用,从而直接达到一个85分的效果。
解决思路
整体的流程和行业模型构建链路类似,要把这些能力产品工具化让客户可以自主参与调优。
1.新建训练模型
下图是我们做的一个工具demo,上面是创模型,创建部分客户可以选择基础的行业模型,然后上传自己的领域无标注的数据就可以自动的开始模型的训练。
2.效果评估
下面是模型训练之后客户可以在我们的系统上面去做一个直观的效果评估,可以看到这里会列出基础的模型和以及自动训练之后的模型的效果的变化,客户也可以去做少量的人工标注来验证模型的效果。
这个链路目前已经在阿里内部使用,近期还会在开放搜索的产品上透出给到客户,原来我们去做一个轻量化的客户定制达到上述效果可能需要一到两个月的时间,还需要去标注1万句以上的这些标注数据。现在的话基于这套方案只需要一周的时间,完全无标注或者只需要去标注1000个此以内的标注数据就可以达到这样的效果。
轻量化定制效果展示
我们的工具可以自动发现出场景中的这些新词,并对这些新词做实体标签的预测,可以看到括号中的这些新词是在不同的上下文中预测出的,标签的一个分布从而指导我们去判断这个新词它是否是一个合法的新词,以及它属于的实体标签到底是什么,为我们的模型去提供最关键的信息。
地址场景
电商场景
原文链接
本文为阿里云原创内容,未经允许不得转载。
搜索NLP行业模型和轻量化客户定制的更多相关文章
- CNN结构演变总结(二)轻量化模型
CNN结构演变总结(一)经典模型 导言: 上一篇介绍了经典模型中的结构演变,介绍了设计原理,作用,效果等.在本文,将对轻量化模型进行总结分析. 轻量化模型主要围绕减少计算量,减少参数,降低实际运行时间 ...
- 新上线!3D单模型轻量化硬核升级,G级数据轻松拿捏!
"3D模型体量过大.面数过多.传输展示困难",用户面对这样的3D数据,一定不由得皱起眉头.更便捷.快速处理三维数据,是每个3D用户对高效工作的向往. 在老子云最新上线的单模型轻量化 ...
- MobileNet——一种模型轻量化方法
导言 新的CNN网络的提出,提高了模型的学习能力但同时也带来了学习效率的降低的问题(主要体现在模型的存储问题和模型进行预测的速度问题),这使得模型的轻量化逐渐得到重视.轻量化模型设计主要思想在于设计更 ...
- 基于WebGL/Threejs技术的BIM模型轻量化之图元合并
伴随着互联网的发展,从桌面端走向Web端.移动端必然的趋势.互联网技术的兴起极大地改变了我们的娱乐.生活和生产方式.尤其是HTML5/WebGL技术的发展更是在各个行业内引起颠覆性的变化.随着WebG ...
- 轻量化模型之MobileNet系列
自 2012 年 AlexNet 以来,卷积神经网络在图像分类.目标检测.语义分割等领域获得广泛应用.随着性能要求越来越高,AlexNet 已经无法满足大家的需求,于是乎各路大牛纷纷提出性能更优越的 ...
- 适配抖音!三角面转换和3d模型体量减小,轻量化一键即可完成!
抖音3d特效,可谓是越来越火爆了,这个有着迪士尼画风的3D大眼,就刷屏了国内外用户的首页! 有人好奇这些特效究竟是怎么制作的?其实就是把3D模型调整适配到头部模型上,调整位置或者大小就可以制作出一个简 ...
- 倾斜摄影3D模型|手工建模|BIM模型 轻量化处理
一.什么是大场景? 顾名思义,大场景就是能够从一个鸟瞰的角度看到一个大型场景的全貌,比如一个园区.一座城市.一个国家甚至是整个地球.但过去都以图片记录下大场景,如今我们可以通过建造3D模型来还原大场景 ...
- 3D模型轻量化
近几年,随着国内外文化产业的迅猛发展,3D建模行业迎来黄金发展期. 尤其是在元宇宙时代及数字体验经济时代的大背景下,越来越多的实时.可交互的3D内容将出现在人们的生活中. 有关3D建模师而言,无疑,行 ...
- 轻量化模型之SqueezeNet
自 2012 年 AlexNet 以来,卷积神经网络在图像分类.目标检测.语义分割等领域获得广泛应用.随着性能要求越来越高,AlexNet 已经无法满足大家的需求,于是乎各路大牛纷纷提出性能更优越的 ...
- 轻量化模型:MobileNet v2
MobileNet v2 论文链接:https://arxiv.org/abs/1801.04381 MobileNet v2是对MobileNet v1的改进,也是一个轻量化模型. 关于Mobile ...
随机推荐
- django(web框架推导、简介、数据库初识)
一 web框架推导 1 软件开发架构 cs架构bs架构bs本质是也是cs # HTTP协议:无状态,无连接,基于请求,基于tcp/ip的应用层协议 # mysql:c/s架构,底层基于soket,自己 ...
- 记录--Vue中前端导出word文件
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 很多时候在工作中会碰到完全由前端导出word文件的需求,因此特地记录一下比较常用的几种方式. 一.提供一个word模板 该方法提供一个wo ...
- vscode插件设置——Golang开发环境配置
适用读者: Go初学者, 到这里, 你应该是处于已经完成了 go 的安装之后, 准备写个 "Hello Gopher" 之前. 本篇力求给初学者-未来的Gopher 们 一个正确的 ...
- 从0开始设计_基于STM32F1的RC522读写卡
从0开始设计_基于STM32F1的RC522读写卡 1.介绍看网上很多RC522的教程都是基于读卡ID的,这个对于很多应用来说其实没有什么用,最近刚好有个项目需要读写卡,而RC522又是非常常用的且不 ...
- C# OpenCvSharp 轮廓检测
效果 代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data ...
- Unity 2022.3.20f1新功能,异步实例化预制体Object.InstantiateAsync
今天查看Unity 2022.3.20f1更新日志,发现新增了个异步实例化的功能,这个功能解决了Unity历史上实例化预制体卡顿的痛点,简直不要太爽. 具体的API文档请点击跳转. 做了个简单的实例化 ...
- ET介绍——分布式Actor模型
Actor模型 Actor介绍 在讨论Actor模型之前先要讨论下ET的架构,游戏服务器为了利用多核一般有两种架构,单线程多进程跟单进程多线程架构.两种架构本质上其实区别不大,因为游戏逻辑开发都需要用 ...
- .net 发邮件的小工具,包含json,环境变量,命令行参数三种配置方式
一.业务需求 在工作中遇到一个场景,软件bug或功能发布之后,会通知测试进行测试,要求写一个小工具能自动发送邮件,功能包含发送和抄送支持多个,因为只是通知没有写进附件功能,这个其他博客都有搜一下就可以 ...
- #01背包#洛谷 2340 [USACO03FALL]Cow Exhibition G
题目 有\(n\)个物品,对于第\(i\)个物品, 有两种属性,第一种属性为\(x_i\),第二种属性为\(y_i\) 问选择若干个物品使得\(\sum{x_j}\geq 0\)且\(\sum{y_j ...
- OpenHarmony 3.1 Release版本关键特性解析——ArkUI框架又有哪些新增能力?
ArkUI 是一套 UI 开发框架,它提供了开发者进行应用 UI 开发时所必须的能力.随着 OpenAtom OpenHarmony(以下简称"OpenHarmony") 3.1 ...