歧义问题方面,笔者一直比较关注利用词向量解决歧义问题:

也许你寄希望于一个词向量能捕获所有的语义信息(例如run即是动车也是名词),但是什么样的词向量都不能很好地进行凸显。

这篇论文有一些利用词向量的办法:Improving Word Representations Via Global Context And Multiple Word Prototypes(Huang et al. 2012)

解决思路:对词窗口进行聚类,并对每个单词词保留聚类标签,例如bank1, bank2等

来源于笔者的笔记: NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用)


那么在CIPS2016 中文信息处理报告《第二章 语义分析研究进展、现状及趋势》第三节 技术方法与研究现状

P16-P17中提到了一些词义消岐的记载。

词义消歧的研究通常需要语义词典的支持,因为词典描述了词语的义项区分。英语的词义消歧研究中使用的词典主要是ordNet,而中文使用的词典有HowNet,以及北京大学的“现代汉语语义词典”等。

除词典外,词义标注语料库标注了词的不同义项在真实文本中的使用状况,为开展有监督的词义消歧研究提供了数据支持。常见的英文词义标注语料库包括Semcor(普林斯顿大学标注)、DSO(新加坡国立大学标注)以及用于Senseval 评测的语料库等。在中文方面,哈尔滨工业大学和北京大学分别基于HowNet 和北大“现代汉语语义词典”标注了词义消歧语料库。

词义消歧的研究是自然语言处理的一项基础关键,根据所使用的资源类型不同,可以将词义消歧方法分为以三类:


1、基于词典的词义消歧

基于词典的词义消歧方法研究的早期代表工作是Lesk 于1986 的工作。给定某个待消解词及其上下文,该工作的思想是计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。但由于词典中词义的定义通常比较简洁,这使得与待消解词的上下文得到的覆盖度为0,造成消歧性能不高。


2、有监督词义消歧

有监督的消歧方法使用词义标注语料来建立消歧模型,研究的重点在于特征的表示。常见的上下文特征可以归纳为三个类型:(1)词汇特征通常指待消解词上下窗口内出现的词及其词性;

(2)句法特征利用待消解词在上下文中的句法关系特征,如动-宾关系、是否带主/宾语、主/宾语组块类型、主/宾语中心词等;

(3)语义特征在句法关系的基础上添加了语义类信息,如主/宾语中心词的语义类,甚至还可以是语义角色标注类信息。

最近随着深度学习在自然语言处理领域的应用,基于深度学习方法的词义消歧成为这一领域的一大热点。深度学习算法自动的提取分类需要的低层次或者高层次特征,避免了很多特征工程方面的工作量。


3、无监督和半监督词义消歧

虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。为了克服对大规模语料的需要,半监督或无监督方法仅需要少量或不需要人工标注语料。

例如Yarowsky(1995)仅需要使用少量的人工标注语料作为种子数据,Ng 等(2003)从词对齐的双语语料抽取种子数据。Resnik(1997)根据词的不同歧义往往也体现在句法搭配上的差异这一思想,通过计算“语义优选强度”和“选择关联度”在大规模语料中自动获取句法结构的语义优选,然后用之于词义消歧。

一般说来,虽然半监督或无监督方法不需要大量的人工标注数据,但依赖于一个大规模的未标注语料,以及在该语料上的句法分析结果。另一方面,待消解词的覆盖度可能会受影响。

例如,Resnik(1997)仅考察某部分特殊结构的句法,只能对动词、动词的主词/宾语、形容词修饰的名词等少数特定句去位置上的词进行消歧,而不能覆盖所有歧义词。

.

.


延伸一:谷歌让机器更懂语言的博大精深,发布最大消歧语料库(2017-1-19)

「he will receive stock in the reorganized company」,这个句子中,我们结合上下词就能知道,「stock」在这里是股票的意思,我们可以从牛津字典中找到更为专业的解释。

但是同样在牛津字典中,stock 这个词还有超过 10 个不同的含义,比如「(商店里的)库存」或是「(鞭子、钓竿等的) 柄」。对于计算机算法而言,如何从博大精深的含义中找寻某个句子中对应的词义?这的确是一个词义消歧难题,也就是 AI-Complete 问题。

今天谷歌研究院又发出了重磅新闻,他们发布了基于 MASC&SemCor 数据集的大规模有监督词义消歧语料。这些语料会与牛津字典上的例句做映照,广泛适用于各个社区。与此同时,本次发布也是最大的全句释义语料库之一。

  1. 有监督词义消歧

人们通过对句子中词语的内容进行理解,因为我们能通过常识判断上下文的含义。比如同样一个例子,「『stock』 in a business」代表的自然是股票的意思,而「『stock』 in a bodega」更有可能是库存的意思,即使这里的 bodega 也可能指酒窖生意。我们希望为机器提供足够的背景信息,并应用于理解文本中词语的含义。

有监督词义消歧(WSD)尝试解决这一问题,也就是让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。我们希望构建这样的一个监督模型,能够不考虑复杂语境,并匹配句中单词在词典中最可能表达的含义。虽然这一点富有挑战,但监督模型在大量训练数据支持下表现良好。

通过发布数据集,我们希望社区能够提出更好的算法,让机器对自然语言产生更深刻的理解,支持以下的应用:

从文本中自动搭建数据库存,这样一来,机器可以回答问题,并将文档中的知识串联起来。举个例子,机器在经过学习后,明白「hemi engine」指的是一种自动化的机械;而「locomotive engine」则与火车有关。也能理解「Kanye West is a star」指的是名人的意思;而「Sirius is a star」则是天文学概念。

消除歧义。我们希望让文本在查询中能够呈现不同的含义,避免张冠李戴,与此同时还能返回具有相关语义的文档。

来源雷锋网,文章《谷歌让机器更懂语言的博大精深,发布最大消歧语料库》

cips2016+学习笔记︱NLP中的消岐方法总结(词典、有监督、半监督)的更多相关文章

  1. ArcGIS案例学习笔记-点集中最近点对和最远点对

    ArcGIS案例学习笔记-点集中最近点对和最远点对 联系方式:谢老师,135-4855-4328,xiexiaokui@qq.com 目的:对于点图层,查找最近的点对和最远的点对 数据: 方法: 1. ...

  2. 《Cocos2d-x游戏开发实战精解》学习笔记3--在Cocos2d-x中播放声音

    <Cocos2d-x游戏开发实战精解>学习笔记1--在Cocos2d中显示图像 <Cocos2d-x游戏开发实战精解>学习笔记2--在Cocos2d-x中显示一行文字 之前的内 ...

  3. cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

    在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的"词向量"(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一 ...

  4. 电磁兼容性设计学习笔记--PCB中地的布局

    http://bbs.ednchina.com/BLOG_ARTICLE_3010439.HTM PCB上元器件的布局对整个PCB板的电磁兼容性影响很大,所以从事硬件电路设计的工程师很有必要学习PCB ...

  5. JavaScript学习笔记——JS中的变量复制、参数传递和作用域链

    今天在看书的过程中,又发现了自己目前对Javascript存在的一个知识模糊点:JS的作用域链,所以就通过查资料看书对作用域链相关的内容进行了学习.今天学习笔记主要有这样几个关键字:变量.参数传递.执 ...

  6. 转载:深度学习在NLP中的应用

    之前研究的CRF算法,在中文分词,词性标注,语义分析中应用非常广泛.但是分词技术只是NLP的一个基础部分,在人机对话,机器翻译中,深度学习将大显身手.这篇文章,将展示深度学习的强大之处,区别于之前用符 ...

  7. Python学习笔记6-Python中re(正则表达式)模块学习

    今天学习了Python中有关正则表达式的知识.关于正则表达式的语法,不作过多解释,网上有许多学习的资料.这里主要介绍Python中常用的正则表达式处理函数. re.match re.match 尝试从 ...

  8. 设计模式学习笔记——java中常用的设计模式

    单例设计模式(Singleton Pattern) 观察者模式(Observer Pattern) 工厂模式(Factory Pattern) 策略模式(Strategy Pattern) 适配器模式 ...

  9. 《C#高级编程》学习笔记------C#中的委托和事件(续)

    本文转载自张子阳 目录 为什么要使用事件而不是委托变量? 为什么委托定义的返回值通常都为void? 如何让事件只允许一个客户订阅?(事件访问器) 获得多个返回值与异常处理 委托中订阅者方法超时的处理 ...

随机推荐

  1. Memcached原理与应用

    Memcached原理与应用 标签: linux 笔者Q:972581034 交流群:605799367.有任何疑问可与笔者或加群交流 1.Memcached是什么 高性能 支持高并发 分布式内存缓存 ...

  2. Android自定义View的套路

    一.自定义View的流程 1.属性设置 在styles.xml中设置控件属性,如果你想直接harcode可以忽略这步 <!--name为声明的"属性集合"名,可以随便取,但是 ...

  3. spark头脑镜像

    思考是一件有意思的事情.遇到问题,思考出结论,那么脑子里面的过程是什么呢,或者脑子里面是什么呢.我一直认为,这团团的里面是一个模糊的n维空间.理解一个复杂的系统.公式.算法,都要在这个n维空间里具象化 ...

  4. 使用hexo搭建个人博客

    安装前提 node.js git 如果缺少以上条件,则前往相应的官网下载安装即可.. 安装hexo $ npm install hexo-cli -g 待安装完成后,执行相关命令查看hexo的信息. ...

  5. JAVA 调用 R 语言之升华篇

    由于项目的需要,最近做了一个javaWeb调用R的组件,在这里,我把自己走的一些弯路给大家总结一下: 一.选取什么插件作为java和R之间的通信? 1. 在传统的方式中,大致可以分为两类:一类是JRI ...

  6. JS对象、原型链

    忘记在哪里看到过,有人说鉴别一个人是否 js 入门的标准就是看他有没有理解 js 原型,所以第一篇总结就从这里出发. 对象 JavaScript 是一种基于对象的编程语言,但它与一般面向对象的编程语言 ...

  7. vue2使用高德地图vue-amap定位以及AMapUI标注

    前言 最近在vue里使用了高德地图vue-amap以及AMapUI,我在这里就说下如何在vue2里引入vue-amap和AmapUI以及使用定位 (在这里默认你已经安装了vue-cli) 安装 npm ...

  8. ABP官方文档翻译 10.1 ABP Nuget包

    ABP Nuget包 Packages Abp Abp.AspNetCore Abp.Web.Common Abp.Web Abp.Web.Mvc Abp.Web.Api Abp.Web.Api.OD ...

  9. 梅安森元图地图开放平台、专业GIS地图平台

    元图地图开放平台:http://map.cmetamap.com/?from=groupmessage 梅安森元图地图开放平台: 自主知识产权,专业GIS地图平台,用简单语言即可轻松操作复杂的互联网地 ...

  10. WebStorm11

    1.下载补丁 1.下载地址:http://pan.baidu.com/s/1gdnrdWv 2.拷贝下载的文件 JetbrainsCrack.jar 到 /bin目录下(是指你的软件安装根目录) 2. ...