词义消岐简介   词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务.   那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在.这些多义词的存在,会让人对句子的意思产生混淆,但人通过学习又是可以正确地区分出来的.   以"小米"这个词为例,如果仅仅只是说"小米"这个词语,你并不知道它实际指的到底是小米科技公司还是谷物.但当我们把词语置于某个特定…
歧义问题方面,笔者一直比较关注利用词向量解决歧义问题: 也许你寄希望于一个词向量能捕获所有的语义信息(例如run即是动车也是名词),但是什么样的词向量都不能很好地进行凸显. 这篇论文有一些利用词向量的办法:Improving Word Representations Via Global Context And Multiple Word Prototypes(Huang et al. 2012) 解决思路:对词窗口进行聚类,并对每个单词词保留聚类标签,例如bank1, bank2等 来源于笔者…
<统计自然语言处理> 一些基础理论概念,涉及统计自然语言处理的基本概念.理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用.语言模型.隐马尔可夫模型.语料库技术.汉语自动分词与词性标注.句法分析.词义消歧.篇章分析.统计机器翻译.语音翻译.文本分类.信息检索与问答系统.自动文摘和信息抽取.口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景.实现方法和技术现状的详细阐述. 相关视频:自然语言理解 下载:统计自然语言处理 <中文信息处…
词义消歧,句子.篇章语义理解基础,必须解决.语言都有大量多种含义词汇.词义消歧,可通过机器学习方法解决.词义消歧有监督机器学习分类算法,判断词义所属分类.词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义. 有监督词义消歧方法.基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧.来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X.Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算…
1.前言 标题虽然是为了解释有了 IP 地址,为什么还要用 MAC 地址,但是本文的重点在于理解为什么要有 IP 这样的东西.本文对读者的定位是知道 MAC 地址是什么,IP 地址是什么. (本文同步发布于:http://www.52im.net/thread-2067-1-1.html) 2.关于作者   翟志军,个人博客地址:https://showme.codes/,Github:https://github.com/zacker330.感谢作者的原创分享. 作者的另一篇<即时通讯安全篇(…
前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现NER,只要你坚持看完,就一定会很有收获的.   OK,话不多说,让我们进入正题.   几乎所有的NLP都依赖一个强大的语料库,本项目实现NER的语料库如下(文件名为train.txt,一共42000行,这里只展示前15行,可以在文章最后的Github地址下载该语料库): played on Mond…
  本文作为笔者NLP入门系列文章第一篇,以后我们就要步入NLP时代.   本文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity).   首先,让我们来看一下,什么是词袋模型.我们以下面两个简单句子为例: sent1 = "I love sky, I love sea." sent2 = "I like running, I love reading."   通常,NL…
CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场.   较为简单的条件随机场是定义在线性链上的条件随机场,称为线性链条件随机场(linear chain conditional random field). 线性链条件随机场可以用于序列标注等问题,而本文需要解决的命名实体识别(NER)任务正好可通过序列标注方…
C#基础入门 九 集合 对于很多应用程序,需要创建和管理相关对象组,有两种方式可以将对象分组,一是创建对象数组,如 object[] obj=new object[3]{1,2.33,"string"}; foreach(object o in obj) { Console.WriteLine(o.Tostring()); //output:1 2.33 string } 但是这样实现有一个缺点,数组的初始化必须要固定数量,即数组的长度一定是常量.所以需要集合. 创建和管理相关对象组的…
cesium编程入门(九)实体 Entity 在cesium编程入门(五)绘制形状提到过添加实体的方法,这一节聊一聊实体相关的一些内容: 先来看 Entity 的各个属性 id 唯一标志,如果没设置,值就为一个默认给定的GUID name 名称,可以不唯一 availability 可用性 show 可见性 description 描述 position 位置 orientation 方向 viewFrom 查看此对象的初始偏移量 parent 父节点 properties 与此实体关联的任意属…