根据Survey of Data-Selection Methods in Statistical Machine Translation的总结,MT中的数据选择分类图如下: 使用场景 数据使用的场景决定了选择什么样的数据,及该方法要解决什么问题. Improve Quality:Domain Improvement.Unhelpful Data Reduction.Noise Reduction Limited Resources:Training Resources.Deployment R
摘抄自微信公众号:AI学习与实践 TextRank,它利用图模型来提取文章中的关键词.由 Google 著名的网页排序算法 PageRank 改编而来的算法. PageRank PageRank 是一种通过网页之间的超链接来计算网页重要性的技术,以 Google 创办人 Larry Page 之姓来命名,Google 用它来体现网页的相关性和重要性. PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级,把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根
一.概述 自动摘要可以从很多角度进行分类,例如单文档摘要/多文档摘要.单语言摘要/跨语言摘要等.从技术上说,普遍可以分为三类: i. 抽取式摘要(extractive),直接从原文中抽取一些句子组成摘要.本质上就是个排序问题,给每个句子打分,将高分句子摘出来,再做一些去冗余(方法是MMR)等.这种方式应用最广泛,因为比较简单,比如博客园的博客摘要就是前面几句话.经典方法有LexRank和整数线性规划(ILP). LexRank是将文档中的每个句子都看作节点,句子之间的相似度看作节点之间的边的权重
GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响,但是这么好的理论是否可以成功地被应用到自然语言处理(NLP)任务呢? Ian Goodfellow 博士 一年前,网友在 reddit 上提问道,生成式对抗网络 GAN 是否可以应用到自然语言处理上.GAN 理论的提出者,OpenAI 的科学家,深度学习理论奠基人之一 Yoshua Bengio 的得意门生 Ian Goodfellow 博士回答了这个问题: GANs 目前并没有应用到自然语言处理(NLP)中,因为
2 Natural Language Processing & Word Embeddings 2.1 Word Representation(单词表达) vocabulary,每个单词可以使用1-hot表示,写作\(O^{5391}\)之类,上标可以变.只是用1-hot,不能知道任意两个单词的关系,例如man/woman;king/queen;apple/orange. 特征化表示:词嵌入(Featurized representation:word embedding).一个特征,使用-1到