KenLM是利用什么对句子打分

2024-10-28

语言模型kenlm的训练及使用

一.背景近期研究了一下语言模型,同事推荐了一个比较好用的工具包kenlm,记录下使用过程. 二.使用kenlm训练 n-gram 1.工具介绍:http://kheafield.com/code/kenlm/ 2.工具包的下载地址:http://kheafield.com/code/kenlm.tar.gz 3.解压后运行,./bjam 进行编译 4.使用如下命令进行训练:bin/lmplz -o 5 --verbose_header --text data/chat_log.txt --ar

[实现] 利用 Seq2Seq 预测句子后续字词（Pytorch）2

最近有个任务:利用 RNN 进行句子补全,即给定一个不完整的句子,预测其后续的字词.本文使用了 Seq2Seq 模型,输入为 5 个中文字词,输出为 1 个中文字词.目录关于RNN 语料预处理搭建数据集搭建模型训练模型测试模型保存/加载模型 1.关于RNN 自被提出以来,循环神经网络(Recurrent Neural Networks,RNN) 在 NLP 领域取得了巨大的成功与广泛的应用,也由此催生出了许多新的变体与网络结构.由于网上有众多资料,在此我也只做简单的讲解了.首先,讲讲

[实现] 利用 Seq2Seq 预测句子后续字词（Pytorch）

最近有个任务:利用 RNN 进行句子补全,即给定一个不完整的句子,预测其后续的字词.本文使用了 Seq2Seq 模型,输入为5个中文字词,输出为一个中文字词. 目录关于RNN 语料预处理搭建数据集搭建模型训练模型测试模型保存/加载模型 1.关于RNN 自被提出以来,循环神经网络(Recurrent Neural Networks,RNN) 在 NLP 领域取得了巨大的成功与广泛的应用,也由此催生出了许多新的变体与网络结构.由于网上有众多资料,在此我也只做简单的讲解了.首先,讲讲 RN

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

根据Survey of Data-Selection Methods in Statistical Machine Translation的总结,MT中的数据选择分类图如下: 使用场景数据使用的场景决定了选择什么样的数据,及该方法要解决什么问题. Improve Quality:Domain Improvement.Unhelpful Data Reduction.Noise Reduction Limited Resources:Training Resources.Deployment R

将句子表示为向量（下）：基于监督学习的句子表示学习（sentence embedding）

1. 引言上一篇介绍了如何用无监督方法来训练sentence embedding,本文将介绍如何利用监督学习训练句子编码器从而获取sentence embedding,包括利用释义数据库PPDB.自然语言推理数据SNLI.以及综合利用监督训练数据和无监督训练数据. 2. 基于释义数据库PPDB 2015发表的论文Towards universal paraphrastic sentence embeddings提出使用PPDB(the Paraphrase Database)来学习通用的sen

使用BERT模型生成句子序列向量

之前我写过一篇文章,利用bert来生成token级向量(对于中文语料来说就是字级别向量),参考我的文章:<使用BERT模型生成token级向量>.但是这样做有一个致命的缺点就是字符序列长度最长为512(包含[cls]和[sep]).其实对于大多数语料来说已经够了,但是对于有些语料库中样本的字符序列长度都比较长的情况,这就有些不够用了,比如我做一个法院文书领域预测任务,里面的事实部分许多都大于1000字,我做TextCharCNN的时候定义的最大长度为1500(能够涵盖百分之95以上的样本).

DL4NLP —— seq2seq+attention机制的应用：文档自动摘要（Automatic Text Summarization）

两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarization)就是说在不改变文档原意的情况下,利用计算机程序自动地总结出文档的主要内容.自动摘要的应用场景非常多,例如新闻标题生成.科技文献摘要生成.搜索结果片段(snippets)生成.商品评论摘要等.在信息爆炸的互联网大数据时代,如果能用简短的文本来表达信息的主要内涵,无疑将有利于缓解信息过载问题. 一

关键词抽取：pagerank，textrank

摘抄自微信公众号:AI学习与实践 TextRank,它利用图模型来提取文章中的关键词.由 Google 著名的网页排序算法 PageRank 改编而来的算法. PageRank PageRank 是一种通过网页之间的超链接来计算网页重要性的技术,以 Google 创办人 Larry Page 之姓来命名,Google 用它来体现网页的相关性和重要性. PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级,把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根

NLP Attention

一.概述自动摘要可以从很多角度进行分类,例如单文档摘要/多文档摘要.单语言摘要/跨语言摘要等.从技术上说,普遍可以分为三类: i. 抽取式摘要(extractive),直接从原文中抽取一些句子组成摘要.本质上就是个排序问题,给每个句子打分,将高分句子摘出来,再做一些去冗余(方法是MMR)等.这种方式应用最广泛,因为比较简单,比如博客园的博客摘要就是前面几句话.经典方法有LexRank和整数线性规划(ILP). LexRank是将文档中的每个句子都看作节点,句子之间的相似度看作节点之间的边的权重

NLP度量指标BELU真的完美么？

摘要: NLP重要评价准则之一——BLEU,真的完美无缺么? 刚接触自然语言处理的朋友通常会问我:当系统的输出是文本,而非对输入文本进行某种分类,如何对该系统进行评估.当模型的输入是文本信息,输出也是文本信息时,我们称之为序列到序列问题,也可称为字符串转换问题. 序列到序列建模是解决NLP中较难任务的核心,它包括: 1. 自动文摘(Text Summarization): 2. 文本简化(Text simplification): 3. 问答(Question answering): 4. 聊天

Attention-over-Attention Neural Networks for Reading Comprehension论文总结

Attention-over-Attention Neural Networks for Reading Comprehension 论文地址:https://arxiv.org/pdf/1607.04423.pdf 0 摘要任务:完形填空是阅读理解是挖掘文档和问题关系的一个代表性问题. 模型:提出一个简单但是新颖的模型A-O-A模型,在文档级的注意力机制上增加一层注意力来确定最后答案 (什么是文档级注意力?就是每阅读问题中的一个词,该词对文档中的所有单词都会形成一个分布,从而形成文档级别的分

实现自动文本摘要（python，java）

参考资料:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html http://joshbohde.com/blog/document-summarization 1.介绍 1.本文自动文本摘要实现的依据就是词频统计 2.文章是由句子组成的,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少. 3.句子的信息量用"关键词"来衡量.如果包含的关键词越多,就说明这个句子越重要. 4."

条件随机场(Conditional random field)

条件随机场真是把我给折磨坏了啊,本以为一本小小的<统计学习方法>攻坚剩下最后一章,心情还是十分愉悦的,打算一口气把它看完,结果真正啃起来真是无比的艰难啊,每一句对我都好像是天书一般,怎么这么多没有接触过的概念啊!什么无向图?什么最大团?搞什么鬼啊,真让人头大现在想想可能就是被这些概念吓到了当时,等你仔细的弄懂了它们是什么意思,理解起来难度就会小很多啦,所以,我决定先从概念开始说起,捋顺一下思路,至于条件随机场先表过不谈! 我们先来看一下整个大框架下,条件随机场在什么位置,让读者心中有数,知道自

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? 引用三年前一位网友的话来讲: “Steve Renals算了一下icassp录取文章题目中包含deep learning的数量,发现有44篇,而naacl则有0篇.有一种说法是,语言(词.句子.篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号,所以后两者更适

201521123061 《Java程序设计》第八周学习总结

201521123061 <Java程序设计>第八周学习总结 1. 本周学习总结 2. 书面作业 1.List中指定元素的删除(题目4-1) 1.1 实验总结主要是应用到了list中的add和remove等方法,dan'sh但是这道题主要的考察点在于list的删除方式,如果在表头删除那么所有元素都会前移,这时就不会按照我们所想的去删除掉nmou'g某个元素:因此我们应当在list的尾部进行删除. 2.统计文字中的单词数量并按出现次数排序(题目5-3) 2.1 伪代码(简单写出大体步骤) 建立

GAN︱GAN 在 NLP 中的尝试、困境、经验

GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响,但是这么好的理论是否可以成功地被应用到自然语言处理(NLP)任务呢? Ian Goodfellow 博士一年前,网友在 reddit 上提问道,生成式对抗网络 GAN 是否可以应用到自然语言处理上.GAN 理论的提出者,OpenAI 的科学家,深度学习理论奠基人之一 Yoshua Bengio 的得意门生 Ian Goodfellow 博士回答了这个问题: GANs 目前并没有应用到自然语言处理(NLP)中,因为

NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）

R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运行效率? 2.如何提高词向量的精度,或者说如何衡量词向量优劣程度? 3.词向量的功能性作用还有哪些值得开发? 4.关于语义中的歧义问题如何消除? 5.词向量从"词"往"短语"的跨越? 转载请注明出处以及作者(Matt),欢迎喜欢自然语言处理一起讨论~ ---------

seq2seq和attention应用到文档自动摘要

一.摘要种类抽取式摘要直接从原文中抽取一些句子组成摘要.本质上就是个排序问题,给每个句子打分,将高分句子摘出来,再做一些去冗余(方法是MMR)等.这种方式应用最广泛,因为比较简单.经典方法有LexRank和整数线性规划(ILP). LexRank是将文档中的每个句子都看作节点,句子之间的相似度看作节点之间的边的权重,构建一个graph:然后再计算每个节点的分数,这个打分的计算方式可以是度中心度(Degree centrality).PageRank中心度等(论文里说这两种计算方式其实效果没有

NLP（二）_汉语言分词技术-最大匹配法

前述词是自然语言中最小的有意义的构成单位.汉语文本是基于单字的文本,汉语的书面表达方式以汉字作为最小单元,词与词之间没有明显的界限标志,因此,分词是汉语文本分析处理中首先要解决的问题之一. 分词可能是自然语言处理中最基本的问题,在英文中,天然地使用空格来对句子做分词工作,而中文就不行了,没有特点符号来标志某个词的开始或者结尾,而分词通常对语义的理解是特别重要的汉语言分词系统面临的困难如何识别未登录词(新词):词典系统没有收录的词. 专有名词:中文人名("朱镕基总理").地名.机构

Sequence Models 笔记（二）

2 Natural Language Processing & Word Embeddings 2.1 Word Representation(单词表达) vocabulary,每个单词可以使用1-hot表示,写作$O^{5391}$之类,上标可以变.只是用1-hot,不能知道任意两个单词的关系,例如man/woman;king/queen;apple/orange. 特征化表示:词嵌入(Featurized representation:word embedding).一个特征,使用-1到

【paddle学习】词向量

http://spaces.ac.cn/archives/4122/ 关于词向量讲的很好上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右边,不就相当于在$w_{ij}$这个矩阵中,取出第1.2行,这不是跟所谓的字向量的查表(从表中找出对应字的向量)是一样的吗?事实上,正是如此!这就是所谓的Embedding层,Embedding层就是以one hot为输入.中间层节点维数为字向量维数的全连接层(每一列对应一个中间层节点)!而这个全连

KenLM是利用什么对句子打分

热门专题