Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper

abstract
句子结构是文本语言质量的关键，我们记录了以下实验结果：句法短语统计和其他结构特征对文本方面的预测能力。手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则。我们发现和短语长度相关的结构特征是弱特征，但是与fluency强相关，基于整个结构特征的分类器可以在句子fluency成对比较和区分机器翻译和人类翻译上取得高准确率。我们也测试了这个假设即，学到的模型可以捕捉人类创作文本的普遍的fluency性质。实验结果不支持这种假设。同时结构特征和基于结构特征的模型被证明是对多文本总结的语言质量自动评估具有robust鲁棒性的。

2 Sentence Fluency and Machine Translation
实验用的数据是the Linguistic Data Consortium的Chinese to English translations，每个句子有四个人工标注3个机器标注，fluency等级是1-5 (5: flawless English; 4: good English; 3: non-native English; 2: disfluent English;1: incomprehensible).我们强调4个任务：
a、区分人工和机器翻译
b、区分流利和不流利的机器翻译
c、在相同输入部分的两个翻译之间，区分在fluency上更好的翻译，这项任务和input-level的自动fluency评估有关。
d、使用在MT评估中的数据训练后的模型来预测人为写的华尔街日报文本的潜在的流利性问题
需要特别注意的是我们的研究目的不是评估机器翻译而是更普遍意义上的，兴趣点是找到句子流利度的predictors预测因子。由于没有对人写的文本的流利度评估的语料，所以使用之前机器翻译背景下对流利度研究的评估结果对我们来说是有利的。然而，我们的发现也对机器翻译句子级别的评估有潜在的意义。

2.1 features
我们感知到的句子流利度受很多因素影响。
a、句子契合上下文的环境的方式是一个明显的因素
b、vocabulary词汇的使用：不熟悉的难词会给读者带来问题，也会降低文本的可读性
但是这些对话和词汇级别的特征度量了粒度层面上的属性，这不同于句子等级。
结构句子等级特征没有被作为单独的一类研究过，这也就是为什么我们将我们的研究限制在语义特征，在机器翻译数据的实验中最初没有讨论对话和语言模型特征。
在我们工作中，没有关注句子中的语义结构例如使用的语义规则，我们使用句子长度和修饰语类型这些表面的统计特征。我们用Charniak‘s parser来parse句子，从而计算这些特征。

sentence length是句子中words的数量。像BLEU这样的评估准则偏爱短句子翻译。一般情况下，我们会认为句子越短，越容易阅读，因此也觉得越fluent。为了直接测试这个对句子间接度偏好的假设我们加入了这个特征。

parse tree depth和subordinating conjunctions (SBAR count)从属连词的数目也认为和noun phrases名词短语、verb phrases和prepositional phrases一样可以来度量句子复杂度。一般来说，句子越长，句法上更复杂，但是当句子相同长度时，parse tree depth就可以表示复杂度，因为复杂度的增加会减慢处理速度，会觉得句子不那么流利了。

Number of fragment tags in the sentence parse句子parse后tags的数目，在headlines中fragment片段出现并不一定会导致fluency问题，例如“Cheney willing to hold bilateral talks if Arafat observes U.S. cease-fire arrangement”，但是在机器翻译中，fragments的出现就预示着一个更严重的问题。

Phrase type proportion短语类型比例会计算prepositional phrases (PP), nounphrases (NP) and verb phrases (VP)，计算方式是每个短语类型的单词长度（lenght~猜测是字符长度）/句子的长度，embedded phrases也会包含在计算当中：例如一个名词短语(NP1 ... (NP2))中， length(NP1) + length(NP2) 也会算在短语长度中。
Average phrase length平均短语长度是组成该类型短语的单词的数目/给定类型的短语的数目，会计算r PP,NP, VP, ADJP, ADVP。计算了两个版本的特征：
a、FC1 计算中包含了embedded短语
b、FC2只计算了给定类型的最大的短语
一个句子中任何短语类型的平均长度也会被计算
Normalized average phrase length (FC3) 会计算PP, NP and VP，等于给定类型average phrase length/句子长度，这只会计算最大的短语。

Phrase type rate会计算 PPs, VPs and NPs，等于句子中给定类型的短语的数量/句子长度，例如“The boy caught a huge fish this morning”这个句子中NP短语数目的rate=3/8，VP短语rate=1/8。

Phrase length (FC4) ，在PP,NP,VP中words的数目（没有任何normalization），只计算最大的短语。Normalized phrase length是句子长度/the average phrase length (for VPs, NPs, PPs)，这个有两种计算方式
a、FC5-有相同类型的embedded短语的最长短语，只计算一次
b、FC6-每个短语不包括embedding。

Length of NPs/PPs （VP中），在一个动词短语中组成NP或者PP的平均单词数/动词短语的长度，相似的也会计算the length of PP in NP。

Head noun modifiers. noun phrases名词短语很复杂，可以用各种方式修饰head noun-pre-modifiers, prepositional phrase modifiers,apposition（前置定语，介词短语修饰，同位语）。这些modifiers的单词长度会被计算。每个特征有一个变量，等于modifier的字长/句子长度，最后，在所有的modification中的两个特征都会被计算：一个是所有modifier的长度和，一个是normalized归一化的modifier长度

2.2 feature analysis
这一部分我们会分析上面这些特征和fluency的关系。分析的目的不是特征选择-所有的特征都会在后面的实验中用到，而是为了更好的理解哪些因素能预测good fluency。
数据集中的fluency得分分布不是很均衡，主要评分集中在fluency3.
表二列举了哪些特征值和fluency评定之间的Pearson’s相关系数更高。
a、MT评估给出的fluency和adequacy是高度相关的。这惊人的高，考虑到分别fluency和adequacy评估被引出是由于这些在翻译当中相互独立的。fluency是直接由assessors评分者判断的，adequacy用来在和人类标准的对比下评估句子的内容。但是，这两个方面的评估常常是一样的-句子的可读性/fluency对理解句子是重要的。只有在assessors已经理解了句子可以判断它是如何和人类模型做比较后，就会总结道：使得系统产生流利的文本的fluency/可读性模型是发展成功的机器翻译系统的关键。
b、句子长度。更短的句子更容易，也比更长的句子感觉上更fluent。偏爱简短在写作和语音对话的计算语言学工作中都是有效的。注意，即使相关性很弱。在sub-sentential子句（短语）中也会考虑句子长度。
c、Noun phrase length名词短语长度和句子长度有一样的相关性，名词短语越长，句子越不fluent。长名字短语需要花更久区解释，降低了句子的fluency/可读性。
– [The dog] jumped over the fence and fetched the ball.
– [The big dog in the corner] fetched the ball.
上面这个例子表明，长名词短语读起来更难，特别实在主语的位置。相近的动词短语长度意味着潜在的fluency问题，这可以在我们语料的例子中看出，也就是假设我们人工的翻译都是认为理想的，即评分为5，但是这在assessors看来有时会被评为低分。

d、
– Most of the US allies in Europe publicly [object to invading Iraq]V P .
– But this [is dealing against some recent remarks of Japanese financial minister,
Masajuro Shiokawa]V P .
VP距离（分开的两个动词短语的平均词数）适合句子fluency负相关的。在机器翻译中，明显的问题就是在长文本中可能没有包含一个动词，但是即使在人类写的文本总，更多的动词的出现会影响fluency，看下面两个句子：
– In his state of the Union address, Putin also talked about the national development plan for this fiscal year and the domestic and foreign policies.
– Inside the courtyard of the television station, a reception team of 25 people was formed to attend to those who came to make donations in person.

e、非归一化的动词短语长度是和fluency强相关的。在计算相关性时发现，不去归一化短语句子长度特征是最好的。

上面没有特征是和noun modification--apposition length, number of appositions, number of pre-modifiers同位语长度、同位语数量、前置修饰语的数量有关系的，但是noun modification在0.95的置信度下是和fluency非常相关的。

Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper的更多相关文章

Sequence Models
Sequence Models This is the fifth and final course of the deep learning specialization at Coursera w ...
[C7] Andrew Ng - Sequence Models
About this Course This course will teach you how to build models for natural language, audio, and ot ...
zz【清华NLP】图神经网络GNN论文分门别类，16大应用200+篇论文最新推荐
[清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengy ...
Getting Started with Word2Vec
Getting Started with Word2Vec 1. Source by Google Project with Code: https://code.google.com/archive ...
Open Source Software List: The Ultimate List
http://www.datamation.com/open-source/ Accessibility 1. The Accessibility Project The Business Value ...
ITU-T G.1080 IPTV的体验质量(QoE)要求 (Quality of experience requirements for IPTV services)
IPTV的服务质量(QoE)要求 Quality of experience requirements for IPTV services Summary This Recommendation de ...
File Input Features
文件输入功能 1.该插件将将一个简单的 HTML 文件输入转换为高级文件选取器控件.将有助于对不支持 JQuery 或 Javascript 的浏览器的正常 HTML 文件输入进行回退. 2.文件输入 ...
Discover Feature Engineering, How to Engineer Features and How to Get Good at It
Feature engineering is an informal topic, but one that is absolutely known and agreed to be key to s ...
学习笔记(四）： Representation:Feature Engineering/Qualities of Good Features/Cleaning Data/Feature Sets
目录 Representation Feature Engineering Mapping Raw Data to Features Mapping numeric values Mapping ca ...

随机推荐

Python isspace() 方法检测字符串是否只由空格组成。
npm run dev 报错版本太低
解决方案是: 先用命令: npm -v 查看下你的版本(我原来是 V3.1 不行) 然后用 cnpm install -g npm 更新版本 npm - v 变成最新的4.0.4 npm run d ...
linux下find命令详解
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数 ...
git开发过程的配置和使用
git开发过程的使用 1.创建仓库 2.新建项目,填写项目名称等信息 3.初始化仓库,创建git仓库 git init 4.配置个人信息(配置过可忽略) git config --global use ...
php 处理ftp常用操作与方法
原文地址:https://www.cnblogs.com/longfeiPHP/p/5420632.html $ftp_conn = ftp_connect("192.168.1.230&q ...
VS中常用快捷键
常用的快捷键这里仅列出一些个人觉得好用的快捷键: 调用智能提示:使用组合键“Ctrl+J” 注释/取消注释: 注释用组合键“Ctrl+K+C” 取消注释用组合键“Ctrl+K+U” 大小写转 ...
C/S与B/S架构对比
概述在这个信息急剧膨胀的社会,我们不得不说人类正进入一个崭新的时代,那就是信息时代.信息时代的一个主要而显著的特征就是计算机网络的应用.计算机网络从最初的集中式计算,经过了Client/Server ...
bzoj1096
题解: 斜率优化dp 代码: #include<bits/stdc++.h> typedef long long ll; ; using namespace std; int n,l,r, ...
day19-python的正则表达式2
正则对象的findall方法 findall(string[, pos[, endpos]]) 搜索string,以列表形式返回全部能匹配的子串. import re p1 = re.compile ...
day3-PyCharm 断点调试模式
上篇学习了Python的工具选择,PyCharm的基本设置,简单的了解了下PyCharm的调试模式,今天主要学习下PyCharm的调式模式,在以后的开发中是一个非常重要的工具. [运行]和[调试]前的 ...

Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper

Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper的更多相关文章

随机推荐

热门专题