Is this Sentence Difficult? Do you Agree? -paper
术语:
数据
lemma:词根,词元(词的基本形式,如名词单数或动词的不定式形式)
content words:实词
part-of-speech:词性
object-relative clauses and prepositional-phrase attachments :宾语关系从句和介词短语从句
i.e. :即
verb ellipsis:动词省略
predicate :谓语
subordination :<语>主从关系
dependency links:从属关系
clause:从句、分句
metrics:指标
numerals and proper noun:数词和专有名词
most-likely estimation :最大似然
correlation coefficient:线性相关系数
Is this Sentence Difficult? Do you Agree?
abstract:
这篇论文中我们展现了一种基于众包的方法来对人类对句子复杂度的感知建模。我们手机了大量了句子语料,并且对其进行了难度分级,其中包括完全不同类型的两种语言-意大利和英语。我们在两个试验场景下测试了该方法,目的是探究大范围的词汇、形态句法和句法现象的集合对一下几点的作用:1)预测不同标注者之前一致性的程度2)预测对句子复杂度的感知。
introduction:
语言复杂度是一个一直在被研究和涉及多方面的概念,为此,涉及到作为第一语言的也涉及作为第二语言的各种框架中都提出了很多不同的方法。这样的方法取决于感知-语言的复杂度的来源。根据一个已经成立的区分方式,语言复杂度被分为绝对和相对两种概念。前者是由理论驱动的,目的是根据一些语言系统的通常的性质来评估语言的复杂度,后者定义了和语言使用者相关的语言复杂度,例如说话人、听话人或学习者,因此复杂度也考虑了处理上的困难。从第二点观点可以看出,句子复杂度可以从感知层面去分析,这种感知可以使用离线的方式(例如复杂度判断,理解测试的错误率、更喜欢某种结构而不是另外一个意义对等的结构)也可以使用在线处理的方法(例如眼睛停留时间,专注时长和瞳孔张开的程度)。为了去在藏在句子处理性能里各种因此,提出了几种复杂的指标来考虑单个词语、单个句子以及基于经验的实验期望的性质。词语级别的预测器中和更大的处理难度相关的有:句子频率、age of acquisition、根频率影响、正交邻域频率(word frequency, age of acquisition, root frequency
effect, orthographic neighbourhood frequency)。在句法分析的层面,关于句子难度已经研究的比较透彻的方法考虑了依赖长度dependency length,这已经被用来解释大范围的心理语言学的现象,例如主语、宾语相对从句不对称或者再主要的动词或者降低相关性别的歧义中的花园路径效应(subject/object relative clauses asymmetry or the garden path effect in main verb/reduced-relative ambiguities),以及词语顺序模式的变化以及历时的观点(in a diachronic perspective);另外,processing
difficulty has been explained in terms of surprisal。计算词汇和语法惊奇的计算模型也已经使用大范围的概率pcfg句法分析器实现了,Demberg和Keller引入了预测理论,该理论的目的是通过利用心理语言驱动的版本的树联合语法把依赖商都理论和句法惊讶联系起来(aims at unifying Dependency Length
Theory with syntactic surprisal, by making use of a psycholinguistically-motivated version of treeadjoining grammar)
不像在实验背景下对人类句子处理中的一贯研究方式,本次研究中我们依赖于众包的方法来探究人们是怎么感知句子复杂度的。对于语言学家和计算语言学家研究而言,众包数据的可靠性是非常被认可的,在Munro的调查研究中就证明了从众包中获得的结果的质量即使不是更高,也是通过控制实验而达到可比拟的水平的。另外,众包可以涉及到更广的群体,包括不同的年龄、教育经历和职业等,因此也更适合来获取“门外汉”对句子复杂度的直觉。基于这些原因,这个方法已经在最近关于可读性和文本简化领域被采用了,例如在Lasecki等的工作中众包被用来评估复杂度的登记或者简化后的句子和原句相比信息量的程度。
在我们的研究中,我们采用了一个类似的依赖于众包的角度来收集大范围的包含众多人工标注的句子复杂度的资源。不想传统方法,它们只是去评估词汇或者是结构上的复杂度,我们关注与分析大量的语言特征来探究这些特征是如何对人类对语言复杂的感知起作用的。这种方法也收到之前研究的启发,它们专注于所以和复杂度评估相关的文本的形式,例如可读性评估、第一语言学习能力和母语自我认知。
our contribution
1)我们提出了两种针对研究一些语言现象的在以下几方面的作用的问题 a)数据标注者们独立给句子评分时标准的一致程度 b)预测对句子复杂度的感知。
2)我们引入了一种基于众包的方法来评估人们是如何感知句子复杂度的,以及我们对此测试了两种语言。
3)我们收集了两种人工标注了复杂度等级的句子语料
这两个研究问题涉及了两种定义上相当主观也很难去定义的现象。基于以下主要的贡献,我们的研究是为了强调这种模糊性:i)找出在预测一致性中主要的语言现象 ii)什么样的语言现象会让一个句子具有被大多数人都认为是复杂的特点。
所有的数据都在www.italianlp.it/resources/中可得到。
approach
通过众包我们手机了评级了的句子数据集,其中标注者被要求对每一个句子给出一个关于复杂度的分数。这项任务涵盖了两种语言-英语和意大利语,这两种个语言具有不同的形态和句法特性;例如形态句法的丰富程度和词语顺序的自由度。选择这种方式的目的是为了探究两种完全不同类型的语言之间是否有共同的决定语言复杂度的因素。最开始我们收集了评级了的句子,自动抽取了打量了特征,包括多种语言描述的等级,这种等级在基于人类句子处理的知识上被承认是与句子复杂度有关的。在对句子复杂度的感知建模的过程中,包含的这些特征分布在以下两个不同的场景中测试i)一个分类实验去评估那个特征对不同标注者之间的一致性的自动预测贡献更大 ii)一个回归实验来评估考虑在内的特征是否能够预测人们的复杂度判断任务以及这些特征是如何对预测起作用的
接下来,介绍我们方法中用到的三种主要的要素,包括3.1部分中的语言特征,3.2部分的句子数据集和3.3部分众包任务。在论文的后半部分,我们会描述和两个探究问题相关的试验场景并探讨实验结果,这是在section4和5中。
3.1 语言特征
在这次研究中考虑到的特征集合包括了句子复杂度了不同方面
*原始文本特征:
1)单词长度 (char_tok)-- 即每个单词了平均包含字符数目
2)句子长度 (n_tokens)-- 即平均每个句子中的单词数目,这两种特征总是在传统的可读性评估中作为词汇和句法复杂度的代表。
*形态-句法特征:
1)POS词形标注类型的分布 (ttr_form, ttr_lemma)-- 类型/token的比例,计算方法是词汇所有类型的个数除以所有单词的数量,包括lemma和forms两种形式(forms我理解的就是原始的样子,比如动词复数)
2)动词的特征((verbs_mood,vebs_tense,vebs_density) -- 根据情态动词、时态动词和人称动词的分布
3)词汇密度((lex_density) --计算方式是实词比如动词名词形容词副词等和文本中所有词总数的比例。心理语言学研究强调,更高的词汇密度体现了更大的认知负担。
*语法特征 :
1)句法依存类型的概率,例如主语,直接宾语,修饰语等,计算方式是每种类型在整个依存类型中分布概率。一些语法关系很难处理,例如宾语关系从句和介词短语从句,或者特别是在自由语序的语言中的主语和宾语的关系。
2)动词词根的分布,例如动词词根在所有句子根中分布。动词词根的比例如果较低的话,意味着更多的名词性句子有着更低标准的结构,原因是是一个由于动词省略而不规范的名词性句子结构,因此会造成处理过程中的歧义。
3)句法树深度作为特征:
a (max_depth) 整个句法树深度的计算方式就是句法分析树从根节点到一些叶子节点的最大路径长度;
b (n_prep_chains , prep_chain_))由名词性词头控制的嵌入补语链的深度,包括介词性补语或名词性修饰语和形容词性修饰语,计算方式是所有介词链的数目和链的平均深度;
c (prep_depth) 嵌入补语链的深度分布,计算方式是链的数目除以句子中所有链的数目。所有这些特征都涉及长度因素,并且和处理难度相关,就像长句子的内嵌介词补语。
4)动词谓语特征:
a (verb_head)动态开头的分布情况;
b (verb arity)动词成分的意思是含有覆盖论据和修饰词的相同动词头的实例化依赖关系的平均数目 ;
c (verb_head_arity)动词头的数目分布 ,计算方法是所有句子中动词头数目相同的动词头总数;
d (order_subj_and_order_obj);关于动词头的主语和宾语的相对顺序。
5)主从关系特征
a (n_subord_clauses, n_princ_clauses) 主语和附属从句的分布;
b (n_subord_chain,subord_chain_l))内嵌从句的平均深度,计算方式是所有的从句数量和从句链的平均深度;
c (subord_depth)内嵌从句链的深度分布,计算方式是链的数目除以句子中所有链的数目。
我们也计算了从句相对主语的顺序,根据Miller,从句在动词后会比在动词前使得句子处理起来更简单。
6)从属关系长度
计算方式是句法头和从属词之间的词数,特征包含了
a (links_len)所有从属关系的长度
b (max_links_l)最大从属关系的长度。句子长度结构会导致认知负担是大家都知道的。
7)从句长度
计算方式是在一个从句中出现的单词数。句法评测依赖于这个特征,这用于在第一和第二语言学习中评估句法能力的发展。
3.2 数据
实验数据是句子的子集,为防止自动标注出现错误,这些选择的句子为手动修正的两个treebanks。我们选择这种数据是为了避免由于自动标注句子所产生了可能的错误。值得一提的是,我们采用了the Italian Universal Dependency Treebank (UDT)的报纸部分 和 the Penn Treebank中自动转化生成的华尔街日报。自从我们想要去探究人们对标准语言的复杂度的认知,我们没有使用UDT的英文版本,它包含了不同网页媒体的类型比如博客和邮件。即使选择的两种treebanks有不同的标注方案,UDT项目的标注计划是基于斯坦福dependencies的发展。这使得我们要去比较和语言复杂度相关的语言现象来最小化由于没有句子结构表示统一规则导致的交叉语言的差距。为了降低词汇的影响,我们从两个treebanks中剔除了低频词元,这是一个词元词频列表,它是我们从一个大的包含数词和专有名词的参考预料中提取的。对于英语,我们选择了华尔街日报中的大量句子语料。对于两种语言而言,所有在两个treebanks中包含的句子基于不同的句子长度分为了6组,10,、15、20、25、30、35。这是为了去研究在句子长度一样时,一些和句子长度相关的(句法树深度特征和依赖关系)语言特征是否对句子复杂度的判断产生影响。每组中的句子根据他们词元的平均频率的总和来排序的。我们在每个分组中提取除了前200个排序的句子,但是意大利语我们最后一个组中选了123个句子。最终选择的结果是,我们选取了英文1200句和意大利语1123句来进行实验。
3.3 复杂度判断的集合
为了收集人们对于复杂度的判断,我们进行了在CrowdFlower平台上的众包任务。对于每种语言,我们招募了20个母语,他们需要读一个句子,然后在7分范围内评定难度等级,其中1代表非常简单,7代表非常难。句子是随机排序的,而且展示在显眼的页面上,每个页面有五句话。为了提高收集到的标注的质量,我们选择了平台指定了那几个在之前的工作中表现出高质量标准的人,而且我们设定了每个页面至少花十秒钟去完成。我们计算了跟评定级别相同的标注者数量的Krippendorff的alpha可靠率。我们得到的准确率分别是:意大利-26%,英语-24%
4、学习人类评判的一致性
我们第一个研究问题涉及到语言现象的调查,语言现象的特点是在对句子复杂度的判断中标注者之间的一致性。最后,我们把所有评定好的句子根据标注者观点一致的数量分成了10个集合(被称为一致性等级)。图1展示了每个一致性等级的句子的数量。对两种语言而言,我们设置一致性标注者人数最低为10,但也只是非常少的句子被抛弃了。随着一致性标注者数目的增加,句子的数量逐步递减,但是标注者中14人一致时我们仍然有相当数量的句子600句。
为了研究导致这种一致性的语言现象,我们首先在标注一致和标注不一致的句子上提取了如3.1中所言的特征;我们秩和检验评估一致和不一致之间是否有统计意义。这个对于每个一致性范围都进行了实验。
我们接着做了一个特征筛选来找出能够最大化预测一致&非一致句子的分类器准确率的特征。为了对特征相关性进行排序,我们采用了Recursise Feature Elimination算法,它用到了线性svm作为估计算法,我们在每一轮迭代中丢弃一个特征。我们用三者交叉验证来评估分类器性能。在最后,我们选择了排序靠前的特征。这个过程中,每一个一致性等级需要迭代十次。
为了评估svm分类器的准确性,我们使用了最大似然分类器来作为分类器性能的baseline,最大似然分类器中每个句子总是会分类到最可能的类别。
表一表明了两种语言以及一致性等级中,统计非常不同的特征,用打钩表示,和 分类器选择的特征,用星号表示。两种特征有相反的趋势。秩和检验发现,在一致性较低时,非常少的特征数值差别很大。也就是说,只有非常少的特征参与到了区分出一致性和非一致性的句子,特别适当一致性低于14时。
对两种语言而言,原始文本特征即n_rokens和char_tok,对所有一致性等级都非常重要。有趣的是,这两个特征并没有被使用了更复杂的语法特征的分类器考虑,那些复杂的特征包括subordination (e.g.subord depth) 和nominal modification (e.g. prep chain l).随着一致性增加,语法特征开始变得非常不同,例如句法分析树的深度、the complement chains (dep mark),和subordination使用相关的特征等。将两种语言作比较后我们也会找到一些不同。例如,在一致性较低时比如10,英文所对应的所有类型的特征都会变得差异很大,但是意大利语中,无论是一致性还是非一致性句子的任何特征都不会有差别。对于更高的一致性的句子,它们的特征与两种语言本身所定义的特征的不同相关:和动词头相关的宾语的位置、一些动词形态特征,这些都只有助于意大利语的分类。
表2显示出了每个一致性等级和基准的svm分类器的准确率。在一致性较低时,分类器准确率会比基准更低,也就是说选择的特征并没有有助于区分一致性和非一致性句子。的确,这些特征开始对句子在14-17等级的分类有了更大的影响。这意味着这些一致性等级中和非一致性等级中特征值有很大的区别。另外吗,即使对于这些句子而言,很多特征都被Wilcoxon测试认为具备统计意义上的重要性,分类器也需要更少的特征来分类正确。
5 和句子复杂度相关的语言特征们的联系
第二个研究问题的目的是对忍了你对语言复杂度的感知建模,来研究从句子和句子复杂度评判中抽取的语言特征集合中的相互关系。我们首先计算了相同句子长度的6个区间的平均的复杂度打分。和预期的一样,即使所有的句子都表现出意大利语更为复杂,两种语言都显示句子越长越被认为复杂。
接着我们计算了特征值之间的Spearman的秩的线性相关系数和平均复杂度,因此获得了特征的排序。相关性是在两个不同一致性之间计算,例如10和14. 我们选择这两个阈值是因为在一致性为10时,一致性的句子几乎包含了所有的句子,在一致性为14时,svm分类器开始表现出比baseline好的性能。另外,在14的时候,我们仍然还有大量的一致性句子,可以让我们对特征做可靠的统计研究。只有在阈值为19的时候,我们也计算了相同句子长度时六个区间的特征排序。图3表明了p<0.05的时候的特征排序。正向的值意味着判别为特征值越高则句子越复杂,例如排序为+1的特征是排名最靠前的,因为它是最正相关的。相反,负值意味着被判别为特征值越低句子越复杂。两种语言的排名前20的特征的联系和复杂度都很高,在句子一致性为14时,范围在0.3-0.85之间。对所有的长度而言,在处于这两个一致性阈值时,他们不仅要考虑句子长度也要考虑深层次的语义特征,例如整个句法分析树的深度,依赖关系的长度、和subordination相关的特征。特别指出的是,意大利语中排名第一的特征-句法树长度和英语中排名第一的特征句子长度分别的corelation是0.64和0.84。名词修饰(n_pre_chains)也有很高的相关度,而且在两种语言中都几乎排在第三的位置。verbs_num_pers的分布只使得意大利语的句子变难了;这也可能和动词形态学更高的复杂度相关,因为在非人称动词结构中第三人称动词可能会增加句子中指示物的二义性。只有在英语中,句子复杂度会受到基数数目的分布的影响和依赖类型的影响。相反,动词数量和与该动词相关的主语的顺序在负排序中位置较低,这表明这些特征使得句子变得简单:这可能是因为语言中的一个更固定的谓语结构和词语顺序。
如果我们关注相同长度的句子,被认为是词语复杂度的特征排在两种语言中靠前的位置。这是因为词语的凭据长度和英语的词语密度。有趣的是,对于英语来说,大多数特征在同样句长的情况下,不同区间下排序相似;但是对于意大利语而言,我们在句长小于20和大于20的两种情况下提取出的特征排序情况不同。也就是说,当平均句长大于20的时候,和subordination相关的特征使得句子更加复杂。
5.1 预测人类复杂度判断
为了去评估语言特征对预测判断句子复杂度大小的作用,我们训练了一个线性svm回归模型,使用了默认参数。我们对10-14的一致性区间的句子各自进行了3折交叉验证。我们检测了连个性能指标:平均绝对误差来评估模型预测同手工完成的任务一样的复杂度的准确率 ; Spearman correlation来评估回归模型产生的特征的排序和人工判断的排序。表3说明的结果和两个指标的平均得分。可以看出,模型很准确,达到了很高的相关性,同时平均误差很低。特别指出:模型在使用从一致性为14时的句子时,预测从中提取出的特征排序时,模型的性能很高。这可能是因为这些句子有更统一的语言现象的分布形式,而这些现象有助于预测相同复杂度的判断。下面是由svm分类器预测英语一致性获得的结果,这可能表明了人类判断为相似的句子集合就会有低方差的特征值。
6 讨论和结论
在这篇论文中,我们介绍了一种对人类感知句子复杂度建模的方法,使用的是人工给复杂度打分了的意大利和英语句子语料。我们在两个实验场景下,测试了自动从这些句子中提取出来的语言特征的集合的作用。第一点要强调的是我们可靠预测了标注者之间的一致性等级,由于这项任务本身的强烈主观性,我们取得了一个相当显著的结果,就我们所知还没有过这样的报告。我们特别观察到:和subordination的使用和名词修饰相关的深度语法特征在自动预测人类一致性上起到了主要作用。但这对两种语言都适用即使我们发现结果表明一些特征在一致的意大利语分类中更具相关,例如宾语的相对顺序。我们也注意到,当有超过一半的标注者判断一样时,分类器需要新的特征来预测一致性句子。
在第二个人实验中,我们研究了语言特征和复杂度判断之间的相关性。最后得到的排序结果强调了语法现象的关键作用:和句子结构相关的特征都排在前面,这些特征就是标注者一致认为非常复杂的句子的特点。当控制句子长度时,特别是对于意大利语而言,考虑到的特征的相关性就会改变:例如,当句子长度大于20个词的时候,关于subordination使用的特征使得句子更加复杂。就像回归模型的结果所展示的那样,被研究的特征的集合很大程度上有助于自动预测人类对句子复杂度的感知。
另外,我们展示的语料会对不同应用有帮助。从心理语言学的角度,可以用来和通过控制实验场景得到的数据进行比较,评估在各种感知方式(离线和在线)下评估句子复杂度,在大范围的获取这些是更加受限和耗时的。这个语料也可以研究在对文本其他特性建模时语言复杂度的特点是否也会体现出来,例如参与程度或主观程度。从nlp的角度,语料可以用来训练能够预测人们的复杂度感知能力的系统。例如,它支持一系列相关的任务,比如用于自动评估文本难度和语言生成任务的linguistically-informed算法的发现,从文本简化到自动生成或评估高度契合的文本。
更多:
1、宾州树库
NLP中常用的PTB语料库,全名Penn Treebank。
Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。
语料来源为:1989年华尔街日报
语料规模:1M words,2499篇文章
语料价格:1500 ~ 1700$
Penn Treebank委托Linguistic Data Consortium (LDC) 发行与收费,这意味着你想下载PTB就要去LDC的网站上下载(https://www.ldc.upenn.edu/)。
PTB有两个发行版,对应的LDC的编号分别为LDC95T7与LDC99742,在LDC中的名称为Treebank-2与Treebank-3。
这两个版本的语料内容是一样的,除了发行时间不清楚还有啥区别……
2 Wilcoxon Rank-sum test 秩和检验
python scipy 中的 ranksums(x,y)
解释:https://www.cnblogs.com/emanlee/archive/2011/12/17/2290978.html
3 Recursive Feature Elimination 递归式特征消除
通过学习器返回的 coef_ 属性 或者 feature_importances_ 属性来获得每个特征的重要程度。 然后,从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤,直到最终达到所需要的特征数量为止。
解释+代码:https://blog.csdn.net/fontthrone/article/details/79004874
4 数据
1、Corpus of Sentences rated with Human Complexity Judgments
意大利句子1123
英语句子1200
都有20个native speaker手工标注了复杂度等级,1-非常简单 7-非常难
数据集的句子是从两个手工修订的treebanks中获取的:the Italian Universal Dependency Treebank (IUDT) 的报纸部分 和 the Penn Treebank的自动转换得到的华尔街日报板块,前者用于意大利实验,后者用于英语实验。
2、CoNLL 2007
命名体识别数据集
https://blog.csdn.net/u012392084/article/details/78010047
命名实体识别(NER):比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。简单是说在NER中应用是,给定一系列的特征去预测每个词的标签。
3、依存句法分析与语义依存分析
https://www.cnblogs.com/CheeseZH/p/5768389.html
斯坦福https://www.cnblogs.com/sherry-yang/p/9061341.html
4、
论元是argument,题元是theta-role
每个谓语都描述一种介于几个论元之间的关系。论元可以是名词词组,也可以是从句。“我喜欢猫”这个句子就描述了“我”和“猫”之间的关系。特定的谓语要求特定数量的论元,所以有及物动词和不及物动词的区别。比如“喜欢”是及物动词,必须要有两个论元(这点用中文举例可能不是特别清楚,你也许可以说“我喜欢”,但是你喜欢什么呢?这个被喜欢的东西也许可以后期被省掉,但是完全不存在的话句子就不对了)。可以把论元理解成电子。每个谓语都都是一个有特定化合价的离子,只有得到/失去要求数量的电子才能形成稳定的化合物。比方说二价铁离子和三价铁离子就是不一样的。
论元只强调数量,比如一个及物动词必须要有两个论元。题元在语义上描述具体是什么关系。比如说,“我打你”这个句子里,“我”是agent(施动方),“你”是theme(受动方)。施动方和受动方就是两个题元。“打”这个动词会分配两个题元,所以必须要有两个论元来接收。多了或者少了,或者逻辑上不成立都是不行的(“桌子打我”就是逻辑上不成立)。生成句法有一个规则,叫theta criterion, 一说每个论元都要有一个题元,二说每个题元都要有一个论元(也就是说每个论元都有且只有一个题元),否则句子就不合法。
5、在复现完github上report.pdf中提到的23个特征后,还有以下论文中的特征待复现:
*sentence length, i.e. average number of words per sentence (n tokens)
*distribution of part-of-speech types; type/token ratio, calculated as the ratio between the number of lexical types, the number of tokens, in terms of both lemma and forms (ttr form, ttr lemma)
*lexical density(lex density), calculated as the ratio of content words (verbs, nouns, adjectives and adverbs) to the total tokens in a text
**length of dependency links calculated as the number of words between the syntactic head and the dependent: the feature includes the length of all dependency links (links len) and of the maximum dependency links (max links l).
**clause length measured as the number of tokens occurring within a clause (token clause).
***verbal features, i.e. the distribution of verbs according to mood (verbs mood), tense (verbs tense) and persons (verbs num per) distribution of verbal roots, i.e. the distribution of verbal roots out of the total of sentence roots. 这个我也看不出来他具体是怎么做的,但他们的思想是明确的,就是看句子里有多少是动词性的,动词性成分的比例就可以
***the depth of embedded complement chains governed by a nominal head and including either prepositional complements or nominal and adjectival modifiers, calculated as the total number of prepositional chains (n prep chains) and the average depth of chains (prep chain l);
??the distribution of embedded complement chains by depth, calculated as the number of chains out of the total number of chains in a sentence (prep depth).
----https://www.brighthubeducation.com/english-homework-help/46995-the-nominal-functions-of-prepositions-and-prepositional-phrases/
verbal predicate features:
****the distribution of verbal head (verb head);
---https://en.wikipedia.org/wiki/Head_(linguistics)
Many theories of syntax represent heads by means of tree structures. These trees tend to be organized in terms of one of two relations: either in terms of the constituency relation of phrase structure grammars or the dependency relation of dependency grammars
****the arity of verbs, meant as the average number of instantiated dependency links sharing the same verbal head covering both arguments and modifiers verb arity);the distribution of verbal head by arity, calculated as the total number of verbal heads with the same arity in a sentence (verb head arity); the relative ordering of subject and object with respect to the verbal head (order subj and order obj);
--
Synonyms[edit]
subordination features include the distribution of main vs. subordinate clauses (n subord clauses and n princ clauses; the average depth of chains of embedded subordinate clauses, calculated as the total number of subordinate chains (n subord chain) and the average depth of subordinate chains (subord chain l);
??the distribution of embedded subordinate clauses chains by depth, calculated as the number of chains out of the total number of chains in a sentence (subord depth). We also calculated the order of the subordinate clause with respect to the main clause (order subord)
--http://www.grammar-monster.com/glossary/subordinate_clause.htm
Is this Sentence Difficult? Do you Agree? -paper的更多相关文章
- How to read a paper efficiently
How to read a paper efficiently Structure of a Journal a Journal Article Title Keywords Abstract Int ...
- July 7th, Week 28th Thursday, 2016
The 79th Anniversary of Anti-Japan War Difficulties vanish when faced bodly. 勇敢面对困难,困难自会退让. The best ...
- bip39
BIP: 39 (助记词) Layer: Applications Title: Mnemonic code for generating deterministic keys Author: Mar ...
- Glossary Collection
目录 直接修饰用 间接强调用 (多为副词) 过渡用 特别的名词 动词 词组 各种介词 句子 摘要 引言 总结 正文 实验 直接修饰用 Word 含义 例句 近义词 nuanced adj. 微妙的:具 ...
- Python自然语言处理学习笔记(69)
http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure ...
- Awesome Torch
Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. T ...
- 论文列表——text classification
https://blog.csdn.net/BitCs_zt/article/details/82938086 列出自己阅读的text classification论文的列表,以后有时间再整理相应的笔 ...
- 【NLP新闻-2013.06.16】Representative Reviewing
英语原文地址:http://nlp.hivefire.com/articles/share/40221/ 注:本人翻译NLP新闻只为学习专业英语和扩展视野,如果翻译的不好,请谅解! (实在是读不大懂, ...
- Paper Reading - Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images ( ICCV 2015 )
Link of the Paper: https://arxiv.org/pdf/1504.06692.pdf Innovations: The authors propose the Novel V ...
随机推荐
- jeasyUI DataGrid 根据屏幕宽度自适应, 改变右侧滚动条Size
PC浏览器的Datagrid可以显示多几列,但是在手机浏览器时,只能有选择性的显示前几列. $(window).resize(function () { if (document.body.clien ...
- h5的坑
转自 http://www.mahaixiang.cn 解决各种坑 http://www.mahaixiang.cn/ydseo/1529.html
- Daily record-July
July11. Nonsense! 胡说八道!2. Who cares! 谁管你呀!3. It's on me.. 我来付.4. It's a deal. 一言为定.5. I've done my b ...
- mybatis输出sql语句
方法一: 这种方法是mybatis官网上介绍的,比较好用: log4j.properties: log4j.rootLogger=ERROR,consolelog4j.appender.console ...
- 每天CSS学习之text-decoration
text-decoration是CSS的一个属性,其作用是给文本装饰上划线.中间线.下划线或不装饰.其值如下所示: 1.none:不装饰任何线.该值是默认值.如下所示: p{ text-decorat ...
- Mysql中contact、group_concat、concat_ws、repeat
一.CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串.如有任何一个参数为NULL ,则返回值为 NULL. mysql> select concat('11','22',' ...
- 用Python的导入csv、文本文件、Excel文件的数据
使用read_csv函数导入CSV文件 read.csv函数语法 read_csv(file,encoding) 例子: Age,Name 22,wangwei 23,lixin 24,liqing ...
- Problem D: 求(x-y+z)*2
Description 编写一个程序,求解以下三个函数: f(x,y,z)=2*(x-y+z) f(x,y) =2*(x-y) f(x) =2*(x-1) 函数调用格式见append.cc. ...
- angular2.0 官网架构文档
Angular 是一个用 HTML 和 JavaScript 或者一个可以编译成 JavaScript 的语言(例如 Dart 或者 TypeScript ),来构建客户端应用的框架. 该框架包括一系 ...
- tf多线程读取数据
多线程读取数据的机制 tf中多线程读取数据跟常规的python多线程思路一致,是基于Queue的多线程编程. 主线程读取数据,然后计算,在读数据这部分有两个线程,一个线程读取文件名,生成文件名队列,另 ...