Readability Assessment for Text Simplification -paper
https://pdfs.semanticscholar.org/e43a/3c3c032cf3c70875c4193f8f8818531857b2.pdf
1、introduction
在Brazil: the National Indicator of Functional Literacy(INAF) 在2001年之后自动计算人口的文化水平,分为illiterate、rudimentary、basic、advanced
1920-1980年间就一共有200个firmulas来评估英文可读性。
Portuguese 的唯一工具就是 the Flesch Reading Ease index。
本文关注与可读性评估方法来辅助写作工具中的文本简化过程,工具名称是 SIMPLIFICA。这个工具是 part of the PorSimples project。和之前的工作不一样的是,这个工具不根据linear grade levels去对文本难度建模,而是将文本映射到INFA定义的文化水平的三个等级: rudimentary, basic or advanced. 而且,使用了更广泛的特征集合,不同的学习技巧、目标语言是新的、应用是新的。
我们重点关注以下几个研究问题:
1、给定训练材料,检测葡萄牙语文本复杂度是可能的吗(根据INAF等级)
2、对这个问题建模的最好方法是什么,哪些特征是相关的
我们对nominal, ordinal and interval名词、序数词和基于间隔进行试验,探索了Coh-Metrix 2.0 (2004年)提出的认知激励的特征而且适应葡萄牙语,伴随了一系列新特征,包括句法特征来捕捉简化操作和ngram语言模型特征。
2 Text Simplication in Porsimples
text simplification(TS)
我们提出了两类简化类型:natural和strong
建立了简化文本的语料,两类都有
2.1 the rule-based simplification system
简化操作和句法现象的关系在基于规则的句法简化系统当中会体现 (Candido Jr. et al., 2009).
简化操作:sentence splitting, changing particular discourse markers by simpler ones, transforming passive into active voice, inverting the order of clauses, converting to subject-verb-object order, relocating long adverbial phrases
2.2 the SIMPLIFICA tool
基于规则的简化系统是SIMPLICATION的一部分它是自动写作工具用来简化原始文本---网页工具。
3、readability assessment
2008,定义了文本质量的度量方法
2005,2007,作为把英语作为第二语言的学习者、
2009,有学习能力缺陷的人
2007,理解能力有问题的
传统指标Flesch-Kincaid Level score tend来预测文本难度
Miltsakali and Troutt (2007; 2008) ,提出自动工具评估Web文本阅读难度,目标人群是青少年和低文化水平成年人。
使用机器学习,评估德语可读性的自动工具,使用类似 Flesch Reading Ease的可读性分数。
4、a tool for readability assessment
和别的工作不同的是:
i、使用cognitively-motivated metrics的特征集合,提供对文本复杂度的更好的解释的附加特征。
ii、新的受众:不同文化水平
iii、对非线性数据scales的不同的统计模型:INAF定义的文本水平
iv、关注于新的应用:使用可读性评估
v、目标语言是葡萄牙语
4.1 features for assessing readability
3组特征:
第一组包含认知驱动的特征 ,来源于the Coh-Metrix-PORT tool
第二组特征包含反应特殊句法结构的
第三组特征包含来源于ngram语言模型的特征,考虑到了unigram、bigrams和trigrams概率和复杂度。
基本特征包括简单计数,不要求任何语言工具或另外的计算资源。
Coh-Metrix-Port
coh-metrix工具来计算和英文本文理解的相关的计算特征。
该工具中用到了以下特征:
1)每句话的单词
2)同位语的概率
3)从句的概率
4)Flesch index
5)主要动词前的words
6)每篇文章的句子
7)关系从句的概率
8)每个单词的syllables音节
9)Number of positive additive connectives
10)Number of negative causal connectives
使用了三个类型的机器学习算法:标准分类器、计数(排序)分类器和回归分类器。
分类器使用了是Weka工具(SMO)的svm的排序、分类和回归工具。使用SMO算法,rbf核用于回归。
5 实验
语料:。。
特征分析:计算特征和期望文化水平的绝对pearson距离
实验中:将不同类特征、三种分类器都分别对比了,使用了F-measures,Pearson相关系数和MAE
回归模型中,RGB核是最好的。
所有的特征都考虑的效果对所有模型的所有特征集合来说都是最好的,不同特征组合的各自性能各不相同。
当把每个特征独立看待时,句法特征和coh-metrix-port得到了最好的相关系数,但是语言模型最差。
线性分类器是最简单的模型,达到了最高的F-measure,相关系数也是能和其他模型想比拟的。
Readability Assessment for Text Simplification -paper的更多相关文章
- OneStopEnglish corpus: A new corpus for automatic readability assessment and text simplification-paper
这篇论文的related work非常详尽地介绍了各种readability的语料 abstract这个paper描述了onestopengilish这个三个level的文本语料的收集和整理,阐述了再 ...
- [转]NLP Tasks
Natural Language Processing Tasks and Selected References I've been working on several natural langu ...
- READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper
https://aclanthology.info/pdf/W/W11/W11-2308.pdf 2 background2000年以前 ----传统可读性准则局限于表面的文本特征,例如the Fle ...
- (转)awesome-text-summarization
awesome-text-summarization 2018-07-19 10:45:13 A curated list of resources dedicated to text summari ...
- 自然语言处理领域重要论文&资源全索引
自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyon ...
- NLP项目
GitHub NLP项目:自然语言处理项目的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为自然语言处理NLP初学者整理了 ...
- Official Program for CVPR 2015
From: http://www.pamitc.org/cvpr15/program.php Official Program for CVPR 2015 Monday, June 8 8:30am ...
- svg + d3
为了实现元素的添加,删除,拖拽,左键点击,右键单击,悬浮等功能,使用了d3 + svg 的技术来实现界面. 最开始是采用canvas,但是由于功能原因放弃了该技术,可以看下 canvas简介 另附:c ...
- 常用CSS Reset汇总
什么是Css Reset呢? 在 HTML标签在浏览器里有默认的样式,不同浏览器的默认样式之间也会有差别.在切换页面的时候,浏览器的默认样式往往会给我们带来麻烦,影响开发效率.所以解决的方法就是一开始 ...
随机推荐
- ASP.NET Core Web 项目 发布的IIS7提示“HTTP Error 502.5 - Process Failure
原因就是NUGET引用的DLL和SDK的版本不对, 你打开CMD,在项目bin目录运行dotnet xxx.dll, 会看到具体错误信息 所以你要么引用低版本的dll,要么升级最新SDK
- kiss prefix paleo,per,pen,pan,para out 1
1● paleo 2● per 3● pen 4● pan 5● para 1★ paleo 古 2★ para ,辅助,在旁边 3★ pan 广泛的 4★ per 假,坏,自始自 ...
- python 利用turtle库绘制七段数码管的方式,绘制当前事件(时分秒00:00:00)
# coding:utf-8# 绘制七段数码管,显示当前时间import timeimport turtle as tt # 绘制间隔def drawGap(): tt.penup() tt.fd(3 ...
- Linux command nmon
Linux command nmon [Purpose] Learning linux command nmon [Eevironment] Ubuntu 16.04 ...
- nginx:负载均衡实战(一)
1.负载均衡说明 2.准备 我自己在电脑布置了两台虚拟机,两台都有nginx和tomcat,两台虚拟机布置的ip分别是37以及54,我在tomcat的首页动了点手脚,方便自己看是来自哪个ip的 接着在 ...
- Saiku的基本使用介绍(三)
Saiku的基本使用介绍(这里都是使用Admin用户登录系统) 1.启动安装好的Saiku ( ./start-saiku.sh ) ,浏览器使用访问系统 http://localhost:8080 ...
- day11 第一类对象 闭包 迭代器
今日主要内容: 1 . 第一类对象 -->函数名--> 变量名 2. 闭包 -->函数的嵌套 3. 迭代器 --> 固定的思想 for 循环 第一类对象 : 函数对象介意向变 ...
- Xilinx 7 series FPGA multiboot技术的使用(转)
reference:https://www.cnblogs.com/chensimin1990/p/9067629.html 当升级程序有错误的时候,系统会启动golden bitstream 注意: ...
- DevExpress v18.1新版亮点——DevExtreme篇(一)
用户界面套包DevExpress v18.1日前终于正式发布,本站将以连载的形式为大家介绍各版本新增内容.本文将介绍了DevExtreme JavaScript Controls v18.1 的新功能 ...
- win8 下面 listen 的队列长度貌似无效了 上c/s 代码 并附截图,有图有真相
#include <WinSock2.h> #include <stdio.h> #include <windows.h> DWORD ServerRoutine( ...