Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper
Authors:
Sarah E. Schwarm University of Washington, Seattle, WA
Mari Ostendorf University of Washington, Seattle, WA
Published in: ACL
time:June 25 - 30, 2005
Association for Computational Linguistics Stroudsburg, PA, USA ©2005
数据不公开
2 reading level assessment
最早:公式,syntactic特征(如句长)
之后:概率语言模型(前两个论文),smoothed unigram分类器捕捉词的变化
smoothed unigram分类器的Overall Accuracy and Generalization Ability
UNK:text中unknown的比例
types:per 100-token passage里的type即unique单词的个数
MLF:passage和大语料的相对log平均概率
FK:FK公式
smoothed unigram分类器性能超过了上述semantic difficulty,但是没有捕捉到syntactic information
我们的模型,使用ngram,捕捉both semantic和syntactic信息
补充:
Syntax是语法上的,Sematic是语义上的。
在自然语言范围内举个简单的例子The dog is a man.从syntax上来说,这句话没有错,主谓宾齐全而且各个成分的性和格也没错,但是语义上来说是错的,dog 怎么能是man呢。在不同的领域,syntax 和semantic有着不同的对照,但大致关系和自然语言里是差不多的。
syntactic,也就是句法,指的是语言的结构,简单说就是名词动词形容词等等不同词性的词应该按什么顺序在某一个语言里出现,还有某一种词性的词组可以衍生出什么新 的结构(比如VP->V NP) 。
结构正确的句子不一定有意义(semantic,也就是语义,指的是语言表达的意义)。 一个著名的例子是:“Colorless green ideas sleep furiously“。这个句子句法上完全正确,形容词名词动词副词各就各位,但是一点不make sense,正常生活中人不会明白这个句子要表达什么意思。
比较简单的理解语义和句法的区别的方法是:句法是讲一个东西往哪摆的,语义是研究 摆那以后对句子的interpretation的影响的。
3 corpora
??即使一些corpora没有等级,但是可以用来作为Weekly数据的补充,让model来区分能够为更细节的分类。
4 approach
ngram model
Kneser-Ney smoothing
SRI language Modeling Toolkit
4.1 statistical 语言模型
P(w)
LM:文本t分类到c的概率/文本t分类到其他类别的概率和
可以使用语言模型LM中的分数、复杂度作为分类器SVM的特征
4.2 feature selection
IG信息增益-单个词汇的作用
unknown替换成POS
特征
1)平均句长
2)每个单词的平均音节
3)FK得分
4)6 OOV rate scores
难度最低的文本中最常见的100、200、500个词,对于每篇文章计算和这三部分的token和type比值
5)parse特征~平均parse tree height、名词短语平均数目、动词短语平均数目、SBAR平均数目~从句
6)12语言模型复杂度得分
tri、bi、unigram在四个语料上,共3*4
SVMLIGHT来训练svm
5、实验
language model classifier:Ngran
svm分类器:用的LM特征
DET curves:
DET(Detection Error Tradeoff )曲线是对二元分类系统误码率的曲线图,绘制出错误拒绝率FRR(False Reject Rate)与错误接受率(False Accept Rate)之间随着判断阈值的变化而变化的曲线图。现在DET曲线扩展到用于模式识别分类器性能的评价的一个指标之一。在上式中, 表示正样本总数, 表示正样本被拒绝即判定为负样本的数目, 表示负样本总数,表示被错误接受的样本数,也就是本身是负样本被判定为正样本的样本数目。由此可以看出,FRR与FAR均受到判定阈值的影响,并且当FAR逐渐增大的时候,也就是当错误接受率逐渐靠近1时,FRR错误拒绝率逐渐减小;当FRR逐渐增大时,FAR必然是逐渐减小的。当在不同的判定阈值时,画出FRR与FAR的关系,也就是DET曲线。
accuracy和precision的区别:
分类正确率(Accuracy),不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。而准确率在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。或者说,Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。
Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper的更多相关文章
- Support Vector Machines for classification
Support Vector Machines for classification To whet your appetite for support vector machines, here’s ...
- Machine Learning - 第7周(Support Vector Machines)
SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing构建 ...
- Ng第十二课:支持向量机(Support Vector Machines)(三)
11 SMO优化算法(Sequential minimal optimization) SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规 ...
- Introduction to One-class Support Vector Machines
Traditionally, many classification problems try to solve the two or multi-class situation. The goal ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 12—Support Vector Machines 支持向量机
Lecture 12 支持向量机 Support Vector Machines 12.1 优化目标 Optimization Objective 支持向量机(Support Vector Machi ...
- 【Supervised Learning】支持向量机SVM (to explain Support Vector Machines (SVM) like I am a 5 year old )
Support Vector Machines 引言 内核方法是模式分析中非常有用的算法,其中最著名的一个是支持向量机SVM 工程师在于合理使用你所拥有的toolkit 相关代码 sklearn-SV ...
- (原创)Stanford Machine Learning (by Andrew NG) --- (week 7) Support Vector Machines
本栏目内容来源于Andrew NG老师讲解的SVM部分,包括SVM的优化目标.最大判定边界.核函数.SVM使用方法.多分类问题等,Machine learning课程地址为:https://www.c ...
- Andrew Ng机器学习编程作业:Support Vector Machines
作业: machine-learning-ex6 1. 支持向量机(Support Vector Machines) 在这节,我们将使用支持向量机来处理二维数据.通过实验将会帮助我们获得一个直观感受S ...
- Coursera 机器学习 第7章 Support Vector Machines 学习笔记
7 Support Vector Machines7.1 Large Margin Classification7.1.1 Optimization Objective支持向量机(SVM)代价函数在数 ...
随机推荐
- Numpy中的广播原则(机制)
为了了解这个原则,首先我们来看一组例子: # 数组直接对一个数进行加减乘除,产生的结果是数组中的每个元素都会加减乘除这个数. In [12]: import numpy as np In [13]: ...
- oracle 连接问题汇总
遇到的情况: 1/后台配置完好,若是连其他的库都是好的,当连接另外的库时,始终连接不上,这是需要考虑到服务端安装文件tnsnames文件中服务名在客户端的安装文件tnsnames文件中是否存在
- 洛谷 P1856 【Picture】
题目描述 N(N<5000) 张矩形的海报,照片和其他同样形状的图片贴在墙上.它们的边都是垂直的或水平的.每个矩形可以部分或者全部覆盖其他矩形.所有的矩形组成的集合的轮廓称为周长.写一个程序计算 ...
- C# 绘制圆角矩形
Graphics g = e.Graphics; // 圆角半径 ; // 要实现 圆角化的 矩形 Rectangle rect = , , panel4.Width - cRadius, panel ...
- 【Python】【自动化测试】【pytest】
https://docs.pytest.org/en/latest/getting-started.html#create-your-first-test http://www.testclass.n ...
- WingIDE 常用快捷键
Ctrl+N 新建文件 Ctrl+O 打开文件夹 Ctrl+W 关闭当前文件 Ctrl+S 保存文件 Ctrl+shif+S ...
- PHP中buffer的认知
buffer其实就是缓冲区,一个内存地址空间,只要用于存储数据区域. <?php echo 1; 运行这段代码,浏览器会显示1,其实中间会经历一个buffer(数据1先到buffer,当buff ...
- dilated convolutions:扩张卷积
最近在阅读<Context Encoding for Semantic Segmentation>中看到应用了dilated convolutions. 扩张卷积与普通的卷积相比,除了卷积 ...
- jQuery中的 $.ajax的一些方法
1. $(document).ajaxConplete(function(){}) 1.8版本之后,只能绑定到document元素上:1.8版本之前,可以帮到其他元素上 当$.ajax执行完成之后,执 ...
- Redis缓存设计及常见问题
Redis缓存设计及常见问题 缓存能够有效地加速应用的读写速度,同时也可以降低后端负载,对日常应用的开发至关重要.下面会介绍缓存使 用技巧和设计方案,包含如下内容:缓存的收益和成本分析.缓存更新策略的 ...