Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper
Authors:
Sarah E. Schwarm University of Washington, Seattle, WA
Mari Ostendorf University of Washington, Seattle, WA
Published in: ACL
time:June 25 - 30, 2005
Association for Computational Linguistics Stroudsburg, PA, USA ©2005
数据不公开
2 reading level assessment
最早:公式,syntactic特征(如句长)
之后:概率语言模型(前两个论文),smoothed unigram分类器捕捉词的变化
smoothed unigram分类器的Overall Accuracy and Generalization Ability
UNK:text中unknown的比例
types:per 100-token passage里的type即unique单词的个数
MLF:passage和大语料的相对log平均概率
FK:FK公式
smoothed unigram分类器性能超过了上述semantic difficulty,但是没有捕捉到syntactic information
我们的模型,使用ngram,捕捉both semantic和syntactic信息
补充:
Syntax是语法上的,Sematic是语义上的。
在自然语言范围内举个简单的例子The dog is a man.从syntax上来说,这句话没有错,主谓宾齐全而且各个成分的性和格也没错,但是语义上来说是错的,dog 怎么能是man呢。在不同的领域,syntax 和semantic有着不同的对照,但大致关系和自然语言里是差不多的。
syntactic,也就是句法,指的是语言的结构,简单说就是名词动词形容词等等不同词性的词应该按什么顺序在某一个语言里出现,还有某一种词性的词组可以衍生出什么新 的结构(比如VP->V NP) 。
结构正确的句子不一定有意义(semantic,也就是语义,指的是语言表达的意义)。 一个著名的例子是:“Colorless green ideas sleep furiously“。这个句子句法上完全正确,形容词名词动词副词各就各位,但是一点不make sense,正常生活中人不会明白这个句子要表达什么意思。
比较简单的理解语义和句法的区别的方法是:句法是讲一个东西往哪摆的,语义是研究 摆那以后对句子的interpretation的影响的。
3 corpora
??即使一些corpora没有等级,但是可以用来作为Weekly数据的补充,让model来区分能够为更细节的分类。
4 approach
ngram model
Kneser-Ney smoothing
SRI language Modeling Toolkit
4.1 statistical 语言模型
P(w)
LM:文本t分类到c的概率/文本t分类到其他类别的概率和
可以使用语言模型LM中的分数、复杂度作为分类器SVM的特征
4.2 feature selection
IG信息增益-单个词汇的作用
unknown替换成POS
特征
1)平均句长
2)每个单词的平均音节
3)FK得分
4)6 OOV rate scores
难度最低的文本中最常见的100、200、500个词,对于每篇文章计算和这三部分的token和type比值
5)parse特征~平均parse tree height、名词短语平均数目、动词短语平均数目、SBAR平均数目~从句
6)12语言模型复杂度得分
tri、bi、unigram在四个语料上,共3*4
SVMLIGHT来训练svm
5、实验
language model classifier:Ngran
svm分类器:用的LM特征
DET curves:
DET(Detection Error Tradeoff )曲线是对二元分类系统误码率的曲线图,绘制出错误拒绝率FRR(False Reject Rate)与错误接受率(False Accept Rate)之间随着判断阈值的变化而变化的曲线图。现在DET曲线扩展到用于模式识别分类器性能的评价的一个指标之一。在上式中, 表示正样本总数, 表示正样本被拒绝即判定为负样本的数目, 表示负样本总数,表示被错误接受的样本数,也就是本身是负样本被判定为正样本的样本数目。由此可以看出,FRR与FAR均受到判定阈值的影响,并且当FAR逐渐增大的时候,也就是当错误接受率逐渐靠近1时,FRR错误拒绝率逐渐减小;当FRR逐渐增大时,FAR必然是逐渐减小的。当在不同的判定阈值时,画出FRR与FAR的关系,也就是DET曲线。
accuracy和precision的区别:
分类正确率(Accuracy),不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。而准确率在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。或者说,Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。
Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper的更多相关文章
- Support Vector Machines for classification
Support Vector Machines for classification To whet your appetite for support vector machines, here’s ...
- Machine Learning - 第7周(Support Vector Machines)
SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing构建 ...
- Ng第十二课:支持向量机(Support Vector Machines)(三)
11 SMO优化算法(Sequential minimal optimization) SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规 ...
- Introduction to One-class Support Vector Machines
Traditionally, many classification problems try to solve the two or multi-class situation. The goal ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 12—Support Vector Machines 支持向量机
Lecture 12 支持向量机 Support Vector Machines 12.1 优化目标 Optimization Objective 支持向量机(Support Vector Machi ...
- 【Supervised Learning】支持向量机SVM (to explain Support Vector Machines (SVM) like I am a 5 year old )
Support Vector Machines 引言 内核方法是模式分析中非常有用的算法,其中最著名的一个是支持向量机SVM 工程师在于合理使用你所拥有的toolkit 相关代码 sklearn-SV ...
- (原创)Stanford Machine Learning (by Andrew NG) --- (week 7) Support Vector Machines
本栏目内容来源于Andrew NG老师讲解的SVM部分,包括SVM的优化目标.最大判定边界.核函数.SVM使用方法.多分类问题等,Machine learning课程地址为:https://www.c ...
- Andrew Ng机器学习编程作业:Support Vector Machines
作业: machine-learning-ex6 1. 支持向量机(Support Vector Machines) 在这节,我们将使用支持向量机来处理二维数据.通过实验将会帮助我们获得一个直观感受S ...
- Coursera 机器学习 第7章 Support Vector Machines 学习笔记
7 Support Vector Machines7.1 Large Margin Classification7.1.1 Optimization Objective支持向量机(SVM)代价函数在数 ...
随机推荐
- JDK1.7安装和配置及注意事项
要求 必备知识 windows 7 基本操作. 运行环境 windows 7 下载地址 环境下载 下载JDK 下载地址:http://www.oracle.com/technetwork/java/j ...
- 变量和关系符和JAVA基本类型笔记与常考面试题
变量的类型:数值型:整型(byte,short,int,long).浮点型(float,double)非数值型:布尔类型(boolean),字符型(char),字符串类型(String),其他引用型 ...
- TensorFlow和Keras完成JAFFE人脸表情识别
cut_save_face.py #!/usr/bin/python # coding:utf8 import cv2 import os import numpy as np import csv ...
- 【Visual Studio 扩展工具】如何在ComponentOne的DataTree中实现RightToLeft布局
概述 C1FlexGrid提供了创建轮廓树的功能,其中可以显示缩进结构,每个节点行旁边都有折叠/展开图标. 然后,用户可以展开和折叠轮廓以查看所需的细节级别. 为此,C1FlexGrid允许您使用其T ...
- Codeforces 1100 F - Ivan and Burgers
F - Ivan and Burgers 思路:线性基+贪心,保存线性基中每一位的最后一个 代码: #pragma GCC optimize(2) #pragma GCC optimize(3) #p ...
- Android 回调函数的理解,实用简单(回调函数其实是为传递数据)
作者: 夏至,欢饮转载,也请保留这段申明 http://blog.csdn.net/u011418943/article/details/60139910 一般我们在不同的应用传递数据,比较方便的是用 ...
- 【百度地图API】如何获取行政区域的边界?(转载)
转自:http://www.cnblogs.com/milkmap/archive/2012/04/11/2442430.html 摘要:以前教过大家如何自行获取行政区域,或者自定义获取一个区域的边界 ...
- 微信小程序的布局css样式
微信小程序的布局css样式width: fit-content;font-size:20px; /*设置文字字号*/color:red; /*设置文字颜色*/font-w ...
- js 获取getElementsTagName()方法返回值的内容
<div id="news-top" class="section"> <h3>Some title</h3> <di ...
- mstOne
云鸟(2017年6月6日) 1.html标签语义化的好处 a:利于seo优化 b:在样式丢失的时候,还是可以比较好的呈现结构 c:更好的支持各种终端,例如无障碍阅读和有声小说等. d:利于团队开发和维 ...