对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法。

  一、测试集的选择

  1、首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于新案例。

  2、如果分类的类别比较少,比如只有两个,而且每类的样本数大致相等,那100个样本大小的测试集也是够用的;但如果类别数比较多,且分布十分不均,那测试集的大小要保证最稀少的种类的样本数不少于50;此外,如果测试集的样本相互之间比较相似,就要适当的扩大测试集来弥补多样性的缺乏对评价的影响。当样本数比较大时,通常的做法是取整个数据集的10%作为测试集。

  3、测试集和训练集样本之间的相似度问题。相似度越高,评价的可信度就越低。举一个错误的例子:随机地分配来自同一个题材多篇文章的句子来组建测试集和训练集。代码如下:

>>> import random
>>> from nltk.corpus import brown
>>> tagged_sents = list(brown.tagged_sents(categories='news'))
>>> random.shuffle(tagged_sents)
>>> size = int(len(tagged_sents) * 0.1)
>>> train_set, test_set = tagged_sents[size:], tagged_sents[:size]

  这是非常愚蠢的做法,因为不同的文章,作者不同,句子的特征就会不同,来自不同文章的句子可以认为具有不同的特征,这对于模型测试是有利的。但是使用random.shuffle()将所用句子的顺序打乱,来自同一篇文章的句子就同时分布在测试集和训练集中,两者的相似度更高了,使原有的优势消失。一个改进的做法是保证测试集和训练集来自不同的文章,如下:

>>> file_ids = brown.fileids(categories='news')
>>> size = int(len(file_ids) * 0.1)
>>> train_set = brown.tagged_sents(file_ids[size:])
>>> test_set = brown.tagged_sents(file_ids[:size])

  如果想进一步改进,则可以使测试集和训练集来自不同的题材:

>>> train_set = brown.tagged_sents(categories='news')
>>> test_set = brown.tagged_sents(categories='fiction')

  二、评价方法/指标

  1、accuracy

  这是最常用的指标,就是用测试集中分类器正确分类的样本数除以测试集的总样本数。用nltk.classify.accuracy(classifier,test_set)方法可以得到,其中test_set是测试集,classifier是分类器。

  使用这个指标时一定要考虑测试集中样本的频率分布。原因在percision&recall中会解释

  2、precision&recall

  在搜索任务中accuracy通常不适用。比如在文献检索(information retrieval)中不相关的文档远远多于相关的文档,这样如果分类器将所有文档都标记为不相关,那它的准确率也将近100%。

  为了构建适用于搜索任务的指标,我们先来定义几个概念:

  Ture positive:TP,相关的被标记为相关

  Ture negative:TN,不相关的被标记为不相关

  False positive:FP,不相关的错标记为相关(第一类错误)

  False negative:FN,相关的被错标为不想关(第二类错误)

  然后基于以上概念,就可以构建一下指标:

  precision=TP/(TP+FP)

  recall=TP/(TP+NF)

  F-Measure=(2*precision*recall)/(precision+recall)

  3、confusion matrices(混淆矩阵)

  混淆矩阵的意思是,其中的元素[i,j]表示当正确的分类是i时,样本被分成j类的比例(相对于总样本数),即对角线上为正确分类的比例。代码如下:

>>> def tag_list(tagged_sents):
... return [tag for sent in tagged_sents for (word, tag) in sent]
>>> def apply_tagger(tagger, corpus):
... return [tagger.tag(nltk.tag.untag(sent)) for sent in corpus]
>>> gold = tag_list(brown.tagged_sents(categories='editorial'))
>>> test = tag_list(apply_tagger(t2, brown.tagged_sents(categories='editorial')))
>>> cm = nltk.ConfusionMatrix(gold, test)
>>> print(cm.pretty_format(sort_by_count=True, show_percents=True, truncate=9))
| N |
| N I A J N V N |
| N N T J . S , B P |
----+----------------------------------------------------------------+
NN | <11.8%> 0.0% . 0.2% . 0.0% . 0.3% 0.0% |
IN | 0.0% <9.0%> . . . 0.0% . . . |
AT | . . <8.6%> . . . . . . |
JJ | 1.7% . . <3.9%> . . . 0.0% 0.0% |
. | . . . . <4.8%> . . . . |
NNS | 1.5% . . . . <3.2%> . . 0.0% |
, | . . . . . . <4.4%> . . |
VB | 0.9% . . 0.0% . . . <2.4%> . |
NP | 1.0% . . 0.0% . . . . <1.8%>|
----+----------------------------------------------------------------+
(row = reference; col = test)

  代码是从参考书上copy的,第六行的t2不明白是什么?在pythonwin上也无法正确运行,之后弄明白再修改。

  4、cross-validation(交叉验证)

  所谓交叉验证,就是讲整个数据集等分成N份,其中一份用作测试,N-1份用作训练,测试集不断的改变,总共进行N次,再取N次测试所得指标的平均值作为最后的评价结果。交叉验证的优点在于它使我们能够看到模型在不同的训练集上的稳定性,如果评价结果变化不大,则可以认为结果是准确的。

    

  

Python自然语言处理学习笔记之评价(evaluationd)的更多相关文章

  1. python自然语言处理学习笔记1

    1.搭建环境 下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.d ...

  2. Python自然语言处理学习笔记之性别识别

    从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下 性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extrac ...

  3. python自然语言处理——学习笔记:Chapter3纠错

    2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理h ...

  4. python自然语言处理学习笔记2

    基础语法 搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar(" ...

  5. Python自然语言处理学习笔记(69)

    http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8    Analyzing Sentence Structure ...

  6. Python自然语言处理学习笔记之信息提取步骤&分块(chunking)

    一.信息提取模型 信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[ ...

  7. Python自然语言处理学习笔记之选择正确的特征(错误分析 error analysis)

    选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有 ...

  8. Requests:Python HTTP Module学习笔记(一)(转)

    Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...

  9. python网络爬虫学习笔记

    python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

随机推荐

  1. SQL复习一(基础知识)

    1.什么是sql SQL(structure query language)是结构化查询语言,它是对关系型数据库的操作语言.它可以应用到所有的数据库中,例如:MySQL.Oracle.SQL serv ...

  2. [即时通讯]openfire启动失败解决办法

    当你发现你的电脑上的openfire无论你是重新安装还是重启都无法启动的情况下你可以按照我下面写的那些终端指令来启动你的openfire不用再去重新做你的系统了. 一般你发现你的openfire打开出 ...

  3. eclipse创建Maven父子结构Maven项目

    1.创建聚合模块 选择菜单项 File—>New—>Other,在弹出的对话框中选择Maven下的Maven Project,然后单击Next按钮,在弹出的New Maven Projec ...

  4. November 11th 2016 Week 46th Friday

    Keep in mind that neither success nor failure is ever final. 无论成败,皆非定局. The final is not coming, but ...

  5. mysql----ERROR 1040 (HY000): Too many connections

    http://gwokae.mewggle.com/wordpress/index.php/archives/683 查看最大链接 mysql -h alg-db14 -u bfdroot -pqia ...

  6. USB自定义HID设备实现-STM32

    该文档使用USB固件库,在其基础上进行了自己的定制,完成了一个USB-HID设备,首先是usb_desc.c文件,里面存放了usb各种描述符的存在 #include "usb_desc.h& ...

  7. tp框架中的静态验证

    //制定命名空间在Home 模块下Model文件夹下 如:namespace Home\Model; //引用父类 如:use Think\Model; //实例化表 如:class ZhuCeMod ...

  8. tp框架实现验证码验证

    //实现验证页面 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://ww ...

  9. JNI 中文字符串传递(转)

    源:JNI 中文字符串传递 因为项目编码中通过JNI传递中文字符时出现乱码问题,特搜集了相关资料,整理如下: java内部是使用16bit的unicode编码(UTF-16)来表示字符串的,无论中文英 ...

  10. mysql查看sql语句执行时间

    原文地址: http://www.cnblogs.com/happySmily/p/5943311.html