当我们对某些问题进行分类时,真实结果的分布会有明显偏差. 例如对是否患癌症进行分类,testing set 中可能只有0.5%的人患了癌症. 此时如果直接数误分类数的话,那么一个每次都预测人没有癌症的算法也是性能优异的. 此时,我们需要引入一对新的判别标准:Precision/Recall来进行算法的性能评判,它们的定义如下: 可以看出,Precision表示:预测一件事件发生,它实际发生的概率是多少.换言之:预测准的概率如何. Recall表示:一件事情实际发生了,能把它预测出来的概率是多少.…
一.Precision - Recall 的平衡 1)基础理论 调整阈值的大小,可以调节精准率和召回率的比重: 阈值:threshold,分类边界值,score > threshold 时分类为 1,score < threshold 时分类为 0: 阈值增大,精准率提高,召回率降低:阈值减小,精准率降低,召回率提高: 精准率和召回率是相互牵制,互相矛盾的两个变量,不能同时增高: 逻辑回归的决策边界不一定非是 ,也可以是任意的值,可根据业务而定:,大于 threshold 时分类为 1,小于…
目录 metrics 评价方法 TP , FP , TN , FN 概念 计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 Average Precision mAP 参考资料 metrics 评价方法 针对谁进行评价? 对于物体分类到某个类别的 预测结果 和 真实结果 的差距进行评价(二分类) 在多分类问题中,评价方法是逐个类计算的,不是所有类一起算!是只针对一个类算,每个类别有自己的指标值! 也就是对每个类别,预测结果…
针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision.Recall.F-score(F1-measure)TPR.FPR.TNR.FNR.AUCAccuracy   真实结果 1 0 预测结果 1 TP(真阳性)  FP(假阳性) 0 FN(假阴性) TN(真阴性) TP(True Positive):预测结果为正类,实际上就是正类 FP(False Positive):预测结果为正类,实际上是反类 FN(False negative):预测结果为反类,实际上是正类 TN(…
Precision & Recall 先看下面这张图来理解了,后面再具体分析.下面用P代表Precision,R代表Recall 通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了. 下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来. 我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的.比如极端情况下,我们只搜出了一个结果,且是…
华盛顿大学 machine learning :classification  笔记 第6周 precision & recall 1.accuracy 局限性 我们习惯用 accuracy 评价一个分类器模型的准确程度,accuracy即正确预测的样本数/预测样本总数, 一般情况下这种评价都适用. 但假设一个这样的二分类器,95%的数据都是 +1 ,分类器直接把所有数据预测为 +1,那这个分类器的accuracy 为95%, 很高,但显然这不是个好的分类器.对于这样的数 据,评价一个分类器模型…
Precision又叫查准率,Recall又叫查全率.这两个指标共同衡量才能评价模型输出结果. TP: 预测为1(Positive),实际也为1(Truth-预测对了) TN: 预测为0(Negative),实际也为0(Truth-预测对了) FP: 预测为1(Positive),实际为0(False-预测错了) FN: 预测为0(Negative),实际为1(False-预测错了) 总的样本个数为:TP+TN+FP+FN. Accuracy/Precision/Recall的定义 Accura…
skewed classes skewed classes: 一种类里面的数量远远高于(或低于)另一个类,即两个极端的情况. 预测cancer的分类模型,如果在test set上只有1%的分类误差的话,乍一看是一个很好的结果,实际上如果我们将所有的y都预测为0的话(即都不为cancer),分类误差为0.5%(因为cancer的比率为0.5%).error降低了,那这是对算法的一种改进吗?显然不是的.因为后面一种方法实际上什么也没有做(将所有的y=0),不是一种好的机器学习算法.所以这种error…
当我们在谈论一个模型好坏的时候,我们常常会听到准确率(Accuracy)这个词,我们也会听到"如何才能使模型的Accurcy更高".那么是不是准确率最高的模型就一定是最好的模型? 这篇博文会向大家解释准确率并不是衡量模型好坏的唯一指标,同时我也会对其他衡量指标做出一些简单说明. 首先我们先要了解混淆矩阵(Confusion Matrix), 如下图,混淆矩阵经常被用来衡量一个分类模型在测试样本上的性能,本文提到的所有衡量标准都会用到下面混淆矩阵中出现的的四个值 真正例和真反例表示被正确预测的数据…
TP Rate ,FP Rate, Precision, Recall, F-Measure, ROC Area, https://www.zhihu.com/question/30643044 T/F表示 true/false  表示预测的是不是对的 P/N表示 positive/negative  表示实际数据是正样本还是负样本 P/N表示 positive/negative  表示预测数据是正样本还是负样本   TP: 预测为1, 实际为1,预测正确 FP: 预测为1, 实际为0,预测错误…
preision与recall之间的权衡 依然是cancer prediction的例子,预测为cancer时,y=1;一般来说做为logistic regression我们是当hθ(x)>=0.5时,y=1; 当我们想要在预测cancer更确信时(因给病人说他们有cancer会给他们带来很重大的影响,让他们去治疗,所以想要更确信时再告诉病人cancer的预测): 我们可以将阀值设为0.7,这时我们将有一个高的precision(因为标注出有cancer的都是很确信的),和一个低值的recall…
一.TP TN FP FN TP:标签为正例,预测为正例(P),即预测正确(T) TN:标签为负例,预测为负例(N),即预测正确(T) FP:标签为负例,预测为正例(P),即预测错误(F) FN:标签为正例,预测为负例(N),即预测错误(F) 其中 T:True    F:False    P:Positive    N:Negative 由于缩写较为难记,我将其分别记为:真的正样本(TP),真的负样本(TN),假的正样本(FP),假的负样本(FN) 二.accuracy precision r…
引自:http://www.cnblogs.com/taichu/p/5251332.html ########################### #说明: # 撰写本文的原因是,笔者在研究博文“http://python.jobbole.com/83563/”中发现 # 原内容有少量笔误,并且对入门学友缺少一些信息.于是笔者做了增补,主要有: # 1.查询并简述了涉及的大部分算法: # 2.添加了连接或资源供进一步查询: # 3.增加了一些lib库的基本操作及说明: # 4.增加了必须必要…
使用页面Tag判断某个值为空值时,不能使用logic:equal(无效),可以使用logic:notPresent…
使用织梦DedeCMS系统程序开发网站中,我们会遇到很多因网页版面设计限定的宽度,使文章标题需要进行字数限制,通常做法是在a标签中加入一个title属性,让鼠标放上去的时候显示完整标题.但是标题被剪裁掉一些字符而不完整,广信之家小编为你推荐另外几种标题调用方式,如进行标题判断,DedeCMS判断简略标题为空时则显示完整标题.具体方法如下:   方法一:  {dede:field name='array' runphp='yes'} if (@me['shorttitle']=='') @me=@…
原文:WPF 判断一个对象是否是设计时的窗口类型,而不是运行时的窗口 当我们对 Window 类型写一个附加属性的时候,在属性变更通知中我们需要判断依赖对象是否是一个窗口.但是,如果直接判断是否是 Window 类型,那么在设计器中这个属性的设置就会直接出现异常. 那么有没有什么方法能够得知这是一个设计时的窗口呢?这样就不会抛出异常,而能够完美支持设计器了. 本文内容 方法一:判断设计时属性 方法二:判断设计时窗口 方法一:判断设计时属性 WPF 原生自带一个附加属性可以判断一个依赖对象是否来源…
BERT预训练模型在诸多NLP任务中都取得最优的结果.在处理文本分类问题时,即可以直接用BERT模型作为文本分类的模型,也可以将BERT模型的最后层输出的结果作为word embedding导入到我们定制的文本分类模型中(如text-CNN等).总之现在只要你的计算资源能满足,一般问题都可以用BERT来处理,此次针对公司的一个实际项目——一个多类别(61类)的文本分类问题,其就取得了很好的结果. 我们此次的任务是一个数据分布极度不平衡的多类别文本分类(有的类别下只有几个或者十几个样本,有的类别下…
1. Precision和Recall Precision,准确率/查准率.Recall,召回率/查全率.这两个指标分别以两个角度衡量分类系统的准确率. 例如,有一个池塘,里面共有1000条鱼,含100条鲫鱼.机器学习分类系统将这1000条鱼全部分类为“不是鲫鱼”,那么准确率也有90%(显然这样的分类系统是失败的),然而查全率为0%,因为没有鲫鱼样本被分对.这个例子显示出一个成功的分类系统必须同时考虑Precision和Recall,尤其是面对一个不平衡分类问题. 下图为混淆矩阵,摘自wiki百…
这个题的数据,太卡了,TLE了两晚上,各种调试优化,各种蛋疼. 2756: [SCOI2012]奇怪的游戏 Time Limit: 40 Sec Memory Limit: 128 MB Submit: 2311 Solved: 598 [Submit][Status][Discuss] Description Blinker最近喜欢上一个奇怪的游戏. 这个游戏在一个 N*M 的棋盘上玩,每个格子有一个数.每次 Blinker 会选择两个相邻 的格子,并使这两个数都加上 1. 现在 Blinke…
今天查了下,发现网上的没有一个sql语句写的好的. 判断记录是否存在,要不是语句不够简洁,要不就是性能有很大问题. 我进行了优化后,最简洁简单性能最优的的sql语句,用来判断表中的记录是否存在: select isnull((select top(1) 1 from tableName where conditions), 0) 结果为 1,则说明记录存在:结果为 0,则说明记录不存在. 网上的常见的有问题的语句: 错误1: select COUNT(*) from tableName wher…
一.简单的单条件查询 工作都是从简单的开始,先从最简单的单表查询开始,这个一般用在首页以及一些比较独立的页面,只需要查找几个符合条件的产品展示出来即可,可以使用分页或者不使用分页.下面这个是产品控制器 ProductController 中的一个函数,用于简单的查询,比如199元专区就可以使用 getTypeSimPro('price=199'); /**简单的筛选条件分类产品,单表查询 * @param string $sql 单表查询的SQL * @param int $countPerPa…
字符串N一定要用“”双引号包含,从test的包含则用单引号 ‘ ’,如果相反,则不能正确判断该属性是否与该字符串相等. 正确:<s:if test='activityBean.searchForce=="N" '> 错误: <s:if test="activityBean.searchForce=='N' "> 因为java是强类型语言,单引号表示char类型,只能赋给一个字符给char类型,而双引号则表示String类型 所以我的activ…
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门算法. 参考内容如下:http://www.cnblogs.com/charlesblc/p/6193867.html 1.kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于…
无论是会员注册还是提交订单,我们都要使用到form表单,此时我们在处理数据时,就要判断用户填写的信息.一次是直接通过js判断input输入框是否没有填信息,然后在后台处理文件中通过过滤字符串后再次判断是否确实有内容了. 我遇到的问题:(记下来,下次忘记了再回来看看) js判断input输入框判断为空,  弹窗后,光标没有定位到输入框,而是直接执行我的处理数据程序. 我错误的原因是,在js代码中定位光标时代码写错了,注明为黄色字体 JS代码部分: <!-- js判断是否为空 --> <sc…
由于C-LODOP获取一些动作函数的返回值,需要用回调函数,由于常见的使用方法是混合部署,也就是同一个页面,根据浏览器的不同,可能会走LODOP ,也可能会走C-LODOP,因此写法要坚固两种,而有些人可能会不注意加大括号,而支线里又有多句,造成重复输出.这个应该属于JS语句的执行的范畴,也就是if else里,如果支线有多个语句,需要用大括号括起来,否则会当作if else之外的语句执行.测试代码如下: <head> <meta http-equiv="Content-Typ…
License分类 GPL: linux.openJDK,openJFX,mysql 融合感染,单独子模块不感染(自己的模块与引入模块的通信方式是socket) openJDK(GNU General Public License, version 2, with the Classpath Exception) 子类:FOSS(开源感染) LGPL:引入时,需要使用动态库进行隔离 BSD:apache, MIT 引入包/开源软件的注意事项: license类型软件社区活跃程度软件社区知名程度…
一: form表单提交时如果表单里有input标签为空那么不提交form表单. <head> <script type="text/javascript">function sub1(){ var text1=$("#text1").val(); if(text1==""){ alert("不能为空!"); $("#text1").select(); $("#text1&q…
PS:多校联赛的题目质量还是挺高的.建图不会啊,看了题解才会的. 参考博客:http://blog.csdn.net/luyuncheng/article/details/7944417 看了上面博客里的题解,思路就有了.不过建图还是有点麻烦.我把源点设为n+1 (不想从0开始,不修改模版),汇点就是n+2+MAX,其中MAX是题目中Ei的最大值. 这题,我有疑问:优化过的SAP算法的时间复杂度是O(m*n^2),此题的n最大为1000,m为50万,时间超过5亿了.1s的时限居然过了. 其中有个…
01.代码如下: package TIANPAN; /** * 此处为文档注释 * * @author 田攀 微信382477247 */ public class TestDemo { public static void main(String[] args) { int ch = 1; switch (ch) { // 判断的是数字 case 2: { // 判断内容是否是2 System.out.println("内容是2"); } : { // 判断内容是否是1 System…
这是09年的多校联赛题目,比10年的难度要大.如果没做过hdu3572,建议先去做.有了解题思维再来做这题. 这题与hdu3572类似.但是1 <= si < ei <= 1,000,000的限制使得我们如果像HDU3572那样建图,会使得边的数量太多.从而超时. 看看别人的题解 http://www.cnblogs.com/wally/archive/2013/05/03/3057066.html  离散化的思想 #include<iostream> #include<…