文献中的recall rate(查全率或召回率) and precision(精度)是很重要的概念.可惜很多中文网站讲的我都稀里糊涂,只好用google查了个英文的,草翻如下:召回率和精度定义: 从一个大规模数据集合中检索文档的时,可把文档分成四组 - 系统检索到的相关文档(A) - 系统检索到的不相关文档(B) - 相关但是系统没有检索到的文档(C) - 相关但是被系统检索到的文档(D) 相关 不相关 检索到 A B 未检索到 C D 直观的说,一个好的检索系统检索到的相关文档越多越好,不相关
决定系数(coefficient of determination,R2)是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比.R2取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的百分比. R2是最常用于评价回归模型优劣程度的指标,R2越大(接近于1),所拟合的回归方程越优. 假设一数据集包括y1,...,yn共n个观察值,相对应的模型预测值分别为f1,...,fn.定义残差ei = yi − fi,平均观察值为 虽然R2可以用