西瓜书概念整理（chapter 1-2）熟悉机器学习术语

括号表示概念出现的其他页码, 如有兴趣协同整理，请到issue中认领章节

完整版见我的github：ahangchen

觉得还不错的话可以点个star ^_^

第一章绪论

Page2: 标记（label)

示例结果的信息，例如“好瓜”，称为标记
Page2: 假设(269)(hypothesis)

学得模型对应了数据的某种潜在的规律，因此亦称假设
Page2: 示例(instance)

数据集中的每条记录是关于某个事件或对象的描述，称为一个“示例”或“样本”
Page2: 属性(attribute)

反映事务或对象在某方面的表现或性质的事项，如“色泽”，称为属性或特征
Page2: 属性空间(attribute space)

属性长成的空间称为属性空间，样本空间，或输入空间
Page2: 数据集(data set)

数据记录的集合称为一个数据集
Page2: 特征(247)(feature)

同属性
Page2: 学习(learning)

从数据中学得模型的过程称为学习或训练
Page2: 学习器(learner)

学习过程就是为了找出或逼近真相，有时将模型称作学习器
Page2: 训练(training)

同学习
Page2: 训练集(training data)

训练过程中使用的数据称为“训练集”，其中每个样本称为一个“训练样本”，训练样本组成的集合称为训练集
Page2: 训练样本(training sample)

见训练集
Page2: 样本(sample)

同示例
Page2: 样本空间(sample space)

同属性空间
Page2: 样例(sample)

同示例（instance）
Page2: 真相(ground-truth)

潜在规律本身称为真相或真实
Page3: 标记空间(label space)

所有标记的集合称为标记空间或输出空间
Page3: 测试(testing)

学得模型后，使用其进行预测的过程称为测试，被预测的样本称为测试样本
Page3: 测试样本(testing sample)

见测试
Page3: 簇(197)（cluster）

将训练集中的西瓜分成若干组，称为聚类，每个组称为一个簇
Page3: 独立同分布(267)（independent and identically distributed）

我们获得的每个样本都是独立的从一个分布上采样获得的，即“独立同分布”
Page3: 多分类（multi-class classification）

预测值涉及多个类别时，称为“多分类”
Page3: 二分类（binary classification)

预测值设计两个分类的任务
Page3: 泛化（121，350）（generalization)

学得模型适用于新样本的能力，称为“泛化”能力
Page3: 分类（classification)

如果预测的是离散值，此类学习任务称为分类
Page3: 回归（regression）

如果预测的值是连续值，此类学习任务称为回归
Page3: 监督学习（supervised learning）

根据训练数据是否拥有标记信息，学习任务可以大致分为两大类：监督学习和无监督学习，分类和回归是前者的代表，聚类是后者的代表
Page3: 聚类(197)（clustering）

见簇
Page3: 无导师学习

同无监督学习
Page3: 无监督学习(197)（unsupervised learning）

见有监督学习
Page3: 有导师学习

同有监督学习
Page4: 概念学习(17)（concept learning）

广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念，因此亦称为概念学习或概念形成
Page4: 归纳学习(11)（inductive learning）

从样例中学习
Page5: 版本空间（version space）

存在着一个与训练集一致的假设集合，称之为“版本空间”
Page6: 归纳偏好（inductive bias）

机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好
Page6: 偏好

同归纳偏好
Page7: 奥卡姆剃刀(17)（Occam's razor）

若有多个假设与观察一致，则选最简单的那个
Page10: 符号主义(363)（symbolism）

基于逻辑表示
Page10: 连接主义（connectionism）

基于神经网络
Page10: 人工智能

有很多种说法。。见仁见智
Page11: 机械学习

信息存储与检索
Page11: 类比学习

通过观察和发现学习
Page11: 示教学习

从指令中学习
Page12: 统计学习(139)

如SVM，核方法
Page14: 数据挖掘

从海量数据中发掘知识
Page16: WEKA
Page17: 迁移学习

类比学习升级版

第二章模型评估与选择

Page23: 错误率(error rate)

分类错误的样本数占样本总数的比例称为错误率，即如果在m个样本中有a个样本分类错误，则错误率E = a/m；相应的，1-a/m称为精度。
Page23: 泛化误差（generalization error)

在新样本上的误差称为泛化误差
Page23: 过拟合(104,191,352)（overfitting）

当学习器把训练样本学得太好了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这种现象称为过拟合
Page23: 过配

同过拟合
Page23: 精度(29)(accuracy)

精度=1-错误率
Page23: 经验误差(267)(empirical error)

学习器在训练集上的误差称为“训练误差”
Page23: 欠配（underfitting）

欠拟合，对训练样本的一般性质尚未学好
Page23: 误差(error)

学习器的实际预测输出与样本的真实输出之间的差异称为误差
Page23: 训练误差（trainning error)

同经验误差
Page24: 模型选择(model selection)

选择学习算法与参数配置
Page25: 分层采样(stratified sampling)

如果从采样的角度看待数据集的划分过程，则保留类别比例的采样方式通常称为“分层采样”
Page25: 留出法（hold-out）

直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。
Page26: k折交叉验证（k-fold cross validation）

交叉验证先将数据集D划分为k个大小相似的互斥子集，每个自己都尽可能保持数据分布的一致性，即从数据集中分层采样得到，然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就可以获得k组训练/测试集，最终返回k个测试结果的均值，交叉验证评估结果的稳定性和保真性很大程度上取决于k的取值，通常称之为k折交叉验证，最常用的k是10
Page26: 交叉验证法（cross validation）

同k折交叉验证
Page27: 包外估计(179)（out of bag estimate）

用于测试的样本没在训练集中出现，这样的测试结果称为包外估计
Page27: 自助法(bootstrapping)

以自主采样法为基础，给定包含m个样本的数据集D，对它采样产生数据集D’：每次随机从D中挑选一个样本，将其考本放入D’，然后再将该样本放回D中，下次可能再被采到，这个过程执行m次后，得到包含m个样本的数据集D’,m足够大时，有36.8%的样本不会被采到，于是可以用没采到的部分做测试集。
Page28: 参数调节（parameter tuning）

大多数学习算法有些参数需要设定，参数配置不同，学得模型的性能往往有显著差别，因此，在进行模型评估与选择时，除了要对适用学习算法进行选择，还需要对算法参数进行设定，这就是参数调节或者调参。
Page28: 验证集(105)（validation set）

通常把学得模型在实际使用中遇到的数据称为测试数据，为了加以区分，为了加以区分，模型评估与选择中用于评估测试的数据集常称为“验证集”。
Page29: 均方误差(54)（mean squared error）

回归任务最常用的性能度量是均方误差（几何距离）
Page30: 查全率（recall）

预测为真且正确的结果占所有预测正确的结果的比例。
Page30: 查准率（precision）

预测为真且正确的结果占所有预测结果的比例。
Page30: 混淆矩阵（confusion matrix）

真实情况	预测为正例	预测为反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

Page30: 召回率

同查全率
Page30: 准确率

同查准率
Page31: P-R曲线

查准率（纵轴）与查全率（横轴）的关系曲线
Page31: 平衡点（break-even point，bep）

查准率=查全率时的取值。平衡点大的学习模型可以认为综合性能更好
Page32: F1

查准率和查全率的调和平均，比算术平均（求和除以2）和几何平均（平方相乘开方）更重视较小值。

1/F1 = 1/2 (1/P + 1/R)

1/Fβ = 1/(1+β)（1/P + β²/R）
Page32: 宏F1(macro-F1)

如果进行多次训练/测试，每次得到一个混淆矩阵，或是在多个数据集上进行训练/测试，可以在n个混淆矩阵上综合考察查准率和查全率

macro-P = 1/n(∑Pi)

macro-R = 1/n(∑Ri)

1/macro-F1 = 1/2*(1/macro-P + 1/macro-R)
Page32: 宏查全率

见宏F1之macro-R
Page32: 宏查准率

见宏F1之macro-P
Page32: 微F1(micro-F1)

将各混淆矩阵的对应元素进行平均，再去计算，可以得到micro-F1
Page32: 微查准率

将各混淆矩阵的对应元素进行平均，再去计算
Page32: 微查全率

将各混淆矩阵的对应元素进行平均，再去计算
Page33: ROC曲线(46)

真正例率（True Positive Rate，TPR）和假正例率（FPR）的关系曲线

TPR = TP/(TP+FN)

FPR = FP/(TN+FP)
Page35: 代价(47)(cost)

为权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”
Page35: 代价矩阵

真实情况	预测为0类	预测为1类
0类	0	cost01
1类	cost10	0

Page36: 代价敏感(67)(cost-sensitive)

在损失函数中考虑了非均等代价
Page36: 代价曲线

正例概率代价（横轴）和归一化代价（纵轴）的曲线

正例概率代价： P(+)cost = p * cost01 /( p * cost01 + (1 - p) * cost10)，p是样例为正例的概率

归一化代价： cost_norm = (FNR * p * cost01 + FPR * (1-p) * cost10)/(p * cost01+ (1-p) * cost10)
Page36: 规范化(183)(normalization)

将不同变化范围的值映射到相同的固定范围中，常见的是[0,1]，此时亦称归一化
Page36: 归一化（regular）

同规范化
Page36: 总体代价

错误率是直接计算错误次数，并没有考虑不同错误会造成不同的后果，在非均等代价下，我们所希望的不再是简单的最小化错误次数，而是希望最小化总体代价
Page37: 假设检验(hypothesis test)

假设是对学习器泛化错误率分布的某种判断或猜想，用测试错误率估计泛化错误率，以检查学习器性能。
Page38: 二项检验（binomial test）

二项分布检验，根据收集到的样本数据，推断总体分布是否服从某个指定的二项分布。泛化错误率为e的学习器被测得测试错误率为e’的概率是服从二项分布的。
Page38: 置信度(confidence)

估计总体参数落在某一区间时，可能不犯错误的概率，一般用符号1-α表示。
Page40: 交叉验证成对t校验（paired t-tests）

对两个学习器A和B，使用k折交叉验证法分别得到k个测试错误率，如果两个学习器性能相同，则使用相同训练/测试集时测试错误率应该相同，求两个学习器的k个测试错误率的差，若abs(sqrt(k)*μ/σ)＜临界值则认为两个学习器性能相同。
Page41: 5x2交叉验证

由于交叉验证中，不同轮次的训练集之间有一定程度的重复，会过高估计假设成立的概率，因此做5次2折交叉验证，每次验证前将数据打乱，对5次2对2个学习器的测试错误率求差值，对所有差值求方差，对前两次差值求均值，再进行临界值判断。
Page41: McNemar检验

两个学习器分类差别列联表

算法B\A	正确	错误
正确	e00	e01
错误	e10	e11

检验变量|e01-e10|是否服从正态分布，服从则认为两学习器性能相同等同于检查τx² = (|e01-e10|-1)²/(e01+e10) 是否服从自由度为1的卡方分布（标准正态分布变量的平方）

Page41: 列联表(187)

见McNemar检验
Page42: Friedman检验

有多个数据集多个学习器进行比较时使用，对各个算法在各个数据集上对测试性能排序，对平均序值计算τx²和τF,并进行临界值检验。
Page43: Nemenyi后续检验(Nemenyi post-hoc test)

学习器性能性能显著不同时，进行后续检验来进一步区分各算法，临界值域：CD=qα* sqrt(k*(k+1)/6N)
Page44: 偏差-方差分解(177)

对学习算法的期望泛化错误率进行拆解，学习算法在不同训练集上学得的结果很可能不同，真实输出与期望输出的差别称为偏差(bias)，使用样本数相同的不同训练集产生的输出的方差为var(x)，有：E(f;D) = bias²(x) + var(x) + ε²

西瓜书概念整理（chapter 1-2）熟悉机器学习术语的更多相关文章

西瓜书概念整理（chapter 1-2）
括号表示概念出现的其他页码, 如有兴趣协同整理,请到issue中认领章节完整版见我的github:ahangchen 觉得还不错的话可以点个star ^_^ 第一章绪论 Page2: 标记(lab ...
【知识点】业务连接服务（BCS）认证概念整理
业务连接服务(BCS)认证概念整理 I. BDC认证模型 BDC服务支持两种认证模型:信任的子系统,模拟和代理. 在信任的子系统模型中,中间层(通常是Web服务器)通过一个固定的身份来向后端服务器取得 ...
DNS，TCP，IP，HTTP，socket，Servlet概念整理
DNS,TCP,IP,HTTP,socket,Servlet概念整理常见的协议虽然很容易理解,但是看了之后过一段时间不看还是容易忘,笔记如下,比较零碎,勉强供各位复习.如有错误欢迎指正. D ...
IIS Web 服务器/ASP.NET 运行原理基本知识概念整理转
转http://www.cnblogs.com/loongsoft/p/7272830.html IIS Web 服务器/ASP.NET 运行原理基本知识概念整理前言: 记录 IIS 相 ...
python实现简单决策树（信息增益）——基于周志华的西瓜书数据
数据集如下: 色泽根蒂敲声纹理脐部触感好瓜青绿蜷缩浊响清晰凹陷硬滑是乌黑蜷缩沉闷清晰凹陷硬滑是乌黑蜷缩浊响清晰凹陷硬滑是青绿蜷缩沉闷清晰 ...
决策树ID3原理及R语言python代码实现（西瓜书）
决策树ID3原理及R语言python代码实现(西瓜书) 摘要: 决策树是机器学习中一种非常常见的分类与回归方法,可以认为是if-else结构的规则.分类决策树是由节点和有向边组成的树形结构,节点表示特 ...
朴素贝叶斯python代码实现（西瓜书）
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便.原理简单,训练效率高,拟合效果 ...
周志华-机器学习西瓜书-第三章习题3.5 LDA
本文为周志华机器学习西瓜书第三章课后习题3.5答案,编程实现线性判别分析LDA,数据集为书本第89页的数据首先介绍LDA算法流程: LDA的一个手工计算数学实例: 课后习题的代码: # coding ...
LASSO回归与L1正则化西瓜书
LASSO回归与L1正则化西瓜书 2018年04月23日 19:29:57 BIT_666 阅读数 2968更多分类专栏: 机器学习机器学习数学原理西瓜书版权声明:本文为博主原创文章,遵 ...

随机推荐

PAT 天梯赛 L1-039. 古风排版【字符串处理】
题目链接 https://www.patest.cn/contests/gplt/L1-039 思路先根据 len 和 n 判断有几个列和几行,然后从最右边到最左边从上到下将字符串录 ...
b和strong,i与em的区别
html语义化标签: 1)title与h1的区别 title与H1是不能划等号的 1.H1是大标题的意思.一般出现网页文章页面,作用如同一张报纸的大标题,使用读者在没看内容之前就大概了解本文的旨意, ...
转：APDU命令格式
CLA INS P1 P2 Lc Data Le 其中CLA为指令类别:INS为指令码:P1.P2为参数:Lc为Data的长度:Le为希望响应时回答的数据字节数,0表最大可能长度. 一 ...
树莓派打造对话机器人 Python（转）
工具列表 1. **树莓派**(型号不要求,本人使用的是3B) 2. **usb麦克风**(某宝有卖,我就不打广告了) 用来录音 3. **音响或者喇叭**(某宝也有卖) 用来播放以上就是需要的工具 ...
Django---view视图FBV&CBV
一:创建项目和应用: 或者用命令创建: 1:django-admin.py startproject CBV&FBV 2: cd CBV&FBV (路径切到该文件夹下) 3: pyth ...
20145230《JAVA程序设计》第2周学习总结
20145230 <Java程序设计>第2周学习总结教材学习内容总结本周我学习了<JAVA学习笔记>中的第三章内容,让我对JAVA有了进一步的了解.第三章主要是介绍JAVA ...
VMware Big Data Extensions 安装步骤
文档地址:https://pubs.vmware.com/bde-2/index.jsp 第一步,部署BigDataExtensions OVF模板,并登陆Console修改默认密码第二步,在 Se ...
解决maven寻找依赖关系失败的问题
在mac中会碰到依赖jdk自带的jar包而maven找不到的问题解决方案:安装jdk中的tools到本地mvn库 mvn install:install-file -Dfile=${JAVA_HOM ...
R语言学习笔记（2）
第二章:创建数据集一 R中的数据二数据的输入一R中的数据数据集:通常是由数据构成的一个矩形数组,行表示观测,列表示变量 R可以处理的数据类型:数值型.字符型.逻辑型.复数型(虚数).原生型( ...
DanceLink
DanceLink是一个可以解决精确覆盖和重复覆盖的搜索算法重复覆盖就是在精确覆盖的remove等处做改变都是十字循环链表精确覆盖给出一个01矩阵要求选择几行使每一列都有且仅有一个1 在求 ...

西瓜书概念整理（chapter 1-2）熟悉机器学习术语

第一章 绪论

第二章 模型评估与选择

西瓜书概念整理（chapter 1-2）熟悉机器学习术语的更多相关文章

随机推荐

热门专题

第一章绪论

第二章模型评估与选择