1. 决策树 一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列.其基本流程如下所示: 输入:训练集D={(x1,y1), (x2, y2), ......, (xm, ym)} 属性集A={a1, a2, ......, ad} 过程:函数TreeGenerate(D, A),传入参数为训练集D与属性集A…
机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997). 机器学习的研究内容:关于在计算机上从数据中产生模型的算法,即学习算法(learning algorithm). 1.名词定义 数据集 (Data set):数据的集合,其中每条数据都称为一条样本 (Sample)或示例 (Instance).即: 样本 (Sample) = 示例 (Instan…
1. 均方误差,错误率,精度 给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值,yi是xi的真实标记,评估模型性能,即将预测结果f(x)与真实标记y进行比较. 对于回归任务:均方误差 (Mean squared error) 更一般的,对于数据分布D和概率密度函数p(·),均方误差可描述为: 错误率 (Error rate):分类错误样本数占总样本数比例(其中,II(·)为指…
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等,而测试集则在最后用于模型的整体性能评估. 1. 留出法 (Hold-out) 将数据集D划分为2个互斥子集,其中一个作为训练集S,另一个作为测试集T,即有: D = S ∪ T, S ∩ T = ∅ 用训练集S训练模型,再用测试集T评估误差,作为泛化误差估计. 特点:单次使用留出法得到的估计结果往…
1. 线性模型 基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有: f(x) = w1x1 + w2x2 + ...... + wdxd + b 令w=(w1; w2; ......; wd),x = (x1; x2; ......; xd),使用矩阵乘法写为向量形式: f(x) = wTx + b 在w和b的值确定后(w=(w1; w2; ......; wd)),整个模型就得以确定,其中,权重向量w可以直观表达各个…
2019/11/2 1.    表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相传递信息.表现层状态转换是根基于超文本传输协议(HTTP)之上而确定的一组约束和属性,是一种设计提供万维网络服务的软件构建风格.符合或兼容于这种架构风格(简称为 REST 或 RESTful)的网络服务,允许客户端发出以统一资源标识符访问和操作网络资源的请求,而与预先定义好的无状态操作集一致化.因此…
看了一篇介绍这几个概念的文章,整理一点点笔记在这里,原文链接: https://machinelearningmastery.com/bagging-and-random-forest-ensemble-algorithms-for-machine-learning/ 1.Bootstrap Method The bootstrap is a powerful statistical method for estimating a quantity from a data sample. Thi…
一.机器学习基本概念总结 分类(classification):目标标记为类别型的数据(离散型数据)回归(regression):目标标记为连续型数据 有监督学习(supervised learning):训练集有类别标记无监督学习(unsupervised learning):训练集无类别标记半监督学习(semi-supervised learning):有类别标记的训练集+无类别标记的训练集 机器学习步骤的框架: step1:把数据拆分为训练集和测试集 step2:用训练集和特征集的特征向量…
分类算法:对目标值进行分类的算法    1.sklearn转换器(特征工程)和预估器(机器学习)    2.KNN算法(根据邻居确定类别 + 欧氏距离 + k的确定),时间复杂度高,适合小数据    3.模型选择与调优    4.朴素贝叶斯算法(假定特征互独立 + 贝叶斯公式(概率计算) + 拉普拉斯平滑系数),假定独立,对缺失数据不敏感,用于文本分类    5.决策树(找到最高效的决策顺序--信息增益(关键特征=信息熵-条件熵) + 可以可视化)    6.随机森林(bootstarp(又放回…
参考链接: https://www.bilibili.com/video/av26086646/?p=8 <统计学习方法> 一.决策树算法: 1.训练阶段(决策树学习),也就是说:怎么样构造出来这棵树? 2.剪枝阶段. 问题1:构造决策树,谁当根节点?例:相亲时为啥选年龄作为根节点? H(X)为事件发生的不确定性. 事件X,Y相互独立,概率P(X),P(Y).认为:P(几率越大)->H(X)越小,如今天正常上课.P(几率越小)->H(X)越大,如今天翻车了. 熵是表示随机变量不确定…