7 Support Vector Machines7.1 Large Margin Classification7.1.1 Optimization Objective支持向量机(SVM)代价函数在数学上的定义. 复习一下S型逻辑函数: 那么如何由逻辑回归代价函数得到支持向量机的代价函数(对于一个示例): 其实就是将逻辑回归的代价函数中的log(1/(1+e^(-ΘTx)))和log(1-1/(1+e^(-ΘTx)))分别替换为cost1(ΘTx)和cost0(ΘTx)(cost0和cost1分…
5.1节 Cost Function神经网络的代价函数. 上图回顾神经网络中的一些概念: L  神经网络的总层数. sl  第l层的单元数量(不包括偏差单元). 2类分类问题:二元分类和多元分类. 上图展现的是神经网络的损失函数,注意这是正则化的形式. 正则化部分,i.j不为0.当然i.j可以为0,此时的损失函数不会有太大的差异,只是当i.j不为0的形式更为常见. 5.2节 Backpropagation Algorithm最小化损失函数的算法——反向传播算法:找到合适的参数是J(θ)最小. 如…
8 Dimensionality Reduction8.3 Motivation8.3.1 Motivation I: Data Compression第二种无监督问题:维数约简(Dimensionality Reduction).通过维数约简可以实现数据压缩(Data Compression),数据压缩可以减少计算机内存使用,加快算法运算速度.什么是维数约简:降维.若数据库X是属于n维空间的,通过特征提取或者特征选择的方法,将原空间的维数降至m维,要求n远大于m,满足:m维空间的特性能反映原空…
[机器学习]决策树(decision tree) 学习笔记 标签(空格分隔): 机器学习 决策树简介 决策树(decision tree)是一个树结构(可以是二叉树或非二叉树).其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别.使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果. 本文采用的是ID3算法,ID3算法就是在每次需要分裂时,计算每…
降维(Dimensionality Reduction) 降维的目的:1 数据压缩 这个是二维降一维 三维降二维就是落在一个平面上. 2 数据可视化 降维的算法只负责减少维数,新产生的特征的意义就必须由我们自 己去发现了. 主成分分析(PCA)是最常见的降维算法. 在 PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据 都投射到该向量上时,我们希望投射平均均方误差能尽可能地小. 主成分分析与线性回归是两种不同的算法.主成分分析最小化的是投射误差(Pr…
Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Building a Spam Classifier6.4.1 Prioritizing What to Work On首先是在设计机器学习系统时需要着重考虑什么问题.以垃圾邮件分类为例.1.确定用监督学习的方法进行学习和预测.2.确定关于邮件的特征.关于挑选特征,实际工作中,是遍历整个训练集,选出出现次数…
9.5 Predicting Movie Ratings9.5.1 Problem Formulation推荐系统.推荐系统的问题表述:电影推荐.根据用户对已看过电影的打分来推测用户对其未打分的电影将会打什么分.下面对一部电影的打分区间是[0,5]. 做道题: 9.5.2 Content Based Recommendations推荐系统的一种实现:基于内容的推荐. 对于每个用户i训练一个参数向量Θ(i),对于每部电影j训练一个特征向量x(j)(其中默认x0=1,实际上特征抽取是不容易的),那么…
这章的内容对于设计分析假设性能有很大的帮助,如果运用的好,将会节省实验者大量时间. Machine Learning System Design6.1 Evaluating a Learning Algorithm6.1.1 Deciding What to Try Next机器学习诊断法:一种测试法,通过执行这种测试,能够深入了解某种算法是否有用.诊断法也会告诉你,要想改进一种算法的效果需要什么样的尝试.能够判断一种学习算法能不能work,并且改善该算法性能的一个测试. 诊断法的执行和实现是需…
9 Anomaly Detection9.1 Density Estimation9.1.1 Problem Motivation异常检测(Density Estimation)是机器学习常见的应用,主要用于非监督学习,但在某些方面又类似于监督学习.异常检测最常见的应用是欺诈检测和在工业生产领域. 具体来说工业生产飞机发动机的例子:这个的特征量假设只有2个,对于不同训练集数据进行坐标画图,预测模型p(x)和阈值ε.对于一个新的测试用例xtest,如果p(xtest)<ε,就预测该实例出现错误:否…
8 Unsupervised Learning8.1 Clustering8.1.1 Unsupervised Learning: Introduction集群(聚类)的概念.什么是无监督学习:对于无标记无关联标记的数据,要求算法分析出数据的结构.什么是聚类:将未加标签的数据分成有紧密关系的子集或者簇. 做道题: ABC 8.1.2 K-Means Algorithm讨论什么是K均值以及K均值的使用.K均值算法是一种迭代的聚类方法. 用图来展示K均值更加直观:1.因为本例要将数据分为2类,所以要…