#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# <补充>机器学习按照数据标记分可分…
日志 20170410 Coursera机器学习 2017.11.28 update deeplearning 台大的机器学习课程:台湾大学林轩田和李宏毅机器学习课程 Coursera机器学习 Week 5: Neural Networks: Learning 本来上周开始该学习这个内容,也是先提交了作业,今天才来看看具体的代码:感觉这个课程本身对基础巩固很好.没有连续学习感觉有些有点忘了,最终的目的是自己能够推导这个内容. 本来想跟着学习搞个电子证书的,结果申请的到期时间是2017.3.31;…
主成分分析: 降低特征维度的方法. 不会抛弃某一列特征, 而是利用线性代数的计算,将某一维度特征投影到其他维度上去, 尽量小的损失被投影的维度特征 api使用: estimator = PCA(n_components=20) pca_x_train = estimator.fit_transform(x_train) pca_x_test = estimator.transform(x_test) 分别使用支持向量机进行学习降维前后的数据再预测 该数据集源自网上 https://archive…
大概用了一个月,Andrew Ng老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结.笔记难免有遗漏和误解,欢迎讨论. 鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢!…
主要为第八周内容:聚类(Clustering).降维 聚类是非监督学习中的重要的一类算法.相比之前监督学习中的有标签数据,非监督学习中的是无标签数据.非监督学习的任务是对这些无标签数据根据特征找到内在结构.聚类就是通过算法把数据分成不同的簇(点集),k均值算法是其中一种重要的聚类算法. K均值算法 K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: 1.首先选择 K 个随机的点,称为聚类中心(cluster centroids) 2. 对于数据集中的每一个数据,按照距离 K…
简介 前面介绍的线性回归,SVM等模型都是基于数据有标签的监督学习方法,本文介绍的聚类方法是属于无标签的无监督学习方法.其他常见的无监督学习还有密度估计,异常检测等. 聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别(在聚类算法中称为簇),使类别内的数据相似度高,二类别间的数据相似度低. 相似度 在聚类算法中,大多数算法都是需要计算两个数据点之间的相似度,所以先介绍一下计算相似度的方法. 图1 其中Minkowski距离是所有范式距离的统称,当p=1时是L1距离也叫曼哈…
PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 export SPARK_HOME=/Users/erichan/Garden/spark-1.5.1-bin-hadoop2.6 cd $SPARK_HOME bin/spark-shell --name my_mlib --pack…
降维是机器学习中十分重要的部分,降维就是通过一个特定的映射(可以是线性的或非线性的)将高维数据转换为低维数据,从而达到一些特定的效果,所以降维算法最重要的就是找到这一个映射.主成分分析(Principal Component Analysis, PCA)是一种最经典,也是最简单的降维算法.PCA可以保证降维之后,重构回原数据的效果最好,因此广泛用于对高维数据的预处理. 1. 一个投影的PCA求解 设样本矩阵为\(X=[x_1,x_2,\cdots,x_n]\in \mathbb R^{m\tim…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# <补充>支持向量机方法的三要素(若…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# #下面这个概念对理解机器学习非常有帮助,但是我…