转载 http://daniellaah.github.io/2016/Machine-Learning-Andrew-Ng-My-Notes-Week-1-Introduction.html 一. 监督学习 什么是监督学习? 我们来看看维基百科中给出的定义: 监督式学习(英语:Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例.训练资料是由输入物件(通常是向量)和预期输出所组成.…
1.有监督学习和无监督学习的区别: 1.1概述: 有监督学习是知道变量值(数据集)和结果(已知结果/函数值),但是不知道函数样式(函数表达式)的情况下通过machine learning(ML)获得正确的函数表达式(算法).也即 需要部分数据集已经有正确答案,才可以推算出正确的函数表达式.比如给定房价数据集, 对于里面每个数据,算法都知道对应的正确房价, 即这房子实际卖出的价格.机器学习通过一定的分析,找到数据集与结果集之间存在的关系(算法).找到正确的算法之后,你就可以应用该算法来计算出更多的…
主要是第一二周内容 机器学习概要 机器学习是什么? 生活在信息时代的我们,其实时时刻刻都离不开机器学习算法.比如日常使用的搜索引擎就涉及到很多学习算法. Arthur Samuel 给出第一个定义.他定义机器学习为:在进行特定编程的情况下,给予计算机学习能力的领域.维基百科给出的定义为: 机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法.因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论. 可见这是一门交叉学科,涉及很多统计…
深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习 Introduce 学习了Pytorch基础之后,在利用Pytorch搭建各种神经网络模型解决问题之前,我们需要了解深度学习的一些基础知识.本文主要介绍监督学习和无监督学习. 以下均为个人学习笔记,若有错误望指出. 监督学习和无监督学习 常见的机器学习方法的类型如下: 监督学习:用已知标签的训练样本训练模型,用来预测未来输入样本的标签,如用于逻辑回归分类器. 无监督学习:不需要有已知标签的训练样本,而是直接对数据建模…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# 这一周的内容是机器学习介绍和梯度下降法.作为入…
概述 在机器学习领域,主要有三类不同的学习方法: 监督学习(Supervised learning) 非监督学习(Unsupervised learning) 半监督学习(Semi-supervised learning) 定义 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类. 非监督学习:直接对输入数据集进行建模,例如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 区别 是否有监督(supervise…
监督学习 就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力. 举个简单的例子,小时候老师教我们看图识物,图片是输入,老师的判断是输出,我们通过跟读.写来训练自己,久而久之大脑中会形成一些泛化得模型,以后遇到实物时不需要老师的提醒就可以知道这是什么类型的. 比较经典的监督学…
主要为第八周内容:聚类(Clustering).降维 聚类是非监督学习中的重要的一类算法.相比之前监督学习中的有标签数据,非监督学习中的是无标签数据.非监督学习的任务是对这些无标签数据根据特征找到内在结构.聚类就是通过算法把数据分成不同的簇(点集),k均值算法是其中一种重要的聚类算法. K均值算法 K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: 1.首先选择 K 个随机的点,称为聚类中心(cluster centroids) 2. 对于数据集中的每一个数据,按照距离 K…
why写这篇blog 最近在接触这方面的知识,但是找了许多的笔记,都感觉没有很好的总结出来,也正好当做是边学习,边复习着走.大佬轻喷.参考书目<python机器学习基础教程> 将分别从以下3方面进行总结 1.算法的作用 2.引用的方式(我这里主要是基于scikit-learn) 3.重要参数 4.优缺点 5.注意事项 监督学习算法 监督学习主要解决两种问题:回归与分类. 统一a为回归,b为分类. (既然是总结,那概念就不过多赘述) 有需要了解的概念,可以上这个网站AI知识库 直接上算法 K近邻…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# #下面这个概念对理解机器学习非常有帮助,但是我…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# 多层神经网络模型: , <补充>:…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# 神经网络的类型:感知机(单层),多层神经网络:…
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末.博主能力有限,若有错误,恳请指正: #---------------------------------------------------------------------------------# 多元线性回归的模型: #-----------…
主要为第三周课程内容:逻辑回归与正则化 逻辑回归(Logistic Regression) 一.逻辑回归模型引入 分类问题是指尝试预测的是结果是否属于某一个类. 维基百科的定义为:根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类(有监督分类). 统计学习方法中定义:在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题.这时,输入变量X可以是离散的,也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier).分类器…
主要为第十周内容:大规模机器学习.案例.总结 (一)随机梯度下降法 如果有一个大规模的训练集,普通的批量梯度下降法需要计算整个训练集的误差的平方和,如果学习方法需要迭代20次,这已经是非常大的计算代价. 首先,需要确定大规模的训练集是否有必要.当我们确实需要一个大规模的训练集,可以尝试用随机梯度下降法来替代批量梯度下降法. 在随机梯度下降法中,定义代价函数一个单一训练实例的代价: 随机梯度下降算法如下: 随机梯度下降算法在每一次计算之后便更新参数Θ,而不需要首先将所有的训练集求和,在梯度下降算法…
主要为第九周内容:异常检测.推荐系统 (一)异常检测(DENSITY ESTIMATION) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一.密度估计是指给定数据集 x(1),x(2),..,x(m),我们假使数据集是正常的,我们希望知道新的数据 x(test)是不是异常的,即这个测试数据不属于该组数据的几率如何.我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x). 通过密度估计之后,选择…
主要为第六周内容机器学习应用建议以及系统设计. 下一步做什么 当训练好一个模型,预测未知数据,发现结果不如人意,该如何提高呢? 1.获得更多的训练实例 2.尝试减少特征的数量 3.尝试获得更多的特征 4.尝试增加二项式特征 5.尝试减少归一化程度λ 6.尝试增加归一化程度λ 先不要急着尝试这些方法,而是通过一些机器学习诊断方法来判断现在算法是什么情况,哪些方法是可以提高算法的有效性,如何选择更有意义的方法.   如何评估模型 假设评估 过拟合检验:将数据集分为训练集和测试集(通常70%训练集,3…
主要为第四周.第五周课程内容:神经网络 神经网络模型引入 之前学习的线性回归还是逻辑回归都有个相同缺点就是:特征太多会导致计算量太大.如100个变量,来构建一个非线性模型.即使只采用两两特征组合,都会有接近5000个组成的特征.这对于普通的线性回归和逻辑回归计算特征量太大了.因此,神经网路孕育而生. 神经网络最初产生的目的是制造能模拟大脑的机器,能很好地解决不同的机器学习问题.模型表示为: 第一层为输入层,最后一层为输出层,中间的层为隐藏层.如把逻辑回归最为神经网络模型的神经元,a(j)I 代表…
主要第七周的内容:支持向量机 可以参考JerryLeed 的支持向量机SVM系列博客http://www.cnblogs.com/jerrylead 以及 pluskid的支持向量机系列博客http://blog.pluskid.org/?page_id=683   优化目标 判定边界 核函数 总结…
Python Scikit-learn *一组简单有效的工具集 *依赖Python的NumPy,SciPy和matplotlib库 *开源 可复用 sklearn库的安装 DOS窗口中输入 pip install ** NumPy(开源科学计算库),SciPy(集成多种数学算法和函数模块)和matplotlib(提供大量绘图工具)库基础上开发的,因此需要先装这些依赖库 安装顺序 SKlearn库中的标准数据集及基本功能 波士顿房价数据集 使用sklearn.datasets.load_bosto…
如果要对硬币进行分类,我们对硬币根据不同的尺寸重量来告诉机器它是多少面值的硬币 这种对应的机器学习即使监督学习,那么如果我们不告诉机器这是多少面额的硬币,只有尺寸和重量,这时候让机器进行分类,希望机器对不同种类的硬币分类,这种机器学习方式就是无监督学习.可以从下图看出,监督学习,根据颜色(面值)可以得出不同种类,而无监督学习也可根据所样例在的不同区域对样例进行分类. 根据聚类分组clustering: {xn} -> cluster(x) 根据密度分组density estimation{Xn}…
前面对半监督学习部分作了简单的介绍,这里开始了解有关无监督学习的部分,无监督学习内容稍微较多,本节主要介绍无监督学习中的PCA降维的基本原理和实现. PCA 0.无监督学习简介 相较于有监督学习和半监督学习,无监督学习就是从没有标签的数据中进行知识发现的过程. 更具体地说,无监督学习可以分成两个方面,一:称之为化繁为简,二称之为无中生有. 所谓化繁为简,就是将比较复杂的数据进行"简单化",此时将数据作为输入,输出则是从数据中所发现更为"简单"的内容,如下图所示: 图…
1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习 强化学习(英语:Reinforcement Learning,简称RL)是机器学习中的一个领域,是除了监督学习和非监督学习之外的第三种基本的机器学习方法. 强调如何基于环境而行动,以取得最大化的预期利益[1]. 与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正. 1.1 强化学习原理 强化学习是从动物学习.参数扰动自适应控制等…
机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问,在平时的学习过程中可能对算法的理论,注意点,区别会有一定的认识,但是这些知识可能不系统,在回答的时候未必能在短时间内答出自己的认识,因此将机器学习中常见的原理性问题记录下来,保持对各个机器学习算法原理和特点的熟练度. 本文总结了机器学习一些面试题和笔试题,以便自己学习,当然了也为了方便大家,题目是网上找的额,如果有侵权请联系小编,还有,不喜勿喷,谢谢!!! 算法分类 下面图片是借用网友做的,很好的总结了机器学习的算法分类: 问答题…
9. Clustering Content 9. Clustering 9.1 Supervised Learning and Unsupervised Learning 9.2 K-means algorithm 9.3 Optimization objective 9.4 Random Initialization 9.5 Choosing the Number of Clusters 9.1 Supervised Learning and Unsupervised Learning 我们已…
前言 Alpha Go在16年以4:1的战绩打败了李世石,17年又以3:0的战绩战胜了中国围棋天才柯洁,这真是科技界振奋人心的进步.伴随着媒体的大量宣传,此事变成了妇孺皆知的大事件.大家又开始激烈的讨论机器人什么时候会取代人类统治世界的问题. 其实人工智能在上世纪5.60年代就开始进入了理论研究阶段,人们在不断探索人工智能技术的同时,也担忧起机器人会不会替代人类.然而现实比理想残酷的多,由于当时各种条件的限制(理论基础.技术基础.数据基础.硬件性能等),人工智能相关的项目进度缓慢,也缺少实际成效…
9. Clustering Content 9. Clustering 9.1 Supervised Learning and Unsupervised Learning 9.2 K-means algorithm(代码地址:https://github.com/llhthinker/MachineLearningLab/tree/master/K-Means) 9.3 Optimization objective 9.4 Random Initialization 9.5 Choosing t…
版权声明:小博主水平有限,希望大家多多指导.本文仅代表作者本人观点,转载请联系知乎原作者——BG大龍. 目录 1 什么是机器学习? 2 机器学习的3个步骤 3 李宏毅老师的机器学习课程 4 按“模型的不同学习理论”分,机器学习的模型可以分为有监督学习,半监督学习,无监督学习,迁移学习和强化学习. ——4.1[解读] 有监督学习(Supervised Learning) ————4.1.1 监督学习Supervised Learning-> 回归Regression ————4.1.2 监督学习S…
13.聚类 觉得有用的话,欢迎一起讨论相互学习~Follow Me 13.1无监督学习简介 从监督学习到无监督学习 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数: 与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的数据就是这样的: 在这里我们有一系列点,却没有标签.因此,我们的训练集可以写成只有x(1),x(2),x(3)...一直到x(m),而没有任何标签y.因…
统计学习:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也成为统计机器人学习[1]. 统计学习分类:有监督学习与无监督学习[2]. 统计学习三要素:模型.策略与算法[1]. 统计学习的对象:统计学习的对象是数据.统计学习从数据出发,提取数据的特征,抽取数据的模型,发现数据中的指示,又回到对数据的分析与预测中去[1]. 统计学习的目的:建立输入与输出的关系,评价输入与输出的关系,即Y = f(X) + ε.其中输入变量X可以称为预测变量.自变量.属性…