[1] Answer:C [2] Answer:D 第二层要输出四个元素a1 a2 a3 a4.输入x有两个,加一个x0是三个.所以是4 * 3 [3] Answer:C [4] Answer:C [5] Answer:A  相当于x1==0&&x2==0 [6] Answer:C 10个类别,输出层有10个.10*(5+1)=60 测验 Answer:BC A 如果不属于三个类型,之和是0? D XOR操作需要三层 Answer:A Answer:A Answer:A Answer:A…
课上习题 [1]代价函数 [2]代价函数计算 [3] [4]矩阵的向量化 [5]梯度校验 Answer:(1.013 -0.993) / 0.02 = 3.001 [6]梯度校验 Answer:学习的时候要去掉梯度校验,不然会特别慢 [7]随机初始化 Answer:对于神经网络这种复杂模型来说,初始值都是同一个值 r,不然第二层会全都一样. [8]梯度下降 测验 Answer: A Answer:A Answer:D 3*(1.01)4 - 3*(0.99)4 / 0.02 Answer:ACE…
[1]机器学习管道 [2]滑动窗口 Answer:C ((200-20)/4)2 = 2025 [3]人工数据 [4]标记数据 Answer:B (10000-1000)*10 /(8*60*60) = 3.125 [5]上限分析 测验 Answer:D 忽略窗口的宽度,只考虑step:     (1000/2) * (1000/2) * 2 = 500000 Answer:B 10 * 10000 / (4*60) = 417 Answer:AB C 错误.上限分析不能提供增加训练数据. D…
课上习题 [1]线性回归 Answer: D A 特征缩放不起作用,B for all 不对,C zero error不对 [2]概率 Answer:A [3]预测图形 Answer:A 5 - x1 ≥ 0时,y = 1.即x1 ≤ 5时,y = 1 [4]凸函数 [5]代价函数 Answer:ABD 任何情况下都是 预测对时 cost为0,反之为正无穷 [6]代价函数 [7]向量化 Answer:A [8]高级优化算法 Answer:C [9]多分类 测验 AB Answer:BE 当有一个…
[1]大规模数据 [2]随机梯度下降 [3]小批量梯度下降 [4]随机梯度下降的收敛 Answer:BD A 错误.学习率太小,算法容易很慢 B 正确.学习率小,效果更好 C 错误.应该是确定阈值吧 D 正确.曲线不下降,说明学习率选的太大 [5]在线学习 [6] Answer:BC A 错误.随机梯度下降,J(θ)不一定每次都减小 D 错误.随机梯度下降适合大数据量任务 Answer:CD A 错误. B 错误.不是因为使用parallelizaion Answer:AD B 错误.不需要保存…
[1]异常检测 [2]高斯分布 [3]高斯分布 [4] 异常检测 [5]特征选择 [6] [7]多变量高斯分布 Answer: ACD B 错误.需要矩阵Σ可逆,则要求m>n  测验1 Answer:AB Answer: A p(x) < ε  ,漏掉的比较多,说明应该增大ε Answer:A x1 应该接近 x2.  增加 x1/x2 这个feature 可以显示异常 Answer: BD A 错误.训练的时候需要标记哪些是异常. C 错误.如果有大量数据,表现应该没有SVM好(?) Ans…
[1]无监督算法 [2]聚类 [3]代价函数 [4] [5]K的选择 [6]降维 Answer:本来是 n 维,降维之后变成 k 维(k ≤ n) [7] [8] Answer: 斜率-1 [9] Answer: x 是一个向量 [10]PCA 降维 [11] [12]PCA 的作用 测验1 Answer:ABGH Answer:A Answer: BD Answer: C Answer: AD 测验2 Answer:AB  要找到投影距离最小的向量,是1和2,方向正还是负都是可以的 Answe…
[1] [2] Answer: B. 即 x1=3这条垂直线. [3] Answer: B 因为要尽可能小.对B,右侧红叉,有1/2 * 2  = 1 ≥ 1,左侧圆圈,有1/2 * -2  = -1 ≤ -1. A太小不满足不等式 [4] 参考课件:  测验 Answer:B. Answer: B Answer:CD Answer: ABG 欠拟合. A 正确.增加feature.增加多项式feature B 正确.神经网络增加hidden units C 错误.逻辑回归成本函数是凸的,因此梯…
[1] 诊断的作用 [2]过拟合 [3] [4] 高偏差bias,欠拟合underfitting 高方差variance,过拟合overfitting [5]参数λ Answer:  λ太大,则参数都被惩罚,导致欠拟合,两个J都大.  λ太小,则欠拟合,Jtrain 小,Jcv大. [6] Answer:过拟合的时候,增加训练集有用. [7] Answer:过拟合,增加 hidden 层数无用. -------------------------------------- 下面是Lecture…
Question 1 Consider the problem of predicting how well a student does in her second year of college/university, given how well she did in her first year. Specifically, let x be equal to the number of “A” grades (including A-. A and A+ grades) that a…
Gradient Descent for Multiple Variables [1]多变量线性模型  代价函数 Answer:AB [2]Feature Scaling 特征缩放 Answer:D [3]学习速率 α Answer: B,因为第一个比第二个下降的快.第三个上升说明α太大 [4]Mean Normalization Answer:C [5]Normal Equation Answer:D Linear Regression with Multiple Variables [1]…
神经网络的学习(Neural Networks: Learning) 9.1 代价函数 Cost Function 参考视频: 9 - 1 - Cost Function (7 min).mkv 假设神经网络的训练样本有…
神经网络是一种受大脑工作原理启发的模式. 它在许多应用中广泛使用:当您的手机解释并理解您的语音命令时,很可能是神经网络正在帮助理解您的语音; 当您兑现支票时,自动读取数字的机器也使用神经网络. 8.1 非线性假设 Non-linear Classification 参考视频 : 8 - 1 - Non-linear Hypotheses (10 min).mkv 线性回归和逻辑回归的缺点: 当输入数据特征过多,计算负荷大. 计算机视觉中,图片的表示是通过像素矩阵表示的.假设一个图片是50×50p…
课程笔记 Coursera—Andrew Ng机器学习—课程笔记 Lecture 9_Neural Networks learning 作业说明 Exercise 4,Week 5,实现反向传播 backpropagation神经网络算法, 对图片中手写数字 0-9 进行识别. 数据集 :ex4data1.mat.手写数字图片数据,5000个样例.每张图片20px * 20px,也就是一共400个特征.数据集X维度为5000 * 400 ex4weights.mat.神经网络每一层的权重. 文件…
Lecture 15 Anomaly Detection 异常检测 15.1 异常检测问题的动机 Problem Motivation 异常检测(Anomaly detection)问题是机器学习算法的一个常见应用.这种算法虽然主要用于无监督学习问题,但从某些角度看,它又类似于一些监督学习问题.举例: 当飞机引擎从生产线上流出时需要进行QA(质量控制测试),数据集包含引擎的一些特征变量,比如运转时产生的热量,或者振动等.当有一个新的飞机引擎从生产线上流出,它具有特征变量 xtest .异常检测问…
Lecture 12 支持向量机 Support Vector Machines 12.1 优化目标 Optimization Objective 支持向量机(Support Vector Machine) 是一个更加强大的算法,广泛应用于工业界和学术界.与逻辑回归和神经网络相比, SVM在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式.我们通过回顾逻辑回归,一步步将其修改为SVM. 首先回顾一下逻辑回归: 其 cost function 公式如下(这里稍微有点变化,将负号移到了括号内…
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型, 通常通过增加数据集的规模,可以获得更好的结果. 但是如果数据集特别大,则首先应该检查这么大规模是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以绘制学习曲线来帮助判断. 17.2 随机梯度下降法 Stochastic Gradient Descent 如果必须使用一个大规模的训练集…
Lecture 16 Recommender Systems 推荐系统 16.1 问题形式化 Problem Formulation 在机器学习领域,对于一些问题存在一些算法, 能试图自动地替你学习到一组优良的特征.通过推荐系统(recommender systems),将领略一小部分特征学习的思想. 假使有 5 部电影,3部爱情片.2部动作片.  4 个用户为其中的部分电影打了分.现在希望构建一个算法,预测每个人可能给没看过的电影打多少分,以此作为推荐的依据. 下面引入一些标记:nu     …
Lecture 14 Dimensionality Reduction 降维 14.1 降维的动机一:数据压缩 Data Compression 现在讨论第二种无监督学习问题:降维. 降维的一个作用是数据压缩,允许我们使用较少的内存或磁盘空间,也加快算法速度. 举例: 假设用两个特征描述同一个物品的长度,x1单位是厘米cm,x2单位是英寸inches.这将导致高度冗余,所以需要减到一维. 将数据从三维降至二维: 将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征…
Lecture 11—Machine Learning System Design 11.1 垃圾邮件分类 本章中用一个实际例子: 垃圾邮件Spam的分类 来描述机器学习系统设计方法.首先来看两封邮件,左边是一封垃圾邮件Spam,右边是一封非垃圾邮件Non-Spam:垃圾邮件有很多features.如果我们想要建立一个Spam分类器,就要进行有监督学习,将Spam的features提取出来,而希望这些features能够很好的区分Spam.事实上,对于spam分类器,通常选取spam中词频最高的…
Lecture 10—Advice for applying machine learning 10.1 如何调试一个机器学习算法? 有多种方案: 1.获得更多训练数据:2.尝试更少特征:3.尝试更多特征:4.尝试添加多项式特征:5.减小 λ:6.增大 λ 为了避免一个方案一个方案的尝试,可以通过评估机器学习算法的性能,来进行调试. 机器学习诊断法 Machine learning diagnostic 的定义: 10.2 评估一个假设 想要评估一个算法是否过拟合 (一)首先,划分测试集和训练集…
目录 1.1 欢迎1.2 机器学习是什么 1.2.1 机器学习定义 1.2.2 机器学习算法 - Supervised learning 监督学习 - Unsupervised learning  无监督学习 - Reinforcement learning 强化学习 - Recommender systems 推荐系统 1.2.3 课程目的 如何在构建机器学习系统时,选择最好的实践类型决策.节省时间. 1.3 监督学习 1.3.1 Regression 回归问题 1.3.2 Classific…
Lecture2   Linear regression with one variable  单变量线性回归 2.1 模型表示 Model Representation 2.1.1  线性回归 Linear regression 2.1.2 单变量线性回归  Linear regression with one variable 2.2 代价函数 Cost Function 2.2.1  如何选择模型的参数 θ 2.2.2  建模误差 modeling error 2.2.3  平方误差代价函…
作业说明 Exercise 1,Week 2,使用Octave实现线性回归模型.数据集  ex1data1.txt ,ex1data2.txt 单变量线性回归必须实现,实现代价函数计算Computing Cost 和 梯度下降Gradient Descent. 多变量线性回归可选,实现 特征Feature Normalization.代价函数计算Computing Cost . 梯度下降Gradient Descent  和 Normal Equations . 文件清单 ex1.m ex1_m…
Lecture 18—Photo OCR 应用实例:图片文字识别 18.1 问题描述和流程图 Problem Description and Pipeline 图像文字识别需要如下步骤: 1.文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来2.字符切分(Character segmentation)——将文字分割成一个个单一的字符3.字符分类(Character classification)——确定每一个字符是什么 如果用任务流程图来表达这个问题,每一项任务可以…
Lecture 13 聚类 Clustering 13.1 无监督学习简介  Unsupervised Learning Introduction 现在开始学习第一个无监督学习算法:聚类.我们的数据没有附带任何标签,拿到的数据就是这样的: 例子: (注:这里有考题,问哪些可以使用聚类算法) 13.2 K-means算法 K-Means Algorithm K-Means 是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组.迭代过程为:1)选择K个随机的点,称为聚类中心(cl…
Lecture3   Linear Algebra Review 线性代数回顾 3.1 矩阵和向量3.2 加法和标量乘法3.3 矩阵向量乘法3.4 矩阵乘法3.5 矩阵乘法的性质3.6 逆.转置 3.1 矩阵和向量 参考视频: 3 - 1 - Matrices and Vectors (9 min).mkv 3.2 加法和标量乘法 参考视频: 3 - 2 - Addition and Scalar Multiplication (7 min).mkv 3.3 矩阵向量乘法 参考视频: 3 - 3…
Lecture 4 Linear Regression with Multiple Variables 多变量线性回归 4.1 多维特征 Multiple Features4.2 多变量梯度下降 Gradient Descent for Multiple Variables4.3 梯度下降法实践 1-特征缩放 Gradient Descent in Practice I - Feature Scaling4.4 梯度下降法实践 2-学习率 Gradient Descent in Practice…
Lecture 5 Octave教程 5.1 基本操作 Basic Operations 5.2 移动数据 Moving Data Around 5.3 计算数据 Computing on Data 5.4 绘制数据图 Plotting Data 5.5 控制语句: for, while, if 语句 5.6 向量化 Vectorization 5.1 基本操作 参考视频: 5 - 1 - Basic Operations (14 min).mkv 5.1.1  简单运算 不等于符号的写法是这个…
Lecture6 Logistic Regression 逻辑回归 6.1 分类问题 Classification6.2 假设表示 Hypothesis Representation6.3 决策边界 Decision Boundary6.4 代价函数 Cost Function6.5 简化的代价函数和梯度下降 Simplified Cost Function and Gradient Descent6.6 高级优化 Advanced Optimization6.7 多类别分类:一对多  Mult…