一.归一化(也说标准化)作用 1)将有量纲特征转化为无量纲特征 2)能够加快收敛(主要指梯度下降法时) 二.Octave中计算          mean(A)   求解矩阵中每一列的均值 std(A)    求解矩阵中每一列的标准差    在Octave中对样本进行归一下代码如下: mu=mean(X);          sigma=std(X);          X_norm=(X.-mu)./sigma 备注:在进行归一化时,训练样本中的均值与标准差,应保存起来,在预测时依然可以使用.…
备: High bias(高偏差) 模型会欠拟合    High variance(高方差) 模型会过拟合 正则化参数λ过大造成高偏差,λ过小造成高方差 一.利用训练好的模型做数据预测时,如果效果不好,下一步大概如何做?存在如下几种情况: 1)获取更多的训练样本.(高方差时用.增加训练样本能防止过度拟合,进而防止高方差,因为非常多的训练样本,很难完全拟合) 2)使用更少的特征维度.(高方差时用,因为有可能过拟合了) 3)使用更多的特征维度.(高偏差时用,因为有可能欠拟合了) 4)增加多项式特征.…
一.梯度下降法 优点:即使特征变量的维度n很大,该方法依然很有效 缺点:1)需要选择学习速率α 2)需要多次迭代 二.正规方程法(Normal Equation) 该方法可以一次性求解参数Θ 优点:1)不需要选择α 2)不用多次迭代,一次求解 3)正规方程法不需要归一化处理 缺点:逆矩阵的计算量比较大,尤其当特征变量的维度n很大时:计算逆矩阵的运算量大概是矩阵维度的3次方. 总结:当特征变量维度n较大时(n>=10000),选择梯度下降法:当n值较小时(n<10000),选择正规方程法求解Θ.…
一.如何学习大规模数据集? 在训练样本集很大的情况下,我们可以先取一小部分样本学习模型,比如m=1000,然后画出对应的学习曲线.如果根据学习曲线发现模型属于高偏差,则应在现有样本上继续调整模型,具体调整策略参见第六节的高偏差时模型如何调整:如果发现模型属于高方差,则可以增加训练样本集. 二.随机梯度下降法(Stochastic Gradient Descent) 之前在讲到优化代价函数的时候,采取的都是“批量梯度下降法”Batch Gradient,这种方法在每次迭代的时候,都需要计算所有的训…
一.基于内容的推荐系统(Content Based Recommendations) 所谓基于内容的推荐,就是知道待推荐产品的一些特征情况,将产品的这些特征作为特征变量构建模型来预测.比如,下面的电影推荐,就是电影分为"爱情电影".“动作电影”一些特征来进行预测. 上述例子,将电影的内容特征作为特征变量X1,X2,这些电影特征是预先已知的,用户对电影的打分作为y值.比如一用户对100个电影都做了打分,那对于该用户就有了100个样本值,从而可以利用线性回归求解出该用户对应的参数Θ值,这样…
一.如何构建Anomaly Detection模型? 二.如何评估Anomaly Detection系统? 1)将样本分为6:2:2比例 2)利用交叉验证集计算出F1值,可以用F1值选取概率阈值ξ,选取使得F1值最大的那个ξ. 3)同时也可以根据训练集.交叉验证集.测试集来同样选取使用哪些特征变量更好.方法就是不断更换特征组合构建模型,利用交叉验证集计算F1值,并看测试集的效果等等. 三.什么时候用异常数据检测法,什么时候用有监督的分类方法? 1)一般来讲,当样本中有大量正常样本数据,而仅仅有少…
一.K-means聚类中心初始化问题. 1)随机初始化各个簇类的中心,进行迭代,直到收敛,并计算代价函数J. 如果k=2~10,可以进行上述步骤100次,并分别计算代价函数J,选取J值最小的一种聚类情况,能够得到一个相对不错的局部最优解.(因为k值较小情况下,不同的随机中心,聚类结果不同) 2)如果k值很大,则多次随机意义不大,随机一次进行聚类即可. 二.如何选择聚类数目K? 肘部法则是一个方法,但效果一般不明显.通常来讲,并没有太绝对的方法,主要靠人工选择,以及人为的洞察力. 三.利用k-me…
一.代价函数   对比逻辑回归与支持向量机代价函数. cost1(z)=-log(1/(1+e-z)) cost0(z)=-log(1-1/(1+e-z)) 二.支持向量机中求解代价函数中的C值相当于1/λ. 如果C值过大,相当于λ过小,容易过拟合 如果C值过小,相当于λ过大,容易欠拟合. 三.大间隔分类(large margin classification) 两个向量的内积等于一个向量的长度乘以另一个向量在该向量的投影长度. 如下图:v*u=||u||*p.||u||为向量u的长度,p为向量…
一.假设函数与决策边界 二.求解代价函数 这样推导后最后发现,逻辑回归参数更新公式跟线性回归参数更新方式一摸一样. 为什么线性回归采用最小二乘法作为求解代价函数,而逻辑回归却用极大似然估计求解? 解答: 1)因为线性回归采用最小二乘法作为代价函数,这个函数是一个凸函数,能够得到全局最优解.如下图所示,因为其二阶导数在每个维度的偏导都是一个大于等于0的常数,满足凸函数的充要条件. 2)但是在逻辑回归中却会出现问题,因为将逻辑回归的表达式带入到最小二乘函数中得到的是一个非凸函数的图像,那么就会存在多…
一.解决过拟合问题方法 1)减少特征数量 --人为筛选 --靠模型筛选 2)正则化(Regularization) 原理:可以降低参数Θ的数量级,使一些Θ值变得非常之小.这样的目的既能保证足够的特征变量存在(虽然Θ值变小了,但是并不为0),还能减少这些特征变量对模型的影响.换言之,这些特征对于准备预测y值依然能发挥微小的贡献,这样也避免了过拟合问题.(个别Θ值过大,容易过拟合,如果Θ=0,等于缺少个别特征变量,对模型依然不好) 二.具体实例      通常我们并不知道具体使哪些Θ值变小,所以我们…