1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计”(Maximum Likelihood Estimation, MLE)与“最大后验概率估计”(Maximum A Posteriori Estimation,MAP)的历史可谓源远流长,这两种经典的方法也成为机器学习领域的基础被广泛应用. 有趣的是,这两种方法还牵扯到“频率学派”与“贝叶斯学派”的派别之争,…
全文引用自<统计学习方法>(李航) K近邻算法(k-nearest neighbor, KNN) 是一种非常简单直观的基本分类和回归方法,于1968年由Cover和Hart提出.在本文中,主要介绍了分类方法.其输入为特征空间中的点,输出为给定实例的类别,可以选择多个类输出.K近邻算法通过给定的训练集对特征空间进行分类,分类时,对于输入的实例,通过判断其最近的k个实例的类别,选择多数类别为本实例的最终分类.因此,k近邻算法本质上并不具有显示的学习过程. 本篇文章通过介绍K近邻算法的k值选择.距离…
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不到万不得已,我们也还是宁可用L2正则,因为L2正则计算起来方便得多... 正则化项不应该以正则化的表面意思去理解,应该翻译为规则化才对! 一般回归分析中回归ww表示特征的系数,从上式可以看到正则化项是对系数做了处理(限制).L1正则化和L2正则化的说明如下: L1正则化是指权值向量ww中各个元素的绝…
来源:https://www.cnblogs.com/jianxinzhou/p/4083921.html 1. The Problem of Overfitting (1) 还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图.如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型.我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓.因此线性回归并没有很好拟合训练数据. 我们把此类情况称为欠拟合(underfit…
通过上文可知k近邻算法的基本原理,以及算法的具体流程,kd树的生成和搜索算法原理.本文实现了kd树的生成和搜索算法,通过对算法的具体实现,我们可以对算法原理有进一步的了解.具体代码可以在我的github上查看. 代码 #!/usr/bin/python3 # -*- coding:utf-8 -*- import sys import numpy as np class Kdtree(object): ''' 类名: Kdtree 用于存储kd树的数据 成员: __value: 训练数据,保存数…
机器学习算法原理.实现与实践——机器学习的三要素 1 模型 在监督学习中,模型就是所要学习的条件概率分布或决策函数.模型的假设空间包含所有可能的条件概率分布或决策函数.例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是这些线性函数构成的函数的集合. 假设空间用$\mathcal{F}$表示.假设空间可以定义为决策函数的集合 $$\mathcal{F}=\{f|Y=f(X)\}$$ 其中,$X$和$Y$是定义在输入空间$\mathcal{X}$和输出空间$\mathcal{Y}$上的变…
一.Java中WebService规范      JAVA 中共有三种WebService 规范,分别是JAX-WS.JAX-RS.JAXM&SAAJ(废弃).   1.JAX-WS规范      JAX-WS 的全称为Java API for XML-Based Webservices ,早期的基于SOAP 的JAVA 的Web 服务规范JAX-RPC(Java API For XML-Remote Procedure Call)目前已经被JAX-WS 规范取代.从java5开始支持JAX-W…
模型训练的三要素:数据处理.损失函数.优化算法    数据处理(模块torch.utils.data) 从线性回归的的简洁实现-初始化模型参数(模块torch.nn.init)开始 from torch.nn import init # pytorch的init模块提供了多中参数初始化方法 init.normal_(net[0].weight, mean=0, std=0.01) #初始化net[0].weight的期望为0,标准差为0.01的正态分布tensor init.constant_(…
翻译:Tacey Wong 统计学习: 随着科学实验数据的迅速增长,机器学习成了一种越来越重要的技术.问题从构建一个预测函数将不同的观察数据联系起来,到将观测数据分类,或者从未标记数据中学习到一些结构. 本教程将探索机器学习中统计推理的统计学习的使用:将手中的数据做出结论 Scikit-learn 是一个紧密结合Python科学计算库(Numpy.Scipy.matplotlib),集成经典机器学习算法的Python模块. 一.统计学习:scikit-learn中的设置与评估函数对象 (1)数据…
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从1940年开始讲起,到60-80…