Machine Learning方法总结
- Kmeans——不断松弛(?我的理解)模拟,将点集分成几堆的算法(堆数需要自己定)。
- 局部加权回归(LWR)——非参数学习算法,不用担心自变量幂次选择。(因此当二次欠拟合, 三次过拟合的时候不妨尝试这种办法)
- 逻辑回归Logistic Regression(Sigmoid)——分类问题的常用拟合函数。
- 对于有多个类的分类问题,怎么办?(比如手写板识别,一共0~9十个类别)——转换为独热码(0100000000),计算cost function之和。
- 一个带Excel读取,和训练之后检测的分类问题模板(以建模校赛2018为数据源)
- 简单的线性逻辑回归效果不好怎么办?(线性神经网络同理)——将数据集离散化(如分段取相同的值,1~9.9 = 5)以产生非线性,从而使结果更准确——你也可以称之为:离散数学处理。
- sklearn中的SVR也可以用来解决回归问题
- 支持向量机(SVM)——另一种分类问题的常用方法。定义分界线与数据集之间的“间隔”,通过最大化间隔来产生较好的分类效果。
- SVM与逻辑回归分别适用的场景?
- SVM采用数学方法;逻辑回归采用统计方法。
- SVM对数据集的敏感度非常高,如果出现错误数据或噪音数据,影响非常大;逻辑回归则不敏感。
- 特征数量相对较少而样本充足时,尽量用SVM以获得更准确的结果;特征数量较多时,则使用LR,特征数量已经较多,线性可以很好拟合,且速度更快。
- SVM与逻辑回归分别适用的场景?
- Word2Vec——高级的语义分析算法,将单词转化为一个多维的向量,可以根据向量之间的关系确定单词的关系(如转换后的字词向量中:猫-鱼≈狗-小狗)。
- 生成学习算法——预先对于P(x|y)进行建模,增加假设条件,所需数据量更少,结果更加准确。
- 高斯判别分析(GDA)——假设x|y服从高斯分布。
- PCA + T-SNE——高维数据降维可视化方法
- 朴素贝叶斯(Naive Bayes)——何来Naive?:对于数据做了非常强的假设:各个参量之间相互独立。
- ERM经验风险最小化——用来估计所需训练样本个数的数量级。
- 贝叶斯规范化——以线性模型为例,误差函数从Σ(||y(i)-θ'x(i)||^2)变成Σ(||y(i)-θ'x(i)||^2+λ||θ||^2),即添加了对于θ模值的惩罚项,从而减少过拟合的风险。(λ的值可以通过交叉检验方法得到)。
- 最大期望算法(EM算法)——估计隐形变量的参数分布。
Machine Learning方法总结的更多相关文章
- [LNU.Machine Learning.Question.1]梯度下降方法的一些理解
曾经学习machine learning,在regression这一节,对求解最优化问题的梯度下降方法,理解总是处于字面意义上的生吞活剥. 对梯度的概念感觉费解?到底是标量还是矢量?为什么沿着负梯度方 ...
- 一种压缩图片的方法---Machine learning 之 K-Means
背景描述: RGB编码:对于一个直接用24bit表示每一个而像素的图像来说,每一个pixel使用8-bit无符号整数(0-255)来表示红or绿or蓝. 压缩目的: 将128x128大小的图片由原来的 ...
- machine learning(11) -- classification: advanced optimization 去求cost function最小值的方法
其它的比gradient descent快, 在某些场合得到广泛应用的求cost function的最小值的方法 when have a large machine learning problem, ...
- 另一种压缩图片的方法---Machine learning 之 PCA(Principle Component Analysis)
PCA最主要的用途是用来减少特征向量的数目,N个特征向量 减小到 K个特征向量.如果为了可视化,k可以使3 或者 2.这样可以加速算法的学习速度. PCA用来压缩图像同一有效. 具体方式以及原理在gi ...
- 【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
- 【Machine Learning】Python开发工具:Anaconda+Sublime
Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...
- 【Machine Learning】决策树案例:基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现 作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
- 【机器学习Machine Learning】资料大全
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...
- [Machine Learning] Active Learning
1. 写在前面 在机器学习(Machine learning)领域,监督学习(Supervised learning).非监督学习(Unsupervised learning)以及半监督学习(Semi ...
随机推荐
- linux内存管理---物理地址、线性地址、虚拟地址、逻辑地址之间的转换
linux内存管理---虚拟地址.逻辑地址.线性地址.物理地址的区别(一) 这篇文章中介绍了四个名词的概念,下面针对四个地址的转换进行分析 CPU将一个虚拟内存空间中的地址转换为物理地址,需要进行两步 ...
- 完全卸载MySQL数据库,实现重装
一.在控制面板,卸载MySQL的所有组件 控制面板——>所有控制面板项——>程序和功能,卸载所有和MySQL有关的程序 二.找到你的MysQL安装路径,看还有没有和MySQL有关的文件夹, ...
- javascript 之 对象
可以通过 Object 构造函数或对象字面量的方式创建对象,但是这些方式的缺点是使用同一个接口创建多个对象,会产生大量重复的代码. 1.工厂模式 function createPerson(name, ...
- ElasticSearch优化系列一:集群节点规划
节点职责单一,各司其职 elasticSearch的配置文件中有2个参数:node.master和node.data.这两个参 数搭配使用时,能够帮助提供服务器性能. 数据节点node.master: ...
- 数据立方体(Cube)
如上图所示,这是由三个维度构成的一个OLAP立方体,立方体中包含了满足条件的cell(子立方块)值,这些cell里面包含了要分析的数据,称之为度量值.显而易见,一组三维坐标唯一确定了一个子立方. 多位 ...
- python2.7入门---XML解析
首先我们先来考虑,什么是XML?XML 指可扩展标记语言(eXtensible Markup Language).XML 被设计用来传输和存储数据.XML是一套定义语义标记的规则,这些标记将文 ...
- 20155206 《Java程序设计》实验三实验报告
20155206 <Java程序设计>实验三实验报告 实验内容 Java敏捷开发与XP实践 实验内容 XP基础 XP核心实践 相关工具 实验步骤 提交一: 提交二: 提交三: 提交四:
- 20155334 实验五 Java网络编程及安全
20155334 实验五 Java网络编程及安全 实验内容 1.掌握Socket程序的编写: 2.掌握密码技术的使用: 3.设计安全传输系统. 实验步骤 实验1: 参考 结对实现中缀表达式转后缀表达式 ...
- 关于web服务安全的一些思考
一.问题: 在开发web项目是时,安全问题有以下几种问题: (1)用户可以自己伪造一个URL请求来进行访问吗? (2)用户不在服务器登录,可以自己封装出用户名.密码进行访问吗? (3)url的参数可以 ...
- MySQL优化Explain命令简介(二)
type列 MySQL手册上注明type列用于描述join type,不过我们认为把这一列视为对access type--即MySQL决定如何在表中寻找数据的方式的描述,更加合适一些,以下所示从最坏情 ...