几种分类器的基本调用方法 本节的目的是基本的使用这些工具,达到熟悉sklearn的流程而已,既不会设计超参数的选择原理(后面会进行介绍),也不会介绍数学原理(应该不会涉及了,打公式超麻烦,而且近期也没有系统的学习机器学习数学原理的计划,下学期可能会重拾cs229,当然如果在上课展示或者实验室任务中用到的特定方法还是很可能用博客记录一下的,笑). Logistic & SGDC '''Logistic & SGDC''' '''数据预处理''' import numpy as np impo…
<FAQ:OpenCV Haartraining>——使用OpenCV训练Haar like+Adaboost分类器的常见问题 最近使用OpenCV训练Haar like+Adaboost分类器,查阅了一些资料,这些资料对训练过程陈述的很详细,但是缺少一些细节,偶然看到了一篇英文资料,觉得很好,简单翻译了自己觉得有用的部分. 原文链接:FAQ:OpenCV Haartraining 关于正样本图片 1.I have  positive images, how create vec file o…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由信姜缘 发表于云+社区专栏 介绍 机器学习是计算机科学.人工智能和统计学的研究领域.机器学习的重点是训练算法以学习模式并根据数据进行预测.机器学习特别有价值,因为它让我们可以使用计算机来自动化决策过程. 在本教程中,您将使用Scikit-learn(Python的机器学习工具)在Python中实现一个简单的机器学习算法.您将使用Naive Bayes(NB)分类器,结合乳腺癌肿瘤信息数据库,预测肿瘤是恶性还是良性. 在本教程结束时…
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 原文链接 https://www.cnblogs.com/nolonely/p/7008952.html 各种损失函数 损失函数或代价函数来度量给定…
一.sklearn中自带的回归算法 1. 算法 来自:https://my.oschina.net/kilosnow/blog/1619605 另外,skilearn中自带保存模型的方法,可以把训练完的模型在本地保存成.m文件,方法如下: skilearn保存模型方法 keras也可以把模型保存成.h5文件,方法如下: keras保存模型方法 pybrain可以把模型保存成xml文件,方法如下: pybrain保存模型方法 2. 评价标准 mae(平均绝对误差) 平均绝对误差是绝对误差的平均值,…
1.介绍 有三种不同的方法来评估一个模型的预测质量: estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题. Scoring参数:使用cross-validation的模型评估工具,依赖于内部的scoring策略.见下. Metric函数:metrics模块实现了一些函数,用来评估预测误差.见下. 2. scoring参数 模型选择和评估工具,例如: grid_search.GridSearchCV 和 cross…
上一篇文章中介绍了如何使用OpenCV自带的haar分类器进行人脸识别(点我打开). 这次我试着自己去训练一个haar分类器,前后花了两天,最后总算是训练完了.不过效果并不是特别理想,由于我是在自己的笔记本上进行训练,为减少训练时间我的样本量不是很大,最后也只是勉强看看效果了.网上有关的资料和博客可以说很多了,只要耐心点总是能成功的. 采集样本: 首先要训练,就得有训练集.网上有很多国外高校开源的库可供下载: 1.卡耐基梅隆大学图像数据库(点我打开) 2.MIT人脸数据库(点我打开) 3.ORL…
1 概述 1.1 决策树是如何工作的 1.2 构建决策树 1.2.1 ID3算法构建决策树 1.2.2 简单实例 1.2.3 ID3的局限性 1.3 C4.5算法 & CART算法 1.3.1 修改局部最优化条件 1.3.2 连续变量处理手段 1.4 sklearn中的决策树 2 DecisionTreeClassifier与红酒数据集 2.1 重要参数 2.1.1 criterion 2.1.2 random_state & splitter 2.1.3 剪枝参数 2.1.4 目标权重参…
1. 交叉验证概述 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果. 最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合:为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型的预测表现能力,这种度量方式叫测试准确度,这种方式可以有效避免过拟合. 测试准确度的一个缺点是其样…
一.集成学习的思想 集成学习的思路:一个问题(如分类问题),让多种算法参与预测(如下图中的算法都可以解决分类问题),在多个预测结果中,选择出现最多的预测类别做为该样本的最终预测类别: 生活中的集成思维: 选择电影:10 个人中,如果有8个人觉得这个电影值得看,那么很多人就会跟进这个现象选择看这部电影: 二.scikit-learn 中的集成分类器 scikit-learn 中封装的集成分类器:VotingClassifier 1)模拟集成学习操作 模拟数据集 import numpy as np…