min_samples_split越大越好吗

2024-11-09

GBDT调参总结

一.GBDT类库弱学习器参数二.回归数据集:已知用户的30个特征,预测用户的信用值 from sklearn.ensemble import GradientBoostingRegressor from sklearn.grid_search import GridSearchCV #用平均值填补缺失值 gbdt_train_label = train_data['信用分'] gbdt_train_data = train_data[columns_] gbdt_test_data = te

UVa12105 越大越好

题文:https://vjudge.net/problem/12364(或者见紫书) 题解: 因为题目中有两个限制条件,那么我们就顺着题目的意思来dp,设dp[i][j]表示目前还剩下的i个火柴,用这i根火柴所能凑出的%m是j的最大的数,那么转移就是枚举最左边的数x,那么就转移到了dp[i-shu[x]][(j*10+x)%m].但如果用dp数组直接存数的话数组那么就要写高精度了,应为最大会有55位. 考虑设dp[i][j]存的是用这i根火柴所能凑出的%m是j的最大的数的数位,p[i][j]表示

Python机器学习笔记——随机森林算法

随机森林算法的理论知识随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代表集成学习技术水平的方法”. 一,随机森林的随机性体现在哪几个方面? 1,数据集的随机选取从原始的数据集中采取有放回的抽样(bagging),构造子数据集,子数据集的数据量是和原始数据集相同的.不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复. 2,待选特征的随机选取与数据集的随机选

随机森林random forest及python实现

引言想通过随机森林来获取数据的主要特征 1.理论根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系,可同时生成的并行化方法: 前者的代表是Boosting,后者的代表是Bagging和“随机森林”(Random Forest) 随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择(即引入随机特征选择). 简单来说,随机森林就是对决策树的集成,但

Python机器学习笔记 Grid SearchCV（网格搜索）

在机器学习模型中,需要人工选择的参数称为超参数.比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定.超参数选择不恰当,就会出现欠拟合或者过拟合的问题.而在选择超参数的时候,有两个途径,一个是凭经验微调,另一个就是选择不同大小的参数,带入模型中,挑选表现最好的参数. 微调的一种方法是手工调制超参数,直到找到一个好的超参数组合,这么做的话会非常冗长,你也可能没有时间探索多种组合,所以可以使用Scikit-Learn的GridSearch

机器学习笔记——模型调参利器 GridSearchCV（网格搜索）参数的说明

GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大的时候可以使用一个快速调优的方法——坐标下降.它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化:再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕.这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力,巨大的优势面前,还是试一试吧,后续可以再拿bagging

Sklearn 与 TensorFlow 机器学习实战—一个完整的机器学习项目

本章中,你会假装作为被一家地产公司刚刚雇佣的数据科学家,完整地学习一个案例项目.下面是主要步骤: 项目概述. 获取数据. 发现并可视化数据,发现规律. 为机器学习算法准备数据. 选择模型,进行训练. 微调模型. 给出解决方案. 部署.监控.维护系统. 使用真实数据学习机器学习时,最好使用真实数据,而不是人工数据集.幸运的是,有上千个开源数据集可以进行选择,涵盖多个领域.以下是一些可以查找的数据的地方: 流行的开源数据仓库: UC Irvine Machine Learning Reposito

Python 机器学习实战 —— 监督学习（下）

前言近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是广泛的民用设施,都充斥着AI应用的身影.接下来的一系列文章将会由浅入深从不同角度分别介绍机器学习.深度学习之间的关系与区别,通过一系统的常用案例讲述它们的应用场景.在上一篇文章< Python 机器学习实战 -- 监督学习(上)>中已经讲述了机械学习的相关概念与基础知识,监督学习的主要流程.对损失

谈一下关于CQRS架构如何实现高性能

CQRS架构简介前不久,看到博客园一位园友写了一篇文章,其中的观点是,要想高性能,需要尽量:避开网络开销(IO),避开海量数据,避开资源争夺.对于这3点,我觉得很有道理.所以也想谈一下,CQRS架构下是如何实现高性能的. 关于CQRS(Command Query Responsibility Segration)架构,大家应该不会陌生了.简单的说,就是一个系统,从架构上把它拆分为两部分:命令处理(写请求)+查询处理(读请求).然后读写两边可以用不同的架构实现,以实现CQ两端(即Command

MySQL优化聊两句

原文地址:http://www.cnblogs.com/verrion/p/mysql_optimised.html MySQL优化聊两句 MySQL不多介绍,今天聊两句该如何优化以及从哪些方面入手,很多运维从业者一说起优化就不知所措,当运营过程中某个参数值到达一定阀值之后,就会出现各种问题,很多运维工程师这时不知所措,第一可能也从来没有处理过类似情况,另一方面业务又紧张,系统不正常,首要任务是解决问题,那没办法只能重启了,我们先不说重启是否可行,比如有些应用可以重启并且解决了问题,但如没有解决

Linux基础介绍【第四篇】

Linux文件和目录的属性及权限命令: [root@oldboy ~]# ls -lhi total 40K 24973 -rw-------. 1 root root 1.1K Dec 10 16:02 anaconda-ks.cfg 15 -rw-r--r--. 1 root root 22K Dec 10 16:02 install.log 17 -rw-r--r--. 1 root root 5.8K Dec 10 16:00 install.log.syslog 第一列:

Linux实战教学笔记08:Linux 文件的属性（上半部分）

第八节 Linux 文件的属性(上半部分) 标签(空格分隔):Linux实战教学笔记第1章 Linux中的文件 1.1 文件属性概述(ls -lhi) linux里一切皆文件 Linux系统中的文件或目录的属性主要包括:索引节点(inode),文件类型,权限属性,链接数,所归属的用户和用户组,最近修改时间等内容: 文字解释: 第一列:inode索引节点编号(相当于人的身份证,全国唯一) 第二列:文件类型及权限第二列共11个字符:其中第一个字符为文件类型,随后的9个字符为文件的对应权限,最后一

程序员装B指南

一.准备工作 "工欲善其事必先利其器." 1.电脑不一定要配置高,但是双屏是必须的,越大越好,能一个横屏一个竖屏更好.一个用来查资料,一个用来写代码.总之要显得信息量很大,效率很高. 2.椅子不一定要舒服,但是一定要可以半躺着. 3.大量的便签,各种的颜色的,用来记录每天要完成的事务,多多益善.沿着电脑屏幕的边框,尽量贴满,显出有很多事情的样子. 4.工具书,orelly的,机械工业,电子工业什么的都可以,能英文就英文,不行影印版的也可以,反正越厚越好,而且千万不要放在书架上,一定要堆

EasyPR--开发详解（8）文字定位

今天我们来介绍车牌定位中的一种新方法--文字定位方法(MSER),包括其主要设计思想与实现.接着我们会介绍一下EasyPR v1.5-beta版本中带来的几项改动. 一. 文字定位法在EasyPR前面几个版本中,最为人所诟病的就是定位效果不佳,尤其是在面对生活场景(例如手机拍摄)时.由于EasyPR最早的数据来源于卡口,因此对卡口数据进行了优化,而并没有对生活场景中图片有较好处理的策略.后来一个版本(v1.3)增加了颜色定位方法,改善了这种现象,但是对分辨率较大的图片处理仍然不好.再加上颜色定

深入解析js异步编程利器Generator

我们在编写Nodejs程序时,经常会用到回调函数,在一个操作执行完成之后对返回的数据进行处理,我简单的理解它为异步编程. 如果操作很多,那么回调的嵌套就会必不可少,那么如果操作非常多,那么回调的嵌套就会变得让人无法忍受了. 我们知道的Promises就是问了解决这个问题而提出来的.然而,promises并不是一种新的功能,它只是一种新的写法,原来横向发展的回调函数,被排成了队竖向发展. 然而,Generator不同,它是一种新的解决方案. 文章中提到的所有代码都可以在这里找到源码:[查看源码].

用scikit-learn学习K-Means聚类

在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KMeans.另一个是基于采样的Mini Batch K-Means算法,对应的类是MiniBatchKMeans.一般来说,使用K-Means的算法调参是比较简单的. 用KMeans类的话,一般要注意的

scikit-learn随机森林调参小结

在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点. 1. scikit-learn随机森林类库概述在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor.当然RF的变种Extra Trees也有, 分类类ExtraTreesC

scikit-learn 梯度提升树(GBDT)调参小结

在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn GBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类.两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相同.这些参数中,类似于Adabo

scikit-learn Adaboost类库使用小结

在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结.这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结. 1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoostClassifier用于分类,AdaBoostRegressor用于回归. AdaBo

JVM学习（4）——全面总结Java的GC算法和回收机制

俗话说,自己写的代码,6个月后也是别人的代码……复习!复习!复习!涉及到的知识点总结如下: 一些JVM的跟踪参数的设置 Java堆的分配参数 -Xmx 和 –Xms 应该保持一个什么关系,可以让系统的性能尽可能的好呢?是不是虚拟机内存越大越好? Java 7之前和Java 8的堆内存结构 Java栈的分配参数 GC算法思想介绍 –GC ROOT可达性算法 –标记清除 –标记压缩 –复制算法可触及性含义和在Java中的体现 finalize方法理解 Java的强引用,软引用,弱引用,虚引用 GC

linux(六)__进程与任务控制

一.程序.进程.线程 1.程序是一个普通文件,是一系列指令和数据的集合,是一个静态的实体,是程序员写好之后存储于外设之上的代码.它是"死"的,而进程和程序都是"活"的. 2.进程是程序的执行实例,即运行中的程序,同时也是程序的一个副本:程序是放置于磁盘的,而程序是位于内存中的.每一个进程都分配一个ID号. 每一个进程,都会对应一个父进程,而这个父进程可以复制多个子进程.例如WWW服务器. 3.线程是比进程更小的执行单元,一个进程至少包括一个线程.一个进程要想同时在多

min_samples_split越大越好吗

热门专题