1. pairwise from sklearm.metrics.pairwise import pairwise_distance 计算一个样本集内部样本之间的距离: D = np.array([np.linalg.norm(r1-r2) for r1 in X] for r2 in X) 当然,不要重复制造轮子,sklearn 已为我们提供了实现好的接口: D = pairwise_distance(X, X) # metric='euclidean'/'manhattan'/'cosine…
DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4581651.html 本例是Sklearn网站上的关于决策树桩.决策树.和分别使用AdaBoost—SAMME和AdaBoost—SAMME.R的AdaBoost算法在分类上的错误率.这个例子基于Sklearn.datasets里面的make_Hastie_10_2数据库.取了12000个数据,其…
1. t-SNE from sklearn.manifold import TSNE X_proj = TSNE(random_state=123).fit_transform(X) 2. t_sne _joint_probabilities _joint_probabilities(distances, desired_perplexity, verbose) Compute joint probabilities p_ij from distances. _kl_divergence _kl…
本文以线性回归为例,介绍使用sklearn进行机器学习的一般过程. 首先生成模拟数据 import numpy as np def get_data(theta_true,N): X=np.random.normal(size=(N,len(theta_true))) Y=X@theta_true+np.random.normal(size=(N)) return (X,Y) theta_true=np.array([2,3,4]) X,Y=get_data(theta_true,100) 实例…
最近聆听了两个IEEE FELLOW的高论.周末北大林老师来学校做了个报告,讲了很多新的机器学习概念.但是本人更关注的低秩学习,林老师只字未提.虽然如此,林老师的论文最近还是深入研究了很多,有多少改进的空间先不说,一篇LADMAP就需要看好几篇论文甚至回溯到十几年前的一些论文.或者说,当目标函数中有多个要求的变量的时候,一般采用ADM方法.但是一般会选用ADM的改进方法,比如11年林老师的ALADMAP方法.然而光看这篇也不能看懂,因为算法中又使用了林老师10年的一篇论文的方法,简单说就是一个低…
具体安装方法参考https://blog.csdn.net/HYDMonster/article/details/79766086 但是注意的是,http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy这个numpy包的下载网站真的很垃圾,我当时只能进首页,但是进不了下载页面,翻了很多博客,发现下载地址都指向这个,很烦. 后来,本人在CSDN上下载了numpy+mkl-cp35-cp35m-win64.whl,问题才解决. 贴出这个包的网盘链接:链接:ht…
Metrics核心 翻译自Metrics官方文档: http://metrics.codahale.com/manual/core/ JAVA Metrics是一个用于度量的一个JAVA的类库,使用请參见  < Java Metric使用介绍1 > http://blog.csdn.net/scutshuxue/article/details/8350135 或者官方的高速入门:http://metrics.codahale.com/getting-started/ 在Metrics中最重要的…
GridSearchCV用于系统地遍历模型的多种参数组合,通过交叉验证确定最佳参数. 1.GridSearchCV参数    # 不常用的参数 pre_dispatch 没看懂 refit 默认为True 在参数搜索参数后,用最佳参数的结果fit一遍全部数据集 iid 默认为True 各个样本fold概率分布一致,误差估计为所有样本之和 # 常用的参数 cv 默认为3 指定fold个数,即默认三折交叉验证 verbose 默认为0 值为0时,不输出训练过程:值为1时,偶尔输出训练过程:值>1时,…
在当今互联网环境下,需求变更越来越快,交付周期却越来越短, 怎么判断一个系统是否测试充分? 产品质量满足什么样的条件才能投产? 如何判断测试工作.研发团队工作的效率是高还是低? 这些问题不能靠感觉.拍大脑,而是需要客观的数据来反映.质量度量指标就是用一组数据来客观衡量产品研发环节的各方面情况,作为评审和决策的依据. 而为了能够在产品发布前,对产品质量能够做出比较准确的判断,需要清楚质量的属性,这就需要建立质量模型. 说起质量模型,必然绕不开ISO9126,ISO9126软件质量模型是评价软件质量…
metrics是sklearn用来做模型评估的重要模块,提供了各种评估度量,现在自己整理如下: 一.通用的用法:Common cases: predefined values 1.1 sklearn官网上给出的指标如下图所示: 1.2除了上图中的度量指标以外,你还可以自定义一些度量指标:通过sklearn.metrics.make_scorer()方法进行定义: make_scorer有两种典型的用法: 用法一:包装一些在metrics中已经存在的的方法,但是这种方法需要一些参数,例如fbeta…