,400],[200,5],[100,77],[40,300]]) shape:显示(行,列)例:shape(group)=(4,2) zeros:列出一个同样格式的空矩阵,例:zeros(group)=([[0,0],[0,0],[0,0],[0,0]]) tile函数位于python模块 numpy.lib.shape_base中,他的功能是反复某个数组.比方tile(A,n),功能是将数组A反复n次,构成一个新的数组 sum(axis=1)矩阵每一行向量相加 3.数据集   4.代码  …
sklearn实战-乳腺癌细胞数据挖掘( 博主亲自录制) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 原文出处: Cheatsheet – Python & R codes for common Machine Learning Algorithm…
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高.国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一.C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 算法的主要思想就是将数据集依照特…
1.背景         PCA(Principal Component Analysis),PAC的作用主要是减少数据集的维度,然后挑选出基本的特征.         PCA的主要思想是移动坐标轴,找到方差最大的方向上的特征值.什么叫方差最大的方向的特征值呢.就像下图中的曲线B.一样.它的覆盖范围最广. 基本步骤:(1)首先计算数据集的协方差矩阵                    (2)计算协方差矩阵的特征值和特征向量                    (3)保留最重要的n个特征 wh…
1.背景     採样算法是机器学习中比較经常使用,也比較easy实现的(出去分层採样).经常使用的採样算法有下面几种(来自百度知道):     一.单纯随机抽样(simple random sampling) 将调查整体所有观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本. 长处:操作简单,均数.率及对应的标准误计算简单. 缺点:整体较大时,难以一一编号. 二.系统抽样(systematic sampling) 又称机械抽样.等距抽样,即先将整体的观察单位按某一顺序号分成n个部…
1.背景    项目须要,打算用python实现矩阵的去噪和归一化.用numpy这些数学库没有找到非常理想的函数.所以一怒之下自己用标准库写了一个去噪和归一化的算法,效率有点低,只是还能用,大家假设有须要能够拿去.  (1)去噪算法:依据概率论的知识,假设一组数据服从正态分布,我们设均值是n,方差是v,那么对于每一个离散数值有百分之九十二以上的概率会在(n-3*v,n+3*v)的区间内. 所以这里的去噪功能主要是实现假设超出了区间就将这个值标记为区间所能容忍最大值.  (2)归一化:找到输入队列…
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景      强烈推荐阅读(http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html)          支持向量机SVM(support vector machines). SVM是一种二值分类器,是近些年比較流行的一种分类算法. 本文,首先要介绍一些主要的知识概念,在下一章将对SVM进行简单地代码实现. 2.基本概念 (1)线性…
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景      上一节学习支持向量机,感觉公式都太难理解了,弄得我有点头大.只是这一章的Adaboost线比較起来就容易得多. Adaboost是用元算法的思想进行分类的. 什么事元算法的思想呢?就是依据数据集的不同的特征在决定结果时所占的比重来划分数据集.就是要对每一个特征值都构建决策树,而且赋予他们不同的权值,最后集合起来比較.       比方说我们能够通过是否有胡子和身高的高度这两个特征来来决定一…
综述 Cover和Hart在1968年提出了最初的近邻算法 是分类(classification)算法 输入基于实例的学习(instance-based learning),惰性学习(lazy learning) 例子(example) movie name fight times kiss times movie type California Man 3 104 Romance Beautiful Woman 1 81 Romance Kevin Longblase 101 10 Actio…