聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类.在相同的数据集上,不同的聚类算法可能产生不同的聚类. 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的特征.由于簇是数据对象的子集合,簇内的对象彼此相似,而与其他簇的对象不相似,因此,簇可以看作数据集的“隐性”分类,聚类分析可能会发现数据集的未知分组. 聚类通过观察学习,不需要提供每个训练元素的隶属关…
聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异.相似性和相异性(dissimilarity)是根据数据对象的属性值评估的,通常涉及到距离度量.相似性(similarity)和相异性(dissimilarity)是负相关的,统称为临近性(proximity). 在聚类分析中,聚类算法的第一步都是度量数据集对象之间的距离,实际操作步骤是:对数据矩阵(用于存储数据对象)进行无量纲化处理,应用距离算法,得到相异性矩阵(用于存…
概率论是人们在长期实践中发现的理论,是客观存在的.自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是随机现象.那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率. 一,概率和频率 在说概率之前,不得不说频率.对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在…
正则表达式 re 模块 re.match(pattern,string[,flag]) match方法 从首字母开始匹配,如果包含pattern字符串,则匹配成功,返回match对象,失败则返回None. [注]只从起始位置开始匹配 ,flag表示可选项 re.I 使匹配对大小写不敏感 re.L 做本地化识别(locale-aware)匹配 re.M 多行匹配,影响 ^ 和 $ re.S 使 . 匹配包括换行在内的所有字符 re.U 根据Unicode字符集解析字符.这个标志影响 \w, \W,…
SAS数据挖掘实战篇[四] 今天主要是介绍一下SAS的聚类案例,希望大家都动手做一遍,很多问题只有在亲自动手的过程中才会有发现有收获有心得. 1 聚类分析介绍 1.1 基本概念 聚类就是一种寻找数据之间一种内在结构的技术.聚类把全体数据实例组织成一些相似组,而这些相似组被称作聚类.处于相同聚类中的数据实例彼此相同,处于不同聚类中的实例彼此不同.聚类技术通常又被称为无监督学习,因为与监督学习不同,在聚类中那些表示数据类别的分类或者分组信息是没有的. 通过上述表述,我们可以把聚类定义为将数据集中在某…
SAS数据挖掘实战篇[二] 从SAS数据挖掘实战篇[一]介绍完目前的数据挖掘基本概念之外,对整个数据挖掘的概念和应用有初步的认识和宏观的把握之后,我们来了解一下SAS数据挖掘实战篇[二]SAS工具的应用.首先来看一下SAS大概的一个软件界面.(这里面实际操作性较强,建议都打开软件,step by step自己操作一遍,印象深刻)操作流程如下:   1 认识 SAS Enterprise Miner 1启动SAS EM 方式1:首先打开SAS,然后在SAS命令栏输入miner,回车即可:   方式…
SAS数据挖掘实战篇[一] 1数据挖掘简介 1.1数据挖掘的产生 需求是一切技术之母,管理和计算机技术的发展,促使数据挖掘技术的诞生.随着世界信息技术的迅猛发展,信息量也呈几何指数增长,如何从巨量.复杂的数据中获取有用的信息,成为了信息技术研究领域的一道新课题.在这样的背景下,数据挖掘技术诞生并成为了近年来的研究热点.机器学习.数据库技术和数理统计是数据挖掘的三个技术支柱. 今天,这些技术已经相当成熟,加上高性能关系数据库引擎和广泛的数据集成,让数据挖掘技术得到了广泛的实际应用.目前数据挖掘相关…
SAS数据挖掘实战篇[六] 6.3  决策树 决策树主要用来描述将数据划分为不同组的规则.第一条规则首先将整个数据集划分为不同大小的 子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同,这样就形成第二层数 据集的划分.一般来说,一个子数据集或者被继续划分或者单独形成一个分组. 1  问题背景 预测模型案例概述 一家金融服务公司为客户提供房屋净值贷款.该公司在过去已经拓展了数千净值贷款服务.但是, 在这些申请贷款的客户中,大约有20%的人拖欠贷款.通过使用地理.人口和金融变量,该公…
从0开始搭建SQL Server AlwaysOn 第一篇(配置域控) 第一篇http://www.cnblogs.com/lyhabc/p/4678330.html第二篇http://www.cnblogs.com/lyhabc/p/4682028.html第三篇http://www.cnblogs.com/lyhabc/p/4682986.html第四篇http://www.cnblogs.com/lyhabc/p/6136227.html AlwaysOn是SQL Server2012推出…
写在前面的话: 1. 最近在自学Android,也是边看书边写一些Demo,由于知识点越来越多,脑子越来越记不清楚,所以打算写成读书笔记,供以后查看,也算是把自己学到所理解的东西写出来,献丑,如有不对的地方,希望大家给与指正. 2. 由于类似于读书笔记,可能格式神马的会比较随(hen)意(chou),大家看着受不了,可以使劲吐槽. *************************************我只是分割线***************************************…