聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异.相似性和相异性(dissimilarity)是根据数据对象的属性值评估的,通常涉及到距离度量.相似性(similarity)和相异性(dissimilarity)是负相关的,统称为临近性(proximity). 在聚类分析中,聚类算法的第一步都是度量数据集对象之间的距离,实际操作步骤是:对数据矩阵(用于存储数据对象)进行无量纲化处理,应用距离算法,得到相异性矩阵(用于存…
这是 CMS 框架系列文章的第二篇,第一篇开源了该框架的代码和简要介绍了框架的目的.作用和思想,这篇主要解析如何把sql 转成标准 xml 配置文件和把前端post的增删改数据规范成方便后台解析的结构,以实现后端自动化操作数据库. [开源.NET] 轻量级内容管理框架Grissom.CMS(第一篇分享一个前后端分离框架) [开源.NET] 轻量级内容管理框架Grissom.CMS(第二篇前后端交互数据结构分析) [开源.NET] 轻量级内容管理框架Grissom.CMS(第三篇解析配置文件和数据…
聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类.在相同的数据集上,不同的聚类算法可能产生不同的聚类. 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的特征.由于簇是数据对象的子集合,簇内的对象彼此相似,而与其他簇的对象不相似,因此,簇可以看作数据集的“隐性”分类,聚类分析可能会发现数据集的未知分组. 聚类通过观察学习,不需要提供每个训练元素的隶属关…
上周五写了一个实现原理篇,在评论中看到有朋友也遇到了我的问题,真的是有种他乡遇知己的感觉,整个系列我一定会坚持写完,并在最后把代码开源到git中.上一篇文章很多人看了以后,都表示不解,觉得不知道我到底要干什么,可能就像隔行如隔山吧,就像做移动端开发的人很少去考虑分布式中的通信一样.大家都知道模块化,但模块化的思路有很多,我的只是其中一种,也许你看到最后会觉得这种思路在经过不断地演化后会成为一种很好的解决方案,当然这离不开以后大家对代码及思想的贡献. 好了不扯了,还是回到主题上来吧.... 沙箱是…
前言 报表制作流程的第一步显然是从各个数据源导入数据,Power BI能从很多种数据源导入数据:如Excel,CSV,XML,以及各类数据库(SQL Server,Oracle,My SQL等),两大主流开源平台(Hadoop,Spark)等等.本文篇幅所限,无法一一说明,仅就网页获取数据的方式进行讲解(其他方式大同小异). 然后本文将在Power BI后台工作区(下简称后台区)对获取到的数据集进行塑形.所谓塑形就是确定数据集的列名以及数据类型,还有进行一些基本数据清洗转换工作,以保证Power…
曾经写过一篇Android环境配置的随笔,个人感觉特繁琐,既然有Maven,何不尝试用用Maven呢,经网上搜索这篇文章但不限于这些,而做了一个基于Maven的Android版的Hello Android World. 1, 前提安装sdk以及adt这些就不讲了.网上有的下,我这里的使用的插件是ADT-22.0.5, 要保持最新,可以关注一下官网.贴一张我的SDK Manager图在这里感觉一下. 2,生成MavenQuickStart项目,名为HelloMavenAndroid. mvn ar…
准备数据是数据分析的第一步,由数据构成集合,我们称作数据集,数据集的结构是行列式的,行表示观测,列表示变量.把数据读入到R中,转换为合适的数据结构,能够提高数据分析的效率.在数据分析中,常用的存储数据的结构有标量.向量.因子和数据框,另外,还有矩阵和列表,多样化的数据结构赋予了R灵活处理数据的能力,本文简单介绍常用的数据结构(标量.向量.因子和数据框)及其使用方法. 一,常用的数据结构 标量通常是常量,每一个标量都有特定的数据类型,常用的数据类型是数值类型,字符类型,逻辑类型和日期类型. 对于逻…
python爬虫 urllib用法 eg1: from urllib import request data = request.urlopen(urlString).read() # data获取的是该网页的所有源码内容 data=data.decode("utf-8") # 对data编码 import re pat='<div class="name">(.*?)</div> res = re.findall(pat,data) # r…
udp协议下的套接字编程 一.udp是无链接的    不可靠的 而上篇的tcp协议是可靠的,会有反馈信息来确认信息交换的完成与否 基于udp协议写成的服务端与客户端,各司其职,不管对方是否接收到信息,只需自己发送了即可 二.客户端 import socket #买手机 -- 套接字家族 | 端口协议 phone = socket.socket(socket.AF_INET,socket.SOCK_DGRAM) #服务端地址 ip_port = ('127.0.0.1',8001) #实现多次发送…
第一部分:概述 .. 第二部分:环境准备 1 操作系统 CentOS 6.x 2 安装openssl yum install -y openssl 3 安装jdk 从官网下载JDK http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html mkdir -p /opt/jtools 此处下载的是  jdk-8u161-linux-x64.tar.gz    上传到CentOS6中,解压到/…