对需要聚类的数据使用canopy做初步的计算
K值聚类的时候,需要自己指定cluster的数目。
这个cluster数目一般是通过canopy算法进行预处理来确定的。
canopy具体描述可以参考这里。
下面是 golang语言的一个实现(对经纬度距离计算进行cluster)。
- package main
- import (
- "fmt"
- "math"
- )
- const (
- EARTH_RADIUS =
- )
- type Point struct {
- lat float64
- lng float64
- }
- func Pop(points []Point) (p Point, newPoints []Point) {
- if len(points) > {
- p = points[]
- newPoints = points[:]
- }
- return
- }
- func Push(p Point, points []Point) []Point {
- points = append(points, p)
- return points
- }
- // Calculates the Haversine distance between two points in kilometers.
- // Original Implementation from: http://www.movable-type.co.uk/scripts/latlong.html
- func GreatCircleDistance(p1, p2 Point) float64 {
- dLat := (p2.lat - p1.lat) * (math.Pi / 180.0)
- dLon := (p2.lng - p1.lng) * (math.Pi / 180.0)
- lat1 := p1.lat * (math.Pi / 180.0)
- lat2 := p2.lat * (math.Pi / 180.0)
- a1 := math.Sin(dLat/) * math.Sin(dLat/)
- a2 := math.Sin(dLon/) * math.Sin(dLon/) * math.Cos(lat1) * math.Cos(lat2)
- a := a1 + a2
- c := * math.Atan2(math.Sqrt(a), math.Sqrt(-a))
- return EARTH_RADIUS * c
- }
- /*
- while(没有标记的数据点){
- 选择一个没有强标记的数据点p
- 把p看作一个新Canopy c的中心
- 离p距离<x1的所有点都认为在c中,给这些点做上弱标记 //纳入canopy,有可能会纳入其它canopy
- 离p距离<x2的所有点都认为在c中,给这些点做上强标记 //不会再纳入其它canopy
- }
- */
- //目前只实现了经纬度以及经纬度的距离计算,这里可以是一个向量
- func CanopyCluster(points []Point, x1, x2 float64) {
- var tmp []Point
- var cluster [][]Point
- for len(points) > {
- var center Point
- center, points = Pop(points)
- index := len(cluster)
- var cpList []Point
- cpList = append(cpList, center)
- cluster = append(cluster, cpList)
- var cur Point
- for len(points) > {
- cur, points = Pop(points)
- distance := GreatCircleDistance(center, cur)
- if distance <= x1 {
- cluster[index] = append(cluster[index], cur)
- if distance > x2 {
- tmp = Push(cur, tmp)
- }
- } else {
- tmp = Push(cur, tmp)
- }
- }
- fmt.Printf("current number of items in this canopy %d\n", center)
- var t []Point
- points = tmp
- tmp = t
- }
- for k, c := range cluster {
- fmt.Println("canopy", k, "has", len(c), "items:")
- for _, v := range c {
- fmt.Println("\t", v.lat, v.lng)
- }
- }
- }
- func main() {
- pointsList := []Point{
- {34.28637, -110.12059},
- {34.28638, -110.1206},
- {34.29077, -110.12078},
- {34.29111, -110.11941},
- {34.29113, -110.11938},
- {34.29116, -110.1194},
- {34.29145, -110.12043},
- {34.29146, -110.12063},
- {34.29154, -110.11873},
- {34.3141, -110.11556},
- {34.31411, -110.11557},
- {34.31411, -110.11556},
- {34.31412, -110.11556},
- {34.31412, -110.11557},
- {34.31415, -110.11552},
- {34.31415, -110.11556},
- }
- CanopyCluster(pointsList, 1.0, 0.8)
- }
对需要聚类的数据使用canopy做初步的计算的更多相关文章
- 抓取摩拜单车API数据,并做可视化分析
抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的. 摩拜是最早进入成都的共享单车,每天我从地铁站下来的时 ...
- 领导满意,客户喜欢的数据报表怎么做,交给Smartbi!
财务分析是以会计核算和报表资料及其他相关资料为依据,采用一系列专门的分析技术和方法,对企业等经济组织过去和现在有关筹资活动.投资活动.经营活动.分配活动的盈利能力.营运能力.偿债能力和增长能力状况等进 ...
- 从 Hadoop 到云原生, 大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...
- Java中浮点型数据Float和Double进行精确计算的问题
Java中浮点型数据Float和Double进行精确计算的问题 来源 https://www.cnblogs.com/banxian/p/3781130.html 一.浮点计算中发生精度丢失 ...
- 斯坦福机器学习视频笔记 Week8 无监督学习:聚类与数据降维 Clusting & Dimensionality Reduction
监督学习算法需要标记的样本(x,y),但是无监督学习算法只需要input(x). 您将了解聚类 - 用于市场分割,文本摘要,以及许多其他应用程序. Principal Components Analy ...
- 关于淘宝的数据来源,针对做淘宝客网站的淘宝api调用方法
上次写了个淘宝返利模式的博客,直接被移除首页,不知道何故啊.可能是真的跟技术不太刮边. 众所周知,能够支撑一个网站运营的最基础不是程序写的多么好.也不是有多么牛X的运营人员,最主要的是数据,如果没有数 ...
- 基于Kafka Connect框架DataPipeline在实时数据集成上做了哪些提升?
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeli ...
- 单细胞数据高级分析之初步降维和聚类 | Dimensionality reduction | Clustering
个人的一些碎碎念: 聚类,直觉就能想到kmeans聚类,另外还有一个hierarchical clustering,但是单细胞里面都用得不多,为什么?印象中只有一个scoring model是用kme ...
- freemarker 数据做加减计算
controller的部分: @Controller@RequestMapping("/ContactsFrameIndex")public class ContactsFrame ...
随机推荐
- android数据存储之Sqlite(二)
SQLite学习笔记 前言:上一章我们介绍了sqlite的一些基本知识以及在dos命令下对sqlite进行的增删改查的操作,这一章我们将在android项目中实际来操作sqlite. 1. SQLit ...
- R中,去掉dataframe中的NA行
R中使用complete.cases 和 na.omit来去掉包含NA的行 现在有个一data.frame datafile如下所示 Date sulfate nitrate ID 1 ...
- winform中DataGrid控件的宽度设置
最近修改一个win5.0的PDA程式,碰到一个问题.就是给DataGrid控件绑定数据的时候,这个控件的宽度不能调整,有时候数据较长,就显示不全.然后想在程式里自定义它的宽度,设置不成功.然后网上没找 ...
- [MongoDB] 高可用架构方案
一.缘由: 众所周知,Mongodb是在高速发展期,一些特性架构难免会发生变化.这里就总结下,我目前所知道的Mongodb 的高可用架构都有哪些.目前Mongodb版本3.2. 二.结构介绍: 1.R ...
- python(24)urlencode和urldecode
当url地址含有中文,或者参数有中文的时候,这个算是很难正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至‘/’做一下编码转换. 一.urlencode ur ...
- linux 安装软件程序
1.用aptitude管理软件包 查看已安装的/未安装的等软件包 无法通过aptitude看到一个细节是所有跟某个特定软件包关联的所有文件的列表.利用dpkg命令能看到这个列表. dpkg -L pa ...
- 更改RAC日志组
alter database add logfile thread 1 group 5 ('+DATA/idb/onlinelog/group5.log') size 256m;alter datab ...
- 在silverlight中通过WCF连接ORACLE DB数据库(转)
转自 http://hi.baidu.com/qianlihanse/item/458aa7c8d93d4e0cac092ff4 这不是我的原创,我也是上网学习的~ How to get data f ...
- JavaScript笔记基础篇(二)
基础篇主要是总结一些工作中遇到的技术问题是如何解决的,应为本人属于刚入行阶段技术并非大神如果笔记中有哪些错误,或者自己的一些想法希望大家多多交流互相学习. 1.ToFixed()函数 今天在做Birt ...
- '<', hexadecimal value 0x3C, is an invalid 问题解决
你的web.config 里面一定有个节点的不完整,如 错误如下: 正确的如下: