对需要聚类的数据使用canopy做初步的计算
K值聚类的时候,需要自己指定cluster的数目。
这个cluster数目一般是通过canopy算法进行预处理来确定的。
canopy具体描述可以参考这里。

下面是 golang语言的一个实现(对经纬度距离计算进行cluster)。
package main import (
"fmt"
"math"
) const (
EARTH_RADIUS =
) type Point struct {
lat float64
lng float64
} func Pop(points []Point) (p Point, newPoints []Point) {
if len(points) > {
p = points[]
newPoints = points[:]
}
return
} func Push(p Point, points []Point) []Point {
points = append(points, p)
return points
} // Calculates the Haversine distance between two points in kilometers.
// Original Implementation from: http://www.movable-type.co.uk/scripts/latlong.html
func GreatCircleDistance(p1, p2 Point) float64 {
dLat := (p2.lat - p1.lat) * (math.Pi / 180.0)
dLon := (p2.lng - p1.lng) * (math.Pi / 180.0) lat1 := p1.lat * (math.Pi / 180.0)
lat2 := p2.lat * (math.Pi / 180.0) a1 := math.Sin(dLat/) * math.Sin(dLat/)
a2 := math.Sin(dLon/) * math.Sin(dLon/) * math.Cos(lat1) * math.Cos(lat2) a := a1 + a2 c := * math.Atan2(math.Sqrt(a), math.Sqrt(-a))
return EARTH_RADIUS * c
} /*
while(没有标记的数据点){
选择一个没有强标记的数据点p
把p看作一个新Canopy c的中心
离p距离<x1的所有点都认为在c中,给这些点做上弱标记 //纳入canopy,有可能会纳入其它canopy
离p距离<x2的所有点都认为在c中,给这些点做上强标记 //不会再纳入其它canopy
}
*/ //目前只实现了经纬度以及经纬度的距离计算,这里可以是一个向量
func CanopyCluster(points []Point, x1, x2 float64) {
var tmp []Point
var cluster [][]Point for len(points) > {
var center Point
center, points = Pop(points)
index := len(cluster)
var cpList []Point
cpList = append(cpList, center)
cluster = append(cluster, cpList)
var cur Point
for len(points) > {
cur, points = Pop(points)
distance := GreatCircleDistance(center, cur)
if distance <= x1 {
cluster[index] = append(cluster[index], cur)
if distance > x2 {
tmp = Push(cur, tmp)
}
} else {
tmp = Push(cur, tmp)
}
}
fmt.Printf("current number of items in this canopy %d\n", center)
var t []Point
points = tmp
tmp = t
}
for k, c := range cluster {
fmt.Println("canopy", k, "has", len(c), "items:")
for _, v := range c {
fmt.Println("\t", v.lat, v.lng)
}
}
} func main() {
pointsList := []Point{
{34.28637, -110.12059},
{34.28638, -110.1206},
{34.29077, -110.12078},
{34.29111, -110.11941},
{34.29113, -110.11938},
{34.29116, -110.1194},
{34.29145, -110.12043},
{34.29146, -110.12063},
{34.29154, -110.11873},
{34.3141, -110.11556},
{34.31411, -110.11557},
{34.31411, -110.11556},
{34.31412, -110.11556},
{34.31412, -110.11557},
{34.31415, -110.11552},
{34.31415, -110.11556},
}
CanopyCluster(pointsList, 1.0, 0.8)
}
对需要聚类的数据使用canopy做初步的计算的更多相关文章
- 抓取摩拜单车API数据,并做可视化分析
抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的. 摩拜是最早进入成都的共享单车,每天我从地铁站下来的时 ...
- 领导满意,客户喜欢的数据报表怎么做,交给Smartbi!
财务分析是以会计核算和报表资料及其他相关资料为依据,采用一系列专门的分析技术和方法,对企业等经济组织过去和现在有关筹资活动.投资活动.经营活动.分配活动的盈利能力.营运能力.偿债能力和增长能力状况等进 ...
- 从 Hadoop 到云原生, 大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...
- Java中浮点型数据Float和Double进行精确计算的问题
Java中浮点型数据Float和Double进行精确计算的问题 来源 https://www.cnblogs.com/banxian/p/3781130.html 一.浮点计算中发生精度丢失 ...
- 斯坦福机器学习视频笔记 Week8 无监督学习:聚类与数据降维 Clusting & Dimensionality Reduction
监督学习算法需要标记的样本(x,y),但是无监督学习算法只需要input(x). 您将了解聚类 - 用于市场分割,文本摘要,以及许多其他应用程序. Principal Components Analy ...
- 关于淘宝的数据来源,针对做淘宝客网站的淘宝api调用方法
上次写了个淘宝返利模式的博客,直接被移除首页,不知道何故啊.可能是真的跟技术不太刮边. 众所周知,能够支撑一个网站运营的最基础不是程序写的多么好.也不是有多么牛X的运营人员,最主要的是数据,如果没有数 ...
- 基于Kafka Connect框架DataPipeline在实时数据集成上做了哪些提升?
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeli ...
- 单细胞数据高级分析之初步降维和聚类 | Dimensionality reduction | Clustering
个人的一些碎碎念: 聚类,直觉就能想到kmeans聚类,另外还有一个hierarchical clustering,但是单细胞里面都用得不多,为什么?印象中只有一个scoring model是用kme ...
- freemarker 数据做加减计算
controller的部分: @Controller@RequestMapping("/ContactsFrameIndex")public class ContactsFrame ...
随机推荐
- 以短链服务为例,探讨免AppKey、免认证、Ajax跨域调用新浪微博API
新浪微博的API官方提供了很多种调用方式,支持编程的,归根结底就是两种: 1.基于Oauth协议,使用Open API.(http://open.weibo.com/wiki/%E6%8E%88%E6 ...
- CSS 分组
选择器分组 假设希望 h2 元素和段落都有灰色.为达到这个目的,最容易的做法是使用以下声明: h2, p {color:gray;} 将 h2 和 p 选择器放在规则左边,然后用逗号分隔,就定义了一个 ...
- S7-1200 与 S7-200 的对比PPT
- activiti自定义流程之整合(五):启动流程时获取自定义表单
流程定义部署之后,自然就是流程定义列表了,但和前一节一样的是,这里也是和之前单独的activiti没什么区别,因此也不多说.我们先看看列表页面以及对应的代码,然后在一步步说明点击启动按钮时如何调用自定 ...
- iOS-浅谈runtime运行时机制
一.首先,从 runtime.h头文件中找到对 class 与 object 的定义 /// An opaque type that represents an Objective-C cla ...
- 源码解读—HashTable
在上一篇学习过HashMap(源码解读—HashMap)之后对hashTable也产生了兴趣,随即便把hashTable的源码看了一下.和hashMap类似,但是也有不同之处. public clas ...
- Js 设置class,兼容ie,火狐的方式
var trs = document.getElementsByTagName("tr"); trs[0].className="color2"; //设置c ...
- 27. Best Time to Buy and Sell Stock && Best Time to Buy and Sell Stock II && Best Time to Buy and Sell Stock III
Best Time to Buy and Sell Stock (onlineJudge: https://oj.leetcode.com/problems/best-time-to-buy-and- ...
- win32手动创建windows窗口的,小记
摘抄自文档,其中的函数需要以后花时间看 向 WinMain 添加功能 首先,在 WinMain 函数内部创建 WNDCLASSEX 类型的窗口类结构. 此结构包含有关窗口的信息,如应用程序图标.窗口的 ...
- 洛谷P3371 【模板】单源最短路径
P3371 [模板]单源最短路径 282通过 1.1K提交 题目提供者HansBug 标签 难度普及/提高- 提交 讨论 题解 最新讨论 不萌也是新,老司机求带 求看,spfa跑模板40分 为什么 ...