2.交通聚类 -层次聚类（agnes）Java实现

1.项目背景

在做交通路线分析的时候，客户需要找出车辆的行车规律，我们将车辆每天的行车路线当做一个数据样本，总共有365天或是更多，从这些数据中通过聚类来获得行车路线规律统计分析。

我首先想到是K-means算法，不过它的算法思想是任选K个中心点，然后不停的迭代，在迭代的过程中需要不停的更新中心点。在我们着这个项目中，此方案不能解决，因为我们是通过编辑距离来计算两条路线的相似度。可以参考（1.交通聚类：编辑距离（Levenshtein距离）Java实现）这篇文章了解一下编辑距离。当我们第一步选出k个中心点后，并且两两计算编辑距离，然后再重新选择中心点，这时问题出来了，我们得到了编辑距离的均值，是数字化的。如果在根据这个均值两两比较编辑距离就无法实现了。故此方案废弃。

2.层次聚类概述（Hierarchical Clustering）

基于层次的聚类方法（系统聚类方法）：对给定的数据集进行层次分解，直到某种条件满足为止。

1.凝聚的层次聚类：自底向上，首先将每个对象作为一个族开始，每一步合并两个最近的簇，直到满足簇的数目。如AGNES算法。每一项自成一类；迭代，将最近的两类合并为一类。

2.分裂的层次聚类：自顶向下，从包含所有对象的一个簇开始，每一步分裂一个簇，直到簇的数目。如DLANA算法。将所有项看做一类；找出最不相似的项分裂出去成为两类。

相信大家读完上边的陈述已经明白是怎么回事了。下边是代码，供以后用到的朋友学习研究。

3.代码：

package agenes; /**

 * Created by zzy on 15/11/15.

 */

import java.util.ArrayList;

import java.util.List;

public class Cluster {

    private List<DataPoint> dataPoints = new ArrayList<DataPoint>(); // 类簇中的样本点

    private String clusterName;

    public List<DataPoint> getDataPoints() {

        return dataPoints;

    }

    public void setDataPoints(List<DataPoint> dataPoints) {

        this.dataPoints = dataPoints;

    }

    public String getClusterName() {

        return clusterName;

    }

    public void setClusterName(String clusterName) {

        this.clusterName = clusterName;

    }

}

package agenes; /**

 * Created by zzy on 15/11/15.

 */

import java.util.ArrayList;

import java.util.List;

public class ClusterAnalysis {

    public List<Cluster> startAnalysis(List<DataPoint> dataPoints,int ClusterNum){

        List<Cluster> finalClusters=new ArrayList<Cluster>();

        List<Cluster> originalClusters=initialCluster(dataPoints);

        finalClusters=originalClusters;

        while(finalClusters.size()>ClusterNum){

            double min=Double.MAX_VALUE;

            int mergeIndexA=0;

            int mergeIndexB=0;

            for(int i=0;i<finalClusters.size();i++){

                for(int j=0;j<finalClusters.size();j++){

                    if(i!=j){

                        Cluster clusterA=finalClusters.get(i);

                        Cluster clusterB=finalClusters.get(j);

                        List<DataPoint> dataPointsA=clusterA.getDataPoints();

                        List<DataPoint> dataPointsB=clusterB.getDataPoints();

                        for(int m=0;m<dataPointsA.size();m++){

                            for(int n=0;n<dataPointsB.size();n++){

                                double tempDis=getDistance(dataPointsA.get(m),dataPointsB.get(n));

                                if(tempDis<min){

                                    min=tempDis;

                                    mergeIndexA=i;

                                    mergeIndexB=j;

                                }

                            }

                        }

                    }

                } //end for j

            }// end for i

            //合并cluster[mergeIndexA]和cluster[mergeIndexB]

            finalClusters=mergeCluster(finalClusters,mergeIndexA,mergeIndexB);

        }//end while

        return finalClusters;

    }

    private List<Cluster> mergeCluster(List<Cluster> clusters,int mergeIndexA,int mergeIndexB){

        if (mergeIndexA != mergeIndexB) {

            // 将cluster[mergeIndexB]中的DataPoint加入到 cluster[mergeIndexA]

            Cluster clusterA = clusters.get(mergeIndexA);

            Cluster clusterB = clusters.get(mergeIndexB);

            List<DataPoint> dpA = clusterA.getDataPoints();

            List<DataPoint> dpB = clusterB.getDataPoints();

            for (DataPoint dp : dpB) {

                DataPoint tempDp = new DataPoint();

//                tempDp.setDataPointName(dp.getDataPointName());

//                tempDp.setDimensioin(dp.getDimensioin());

//                tempDp.setCluster(clusterA);

                tempDp = dp;

                tempDp.setCluster(clusterA);

                dpA.add(tempDp);

            }

            clusterA.setDataPoints(dpA);

            // List<Cluster> clusters中移除cluster[mergeIndexB]

            clusters.remove(mergeIndexB);

        }

        return clusters;

    }

    // 初始化类簇

    private List<Cluster> initialCluster(List<DataPoint> dataPoints){

        List<Cluster> originalClusters=new ArrayList<Cluster>();

        for(int i=0;i<dataPoints.size();i++){

            DataPoint tempDataPoint=dataPoints.get(i);

            List<DataPoint> tempDataPoints=new ArrayList<DataPoint>();

            tempDataPoints.add(tempDataPoint);

            Cluster tempCluster=new Cluster();

            tempCluster.setClusterName("Cluster "+String.valueOf(i));

            tempCluster.setDataPoints(tempDataPoints);

            tempDataPoint.setCluster(tempCluster);

            originalClusters.add(tempCluster);

        }

        return originalClusters;

    }

    //计算两个样本点之间的欧几里得距离

    private double getDistance(DataPoint dpA, DataPoint dpB){

        double distance=0;

        double[] dimA = dpA.getDimensioin();

        double[] dimB = dpB.getDimensioin();

        if (dimA.length == dimB.length) {

            for (int i = 0; i < dimA.length; i++) {

                double temp=Math.pow((dimA[i]-dimB[i]),2);

                distance=distance+temp;

            }

            distance=Math.pow(distance, 0.5);

        }

        return distance;

    }

    public static void main(String[] args){

        ArrayList<DataPoint> dpoints = new ArrayList<DataPoint>();

        double[] a={2,3};

        double[] b={2,4};

        double[] c={1,4};

        double[] d={1,3};

        double[] e={2,2};

        double[] f={3,2};

        double[] g={8,7};

        double[] h={8,6};

        double[] i={7,7};

        double[] j={7,6};

        double[] k={8,5};

//       double[] l={100,2};//孤立点

        double[] m={8,20};

        double[] n={8,19};

        double[] o={7,18};

        double[] p={7,17};

        double[] q={8,20};

        dpoints.add(new DataPoint(a,"a"));

        dpoints.add(new DataPoint(b,"b"));

        dpoints.add(new DataPoint(c,"c"));

        dpoints.add(new DataPoint(d,"d"));

        dpoints.add(new DataPoint(e,"e"));

        dpoints.add(new DataPoint(f,"f"));

        dpoints.add(new DataPoint(g,"g"));

        dpoints.add(new DataPoint(h,"h"));

        dpoints.add(new DataPoint(i,"i"));

        dpoints.add(new DataPoint(j,"j"));

        dpoints.add(new DataPoint(k,"k"));

//        dataPoints.add(new DataPoint(l,"l"));

//        dpoints.add(new DataPoint(l,"l"));

        dpoints.add(new DataPoint(m,"m"));

        dpoints.add(new DataPoint(n,"n"));

        dpoints.add(new DataPoint(o,"o"));

        dpoints.add(new DataPoint(p,"p"));

        dpoints.add(new DataPoint(q,"q"));

        int clusterNum=3; //类簇数

        ClusterAnalysis ca=new ClusterAnalysis();

        List<Cluster> clusters=ca.startAnalysis(dpoints, clusterNum);

        for(Cluster cl:clusters){

            System.out.println("------"+cl.getClusterName()+"------");

            List<DataPoint> tempDps=cl.getDataPoints();

            for(DataPoint tempdp:tempDps){

                System.out.println(tempdp.getDataPointName());

            }

        }

    }

}

.csharpcode, .csharpcode pre
{
font-size: small;
color: black;
font-family: consolas, "Courier New", courier, monospace;
background-color: #ffffff;
/*white-space: pre;*/
}
.csharpcode pre { margin: 0em; }
.csharpcode .rem { color: #008000; }
.csharpcode .kwrd { color: #0000ff; }
.csharpcode .str { color: #006080; }
.csharpcode .op { color: #0000c0; }
.csharpcode .preproc { color: #cc6633; }
.csharpcode .asp { background-color: #ffff00; }
.csharpcode .html { color: #800000; }
.csharpcode .attr { color: #ff0000; }
.csharpcode .alt
{
background-color: #f4f4f4;
width: 100%;
margin: 0em;
}
.csharpcode .lnum { color: #606060; }

package agenes;

/**

 * Created by zzy on 15/11/15.

 */

public class DataPoint {

    String dataPointName; // 样本点名

    Cluster cluster; // 样本点所属类簇

    private double dimensioin[]; // 样本点的维度

    public DataPoint() {

    }

    public DataPoint(double[] dimensioin, String dataPointName) {

        this.dataPointName = dataPointName;

        this.dimensioin = dimensioin;

    }

    public double[] getDimensioin() {

        return dimensioin;

    }

    public void setDimensioin(double[] dimensioin) {

        this.dimensioin = dimensioin;

    }

    public Cluster getCluster() {

        return cluster;

    }

    public void setCluster(Cluster cluster) {

        this.cluster = cluster;

    }

    public String getDataPointName() {

        return dataPointName;

    }

    public void setDataPointName(String dataPointName) {

        this.dataPointName = dataPointName;

    }

}

源码github:https://github.com/chaoren399/dkdemo/tree/master/agenes/src/agenes

2.交通聚类 -层次聚类（agnes）Java实现的更多相关文章

【机器学习】聚类算法：层次聚类、K-means聚类
聚类算法实践(一)--层次聚类.K-means聚类摘要: 所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段.比如古典生物学之中,人们通 ...
32(1).层次聚类---AGNES
层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分,从而形成树形的聚类结构. 一. AGNES AGglomerative NESting:AGNES是一种常用的 ...
机器学习算法总结(五)——聚类算法（K-means，密度聚类，层次聚类）
本文介绍无监督学习算法,无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类,常见的无监督学习就是聚类算法. 在监督学习中我们常根据模型的误差来衡量模型的好坏,通过优化损失函数来改善 ...
挑子学习笔记：BIRCH层次聚类
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/6129425.html 本文是“挑子”在学习BIRCH算法过程中的笔记摘录,文中不乏一些个人理解,不当之处望 ...
聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类—Jason niu
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me ...
机器学习（六）K-means聚类、密度聚类、层次聚类、谱聚类
本文主要简述聚类算法族.聚类算法与前面文章的算法不同,它们属于非监督学习. 1.K-means聚类记k个簇中心,为$\mu_{1}$,$\mu_{2}$,...,$\mu_{k}$,每个 ...
Agens层次聚类
层次聚类是另一种主要的聚类方法,它具有一些十分必要的特性使得它成为广泛应用的聚类方法.它生成一系列嵌套的聚类树来完成聚类.单点聚类处在树的最底层,在树的顶层有一个根节点聚类.根节点聚类覆盖了全部的所有 ...
【层次聚类】python scipy实现
层次聚类原理有一个讲得很清楚的博客:博客地址主要用于:没有groundtruth,且不知道要分几类的情况用scipy模块实现聚类参考函数说明: pdist squareform linkag ...

随机推荐

Viewprot meta学习笔记
viewprot屏幕尺寸,专为移动页面设计参数 <meta name="viewport" content="height,width,initial-scale ...
POJ 2528 Mayor's posters（线段树/区间更新离散化）
题目链接: 传送门 Mayor's posters Time Limit: 1000MS Memory Limit: 65536K Description The citizens of By ...
JQuery 技巧积累与总结
1.获得select 元素选中的值 $('#WishlistSelect option:selected').val(); 2.设置按钮的disabled属性的实现代码 $('#button').at ...
Yocto开发笔记之《Makefile编写》（QQ交流群：519230208）
开了一个交流群,欢迎爱好者和开发者一起交流,转载请注明出处. QQ群:519230208,为避免广告骚扰,申请时请注明 “开发者” 字样＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ ...
【原】React中,map出来的元素添加事件无法使用
在使用react中,经常用到react的map函数,用法和jquery里中的map一样,但是,如果你在每个map出来的元素中添加,你会发觉添加的事件无法关联, 比如,我们很多的评论,我需要在每个评论下 ...
SQL Server编程（02）自定义函数
在编程过程中,我们通常把特定的功能语句块封装称函数,方便代码的重用.我们可以在SQL Server中自定义函数,根据函数返回值的区别,我们自定义的函数分两种:标量值函数和表值函数. 自定义函数的优点: ...
Git创建ssh-key
打开git bash界面,输入: ssh-keygen -t rsa -C "yourname@email.com" 一路回车,后续保持默认值即可. 把C:\users\yourn ...
WinForm------GridControl显示每行的Indicator中的行号
1.修改Indicator的行宽 2.添加CustomDrawRowIndicator事件 private void AdminCardView_CustomDrawRowIndicator(obje ...
Memcached深度分析
Memcached是danga.com(运营LiveJournal的技术团队)开发的一套分布式内存对象缓存系统,用于在动态系统中减少数据库负载,提升性能.关于这个东西,相信很多人都用过,本文意在通过对 ...
mysql查询区分大小写
Mysql默认查询是不分大小写的,可以在SQL语句中加入 binary来区分大小写: BINARY不是函数,是类型转换运算符,它用来强制它后面的字符串为一个二进制字符串,可以理解为在字符串比较的时候区 ...

2.交通聚类 -层次聚类（agnes）Java实现

2.交通聚类 -层次聚类（agnes）Java实现的更多相关文章

随机推荐

热门专题