论文地址 论文视频

左侧边栏可以导入数据,或者打开以及前保存的结果。右侧显示了所有的日志,可以轻松回到之前的状态,视图的主区域上半部分是数据,下半部分是聚类视图。

INTRODUCTION

数据聚类对于处理无标签数据,高维数据是非常有效的工具。聚类算法中如何确定最好的聚类方法和参数比较困难,需要可视化系统的帮助。Clustrophile 2,这是一种用于引导聚类分析的新型交互式工具,引导用户进行基于聚类的探索性分析,调整用户反馈以改进聚类效果,并帮助快速推理群集之间的差异。为此,Clustrophile 2提供了一个新颖的功能,clustering tour,帮助用户选择聚类参数,并评估与当前分析目标和用户期望的差距。我们通过12位数据科学家的user study评估这个系统。结果表明,Clustrophile 2提高了专家和非专家的探索性聚类分析的速度和有效性。

DESIGN CRITERIA

Clustrophile 2总结了9个设计标准:

Show variation within clusters(快速显示聚类效果),Allow quick iteration over parameters (实时更新参数),Represent clustering instances compactly(多视图显示),Facilitate interpretable naming(数据簇重命名和分离),Support analysis of large datasets(大型数据支持),Support reasoning about clusters and clustering instances(支持对于聚类结果的推断和评估),Promote multiscale exploration(多尺度探索聚类),Keep a stateful representation of the current analysis(保存当前探索状态),Guide users in clustering analysis(指导用户聚类分析)。

论文中作者这样描述本文的贡献:

  • 在Clustrophile系统的基础上,增加丰富的聚类算法,参数,评估指标以及可视化工具。

  • 开发出引导用户进行聚类分析的一体化程序,Clustering Tour。

  • 定义了更合理的聚类质量衡量指标,考虑了用户反馈,可解释性等方面

USER INTERFACE AND INTERACTIONS

可视化系统的主视图包括,聚类视图,调参推荐界面,聚类之旅(clusting tour) 三个部分

Visualization Views

在聚类视图中,散点图显示了数据降维后投影在2D平面上的数据聚类结果,其中距离编码数据点之间的相似性,而右侧的热力图中每列代表一个聚类,而行代表了不同的特征,颜色深浅代表了数据的相对大小。

除此之外,我们还可以通过观察数据表的界面对于数据进行观察和筛选

Choosing Parameters and Guiding Users Towards a Better Clustering

Clustrophile 2在调参与算法推荐的功能详尽,并提供了完备的聚类效果衡量标准:

  • Clustrophile2支持自动调参,删除具有低方差的特征,支持自定义采样。

  • 根据数据特征推荐合适的聚类算法,根据分层聚类的树形图推荐合适的集群数量。

  • 将不同的投影方式进行比较,推荐能将聚类紧凑性和分离性尽量满足的投影(降维)算法。
  • 从偏斜分布程度,子簇密度,算法对噪声的鲁棒性,cost function的单调性等方面定量的衡量聚类结果
  • 通过将聚类结果放入决策树进行训练,这样可以推断不同集群中的数据点的主要特征
  • 支持分析聚类分布中的异常点,删除它们后重新聚类

Clustering Tour

通过迭代地改变所有聚类参数,用户可以动态地探索可能的聚类解决方案的空间,直到找到满意的解决方案或数据集。但是,即使在参数选择的指导下,可能的参数组合和聚类解决方案的空间太大,无法完全手动探索。某些参数选择在很大程度上影响聚类结果,而其他参数对结果的影响最小。考虑到这一概念,我们引入了聚类游览功能,以帮助用户快速探索可能的聚类结果空间。下面的界面包含(a)先前探索的解决方案列表,(b,c)散点图和热图可视化当前的方案,(e)用户提供反馈的一组按钮,喜欢还是拒绝,(d)用户可以约束参数更新方式的模态选择。

整个类似模拟退火的过程。系统首先会按照每种聚类的相似性,找出差距较大的几种聚类结果。用户依次浏览这些解决方案,如果喜欢这个方案,系统会在这个方案基础上进行轻微的参数改动,相当于进入了一个叶子节点。如果不满意就会退回到父亲。直到探索时间和方案数等达到一个阖值为止。

USER STUDY

  • 实验对象,12位数据科学从业者

  • 实验目标::1)了解数据科学家如何根据数据领域的先验知识进行交互 2)如何在开放式分析任务中找到了令人满意的解决方案

  • 实验数据:患有帕金森病的受试者数据集,该数据集具有8652行和37个特征
  • 实验任务:识别代表帕金森病的不同类型。我们要求参与者确定他们满意的一个聚类实例,为每个聚类分配名称和描述,最后口头解释他们获得这个结果的重要性。
  • 我们将候选人分为三类:黑客,脚本编写者和应用程序用户。每种4人,并且每个人中有2个人了解医学知识。

从实验结果,我们证明Clustrophile 2证明不同类型的数据分析师。十二个用户中的三个(其中两个属于应用程序用户原型)倾向于使用ClusterCour来进行分析。最后,分析继续对聚类参数和所选特征进行迭代和循环修改,直到参与者意识到他们只能找到聚类基于受影响的一方或疾病严重程度的结果。这些聚类很容易从热图可视化中解释,热图可视化显然可以提供非常有效的信息。

CONCLUSION

  • 调参和算法选择是非常重要的

  • Clustering Tour 提高了用户自主性和创造力

  • 用户对结果的反馈加快了探索过程

  • 管理,缓存数据和过程方便了用户的探索

此外还有一些可以改进的点

  • 增加可解释性的聚类研究

  • 增加更多预计算与推荐功能

  • 增加对于任意聚类算法接口的支持,增加代码接口,让用户可以在框架进行拓展

论文阅读 | Clustrophile 2: Guided Visual Clustering Analysis的更多相关文章

  1. 论文阅读:Review of Visual Saliency Detection with Comprehensive Information

    这篇文章目前发表在arxiv,日期:20180309. 这是一篇针对多种综合性信息的视觉显著性检测的综述文章. 注:有些名词直接贴原文,是因为不翻译更容易理解.也不会逐字逐句都翻译,重要的肯定不会错过 ...

  2. 【论文阅读】Deep Adversarial Subspace Clustering

    导读: 本文为CVPR2018论文<Deep Adversarial Subspace Clustering>的阅读总结.目的是做聚类,方法是DASC=DSC(Deep Subspace ...

  3. 【CV论文阅读】Unsupervised deep embedding for clustering analysis

    Unsupervised deep embedding for clustering analysis 偶然发现这篇发在ICML2016的论文,它主要的关注点在于unsupervised deep e ...

  4. [论文阅读笔记] GEMSEC,Graph Embedding with Self Clustering

    [论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 已经有一些工作在使用学习 ...

  5. 论文阅读 | Region Proposal by Guided Anchoring

    论文阅读 | Region Proposal by Guided Anchoring 相关链接 论文地址:https://arxiv.org/abs/1901.03278 概述 众所周知,anchor ...

  6. 【医学图像】3D Deep Leaky Noisy-or Network 论文阅读(转)

    文章来源:https://blog.csdn.net/u013058162/article/details/80470426 3D Deep Leaky Noisy-or Network 论文阅读 原 ...

  7. 论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》

     论文阅读:Face Recognition: From Traditional to Deep Learning Methods  <人脸识别综述:从传统方法到深度学习>     一.引 ...

  8. Nature/Science 论文阅读笔记

    Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...

  9. BERT 论文阅读笔记

    BERT 论文阅读 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 由 @快刀切草莓君 ...

随机推荐

  1. PHP学习第一天

    PHP语句是以分号结尾的 单行注释:   //  C++风格的单行注释 #  shell 风格的单行注释  跟python差不多 多行注释: /*......*/  c++风格的多行注释 常量定义: ...

  2. [CQOI2009]叶子的染色

    传送门:https://www.luogu.org/problemnew/show/P3155 一道挺水的树形dp题,然后我因为一个挺智障的问题debug了一晚上…… 嗯……首先想,如果一个点的颜色和 ...

  3. PHP+Hadoop+Hive+Thrift+Mysql实现数据统计分析

    原址:http://www.cnblogs.com/wicub/p/6094045.html   安装 Hadoop安装: http://www.powerxing.com/install-hadoo ...

  4. Odoo附件传输

    转载请注明原文地址:https://www.cnblogs.com/cnodoo/p/9307319.html  一:odoo后端上传附件 odoo中的ir.attachment模型是附件模型,可以用 ...

  5. Kafka--基础知识

  6. Redux入门学习

    一.Redux三大原则 1. 单一数据源 应用中所有的state都以一个对象树的形式储存在一个单一的store中. 2. state只读 唯一改变state的办法是触发action.action是一个 ...

  7. 爬虫header和cookie

    def on_start(self): self.crawl('http://bbs.byr.cn/board/Python', headers={'X-Requested-With': 'XMLHt ...

  8. Qt Creator无法debug,报错:The selected debugger may be inappropriate for the inferior. Examining symbols and setting breakpoints by file name and line number may fail. The inferior is in the Portable ...

    看到这个报错我是绝望的 解决:下载windows sdk  win10 sdk 只安装Debugging Tools for Windows 打开 工具-选项-Kits 安装sdk成功后我们可以看到 ...

  9. selenium自动化环境搭建(Windows)

    参考内容:虫师<selenium2自动化测试实战-基于python语言> 一.selenium介绍 selenium主要用于web应用程序的自动化测试,还支持所有基于web的管理任务自动化 ...

  10. HDU 2647 Reward(拓扑排序,vector实现邻接表)

    Reward Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Subm ...