Homepage/演示网站:https://pair-code.github.io/facets/
Pypi:https://pypi.org/project/facets-overview/
Github:https://github.com/PAIR-code/facets

1. 什么是Facets?

Better data leads to better models.

机器学习的强大之处在于从大量数据中学习到其中的模式。构建一个机器学习系统时,理解你的数据是关键的一步。

Facets包含两种强大的可视化功能,用来帮助理解和分析机器学习数据集。

Facets Overview可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如按照特征对比训练集和测试集。这个功能可以揭露多种问题,例如预期之外的特征值,高比例的缺失值,训练集和实际数据集的偏差,训练集/测试集/验证集的偏差等。

Facets Dive提供了一个易于定制的交互式界面,用于探索单个大规模数据集中不同特征数据点之间的关系。通过Facets Dive,你可以调整位置、颜色和视觉效果,每条数据在工具中被表示为一个数据点,还可以通过其特征值在多个维度上通过 faceting/bucketing 来定位数据。通过Facets Dive可以轻松地在复杂数据集中检测分类异常,识别系统性错误,或者发现潜在的有效特征。

简单来说,Facets Overview是根据特征对比多个数据集的,Facets Dive是根据特征分析单个数据集的。

2. 使用 & 安装

2.1 Web 应用

https://pair-code.github.io/facets/

该网站允许任何人直接在浏览器中可视化他们自己的数据集,而无需安装或设置任何软件,并且你的数据不会被上传。

2.2 在Jupyter Notebooks/Colaboratory 中

FACETS 也可以在 Jupyter Notebook 或 Colaboratoty 中使用,这可以更灵活的在同一个 notebook 中完成整个EDA和建模。有关安装的完整细节,请参阅官方 Github 仓库 。

在Colab中使用Facets示例

https://colab.research.google.com/github/PAIR-code/facets/blob/master/colab_facets.ipynb

在Jupter Notebooks中使用Facets示例

https://github.com/PAIR-code/facets/blob/master/facets_dive/Dive_demo.ipynb

数据格式就是csv,第一行是标题,在使用过程中先用pandas读取,再转换成protobuf,详情参考上边链接中的示例。

有人会说我们可以轻松地用 Pandas 来完成这些任务,为什幺要投入到另一个工具呢?没错,当我们只有少量的特征很少的数据点时,可能不需要这样做。然而,情况在我们面对大型数据集时会有所不同,很难用 Pandas 分析多列中的每一个数据点。

Refference

Facets:一款Google开源机器学习数据集可视化工具的更多相关文章

  1. [转] Google 开源 iOS 应用测试工具:EarlGrey

    Google 开源 iOS 应用测试工具:EarlGrey oschina 发布于: 2016年02月18日 (3评) 分享到:    收藏 +53 3月19日,深圳源创会火热报名中,go>&g ...

  2. 漫谈可视化Prefuse(五)---一款属于我自己的可视化工具

    伴随着前期的基础积累,翻过API,读过一些Demo,总觉得自己已经摸透了Prefuse,小打小闹似乎已经无法满足内心膨胀的自己.还记得儿时看的<武状元苏乞儿>中降龙十八掌最后一张居然是空白 ...

  3. Orange——开源机器学习交互式数据分析工具

    Orange为新手和专家提供开源机器学习和数据可视化.使用大型工具箱交互式数据分析工作流程. 交互式数据可视化 Orange的全部内容都是关于数据可视化,帮助发现隐藏的数据模式,提供数据分析过程背后的 ...

  4. 推荐一款阿里开源的 Java 诊断工具,好用到爆!

    Arthas是什么鬼? Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题. Arthas诊断使用的是命令行交互模式,支持JDK6+,Linux. ...

  5. 一款阿里开源的 Java 诊断工具

    Arthas是什么鬼? Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题. Arthas诊断使用的是命令行交互模式,支持JDK6+,Linux. ...

  6. 款阿里开源的 Java 诊断工具Arthas

    Arthas是什么鬼? Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题. Arthas诊断使用的是命令行交互模式,支持JDK6+,Linux. ...

  7. 利用Google开源Java容器化工具Jib构建镜像

    转载:https://blog.csdn.net/u012562943/article/details/80995373 一.前言 容器的出现让Java开发人员比以往任何时候都更接近“编写一次,到处运 ...

  8. 可能这是Redis可视化工具最全的横向评测

    1 命令行 不知道大家在日常操作redis时用什么可视化工具呢? 以前总觉得没有什么太好的可视化工具,于是问了一个业内朋友.对方回:你还用可视化工具?直接命令行呀,redis提供了这么多命令,操作起来 ...

  9. 可视化工具solo show-----Processing Prefuse show

    继上篇<可视化工具solo show>罗列出一些主要基于Java开发的软件.插件之后,又仔细揣摩了下哪些可以为我所用. 一番端详之后,准备挑出其中Processing和Prefuse两位大 ...

随机推荐

  1. Postgresql日志配置

    将PostgreSQL数据库安装后,需要进行一些关于数据库日志的配置,将postgresql.conf文件中,关于日志的配置选项详解,记录如下: 1.logging_collector = on/of ...

  2. linux系统中如何查看最后一封mail

    1. mail命令查看邮件列表 2.file 命令查看一共多少封邮件 3.直接键入278 查看最后一封邮件内容 4. 输入q 从邮件阅读模式退出

  3. 【Beta】Scrum meeting3

    第三天:2019/6/26 前言: 第3次会议于6月26日在教9-501召开. 对每个人负责撰写的文档进行分配,并讨论其中模糊的问题,时长30min. 本日任务完成情况 成员 今日完成任务情况 成员贡 ...

  4. python_常用断言assert

    python自动化测试中寻找元素并进行操作,如果在元素好找的情况下,相信大家都可以较熟练地编写用例脚本了,但光进行操作可能还不够,有时候也需要对预期结果进行判断. 常用 这里介绍几个常用断言的使用方法 ...

  5. Python开发笔记之-浮点数传输

    操作系统 : CentOS7.3.1611_x64 gcc版本 :4.8.5 Python 版本 : 2.7.5 思路如下 : 1.将浮点数a通过内存拷贝,赋值给相同字节的整型数据b: 2.将b转换为 ...

  6. CSP-J2019游记&解题报告

    考前一天晚上失眠.......(其实主要不是因为考试的原因) 很幸运,我们学校就是一个考点,本场作战,应该有一点加持吧. 上午在家复习,看到一篇关于PN532模拟小米手环加密卡的文章,于是,,,,,, ...

  7. 关于异常System.ArgumentException

    什么是System.ArgumentException 当向方法提供的参数之一无效时引发的异常. 继承 Object Exception SystemException ArgumentExcepti ...

  8. sphinx doc 文档生成脚手架工具

    sphinx 在python 语言开发中,是一个使用的比较多文档生成脚手架工具,我们帮助我们生成 专业的帮助文档,同时也有远端的免费saas 托管服务,方便分发 安装 sphinx 的安装好多方便,m ...

  9. zeptojs库

    一.简介 ①Zepto是一个轻量级的针对现代高级浏览器的JavaScript库, 它与jquery有着类似的api. ②Zepto的设计目的是提供 jQuery 的类似的API,但并不是100%覆盖 ...

  10. Mongo 安装及基本操作

    一. 安装 Mongo文档: https://docs.mongodb.com/v3.6/administration/install-enterprise-linux/ Linux mongo的配置 ...