Facets:一款Google开源机器学习数据集可视化工具
Homepage/演示网站:https://pair-code.github.io/facets/
Pypi:https://pypi.org/project/facets-overview/
Github:https://github.com/PAIR-code/facets
1. 什么是Facets?
Better data leads to better models.
机器学习的强大之处在于从大量数据中学习到其中的模式。构建一个机器学习系统时,理解你的数据是关键的一步。
Facets包含两种强大的可视化功能,用来帮助理解和分析机器学习数据集。
Facets Overview可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如按照特征对比训练集和测试集。这个功能可以揭露多种问题,例如预期之外的特征值,高比例的缺失值,训练集和实际数据集的偏差,训练集/测试集/验证集的偏差等。
Facets Dive提供了一个易于定制的交互式界面,用于探索单个大规模数据集中不同特征数据点之间的关系。通过Facets Dive,你可以调整位置、颜色和视觉效果,每条数据在工具中被表示为一个数据点,还可以通过其特征值在多个维度上通过 faceting/bucketing 来定位数据。通过Facets Dive可以轻松地在复杂数据集中检测分类异常,识别系统性错误,或者发现潜在的有效特征。
简单来说,Facets Overview是根据特征对比多个数据集的,Facets Dive是根据特征分析单个数据集的。
2. 使用 & 安装
2.1 Web 应用
https://pair-code.github.io/facets/
该网站允许任何人直接在浏览器中可视化他们自己的数据集,而无需安装或设置任何软件,并且你的数据不会被上传。
2.2 在Jupyter Notebooks/Colaboratory 中
FACETS 也可以在 Jupyter Notebook 或 Colaboratoty 中使用,这可以更灵活的在同一个 notebook 中完成整个EDA和建模。有关安装的完整细节,请参阅官方 Github 仓库 。
在Colab中使用Facets示例
https://colab.research.google.com/github/PAIR-code/facets/blob/master/colab_facets.ipynb
在Jupter Notebooks中使用Facets示例
https://github.com/PAIR-code/facets/blob/master/facets_dive/Dive_demo.ipynb
数据格式就是csv,第一行是标题,在使用过程中先用pandas读取,再转换成protobuf,详情参考上边链接中的示例。
有人会说我们可以轻松地用 Pandas 来完成这些任务,为什幺要投入到另一个工具呢?没错,当我们只有少量的特征很少的数据点时,可能不需要这样做。然而,情况在我们面对大型数据集时会有所不同,很难用 Pandas 分析多列中的每一个数据点。
Refference
- Homepage&Demo
- https://pypi.org/project/facets-overview/
- https://github.com/PAIR-code/facets
- Visualize your data with Facets
- 使用谷歌 FACETS 可视化机器学习数据集
- Google 开源机器学习数据集可视化工具 Facets
- Peter Norvig : The Unreasonable Effectiveness of Data
- Facets: An Open Source Visualization Tool for Machine Learning Training Data
Facets:一款Google开源机器学习数据集可视化工具的更多相关文章
- [转] Google 开源 iOS 应用测试工具:EarlGrey
Google 开源 iOS 应用测试工具:EarlGrey oschina 发布于: 2016年02月18日 (3评) 分享到: 收藏 +53 3月19日,深圳源创会火热报名中,go>&g ...
- 漫谈可视化Prefuse(五)---一款属于我自己的可视化工具
伴随着前期的基础积累,翻过API,读过一些Demo,总觉得自己已经摸透了Prefuse,小打小闹似乎已经无法满足内心膨胀的自己.还记得儿时看的<武状元苏乞儿>中降龙十八掌最后一张居然是空白 ...
- Orange——开源机器学习交互式数据分析工具
Orange为新手和专家提供开源机器学习和数据可视化.使用大型工具箱交互式数据分析工作流程. 交互式数据可视化 Orange的全部内容都是关于数据可视化,帮助发现隐藏的数据模式,提供数据分析过程背后的 ...
- 推荐一款阿里开源的 Java 诊断工具,好用到爆!
Arthas是什么鬼? Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题. Arthas诊断使用的是命令行交互模式,支持JDK6+,Linux. ...
- 一款阿里开源的 Java 诊断工具
Arthas是什么鬼? Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题. Arthas诊断使用的是命令行交互模式,支持JDK6+,Linux. ...
- 款阿里开源的 Java 诊断工具Arthas
Arthas是什么鬼? Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题. Arthas诊断使用的是命令行交互模式,支持JDK6+,Linux. ...
- 利用Google开源Java容器化工具Jib构建镜像
转载:https://blog.csdn.net/u012562943/article/details/80995373 一.前言 容器的出现让Java开发人员比以往任何时候都更接近“编写一次,到处运 ...
- 可能这是Redis可视化工具最全的横向评测
1 命令行 不知道大家在日常操作redis时用什么可视化工具呢? 以前总觉得没有什么太好的可视化工具,于是问了一个业内朋友.对方回:你还用可视化工具?直接命令行呀,redis提供了这么多命令,操作起来 ...
- 可视化工具solo show-----Processing Prefuse show
继上篇<可视化工具solo show>罗列出一些主要基于Java开发的软件.插件之后,又仔细揣摩了下哪些可以为我所用. 一番端详之后,准备挑出其中Processing和Prefuse两位大 ...
随机推荐
- 【RAC】 RAC For W2K8R2 安装--总体规划 (一)
[RAC] RAC For W2K8R2 安装--总体规划 (一) 一.1 BLOG文档结构图 一.2 前言部分 一.2.1 导读 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一 ...
- selenium三个等待方法
为什么需要等待时间:页面加载需要时间,如果页面没有加载完成,直接去定位,可能定位不到元素 1.强制等待: import time time.sleep(2) 不管有没有完成加载,必须等待2秒 2.隐式 ...
- jquery 属性筛选选择器
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-type" content ...
- SQL进阶系列之11让SQL飞起来
写在前面 SQL的性能优化是数据库使用者必须面对的重要问题,本节侧重SQL写法上的优化,SQL的性能同时还受到具体数据库的功能特点影响,这些不在本节讨论范围之内 使用高效的查询 参数是子查询时,使用E ...
- springboot 2.x整合redis,spring aop实现接口缓存
pox.xml: <dependency> <groupId>org.springframework.boot</groupId> <artifactId&g ...
- linux下安装cryptography兼论查找合适pip的whl文件技巧
cryptography这个包,如果源码安装,需要GCC之类的编译,在生产环境不太现实. 所以选择了whl文件安装. 但在官方提供的whl文件里,没有我们熟悉的cp36-cp36m这样的命名文件,肿么 ...
- 微信小程序~页面注册page
一 什么是page() page(),是一个函数,用来注册一个页面, 接受一个object参数, 指定页面的初始数据,生命周期函数,事件处理函数 等等 object参数说明: (1)data (obj ...
- gson之将对象转化成json字符串的方法
public class GsonUtil { /** * 将object对象转成json格式字符串 */ public static String toJson(Object object) { G ...
- 修改cloud image密码
安装libguestfs-tools yum -y install libguestfs-tools.noarch 设置固定密码 virt-customize -a CentOS-7-x86_64-G ...
- linux下载安装常用的配置,jdk,mysql,tomcat,redis
1.特别强调,本教程适合于VMware Workstation创建的虚拟机linux配置. 2.ssh---linux连接的工具 https://pan.baidu.com/s/1MGIr5WOkkH ...