Orange——开源机器学习交互式数据分析工具
Orange为新手和专家提供开源机器学习和数据可视化。使用大型工具箱交互式数据分析工作流程。
交互式数据可视化
Orange的全部内容都是关于数据可视化,帮助发现隐藏的数据模式,提供数据分析过程背后的直觉或支持数据科学家与领域专家之间的交流。可视化窗口小部件包括散点图,箱形图和直方图,以及特定于模型的可视化,例如树状图,轮廓图和树可视化,仅举几例。许多其他可视化功能可用于附加组件,包括网络,词云,地理地图等的可视化。
我们注意使橙色可视化交互:您可以从散点图,树中的节点,树状图中的分支中选择数据点。任何这样的交互都会指示可视化来发出与所选部分可视化对应的数据子集。考虑下面的散点图和分类树的组合。散点图显示所有数据,但突出显示与分类树中选定节点对应的数据子集。
丰富的可视化
橙色包括许多标准的可视化。散点图非常适合可视化一对属性之间的相关性,用于显示基本统计数据的框图,用于提供整个数据集概述的热图,以及用于绘制多维数据的MDS等投影图。
除了数据挖掘套件中的可视化之外,Orange还包含一些其他软件包中可能没有的额外功能。其中包括用于分析聚类结果的轮廓图的小部件,用于发现特征交互的马赛克和Sieve图以及用于分类树和森林的毕达哥拉斯树可视化。
探索性数据分析
交互式可视化支持探索性数据分析。可以直接从图表,图表和数据表中选择有趣的数据子集,并将它们挖掘到下游的小部件中。例如,从层次聚类树状图中选择一个聚类并将其映射到MDS图中的二维数据表示。或者检查数据表中的值。或者观察其特征值在箱形图中的传播。一次打开所有这些窗口,看看选择中的更改如何影响其他小部件。或者,又例如,在数据集上交叉验证逻辑回归并将一些错误分类映射到二维投影。将Orange变成一种工具很容易,即使领域专家缺乏对基础统计数据或机器学习的见解,领域专家也可以探索他们的数据。
智能可视化
有时候有太多的选择。比如说,当数据具有许多特征时,我们应该在散点图中将哪些特征对形象化以提供大多数信息?智能可视化来拯救!在Orange的散点图中,这称为分数图。当提供课程信息时,Score Plots会找到具有最佳课程分类的投影。考虑棕色选择的数据集(带有橙色)及其79个功能。有3,081(79 * 78/2)个不同的特征对,手动检查它们的方式太多,但只有少数特征组合会产生很好的散点图。分数图找到他们全部,并允许我们浏览它们。
报告
最后,我们只需单击一下即可将关于模型的最重要的可视化,统计数据和信息纳入报告。Orange包含巧妙的报告,您可以直接从报告中访问每个窗口小部件和可视化的工作流历史记录。
可视化编程
对于初学者以及专家型数据科学家来说,Orange是一款出色的数据挖掘工具。由于其用户界面,用户可以专注于数据分析而不是费力的编码,从而简化复杂数据分析流水线的构建。
基于组件的数据挖掘
在Orange中,数据分析是通过将组件堆叠到工作流中完成的。每个组件(称为小部件)都嵌入了一些数据检索,预处理,可视化,建模或评估任务。在工作流中组合不同的小部件可以让您随时构建全面的数据分析模式。有了一个大型的小部件库,你不会被选中。其他小部件可通过附加组件获得,并允许进行更专注和面向主题的研究。
交互式数据探索
橙色的小部件相互沟通。他们接收有关输入的数据并发送过滤或处理的数据,模型或小部件在输出中执行的任何操作。比方说,从一个File小部件开始,它读取数据并将其输出连接到另一个小部件,例如数据表,并且您有一个正常工作的工作流程。改变一个小部件的任何变化,这些变化即时通过下游工作流传播。更改File小部件中的数据文件将触发所有下游小部件中的响应。如果这些小部件是开放的,并且您可以立即看到该数据中的任何更改的结果,交互式可视化中的方法或选择的参数,那么这非常有趣。例如,在下面的简单工作流程中,在电子表格中选择数据传播到散点图时,
通过选择合适的小部件及其连接,很容易为各种数据分析任务构建复杂的工作流程。
智能的工作流设计界面
即使是完全新手,橙色也很容易使用。从File小部件开始,Orange将自动建议可以连接到它的下一个小部件。例如,Orange知道在设置Distances小部件后,您可能需要Hierarchical Clustering。小部件中的所有其他默认设置也可以进行简单分析,即使不了解统计信息,机器学习或探索性数据挖掘的大量情况。
界面概览
在“文件”小部件中加载和编辑您的数据。
分类器的交叉验证和评分。
在散点图中的数据选择在箱形图中可视化。
交互式梯度下降。
数据可以包含对图像的引用。
绘制一个二维数据集。
操作特征(ROC)分析。
预测文本类别。
用分类树进行探索性分析。
在机器学习的过程中,少不了需要准备几个称手的工具,以辅助分析时用,开源且这么易用的工具不常见,推荐给大家。
官方网站:https://orange.biolab.si/
开源地址:https://github.com/biolab/orange
Orange——开源机器学习交互式数据分析工具的更多相关文章
- Facets:一款Google开源机器学习数据集可视化工具
Homepage/演示网站:https://pair-code.github.io/facets/ Pypi:https://pypi.org/project/facets-overview/ Git ...
- 蚂蚁金服开源机器学习工具SQLFlow,机器学习比SQL还简单
来自:开源最前线(ID:OpenSourceTop) 综合自:AI前线.https://github.com/sql-machine-learning/sqlflow 5月6日,蚂蚁金服副 CTO 胡 ...
- 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架
20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...
- 28款GitHub最流行的开源机器学习项目
现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘.计算机视觉.自然语言处理.生物特征识别.搜索引擎.医学诊断.DNA序列测序.语音和手写识别.战略游戏和 ...
- 从零开始学数据分析,什么程度可以找到工作?( 内附20G、5000分钟数据分析工具教程大合集 )
从零开始学数据分析,什么程度可以找到工作?( 内附20G.5000分钟数据分析工具教程大合集 ) 我现在在Coursera上面学data science 中的R programming,过去很少接 ...
- App运营者必须知道的30款数据分析工具
如今的移动应用早已不再是某种结构单一.功能简单的工具了.当我们的移动应用变得越来越庞杂,我们便会需要借用分析工具,来跟踪和分析App内的每一个部分.幸运的是,目前市面上有许多数据分析工具可供App开发 ...
- 备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具
SPSS.RapidMiner.KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势.它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理.笔者从自己 ...
- python数据分析工具安装集合
用python做数据分析离不开几个好的轮子(或称为科学棧/第三方包等),比如matplotlib,numpy, scipy, pandas, scikit-learn, gensim等,这些包的功能强 ...
- Python数据分析工具:Pandas之Series
Python数据分析工具:Pandas之Series Pandas概述Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建.Pandas纳入大量库和标准数据模型,提供高效的操作数 ...
随机推荐
- nodejs 箭头函数
背景 箭头函数,出现于ES6规范中. 使用 就是lambda函数. 一般使用: (a, b) => { return a + b; } 简略模式: 当参数只有一个时,可以省略括号:当返回值只有一 ...
- Spring Boot+Quartz实现一个实时管理的定时任务
转载 https://www.cnblogs.com/wujiwen/p/9615120.html 项目实践过程中碰到一个动态管理定时任务的需求:针对每个人员进行信息的定时更新,具体更新时间可随时调整 ...
- stark组件开发之分页
""" 分页组件 """ class Pagination(object): def __init__(self, current_page ...
- 阮一峰大神的快排?刚才还在纠结sort()的我!真是个小傻瓜
看到这个标题之后 我毫不犹豫的点进去了 趁现在不忙我赶紧把代码写到了我的小本本上好好研究研究 (写的就不放进来了 有点丑) 研究了下 第一反应 明明能用sort()解决的 为什么非要写这么一大串 但 ...
- dbus 消息和消息总线实例讲解-一
应用程序A和消息总线连接,这个连接获取了一个众所周知的公共名(记作连接A).应用程序A中有对象A1提供了接口I1,接口I1有方法M1. 应用程序B和消息总线连接,要求调用连接A上对象A1的接口I1的方 ...
- Sort Array By Parity II LT922
Given an array A of non-negative integers, half of the integers in A are odd, and half of the intege ...
- delphi三层结构常出现的问题和解决方案
以下问题出现原因有可能多个,暂时将我遇见的记录下来,以后有新的在陆续更新上去,有网友愿意的话也可以共同测试一下. 一,无法更新定位行.一些值可能已在最后一次读取已更改. 错误出现前提: 1, 录数据时 ...
- activeMq-2 高可用以及集群搭建
Activemq 的集群方法可以有多种实现方式,我们这里使用zookeeper来实现 要搭建集群,请确保已经搭建好zookeeper环境.这里不再演示. 基本原理: 使用ZooKeeper(集群)注册 ...
- 73.解决Xcode10 library not found for -lstdc++ 找不到问题
Xcode10 彻底废除了libstdc++,相关文件libstdc++.6.0.9.dylib.libstdc++.6.dylib.libstdc++.dylib.libstdc++.6.0.9.t ...
- MFC的停靠窗口中插入对话框,在对话框中添加控件并做控件自适应
单文档程序添加了停靠窗口后,可能会在停靠窗口中添加一些控件.在这里我的做法是在对话框上添加控件并布局,然后将这个对话框插入到停靠窗口中. 步骤 1.插入对话框,在对话框中放入控件(我的为树形控件),并 ...