介绍 

KNIME Analytics Platform是用于创建数据科学应用程序和服务的开源软件。KNIME直观,开放,不断整合新的开发,使人们可以理解数据,设计数据科学工作流程和可重用组件。

借助KNIME Analytics Platform,您可以使用直观的拖放式图形界面创建可视化工作流程,而无需编码。

在本快速入门指南中,我们将引导您完成KNIME Workbench,并向您展示如何构建您的第一个工作流程。

、启动KNIME Analytics Platform 

如果您尚未安装KNIME Analytics Platform,则可以在此https://www.knime.com/downloads 下载。

启动KNIME Analytics Platform,当KNIME Analytics Platform Launcher窗口出现时,在此处定义KNIME工作区,如图1所示。

图1. KNIME Analytics Platform Launcher

KNIME工作区是本地计算机上的一个文件夹,用于存储KNIME工作流,节点设置和工作流生成的数据。存储在工作区中的工作流程和数据可通过KNIME Workbench左上角的KNIME Explorer获得。

选择文件夹作为项目的KNIME工作区后,单击“ 启动”。在使用时,KNIME Analytics Platform用户界面 - KNIME Workbench - 看起来就像图2中所示的屏幕截图。

图2. KNIME Workbench

KNIME Workbench由以下组件组成:

l KNIME Explorer:活动KNIME工作区中可用工作流和工作流组的概述,即本地工作区和KNIME服务器。

l Workflow Coach(工作流指导):根据广泛的KNIME用户社区构建的工作流程列出节点建议。如果您不允许KNIME收集您的使用情况统计信息,则它处于非活动状态。

l Node Repository(节点存储库):此处列出了核心KNIME Analytics Platform和您已安装的扩展中可用的所有节点。节点按类别组织,但您也可以使用Node Repository顶部的搜索框来查找节点。

l Workflow Editor(工作流编辑):用于编辑当前活动的工作流。

l Description(描述):当前活动工作流或所选节点的描述(在Workflow Editor或Node Repository中)。

l Outline(大纲):当前活动工作流程的概述。

l Console(控制台):显示执行消息,指示引擎盖下发生了什么。

、节点和工作流程 

在KNIME Analytics Platform中,各个任务由节点表示。每个节点都带有输入和输出端口、以及状态,如图3所示。输入是节点要处理的数据,输出是处理后的数据结果集。每个节点都有特定的设置,我们可以在配置对话框中进行调整。每个节点都有四种状态,未配置的、已配置的、已执行的、错误的。节点可以执行各种任务,包括读/写文件,转换数据,训练模型,创建可视化等等。

图3.节点端口和节点状态

互连节点的集合构成工作流,并且通常代表特定数据分析项目的一部分 或者可能全部。

、建立你的第一个工作流程 

现在让我们开始构建一个示例工作流,我们分析一些销售数据。当我们完成它时,它看起来就像图4中所示的工作流程。

图4.示例工作流程

图4中的示例工作流从CSV文件中读取数据,过滤列的子集,过滤掉一些行,并在两个图中可视化数据:堆积面积图和饼图,您可以在图5中看到:一个显示销售额随时间的变化,另一个显示不同国家在总销售额上的份额。

图5.示例工作流的输出视图

首先,请先下载包含我们将在工作流程中使用的数据的CSV文件。下载地址:https://files.knime.com/sites/default/files/sales_data.csv。接下来,通过以下方式创建新的空工作流:

l 单击新建在KNIME工作台的顶部工具栏面板

l 或者右键单击KNIME Explorer中本地工作区的文件夹,如图6所示

图6.创建一个新的空工作流程

您需要的第一个节点是文件读取器节点,您可以在节点存储库中找到该节点。您可以导航到IO→读取→文件读取器,或在节点存储库面板的搜索框中键入名称的一部分。

要在工作流程中使用该节点,您可以:

l 将其从节点存储库拖放到工作流编辑器

l 或者双击节点存储库中的节点。它会自动显示在工作流编辑器中。

现在让我们定义这个节点的设置:

l 打开配置对话框或者通过双击文件读取器节点,或通过右键单击并选择配置...,如图7。

图7.配置节点

l 在配置对话框中,单击“ 浏览” 按钮定义文件路径,然后检查其他可用设置,并预览数据,如图8所示。

图8. File Reader节点的Configuration对话框

您现在可能需要检查输出表以查看数据文件是否按预期读取。要检查输出表:

l 右键单击节点并选择“ 执行”,执行“文件读取器”节点

l 通过右键单击执行的节点并选择菜单中的最后一个选项打开输出表:文件表

如果正确读取了数据,请将Column Filter节点添加到工作流编辑器并将其连接到File Reader节点:

l 单击File Reader节点的输出端口,按住鼠标按钮并在Column Filter节点的输入端口释放它

l 或者,通过在工作流中单击一次选择“文件读取器”节点,然后双击节点存储库中的“列过滤器”节点。此方法自动将Column Filter节点连接到File Reader节点。

在继续之前,必须配置“列过滤器”节点:

l 将“country”,“date”和“amount”列移动到绿框 Include字段中,方法是双击它们,或者使用图9所示配置对话框中ExcludeInclude字段之间的按钮。

图9.配置Column Filter节点

l 单击“ 确定”完成配置

继续构建工作流程:

l 将“行过滤器”节点添加到工作流编辑器并将其连接到“列过滤器”节点

l 打开“行过滤器”节点的配置对话框,并从输入表中排除“country”列的值为“unknown”的行,如图10所示。

图10.配置Row Filter节点

现在已经过滤了数据,让我们继续进行数据可视化:

l 在节点存储库中搜索节点Stacked Area Chart(JavaScript)和Pie / Donut Chart(JavaScript),并将它们添加到工作流编辑器,两者都连接到Row Filter节点

l 打开Stacked Area Chart(JavaScript)节点的配置对话框。选择“date”列作为x轴列,如图11所示。

图11.配置Stacked Area Chart(JavaScript)节点

l 现在打开饼图/圆环图(JavaScript)节点的配置对话框,选择“country”作为类别列,选择“Sum”作为聚合方法,将“amount”作为饼图的频率列。这两种配置选项如图12所示。

图12.配置饼图/圆环图(JavaScript)节点

工作流程已完成,下一步是执行它并查看输出。您可以通过单击图13中所示工具栏中的“执行所有可执行节点”按钮来执行此操作...

图13.从工具栏中执行所有可执行节点

...,或者通过选择工作流的不同分支的最后一个节点,右键单击选择,然后单击菜单中的“ 执行 ”。

要检查基于JavaScript的节点的交互式输出视图:

l 为未执行的节点选择Execute和Open Views选项,如图14所示

图14.执行和打开交互式视图

l 或者,一旦执行一个节点,右键单击该节点并选择交互视图:...相反,如图15

图15.打开已执行节点的交互视图

目前,饼图使用数据中不同国家/地区的默认颜色。使用Color Manager节点,您可以为国家/地区指定其他颜色,而不是图5中所示的默认颜色。在构建图形之前必须分配颜色,因此您必须在颜色管理器中间添加颜色管理器节点。流程。

添加Color Manager节点:

l 通过从节点存储库中拖动节点并在连接变为红色时在工作流中的行过滤器节点和饼图圆点图表节点之间将其释放,如图16所示。红色连接表示它已准备好接受释放鼠标时的新节点。

图16.在工作流中的两个节点之间插入一个节点

五、示例工作流程 

使用KNIME Hub上的示例工作流程快速开始分析。您可以直接在hub.knime.com上浏览示例工作流,可以通过KNIME Explorer中的EXAMPLES挂载点浏览。您可以将工作流程复制到本地工作区,根据用例进行修改,或将其中的部分内容复制到工作流程中。KNIME Hub上的工作流程也是了解KNIME Analytics Platform中不同用例的有用资源。

要从KNIME Analytics Platform中访问示例工作流程:

l 在KNIME Explorer中展开EXAMPLES挂载点

l 接下来,双击以查看按类别排序的示例工作流,如图17所示。无需凭据。

图17.登录EXAMPLES挂载点

l 在这些类别中,一些工作流组以单个操作命名,例如过滤

l 其他工作流程组的名称涉及更广泛的主题,例如时间序列分析

l “50_Applications”工作流程组包含的工作流程涵盖整个用例,如流失预测或欺诈检测

要下载示例工作流程:

l 拖放

l 或者,复制并粘贴

工作流进入LOCAL工作区。双击下载的示例工作流副本,以打开和编辑它,就像任何其他工作流程一样。

、扩展和集成 

如果要向KNIME Analytics Platform添加功能,可以安装扩展和集成。可用的扩展包括KNIME提供的免费开源扩展和集成,以及由社区和商业扩展提供的免费扩展。

由KNIME开发和维护的KNIME扩展和集成包含Keras提供的深度学习算法,H2O提供的高性能机器学习,Apache Spark提供的大数据处理,以及Python和R提供的脚本,仅举几例。

安装扩展程序:

l 单击文件菜单栏上,然后安装KNIME扩展...。将打开如图18所示的对话框。

l 选择要安装的扩展程序

l 单击“下一步”并按照说明操作

l 重新启动KNIME Analytics Platform

图18.安装扩展和集成

默认情况下,KNIME扩展和受信任的社区扩展可通过其更新站点的URL获得。可以通过首先添加其更新站点来安装其他扩展。

要添加更新站点:

l 导航到“文件”→“首选项”→“安装/更新”→“可用软件站点”

l 点击“添加...”

l 并通过“位置”字段提供URL来添加新的更新站点

l 或者,通过提供包含本地更新站点的zip文件的文件路径,通过“存档...”

l 最后,给更新站点一些有意义的名称并单击“确定”

完成此操作后,可以如上所述安装扩展。

通过以下方式更新到最新的KNI​​ME版本:

l 单击文件,然后更新KNIME ......以确保您使用KNIME软件的最新版本,并已安装的扩展

l 在打开的窗口中,选择更新,接受条款和条件,等待更新完成,然后重新启动KNIME Analytics Platform

、提示与技巧 

  • 在KNIME论坛上获得帮助和讨论
    登录KNIME社区论坛,加入KNIME分析平台,扩展和集成,特殊兴趣小组和KNIME开发等不同类别的讨论。论坛是一个充满活力的社区,KNIME的工作人员以及其他经验丰富的KNIME用户可以回答您的问题。
  • 导入和导出工作流程
    要导入工作流程或工作流程组,在KNIME Explorer –>LOCAL的任意位置单击右键,然后选择Import(Export)KNIME Workflow...,如图19

图19.导入和导出工作流和工作流组

要导出工作流程或工作流程组,请首先选择要导出的工作流程(或组)

接下来,写入目标文件夹的路径和文件名。如果导出工作流组,则可以从文件夹中选择要导出的元素。如图20所示

图20.定义要导入或导出的文件的路径

  • 通过拖放数据文件
    导入数据您可以从KNIME工作区或系统上的任何位置导入数据文件,方法是将其从KNIME Explorer,桌面或文件资源管理器拖放到工作流编辑器,如图21所示。方法自动创建正确的节点以读取文件类型,并通过使用相对于KNIME Explorer位置的文件路径URL填充文件路径设置来预先配置节点。

图21.通过拖放读取数据文件

  • 替换工作流中的节点
    您可以通过从存储库拖动节点并在其中出现白色箭头和方框时将其放在现有节点之上来替换工作流中的节点,如图22所示。

图22.替换工作流中的节点

  • 展开您的节点搜索:模糊搜索和清晰搜索
    如果您不确定要搜索的节点的名称,请通过单击搜索字段旁边的图标切换到节点存储库中的模糊搜索模式,如图23所示您的搜索结果现在将包含与搜索词相关的任何节点。在清晰搜索模式下,搜索文本必须与节点名称本身完全匹配。通过更多练习构建工作流程,您将记住越来越多的节点名称。一段时间后,您可能会切换回清晰的搜索模式,以便更快地找到您正在寻找的节点。

图23. Crisp和模糊搜索模式

  • 监视节点的状态
    如果要查看工作流中的中间输出表,可以将节点监视器面板添加到KNIME Workbench:

n 单击View→Other→KNIME Views→Node Monitor,如图24所示

图24.将节点监视器添加到KNIME Workbench

n 接下来,在Node Monitor右上角的View菜单中选择Show Output Table,如图25所示。此面板现在显示您在工作流程中选择的节点的输出。

图25.在节点监视器中显示输出表

l 除了输出表之外,您还可以让面板显示节点的执行时间。您还可以固定一个节点的输出。这意味着当前所选节点的输出与工作流编辑器中的选择无关。

扫码关注获取 KNIME 最新动态

公众号:Spark技术学习

KNIME快速入门指南的更多相关文章

  1. AngularJS快速入门指南20:快速参考

    thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...

  2. AngularJS快速入门指南19:示例代码

    本文给出的大部分示例都可以直接运行,通过点击运行按钮来查看结果,同时支持在线编辑代码. <div ng-app=""> <p>Name: <input ...

  3. AngularJS快速入门指南18:Application

    是时候创建一个真正的AngularJS单页面应用程序了(SPA). 一个AngularJS应用程序示例 你已经了解了足够多的内容来创建第一个AngularJS应用程序: My Note Save Cl ...

  4. AngularJS快速入门指南17:Includes

    使用AngularJS,你可以在HTML中包含其它的HTML文件. 在HTML中包含其它HTML文件? 当前的HTML文档还不支持该功能.不过W3C建议在后续的HTML版本中增加HTML import ...

  5. AngularJS快速入门指南16:Bootstrap

    thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...

  6. AngularJS快速入门指南15:API

    thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...

  7. AngularJS快速入门指南14:数据验证

    thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...

  8. AngularJS快速入门指南13:表单

    一个AngularJS表单是一组输入型控件的集合. HTML控件 HTML输入型标签标包括: input标签 select标签 button标签 textarea标签 HTML表单 HTML表单将各种 ...

  9. AngularJS快速入门指南12:模块

    AngularJS模块定义了一个application. 模块是一个application中不同部分的容器. application中的所有控制器都应该属于一个模块. 带有一个控制器的模块 下面这个a ...

随机推荐

  1. P1518 两只塔姆沃斯牛 The Tamworth Two(简单的搜索题)

    题目描述 两只牛逃跑到了森林里.农夫John开始用他的专家技术追捕这两头牛.你的任务是模拟他们的行为(牛和John). 追击在10x10的平面网格内进行.一个格子可以是: 一个障碍物, 两头牛(它们总 ...

  2. ASP .NET Core 建立列表和表单View

    前几篇文章对控制器Controller以及布局页_Layout相关的代码与作用介绍了一下.接下来就是建立控制器对应的列表和对应的表单. 建立Department文件夹,在文件夹下面建立普通的Index ...

  3. 量子纠错码——Stabilizer codes

    对于错误,一般有两种: random: 错误以一定的概率发生在每个比特上(对这种问题的研究一般是信息论中,信道熵一类的问题) worst case: 错误发生在某个比特上,这也是纠错码襄阳解决的问题 ...

  4. Spring官网阅读(四)BeanDefinition(上)

    前面几篇文章已经学习了官网中的1.2,1.3,1.4三小结,主要是容器,Bean的实例化及Bean之间的依赖关系等.这篇文章,我们继续官网的学习,主要是BeanDefinition的相关知识,这是Sp ...

  5. 11_JavaScript基础入门(1)

    JavaScript简介 1.JavaScript用途 前端三层: 结构层  HTML(从语义的角度描述页面的结构) 样式层  CSS(从审美的角度装饰页面) 行为层  JavaScript (从交互 ...

  6. 【Scala】代码实现Actor多种需求

    文章目录 简单实现Actor并发编程 使用Actor实现发送没有返回值的异步消息 使用Actor实现不间断消息发送 用react方法替代receive方法接收消息 结合case class,通过匹配不 ...

  7. 【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建

    CDH版本Hadoop 伪分布式环境搭建 服务规划 步骤 第一步:上传压缩包并解压 cd /export/softwares/ tar -zxvf hadoop-2.6.0-cdh5.14.0.tar ...

  8. elasticsearch kibana的安装部署与简单使用(一)

    1.先说说es 我早两年使用过es5.x的版本,记得当时部署还是很麻烦,因为es是java写的,要先在机器上部署java环境jvm之类的一堆东西,然后才能安装es 但是现在我使用的是目前最新的7.6版 ...

  9. [hdu5445 Food Problem]多重背包

    题意:一堆食物,有价值.空间.数量三种属性,一些卡车,有空间,价格,数量三种属性.求最少的钱(不超过50000)买卡车装下价值大于等于给定价值的食物,食物可以拆开来放. 思路:这题的关键是给定的条件: ...

  10. HDU 2013 (水)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2013 题目大意:已知最后一天桃子只有一个,告诉你猴崽子第一天吃掉总桃子数的一半多一个,第二天吃掉剩下总 ...