(数据科学学习手札95)elyra——jupyter lab最强插件
本文示例文件已上传至我的
Github
仓库https://github.com/CNFeffery/DataScienceStudyNotes
1 简介
jupyter lab
是我最喜欢的编辑器,在过往的文章中也给大家介绍过很多相关资源和实用插件,但本文要给大家介绍的jupyter lab
插件elyra
,绝对是我使用过的最强大的jupyter lab
插件没有之一,因为它的核心功能就是帮助我们解决数据分析工作中非常重要的问题——搭建工作流。
图1
2 利用elyra搭建工作流
在安装elyra
插件集之前,请确保你的jupyter lab
版本在2.0
及以上,并且已经安装好了nodejs
也就是所有jupyter lab
拓展插件都需要的依赖。
不像常规的jupyter lab
插件的安装方法,我们执行下列命令即可安装elyra
下集成的多个插件:
pip install --upgrade elyra && jupyter lab build
安装完之后,你的jupyter lab
操作界面外观会发生一些变化,我们先记住在安装elyra
之前我们的jupyter lab
界面长啥样(我使用的主题感兴趣的朋友可以通过jupyter labextension install jupyterlab-tailwind-theme
来安装):
图2
而在安装完成重启jupyter lab
之后,除了左上角的jupyter
logo变化了之外,还新增了图中我用红框框选出来的地方:
图3
接下来我们就来介绍如何利用elyra
交互式地搭建工作流。
elyra
赋予了我们通过交互的方式将若干个ipynb
文件组织成工作流的能力,为了方便演示,这里我们创建几个带有简单流程代码的ipynb
文件:
图4 step1.ipynb
图5 step2.ipynb
图6 step2-1.ipynb
图7 step2-2.ipynb
接着我们在Launcher页面点击Pipeline Editor
打开用来交互式编辑notebook流水线的界面:
图8
图9
直接将侧边栏中对应的step1.ipynb
文件拖拽进来:
图10
点击流水线界面中ipynb
文件对应节点右侧的三个圆点,可以打开更多功能选项:
图11
因为我们是本地环境,所以这里只需要在properties
下必填参数Runtime Image
中随便选一个就行:
图12
保存之后,就完成了本地环境下单个节点的必要参数设置,同样的将其他ipynb
文件拖拽进来,各自配置好必要参数再如图13所示将各节点联结起来:
图13
这样我们的流水线就搭建好了,是不是非常滴好玩~,接着点击左上角的运行按钮,输入流水线名称后即可开始运行我们的工作流:
图14
工作流执行成功之后也会有提示:
图15
如果工作流执行到某个节点发生程序错误,也会有非常人性化的提示:
图16
对应出错的ipynb
错误代码块上方,elyra
也会帮我们创建记录错误信息的markdown
单元格:
图17
最好用的是,配合魔术命令%store
,我们就可以跨notebook
传递全局变量,而不需要再往外写出先前节点的结果文件:
利用%store 变量名
将某个变量转化为跨kernel
的全局变量:
图18
利用%store -r 变量名
将跨kernel
全局变量中的指定变量加载到当前kernel
中:
图19
而除了搭建工作流这个核心功能外,elyra
还有很多其他的实用功能,感兴趣的朋友可以前往官方文档(https://elyra.readthedocs.io/en/latest/)自行阅读学习。
图20
以上就是本文的全部内容,欢迎在评论区与我进行讨论~
(数据科学学习手札95)elyra——jupyter lab最强插件的更多相关文章
- (数据科学学习手札95)elyra——jupyter lab平台最强插件集
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 jupyter lab是我最喜欢的编辑器,在过往 ...
- (数据科学学习手札69)详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
- (数据科学学习手札72)用pdpipe搭建pandas数据分析流水线
1 简介 在数据分析任务中,从原始数据读入,到最后分析结果出炉,中间绝大部分时间都是在对数据进行一步又一步的加工规整,以流水线(pipeline)的方式完成此过程更有利于梳理分析脉络,也更有利于查错改 ...
- (数据科学学习手札75)基于geopandas的空间数据分析——坐标参考系篇
本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中我们对geopandas中的数据结 ...
- (数据科学学习手札55)利用ggthemr来美化ggplot2图像
一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原 ...
- (数据科学学习手札50)基于Python的网络数据采集-selenium篇(上)
一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...
- (数据科学学习手札49)Scala中的模式匹配
一.简介 Scala中的模式匹配类似Java中的switch语句,且更加稳健,本文就将针对Scala中模式匹配的一些基本实例进行介绍: 二.Scala中的模式匹配 2.1 基本格式 Scala中模式匹 ...
- (数据科学学习手札47)基于Python的网络数据采集实战(2)
一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...
- (数据科学学习手札44)在Keras中训练多层感知机
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...
随机推荐
- Android The layout "activity_main" in layout has no declaration in the base layout folder
报错: The layout "activity_main" in layout has no declaration in the base layout folder; thi ...
- API、Win32 SDK、Win32项目、MFC、Windows窗体应用程序的区别
[原]API.Win32 SDK.Win32项目.MFC.Windows窗体应用程序的区别 首先来看一下每一个术语的定义: API:Application Programming Interface. ...
- linux 强制重启!
原文链接:https://www.cnblogs.com/wipy/p/4261472.html 有时候,linux 由于硬盘或者其它原因, 某个进程挂住了,怎么也杀不死, 输入 reboot 命令也 ...
- kubeadm安装kubernetes(v18.8.8)
1. 前言 kubernetes版本更新迭代非常快,上一篇写kubernetes搭建时,版本还是v1.15.0,现在已经更新到v1.18.看kubernetes在github的官方仓库,8月14日小版 ...
- 大白话带你认识 ZooKeeper !重要概念一网打尽!
大家好,我是 「后端技术进阶」 作者,一个热爱技术的少年. 1. 前言 相信大家对 ZooKeeper 应该不算陌生.但是你真的了解 ZooKeeper 到底有啥用不?如果别人/面试官让你给他讲讲对于 ...
- 如何满足EN50128软件安全认证标准?
导语 EN 50128是为铁路行业的特定需求量身定制的功能安全标准.其标题为“铁路应用—通信,信号和处理系统—铁路控制和防护系统软件”.遵守该标准的要求对于铁路软件开发是至关重要的.因此,必须了解什么 ...
- OpenCV实现人脸检测
OpenCV实现人脸检测(转载) 原文链接:https://www.cnblogs.com/mengdd/archive/2012/08/01/2619043.html 本文介绍最基本的用OpenC ...
- 由浅入深理解 IOC 和 DI
目录 由浅入深理解 IOC 和 DI 开闭原则 OCP(Open Closed Principle) 面向抽象编程 逐步理解实现 IOC 和 DI 的过程(LOL Demo 示例) 比较尴尬的编写程序 ...
- Stone(思维)
链接:https://ac.nowcoder.com/acm/contest/893/D来源:牛客网 题目描述 有n堆石子排成一排,第i堆石子有aiai个石子. 每次,你可以选择任意相邻的两堆石子进行 ...
- Azure Blob (三)参数设置说明
一,引言 上一篇将 Azure Blob 存储的时候,有使用到一个 .NET Core Web 项目,通过代码的方式进行操作 Azure Blob 的数据,接着上一篇的内容,今天继续看一下代码,具体 ...