5.airflow问题】的更多相关文章

1. 引言 Airflow是Airbnb开源的一个用Python写就的工作流管理平台(workflow management platform).在前一篇文章中,介绍了如何用Crontab管理数据流,但是缺点也是显而易见.针对于Crontab的缺点,灵活可扩展的Airflow具有以下特点: 工作流依赖关系的可视化: 日志追踪: (Python脚本)易于扩展 对比Java系的Oozie,Airflow奉行"Configuration as code"哲学,对于描述工作流.判断触发条件等全…
1. 页面默认加载数据过多,加载慢. 修改 .../python2.7/site-packages/airflow/www/views.py文件, 1823行, page_size参数, 比如改成18  .重启webserver.  然后速度嗖嗖的. class AirflowModelView(ModelView): list_template = 'airflow/model_list.html' edit_template = 'airflow/model_edit.html' creat…
环境 : ubuntu 14.04 LTS python 2.7 script: 设置环境变量: export AIRFLOW_HOME=~/airflow 安装相关依赖包: sudo apt-get install python-dev sudo apt-get install python-numpy sudo pip install airflow sudo pip install markupsafe sudo pip install sqlalchemy sudo pip instal…
开源项目airflow的一点研究 调研了一些几个调度系统, airflow 更满意一些. 花了些时间写了这个博文, 这应该是国内技术圈中最早系统性研究airflow的文章了.  转载请注明出处 http://www.cnblogs.com/harrychinese/ . ========================airflow概况========================文档:http://airflow.readthedocs.org/en/latest/几个调度系统的比较, 可参…
官网文档:https://incubator-airflow.readthedocs.io/en/latest/cli.html clear (1)clear 指定日期某一个dag下的任务,任务名可以用正则表达式匹配 airflow clear dagName -s 2018-09-16 -t ^.*dm_market_all_department.*$  (包含字符串“dm_market_all_department”, .*  表示匹配任意字符任意个数) (2)清除一个dag下所有失败了的…
重跑dag中部分失败的任务 例如 dagA 中, T1 >> T2 >> T3 >> T4 >> T5  ,其中 T1 T2 成功, T3 失败, T4  T5因为依赖 T3,也不会运行. 跳过 T1   T2  重跑 T3 T4 T5 的方法是: (1)点击 T3 clear ,默认会clear T4  T5 的状态 (2)返回到上一级,点击 dagA 名字,点击 Recursive 和 Downstream (airflow的界面,看不出来到底有没有选择…
首先是一个比较好的英文网站,可能要fq:http://site.clairvoyantsoft.com/installing-and-configuring-apache-airflow/ ======================================================== py3venv 在 mkdir ~/airflow/py3venv 执行:python3 -m venv ~/airflow/py3venv 进入python3 环境:source /home/a…
Airflow Python工作流引擎的重要概念介绍 - watermelonbig的专栏 - CSDN博客https://blog.csdn.net/watermelonbig/article/details/82585196…
airflow 1.10.0 官方:http://airflow.apache.org/ 一 简介 Airflow is a platform to programmatically author, schedule and monitor workflows. Use airflow to author workflows as directed acyclic graphs (DAGs) of tasks. The airflow scheduler executes your tasks…
ambari2.7.3(hdp3.1) 安装 airflow1.10 ambari的hdp中原生不支持airflow安装,下面介绍如何通过mpack方式使ambari支持airflow安装: 1 下载 # wget https://github.com/miho120/ambari-airflow-mpack/raw/master/airflow-service-mpack.tar.gz 2 安装 # ambari-server install-mpack --mpack airflow-ser…
run命令运行过程 读取dag文件生成task依赖关系,然后生成封装airflow run的command命令,通过celery发送到executor端,重新执行该airflow run命令. scheduler命令运行过程: 调度器通过SchedulerJob类run方法执行整个流程,包括使用多进程处理DagDir,包括生成Dag,产生DagRun,每个DagRun下又生成多个TaskInstance,然后将任务通过Executor分发到执行节点运行.涉及到的方法有:SchedulerJob类…
airflow webserver --debug &  # debug 模式,在后台启动webserver airflow list_dags airflow list_tasks tutorial  # 列出tutorial dag所有的任务 airflow list_tasks tutorial --tree  # tutorial dag 任务继承关系 airflow test tutorial print_date 2015-06-01  # 测试print_date task air…
其实怎么部署  airflow 又哪些特性,然后功能又是如何全面都可以在 Reference 的文章里面找到,都不是重点这里就不赘述了. 这里重点谈一下我在部署完成仔细阅读文档之后觉得可以总结的一些东西,或者踩到的一些坑. 首选明确 airflow 中最重要的几个概念: DAG DAG 意为有向无循环图,在 Airflow 中则定义了整个完整的作业.同一个 DAG 中的所有 Task 拥有相同的调度时间. Task Task 为 DAG 中具体的作业任务,它必须存在于某一个 DAG 之中.Tas…
部署方式:docker+airflow+mysql+LocalExecutor 使用airflow的docker镜像 https://hub.docker.com/r/puckel/docker-airflow 使用默认的sqlite+SequentialExecutor启动: $ docker run -d -p 8080:8080 puckel/docker-airflow webserver 将容器中的airflow.cfg拷贝出来修改 $ docker cp $container_id:…
一 官方 airflow官方分布式部署结构图 airflow进程 webserver scheduler flower(非必须) worker airflow缺点 scheduler单点 通过在scheduler的dags目录变动dag文件来提交流程 官方分布式部署方案 多个webserver 多个worker CeleryExecutor(依赖redis或rabbitmq) MesosExecutor(依赖mesos) 第三方开源方案ASFC 针对scheduler单点问题,有第三方方案:ht…
服务器使用的是centos系统,需要安装好pip和setuptools,同时注意更新安装的版本 接下来参考安装好Airflow Airflow 1.8 工作流平台搭建 http://blog.csdn.net/kk185800961/article/details/78431484 airflow最简安装方法 centos 6.5 http://blog.csdn.net/Excaliburace/article/details/53818530 以mysql作为数据库,airflow默认使用s…
基于airflow官方镜像制作自己的镜像,如给镜像安装pymongo FROM /common/air_grpc: MAINTAINER zhangchunyang@goldwind.com.cn USER RUN pip install pymongo USER airflow 镜像里都装了啥,可以通过docker history + 镜像来查看 LocalExecutor executes tasks locally in parallel. It uses the multiprocess…
https://github.com/puckel/docker-airflow 镜像介绍:https://hub.docker.com/r/puckel/docker-airflow/ docker pull puckel/docker-airflow 次镜像在docker hu上找到的在里面安装vim和grpc FROM puckel/docker-airflow:1.8.1 MAINTAINER zhangchunyang@goldwind.com USER 0 RUN apt-get u…
--1 首先你要有安装好的Airflow 环境并且在配置文件中有启用API 属性 --2 就是GET 和POST 方法的调用了 这里说一下,由于Airflow在网络上的资料比较少,可以从GETHUB中把源码下载下来,使用VSCODE工具进行文件打开,可以进行py文件跳转 --3 测试GET方法 访问路径:http://10.19.52.79:8080/api/experimental/test 杠线部分根据实际发布情况IP 填写(执行可以返回json语句) --4 测试POST方法 POST方法…
-- 1  Apache Airflow 文档 AirFlow 对编程人员来讲就是一个平台,用于进行日程安排和监控.但是还在卵化期,严格来说,不是一个完整的成品.…
原文链接:https://www.jianshu.com/p/4ae1faea733b 随着企业的发展,他们的工作流程变得更加复杂,越来越多的有着错综复杂依赖关系的工作流需要增加监控,故障排除.如果没有明确的血缘关系.就可能出现问责问题,对元数据的操作也可能丢失.这就是有向无环图(DAG),数据管道和工作流管理器发挥作用的地方. 复杂的工作流程可以通过DAG来表示.DAG是一种图结构.信息必须沿特定方向在顶点间传递,但信息无法通过循环返回起点.DAG的构建快是数据管道,或者是一个进程的输入成为下…
参考文章: Apache Airflow (incubating) Documentation — Airflow ... 任务调度神器 airflow 之初体验 airflow 介绍 - 简书(原文:http://lxwei.github.io/posts/airflow%E4%BB%8B%E7%BB%8D.html) Apache Airflow官网:https://airflow.apache.org/…
使用airflow-operator 我们可以让airflow 可以很方便的运行在k8s集群环境中,当前还在开发中 主要分为两部分:airflowbbase && airfowcluster 自定义资源. 可以用来做以下事情: 创建&&管理airflow 部署的k8s 资源 更新关联的k8s资源,当airflowbase&& airflowcluster 信息变更的时候 恢复删除的k8s 资源 支持创建不同的scheduler 支持在多个airflowclu…
airflow 是一个编排.调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化. airflow 将workflow编排为tasks组成的DAGs,调度器在一组workers上按照指定的依赖关系执行tasks.同时, airflow 提供了丰富的命令行工具和简单易用的用户界面以便用户查看和操作,并且airflow提供了监控和报警 系统 测试运行环境使用docker 基本安装 docker安装 使用别人已经构建好的 puckel/…
Airflow能做什么 关注公众号, 查看更多 http://mp.weixin.qq.com/s/xPjXMc_6ssHt16J07BC7jA Airflow是一个工作流分配管理系统,通过有向非循环图的方式管理任务流程,设置任务依赖关系和时间调度. Airflow独立于我们要运行的任务,只需要把任务的名字和运行方式提供给Airflow作为一个task就可以. 安装和使用 最简单安装 在Linux终端运行如下命令 (需要已安装好python2.x和pip): pip install airflo…
1. Traceback (most recent call last): File "/usr/bin/airflow", line 28, in <module> args.func(args) File "/usr/lib/python2.7/site-packages/airflow/bin/cli.py", line 858, in serve_logs host='0.0.0.0', port=WORKER_LOG_SERVER_PORT)…
1. airflow简介2. 相关概念2.1 服务进程2.1.1. web server2.1.2. scheduler2.1.3. worker2.1.4. celery flower2.2 相关概念2.2.1. dag2.2.2.task2.2.3.Operator2.2.4 scheduler2.2.5.worker2.2.6.executor2.2.7.Task Instances2.2.8.pool2.2.9.connection2.2.10.Hooks2.2.11.Queues2.2…
1.测试sqoop任务1.1 测试全量抽取1.1.1.直接执行命令1.1.2.以shell文件方式执行sqoop或hive任务1.2 测试增量抽取2.测试hive任务3.总结 当前生产上的任务主要分为两部分:sqoop任务和hive计算任务,测试这两种任务,分别以shell文件和直接执行命令的方式来测试. 本次测试的表是airflow.code_library. 1.测试sqoop任务 1.1 测试全量抽取 1.1.1.直接执行命令 from airflow import DAG from ai…
1.环境准备1.1 安装环境1.2 创建用户2.安装airflow2.1 安装python2.2 安装pip2.3 安装数据库2.4 安装airflow2.4.1 安装主模块2.4.2 安装数据库模块.密码模块2.5 配置airflown2.5.1 设置环境变量2.5.2 修改配置文件3. 启动airflow3.1 初始化数据库3.2 创建用户3.3 启动airflow4.执行任务5.安装celery5.1 安装celery模块5.2 安装celery broker5.2.1 使用RabbitM…
比较重要的参数: 参数 默认值 说明 airflow_home /home/airflow/airflow01 airflow home,由环境变量$AIRFLOW_HOME决定 dags_folder /home/airflow/airflow01/dags dag python文件目录 base_log_folder /home/airflow/airflow01/logs 主日志目录 executor SequentialExecutor, LocalExecutor, CeleryExe…