airflow 笔记】的更多相关文章

首先是一个比较好的英文网站,可能要fq:http://site.clairvoyantsoft.com/installing-and-configuring-apache-airflow/ ======================================================== py3venv 在 mkdir ~/airflow/py3venv 执行:python3 -m venv ~/airflow/py3venv 进入python3 环境:source /home/a…
airflow webserver --debug &  # debug 模式,在后台启动webserver airflow list_dags airflow list_tasks tutorial  # 列出tutorial dag所有的任务 airflow list_tasks tutorial --tree  # tutorial dag 任务继承关系 airflow test tutorial print_date 2015-06-01  # 测试print_date task air…
DAGs 查看您可以一目了然地查看成功.失败及当前正在运行的任务数量. 选中其中一个DAG 树视图 跨越时间的 DAG 的树表示.如果 pipeline(管道)延迟了,您可以很快地看到哪里出现了错误的步骤并且辨别出堵塞的进程. 图表视图 图形视图可能是最全面的一种表现形式了.它可以可视化您的 DAG 依赖以及某个运行实例的当前状态.  任务持续时间图 过去 N 次运行的不同任务的持续时间.通过此视图,您可以查找异常值并快速了解 DAG 在多次运行中花费的时间. 甘特图 甘特图可让您分析任务持续时…
1. Traceback (most recent call last): File "/usr/bin/airflow", line 28, in <module> args.func(args) File "/usr/lib/python2.7/site-packages/airflow/bin/cli.py", line 858, in serve_logs host='0.0.0.0', port=WORKER_LOG_SERVER_PORT)…
1. airflow简介2. 相关概念2.1 服务进程2.1.1. web server2.1.2. scheduler2.1.3. worker2.1.4. celery flower2.2 相关概念2.2.1. dag2.2.2.task2.2.3.Operator2.2.4 scheduler2.2.5.worker2.2.6.executor2.2.7.Task Instances2.2.8.pool2.2.9.connection2.2.10.Hooks2.2.11.Queues2.2…
1.测试sqoop任务1.1 测试全量抽取1.1.1.直接执行命令1.1.2.以shell文件方式执行sqoop或hive任务1.2 测试增量抽取2.测试hive任务3.总结 当前生产上的任务主要分为两部分:sqoop任务和hive计算任务,测试这两种任务,分别以shell文件和直接执行命令的方式来测试. 本次测试的表是airflow.code_library. 1.测试sqoop任务 1.1 测试全量抽取 1.1.1.直接执行命令 from airflow import DAG from ai…
1.环境准备1.1 安装环境1.2 创建用户2.安装airflow2.1 安装python2.2 安装pip2.3 安装数据库2.4 安装airflow2.4.1 安装主模块2.4.2 安装数据库模块.密码模块2.5 配置airflown2.5.1 设置环境变量2.5.2 修改配置文件3. 启动airflow3.1 初始化数据库3.2 创建用户3.3 启动airflow4.执行任务5.安装celery5.1 安装celery模块5.2 安装celery broker5.2.1 使用RabbitM…
比较重要的参数: 参数 默认值 说明 airflow_home /home/airflow/airflow01 airflow home,由环境变量$AIRFLOW_HOME决定 dags_folder /home/airflow/airflow01/dags dag python文件目录 base_log_folder /home/airflow/airflow01/logs 主日志目录 executor SequentialExecutor, LocalExecutor, CeleryExe…
Airflow的第一个DAG 考虑了很久,要不要记录airflow相关的东西, 应该怎么记录. 官方文档已经有比较详细的介绍了,还有各种博客,我需要有一份自己的笔记吗? 答案就从本文开始了. 本文将从一个陌生视角开始认知airflow,顺带勾勒出应该如何一步步搭建我们的数据调度系统. 现在是9102年9月上旬, Airflow最近的一个版本是1.10.5. ps. 查资料发现自己好多文章被爬走,换了作者.所以,接下里的内容会随机添加一些防伪标识,忽略即可. 什么数据调度系统? 中台这个概念最近比…
这是阅读廖雪峰的官方网站的笔记,用于自己以后回看 1.进入项目文件夹 初始化一个Git仓库,使用git init命令. 添加文件到Git仓库,分两步: 第一步,使用命令git add <file>,注意,可反复多次使用,添加多个文件:// 第二步,使用命令git commit,完成. 2.修改文件 git status命令可以让我们时刻掌握仓库当前的状态,上面的命令告诉我们,readme.txt被修改过了,但还没有准备提交的修改. git diff顾名思义就是查看difference,显示的格…