Datavines是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数,目前作为 Datavane 开源组织的重点推荐项目,正式开源,欢迎大家使用。

核心特性

数据目录

  • 定时获取数据源元数据,构造数据目录

  • 定时监听元数据变更情况

  • 支持元数据的标签管理

数据质量监控

  • 内置 27 个数据质量检查规则,开箱即用

  • 支持 4 种数据质量检查规则类型

    • 单表单列检查类型

    • 单表自定义SQL检查类型

    • 跨表准确性检查类型

    • 两表值比对检查类型

  • 支持配置定时任务进行定时检查

  • 支持配置 SLA 用于检查结果告警

数据概览

  • 支持定时执行数据探测,输出数据概览报告

  • 支持自动识别列的类型自动匹配合适的数据概况指标

  • 支持表行数趋势监控

  • 支持列的数据分布情况查看

插件化设计

平台以插件化设计为核心,以下模块都支持用户自定义插件进行扩展

  • 数据源:已支持 MySQLImpalaStarocksDorisPrestoTrinoClickHousePostgreSQL
  • 检查规则:内置空值检查、非空检查、枚举检查等27个检查规则
  • 作业执行引擎:已支持SparkLocal两种执行引擎。Spark 引擎目前仅支持Spark2.4版本,Local 引擎则是基于JDBC开发的本地执行引擎,无需依赖其他执行引擎。
  • 告警通道:已支持邮件
  • 错误数据存储:已支持 MySQL本地文件(仅支持Local执行引擎)
  • 注册中心:已支持 MySQLPostgreSQLZooKeeper

多种运行模式

  • 提供Web页面配置检查作业、运行作业、查看作业执行日志、查看错误数据和检查结果

  • 支持在线生成作业运行脚本,通过 datavines-submit.sh 来提交作业,可与调度系统配合使用

容易部署&高可用

  • 平台依赖少,容易部署

  • 最小仅依赖 MySQL 既可启动项目,完成数据质量作业的检查

  • 支持水平扩容,自动容错

  • 无中心化设计Server 节点支持水平扩展提高性能

  • 作业自动容错,保证作业不丢失和不重复执行

项目架构

CatalogManager

CatalogManager 是负责管理元数据的组件,主要负责元数据的存储、查询以及元数据获取任务的调度和容错处理等。

DataQualityCenter

DataQualityCenter 是负责数据质量管理的组件,主要负责数据质量规则的管理、数据质量作业的调度、执行和自动容错处理等。

快速上手

数据概览

进行数据概览只需下面3步:

  • 创建数据源(或者选择创建好的数据源)
  • 点击相应的表
  • 点击右上角 运行概览 并选择想要探查的列

数据质量检查

进行数据质量检查只需下面4步:

  • 点击想要进行检查的列,点击 添加作业
  • 选择 检查规则 并填入参数
  • 选择 检查公式 ,比如 实际值/期望值 x100% ,填入比较符和阈值
  • 点击保存并运行即可

加入我们

Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。

关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。

Datavane 社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。

官 网: http://www.datavane.org/

Github : https://github.com/datavane

一站式数据可观测性平台 Datavines 正式开源啦的更多相关文章

  1. Restful.Data v1.0 - 轻量级数据持久层组件, 正式开源发布了

    经过几个星期的优化调整,今天 Restful.Data 正式开源发布. 源码地址:https://github.com/linli8/Restful 今天不写那么多废话了,还是重新介绍一下 Restf ...

  2. 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...

  3. Facebook 正式开源其大数据查询引擎 Presto

    Facebook 正式宣布开源 Presto —— 数据查询引擎,可对250PB以上的数据进行快速地交互式分析.该项目始于 2012 年秋季开始开发,目前该项目已经在超过 1000 名 Faceboo ...

  4. adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦

    adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦 1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目. 2:mdrill旨在帮助用户在几秒到几十秒的时间 ...

  5. amundsen 来自lyft 的开源数据发现平台

    amundsen 是来自lyft 开源的元数据管理.数据发现平台,功能点很全,有一个比较全的前端.后端以及 数据处理框架 参考架构图 说明 从官方介绍以及github代码仓库可以看出还是比较全的整体解 ...

  6. 如约而至:微信自用的移动端IM网络层跨平台组件库Mars已正式开源

    1.前言 关于微信内部正在使用的网络层封装库Mars开源的消息,1个多月前就已满天飞(参见<微信Mars:微信内部正在使用的网络层封装库,即将开源>),不过微信团队没有失约,微信Mars ...

  7. 新一代 CI 持续集成工具 flow.ci 正式开源

    很高兴地宣布 flow.ci 在 Apache-2.0 协议下正式开源了.flow.ci 是国内首套开源持续集成(CI) 解决方案,帮助企业团队实现开发流程(build-test-deploy)自动化 ...

  8. 重磅消息-Service Fabric 正式开源

    微软的Azure Service Fabric的官方博客在2017.3.24日发布了一篇博客 Service Fabric .NET SDK goes open source ,介绍了社区呼声最高的S ...

  9. 巨杉数据库 MySQL兼容项目正式开源

    9月7日.8日,2018  ODF 开源数据库论坛,在北京盛大开幕.在大会上,巨杉数据库正式发布了巨杉全新的MySQL/MariaDB兼容架构,并将项目正式开源. 开源数据库论坛(ODF)是中国开源数 ...

  10. 腾讯云AI平台张文杰:构建一站式机器学习服务平台

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 5月24日,以"无界数据无限智能"为主题的腾讯"云+未来"峰会AI大数据分论坛在广州拉开帷幕.此次分 ...

随机推荐

  1. 记某gov门户网站渗透测试(已修复)

    前言: 免责声明:涉及到的所有技术仅用来学习交流,严禁用于非法用途,未经授权请勿非法渗透.否则产生的一切后果自行承担! 该渗透测试项目为已授权项目,本文已对敏感部分做了相关处理. 正文: SQL注入( ...

  2. kubernetes 启用 PHP + Nginx 网页环境

    kubernetes 启用 PHP + Nginx 网页环境 传统安装方式进行安装步骤较多,使用kubernetes可以实现快速启用环境,在测试或者线上都可以做到快速 启用 编写 yaml 文件 [r ...

  3. 安装部署keepalived的HA环境

    每一台配置下keepalived #master01 配置: cat >/etc/keepalived/keepalived.conf<<"EOF" ! Conf ...

  4. [Java]Maven构建时报错: "Error:java: 读取E:\XX\XXX..jar时出错; error in opening zip file"

    删除本地仓库中对应的jar包,pom.xml再reimport

  5. 浅析Nordic nRF5 SDK例程架构

    很多刚接触Nordic nRF5 SDK的初学者出于对新平台的不熟悉,会觉得这个SDK很难,本文讲浅析nRF5 SDK中例程的架构,让初学者能够快速上手SDK. 在开始之前,先推荐阅读观看下面这些文章 ...

  6. mariadb修改用户host的两种方式

    问题描述:使用update user set host='%' where user='root';修改用户host失败.根据提示mariadb不在是一个基表,而是一张视图,无法被直接修改.mysql ...

  7. 两分钟操作完成用VScode连接MySQL查询数据

    第一步:下载一个插件,MySQL Syntax 安装后要是重启或刷新后没有出现 再安装一个MySQL 第二步:下载vscode-database 第三步:把需要的插件下载好后,接下来就开始操作  输入 ...

  8. 安装vue-lic

    vue-cli是Vue.js开发的标准工具.它简化了程序员基于webppack创建工程化的Vue项目的过程.引用自vue-cli官网上的一句话:程序员可以专注在撰写应用上,而不必花好几天去纠结webp ...

  9. Network Science: 巴拉巴西网络科学阅读笔记

    前言: 最小生成树中Kruskal算法对应了统计物理中的著名模型invasion percolation.由此写了一篇文章:invasion percolation and global optimi ...

  10. Godot 4.0 设置应用程序图标、项目图标

    godot版本:4.0.2,理论上4.0.0版也适用. 本文章是针对window应用程序而写的,其他平台不一定适用,仅供参考. 效果 输出的可执行文件图标为指定的图标,适配多种尺寸 执行时窗口图标为指 ...