大家好，今天给大家分享的是一个开源的面向列的关系数据库管理系统(RDBMS)。

DuckDB是一个嵌入式的分析型数据库，它提供了高性能的数据分析和数据处理能力。DuckDB的设计目标是为数据科学家、分析师和数据工程师提供一个快速、灵活且易于使用的数据分析工具。它支持SQL查询语言，并提供了一系列高级功能，如窗口函数、时间序列分析、地理空间数据处理等。

功能简介

DuckDB是一个高性能的嵌入式分析型数据库，主要用于数据分析和数据处理任务。以下是DuckDB的一些主要功能：

1.SQL查询：DuckDB支持标准的SQL查询语言，允许用户通过SELECT语句查询数据、使用JOIN操作连接表、使用WHERE子句过滤数据等。

2.数据类型支持：DuckDB支持多种数据类型，包括整数、浮点数、字符串、日期、时间、时间戳等。这使得用户可以处理各种类型的数据。

3.列式存储：DuckDB采用列式存储格式，能够高效地存储和检索大量数据。列式存储使得DuckDB在处理数据分析任务时具有更高的性能。

4.向量化执行引擎：DuckDB使用向量化执行引擎，可以高效地处理向量数据。这有助于提高查询性能，尤其是在处理大量数据时。

5.窗口函数：DuckDB支持窗口函数，允许用户在查询结果中对数据进行聚合，同时保留原始数据的行结构。窗口函数在数据分析中非常有用，例如计算累计和、移动平均等。

6.时间序列分析：DuckDB提供了时间序列分析功能，支持对时间序列数据进行操作，如按时间范围筛选数据、计算时间序列的统计指标等。

7.地理空间数据处理：DuckDB支持地理空间数据处理，允许用户查询和处理包含地理坐标的数据。这可以用于分析地理位置相关的数据，如距离计算、面积计算等。

8.并行计算和分布式计算：DuckDB支持并行计算和分布式计算，可以充分利用多核处理器和分布式系统的计算能力，提高查询性能。

9.多种编程语言支持：DuckDB提供了多种编程语言的API，如Python、R、Java等。这使得开发人员可以轻松地将DuckDB集成到他们的应用程序中，实现数据的快速分析和处理。

10.插件系统：DuckDB支持插件系统，允许用户扩展DuckDB的功能，以满足特定需求。

技术架构

DuckDB 数据库可分为多个组件：Parser、Logical Planner、Optimizer、Physical Planner、Execution Engine、Transaction and Storage Managers。

1).Parser DuckDB SQL Parser 源自 Postgres SQL Parser。

2).Logical Planner 包含了两个过程 binder、plan generator。前者是解析所有引用的 schema 中的对象（如 table 或 view）的表达式，将其与列名和类型匹配。后者将 binder 生成的 AST 转换为由基本 logical query 查询运算符组成的树，就得到了一颗 type-resolved logical query plan。

3).Optimizer 优化器部分，会采用多种优化手段对 logical query plan 进行优化，最终生成 physical plan。例如，其内置一组 rewrite rules 来简化 expression tree，例如执行公共子表达式消除和常量折叠。针对表关联，会使用动态规划进行 join order 的优化，针对复杂的 join graph 会 fallback 到贪心算法会消除所有的 subquery。

4).Execution Engine DuckDB 最开始采用了基于 Pull-based 的 Vector Volcano 的执行引擎，后来切换到了 Push-based 的 pipelines 执行方法。DuckDB 采用了向量化计算来来加速计算，具有内部实现的多种类型的 vector 以及向量化的 operator。另外出于可移植性原因，没有采用 JIT，因为 JIT引擎依赖于大型编译器库（例如LLVM），具有额外的传递依赖。

5).Transactions DuckDB 通过 MVCC 提供了 ACID 的特性，实现了HyPer专门针对混合OLAP / OLTP系统定制的可串行化MVCC 变种。该变种立即 in-place 更新数据，并将先前状态存储在单独的 undo buffer 中，以供并发事务和 abort 使用。

6).Persistent Storage DuckDB 使用面向读取优化的 DataBlocks 存储布局（单个文件）。逻辑表被水平分区为 chunks of columns，并使用轻量级压缩方法压缩成 physical block 。每个块都带有每列的min/max 索引，以便快速确定它们是否与查询相关。此外，每个块还带有每列的轻量级索引，可以进一步限制扫描的值数量。

项目优势

•简单的

SQLite 是世界上部署最广泛的 DBMS。安装简单、嵌入式进程内操作是其成功的关键。DuckDB 采用了这些简单和嵌入式操作的理念。

DuckDB 没有任何外部依赖，无论是编译时还是运行时。对于发布，DuckDB 的整个源代码树被编译成两个文件，一个头文件和一个实现文件，即所谓的“合并”。这大大简化了部署和集成到其他构建过程中的过程。对于构建，构建 DuckDB 所需的只是一个可用的 C++11 编译器。

•跨平台

由于没有依赖项，DuckDB 具有极高的可移植性。它可以针对所有主流操作系统（Linux、macOS、Windows）和 CPU 架构（x86、ARM）进行编译。它可以部署在从小型、资源受限的边缘设备到具有 100 多个 CPU 核心的大型多 TB 内存服务器中。使用DuckDB-Wasm，DuckDB 还可以在 Web 浏览器甚至手机上运行。

•功能丰富

DuckDB 提供严谨的数据管理功能。它拥有庞大的函数库、窗口函数等，广泛支持SQL 中的复杂查询。DuckDB通过我们定制的批量优化多版本并发控制 (MVCC)提供事务保证(ACID 属性) 。数据可以存储在持久的单文件数据库中。DuckDB 支持二级索引，以加快查找单个表条目的查询速度。

DuckDB与Python和R深度集成，可实现高效的交互式数据分析。

•高性能

DuckDB 包含一个列式矢量化查询执行引擎，其中查询仍被解释，但大量值（“矢量”）在一次操作中处理。这大大减少了传统系统（如 PostgreSQL、MySQL 或 SQLite）中存在的开销，这些系统按顺序处理每一行。矢量化查询执行可使 OLAP 查询的性能大大提高。

•可扩展

DuckDB 提供了灵活的扩展机制，允许定义新的数据类型、函数、文件格式和新的 SQL 语法。事实上，DuckDB 的许多关键功能（例如对Parquet 文件格式、JSON、时区的支持以及对HTTP(S) 和 S3 协议的支持）都是作为扩展实现的。扩展也可以在 DuckDB Wasm 中使用。

•开源免费

DuckDB是一个开源项目，用户可以自由地使用和修改其源代码。此外，DuckDB还提供了免费的社区版和商业版供用户选择。

•全面测试

DuckDB 的测试套件目前包含数百万个查询，包括改编自 SQLite、PostgreSQL 和 MonetDB 测试套件的查询。测试在各种平台和编译器上重复进行。每个拉取请求都会根据完整的测试设置进行检查，只有通过才会合并。

除了此测试套件之外，我们还运行各种测试，在高负载下对 DuckDB 进行压力测试。我们运行 TPC-H 和 TPC-DS 基准测试，并运行各种测试，其中许多客户端并行使用 DuckDB。

工程部署

查看官方部署指南[1]

项目体验

•JAVA

安装

<dependency>

    <groupId>org.duckdb</groupId>

    <artifactId>duckdb_jdbc</artifactId>

    <version>1.0.0</version>

</dependency>

示例

Class.forName("org.duckdb.DuckDBDriver");

Connection conn = DriverManager.getConnection("jdbc:duckdb:");

Statement stmt = conn.createStatement();

ResultSet rs = stmt.executeQuery("SELECT 42");

•C++

安装

https://github.com/duckdb/duckdb/releases/download/v1.0.0/libduckdb-osx-universal.zip

示例

DuckDB db(nullptr);

Connection con(db);

auto result = con.Query("SELECT 42");

result->Print();

•Go

安装

go get github.com/marcboeker/go-duckdb

示例

package main

import (

    "database/sql"

    "fmt"

    _ "github.com/marcboeker/go-duckdb"

)

func main() {

    db, _ := sql.Open("duckdb", "")

    db.Exec(`CREATE TABLE person (id INTEGER, name VARCHAR)`)

    db.Exec(`INSERT INTO person VALUES (42, 'John')`)

    var (

        id   int

        name string

    )

    row := db.QueryRow(`SELECT id, name FROM person`)

    _ = row.Scan(&id, &name)

    fmt.Println("id:", id, "name:", name)

}

•Nodejs

安装

npm install duckdb

示例

var duckdb = require('duckdb');

var db = new duckdb.Database(':memory:'); // or a file name for a persistent DB

db.all('SELECT 42 AS fortytwo', function(err, res) {

  if (err) {

    console.warn(err);

    return;

  }

  console.log(res[0].fortytwo)

});

项目地址

https://github.com/duckdb/duckdb

References

[1] 官方部署指南: https://duckdb.org/docs/installation/?version=stable&environment=cli&platform=macos&download_method=package_manager

18.9k star！一个高性能的嵌入式分析型数据库，主要用于数据分析和数据处理任务。的更多相关文章

回首2018 | 分析型数据库AnalyticDB: 不忘初心砥砺前行
题记分析型数据库AnalyticDB(下文简称ADB),是阿里巴巴自主研发.唯一经过超大规模以及核心业务验证的PB级实时数据仓库.截止目前,现有外部支撑客户既包括传统的大中型企业和政府机构,也包括众 ...
悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践
说到“大数据”,当下这个词很火,各行各业涉及到数据的,目前都在提大数据,提数据仓库,数据挖掘或者机器学习,但同时另外一个热门的名词也很火,那就是“云”.越来越多的企业都在搭建属于自己的云平台,也有一些 ...
阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限
前言近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数 ...
阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告解读
前言近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型 ...
AnalyticDB - 分析型数据库
https://yq.aliyun.com/teams/31?spm=5176.7937365.1120968.ee1.78505692UL9DhG 分析型数据库(AnalyticDB)是一种高并发低 ...
什么是分析型数据库PostgreSQL版
分析型数据库PostgreSQL版(原HybridDB for PostgreSQL)为您提供简单.快速.经济高效的 PB 级云端数据仓库解决方案.分析型数据库PostgreSQL版兼容 Green ...
amazon redshift 分析型数据库特点——本质还是列存储
Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据.从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 ...
更强大的实时数仓构建能力！分析型数据库PostgreSQL 6.0新特性解读
阿里云 AnalyticDB for PostgreSQL 为采用MPP架构的分布式集群数据库,完备支持SQL 2003,部分兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务 ...
SAP S/4嵌入式分析——虚拟数据模型（VDM）
在本文中,我会通过CDS视图来介绍虚拟数据模型(Virtual Data Model,以下简称VDM). 在SAP HANA平台出现后,SAP的业务应用开发模式已经产生了变化,新的经验法则是:尽可能在 ...
Beanstalkd 一个高性能分布式内存队列系统
需要一个分布式内存队列,能支持这些特性:任务不重不漏的分发给消费者(最基础的).分布式多点部署.任务持久化.批量处理.错误重试..... 转载:http://rdc.taobao.com/blog/c ...

随机推荐

基于Confluent+Flink的实时数据分析最佳实践
简介:在实际业务使用中,需要经常实时做一些数据分析,包括实时PV和UV展示,实时销售数据,实时店铺UV以及实时推荐系统等,基于此类需求,Confluent+实时计算Flink版是一个高效的方案. 业务 ...
Serverless 工程实践 | 快速搭建 Kubeless 平台
简介: Kubeless 是基于 Kubernetes 的原生无服务器框架.其允许用户部署少量的代码(函数),而无须担心底层架构. 快速搭建 Kubeless 平台 Kubeless 简介 Kube ...
Mybatis学习一（介绍/举例/优化）
MyBatis介绍: MyBatis 是一款优秀的持久层框架,它支持定制化 SQL.存储过程以及高级映射.MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集.MyBatis ...
羽夏壳世界—— PE 解析的实现
写在前面此系列是本人一个字一个字码出来的,包括代码实现和效果截图. 如有好的建议,欢迎反馈.码字不易,如果本篇文章有帮助你的,如有闲钱,可以打赏支持我的创作.如想转载,请把我的转载信息附在文章后 ...
使用NSSM将.exe程序安装成windows服务
1.下载NSSM:NSSM - the Non-Sucking Service Manager 2.cmd方式安装服务将下载的压缩包解压,找到nssm.exe,以管理员身份打开cmd,在cmd中定位 ...
vue路由跳转的三种方式
目录 1.router-link [实现跳转最简单的方法] 2.this.$router.push({ path:'/user'}) 3.this.$router.replace{path:'/' } ...
Nifi：Nifi中的Controller Service
Service简介首先Nifi中的Controller Service 和我们MVC概念中的Controller Service不是一个概念,Nifi中的Controller Service更像是和 ...
neo4j的安装部署
Linux下载neo4j 直接在服务器上使用命令下载: curl -O http://dist.neo4j.org/neo4j-community-3.4.5-unix.tar.gz 安装Neo4j ...
荒岛野人Savage
题目描述样例 3 1 3 4 2 7 3 3 2 1 6 分析首先,我们先设4个变量,初始坐标 $d[i]$,每年步数 $p[i]$,寿命 $l[i]$,根据题目很容易得到一个不等式 ...
uniapp微信小程序uni.request捕获500异常
通常使用ajax,axios等进行服务请求,500错误或者其他的错误都会直接进入到错误通道里头,比如ajax异常的话会进入到error的回调函数里头,axios异常会进行到catch里头,一开始以为u ...

18.9k star！一个高性能的嵌入式分析型数据库，主要用于数据分析和数据处理任务。