OLTP

scale-up和scale-out

scale-up会有上限,无法不断up,而且相对而言,up升级会比较麻烦,所以大数据,云计算需要scale-out

scale-out,就是分布式数据库,刚开始肯定是Shared Nothing,但是分布式也引入了更高的架构复杂度和维护成本

所以现在的趋势,是架构分层,层之间是逻辑的scale-up,层内部是物理的scale-out

最终sharing-everything,其实在架构上又回到了scale-up

所以随着硬件的进步和技术的演进,架构上没有绝对的好坏

Shared Nothing是最常见的,也是最开始的分布式方案

共享磁盘,代表是Amazon的Aurora

执行层和存储层分离,那么当前在数据库层就不需要管副本同步的问题,主挂了,备拉起看到的数据还是一样的,在数据库层只有一份磁盘数据

共享内存,共享磁盘虽然解决大部分数据同步的问题,但是执行层仍然是有状态的,因为内存中的状态,并没有落盘,所以failover后仍然需要状态恢复

如果共享内存,那么执行层就可以完全无状态,那样维护成本会大幅降低

但是很明显,共享内存很难实现,稳定性和性能的要求会很高,现在没有数据库实现共享内存

早期的分布式数据库,

分布式数据库设计需要考虑一些架构上的问题,

同构还是异构,Mongo是典型的异构架构

数据Partition,既然是分布式数据库,数据肯定是要分开放的,怎么分?

可以按照Table分,明显这样扩展性不太好,如果Table太大会有问题

比较自然的方式,是水平划分,如右图

Partition还分为,逻辑的和物理的,如果是逻辑的,只是扩展数据库处理能力

中心化,还是去中心化

中心化实现简单,但是单点问题,扩展和failover,典型代表,Bigtable

非中心化,实现复杂,一致性很难保证,更优雅

分布式一致性,是分布式数据库中最困难的问题

可以看到简单的分布式2PL很容易造成死锁

分布式一致性的常用方法如下,

2PL分为两个阶段,准备和提交;2PL的最大问题就是活性,任意一个节点挂都会导致失败

Early acknowledgement,Prepare都成功后,直接给client返回成功,不用等commit阶段结束

Paxos,简单的理解为,majority版本的2PL

副本机制用于解决单点问题,所以多存几份

副本最大的问题就是同步问题

主备或多主,两种情况

副本间同步策略,

同步,主备都是落盘

异步,主落盘

半异步,主落盘,备收到数据,未落盘

持续同步,或是commit的时候同步

基本都采用持续同步

Active,主进程主动同时写多个副本

Passive,主进程只写主副本,其他需要同步进程进行被动同步

CAP理论 ,3选二

一致性,一旦commit,从每个副本上读到的数据是一样的

可用性,挂掉一个副本仍然可读写

分区容错,分区间失联(可能是挂了,也有可能是由于网络导致脑裂),那么这种情况下需要选择,

选可用性,如下图,你可以脑裂的情况下,继续写,但是数据就不一致了

选一致性,根据不同的策略,判断是否可写,比如传统2PC只能等,Paxos要求多数可写

OLAP

传统OLAP是个数仓概念,

通过ETL把TP中的数据同步到数仓

数据的存储结构,主要分为两种,

星型和雪花型

Star,只有一层维表,而雪花会有多层维表

维表少,说明非范式化,那么查询比较简单,一层join;但是存储空间比较大,而且修改比较麻烦,但是对于AP这不是大问题

Agenda

Execution Models

分成,push,pull

现在其实能push都是尽量push的,哪怕不能整条push,也会部分谓词,Join push down

这样再pull上必须的数据进行后续计算

降低计算节点的压力,也降低数据的网络传输量

对于分布式AP,查询计划也需要打散,两种方式

一种是算子方式,大部分系统都是这么设计的

另一种是Sql的方式,一般中间件会采用这样的方式

以Sql为形式打散的例子,

分布式Join算法

1. 小表广播

2. join key等于分区key

3. 把原先没有广播的小表,进行广播

4. 全shuffle

云数据库

数据库是否可以用通用格式存储,这样便于数据共享

CMU Database Systems - Distributed OLTP & OLAP的更多相关文章

  1. CMU Database Systems - Storage and BufferPool

    Database Storage 存储分为volatile和non-volatile,越快的越贵越小 那么所以要解决的第一个问题就是,如果尽量在有限的成本下,让读写更快些 意思就是,尽量读写volat ...

  2. CMU Database Systems - Database Recovery

    数据库数据丢失的典型场景如下, 数据commit后,还没有来得及flush到disk,这时候crash就会丢失数据 当然这只是fail的一种情况,DataBase Recovery要讨论的是,在各种f ...

  3. CMU Database Systems - Timestamp Ordering Concurrency Control

    2PL是悲观锁,Pessimistic,这章讲乐观锁,Optimistic,单机的,非分布式的 Timestamp Ordering,以时间为序,这个是非常自然的想法,按每个transaction的时 ...

  4. CMU Database Systems - Concurrency Control Theory

    并发控制是数据库理论里面最难的课题之一 并发控制首先了解一下事务,transaction 定义如下, 其实transaction关键是,要满足ACID属性, 左边的正式的定义,由于的intuitive ...

  5. CMU Database Systems - Parallel Execution

    并发执行,主要为了增大吞吐,降低延迟,提高数据库的可用性 先区分一组概念,parallel和distributed的区别 总的来说,parallel是指在物理上很近的节点,比如本机的多个线程或进程,不 ...

  6. CMU Database Systems - Query Optimization

    查询优化应该是数据库领域最难的topic 当前查询优化,主要有两种思路, Rules-based,基于先验知识,用if-else把优化逻辑写死 Cost-based,试图去评估各个查询计划的cost, ...

  7. CMU Database Systems - Two-phase Locking

    首先锁是用来做互斥的,解决并发执行时的数据不一致问题 如图会导致,不可重复读 如果这里用lock就可以解决,数据库里面有个LockManager来作为master,负责锁的记录和授权 数据库里面的基本 ...

  8. CMU Database Systems - MVCC

    MVCC是一种用空间来换取更高的并发度的技术 对同一个对象不去update,而且记录下每一次的不同版本的值 存在不会消失,新值并不能抹杀原先的存在 所以update操作并不是对世界的真实反映,这是一种 ...

  9. CMU Database Systems - Embedded Database Logic

    正常应用和数据库交互的过程是这样的, 其实我们也可以把部分应用逻辑放到DB端去执行,来提升效率 User-defined Function Stored Procedures Triggers Cha ...

随机推荐

  1. GitHub Java项目推荐|功能丰富的 Java 工具包|提高开发效率

    GitHub Java项目推荐|功能丰富的 Java 工具包|提高开发效率 功能丰富的 Java 工具包.它帮助我们实现了常用的工具方法,从而减少代码的体积,提高开发效率.该项目最初是作者工作项目中的 ...

  2. 【OGG】OGG的下载和安装篇

    [OGG]OGG的下载和安装篇 一.1  BLOG文档结构图 一.2  前言部分 一.2.1  导读 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩ ...

  3. easyui datagrid treegrid 取消行选中、取消高亮

    .datagrid-row-selected{ background: #FFFFFF !important; color: #404040; } 一.思路来源:https://www.cnblogs ...

  4. python系列:一、Urllib库的基本使用

    开篇介绍: 因为我本人也是初学者,爬虫的例子大部分都是学习资料上面来的,只是自己手敲了一遍,同时加上自己的理解. 写得不好请多谅解,如果有错误之处请多赐教. 我本人的开发环境是vscode,pytho ...

  5. json模块中dumps()与dump()区别

    dumps是将dict转化成json字符串格式,loads是将json字符串转化成dict格式. dump和load也是类似的功能,只是与文件操作结合起来了. dump(写入内容,文件对象) 和loa ...

  6. Cloudera Certified Associate Administrator案例之Test篇

    Cloudera Certified Associate Administrator案例之Test篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.准备工作(将CM升级到&qu ...

  7. 团队项目-Beta冲刺

    请大家在每次作业开头添加格式描述: 这个作业属于哪个课程 <课程的链接> 这个作业要求在哪里 <作业要求的链接> 团队名称 <写上团队名称>(附上团队博客链接) 这 ...

  8. 快排算法Java版-每次以最左边的值为基准值手写QuickSort

    如题 手写一份快排算法. 注意, 两边双向找值的时候, 先从最右边起找严格小于基准值的值,再从最左边查找严格大于基准base的值; 并且先右后左的顺序不能反!!这个bug改了好久,233~ https ...

  9. 微信之获取微信的openid(二)详细版

    第一步 :配置测试号,网页授权获取用户基本信息. 该授权回掉页面域名为ngrok 映射的域名,我的映射地址是127.0.0.1:8080. 到此微信配置完毕,接下来就是直接上代码了 2.用户同意授权 ...

  10. 回调方式进行COM组件对外消息传递

    情景:被调用者--COM组件:调用者---外部程序作用:COM组件 到 外部程序 的消息传递方法: 1.外部程序通过接口类对象,访问接口类的方法.COM对象通过连接点方式,进行消息的反向传递. 2.外 ...