Note: Bimodal Content Defined Chunking for Backup Streams
CDC算法给出了一个chunk的大小的最小值、最大值、平均值的界定。
Method
Using chunk existence information
breaking-apart algorithm
将所有内容全部划分为较大的chunk,然后识别新内容的变化区域,然后在这个变化区域的附近重新划分较小的chunk。重复进行数据重删。
building-up algorithm
在开始时将chunk的大小初始化为一个较为合适的值,然后组合较小的chunk。通过一个建块算法,查询更多的大块的位置和更细小的单个插入修改块。在输入中的任意位置均需要判断要建立小块还是建立大块,这种算法称之为bimodal chunking算法。
Baseline rolling window cut-point selection.
与预设值匹配给定的l个bit的值,如果匹配成功,则在l bit的最后一位处产生了切割点。几何分布下定义平均chunk大小为\(2^l\)。将其称为\(level-2^l\)chunker。
对于chunk最小值\(m\),通常chunk的平均大小是\(m+2^l\)。对于chunk最大值\(M\),一个\(level-2^l\) chunker通常会达到最大值:\(e^{-(M-m)/2^l}\)。在这里,M并非内容定义的。对于备份数据,给出\(level-2^{l-b}\) chunk,尽量避免非文本定义的切割点。
Breaking-apart algorithms

Chunk amalgamation algorithms
resynchronization 再同步
Note: Bimodal Content Defined Chunking for Backup Streams的更多相关文章
- Data Deduplication Workflow Part 1
Data deduplication provides a new approach to store data and eliminate duplicate data in chunk level ...
- 转 RMAN: RAC Backup, Restore and Recovery using RMAN
PURPOSE The purpose of this document is to give a quick guide for using RMAN on RAC databases. We wi ...
- Video for Linux Two API Specification Revision 2.6.32【转】
转自:https://www.linuxtv.org/downloads/legacy/video4linux/API/V4L2_API/spec-single/v4l2.html Video for ...
- Cryptographic method and system
The present invention relates to the field of security of electronic data and/or communications. In ...
- Oracle Database 11g express edition
commands : show sys connect sys as sysdba or connect system as sysdba logout or disc clear screen or ...
- pdf reference 格式具体说明
1. PDF概要 1.1. 图像模型 PDF能以平台无关.高效率的方式描叙复杂的文字.图形.排版. PDF 用图像模型来实现设备无关. 图像模型同意应用程序以抽象对象描叙文字.图像.图标.而不是通过详 ...
- General-Purpose Operating System Protection Profile
1 Protection Profile Introduction This document defines the security functionality expected to be ...
- pypdf2:下载Americanlife网页生成pdf合并pdf并添加书签
初步熟悉 安装 pip install pypdf2 合并并添加书签 #!/usr/bin/env python3.5 # -*- coding: utf-8 -*- # @Time : 2019/1 ...
- jenkins部署java项目
#########################################jenkins部署#################################3 一.jenkins是什么? J ...
随机推荐
- something important
docker run ubuntu /bin/echo 'Hello world' 运行这条命令,docker做了什么 Well, Docker containers only run as long ...
- 也来谈幂等和CAS
什么是幂等? 一个方法,不管你执行多少次,保证执行的结果总是相同的.这种方法或者服务就是幂等的. 什么是CAS? CAS是Compare And Set的缩写,顾名思义,就是先比较再设置,这种方式避免 ...
- matlab产生很多个相同的数字
如产生100行1列的0.5: ones(100,1)*0.5:
- 创建表空间的sql语句
create tablespace ldcounter logging datafile 'D:\user_data.dbf' size 50m autoextend on next 50m maxs ...
- Python—numpy.bincount()
1.它大致说bin的数量比x中的最大值大1,每个bin给出了它的索引值在x中出现的次数.下面,我举个例子让大家更好的理解一下: # 我们可以看到x中最大的数为7,因此bin的数量为8,那么它的索引值为 ...
- Apache配置负载均衡-实例
公司两台服务器都安装了tomcat,配置apache作为负载均衡,当一台服务器出现故障时还能保证业务正常运行. Server1:192.168.1.100 Server2:192.168.1.200 ...
- PHP获取一年中每个星期的开始和结束日期的方法
这篇文章主要介绍了PHP获取一年中每个星期的开始和结束日期的方法,涉及php对日期操作的技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了PHP获取一年中每个星期的开始和结束日期的方法. ...
- 【遍历二叉树】10判断二叉树是否平衡【Balanced Binary Tree】
平衡的二叉树的定义都是递归的定义,所以,用递归来解决问题,还是挺容易的额. 本质上是递归的遍历二叉树. ++++++++++++++++++++++++++++++++++++++++++++++++ ...
- [转]nodejs中的process模块--child_process.exec
1.process是一个全局进程,你可以直接通过process变量直接访问它. process实现了EventEmitter接口,exit方法会在当进程退出的时候执行.因为进程退出之后将不再执行事件循 ...
- 洛谷【P1601】A+B Problem(高精)
题目传送门:https://www.luogu.org/problemnew/show/P1601 高精度加法板子.我们灵性地回忆一波小学学加法列竖式的场景(从\(6\)岁开始口算从未打过草稿的大佬请 ...