CDC算法给出了一个chunk的大小的最小值、最大值、平均值的界定。

Method

Using chunk existence information

breaking-apart algorithm

将所有内容全部划分为较大的chunk,然后识别新内容的变化区域,然后在这个变化区域的附近重新划分较小的chunk。重复进行数据重删。

building-up algorithm

在开始时将chunk的大小初始化为一个较为合适的值,然后组合较小的chunk。通过一个建块算法,查询更多的大块的位置和更细小的单个插入修改块。在输入中的任意位置均需要判断要建立小块还是建立大块,这种算法称之为bimodal chunking算法。

Baseline rolling window cut-point selection.

与预设值匹配给定的l个bit的值,如果匹配成功,则在l bit的最后一位处产生了切割点。几何分布下定义平均chunk大小为\(2^l\)。将其称为\(level-2^l\)chunker。

对于chunk最小值\(m\),通常chunk的平均大小是\(m+2^l\)。对于chunk最大值\(M\),一个\(level-2^l\) chunker通常会达到最大值:\(e^{-(M-m)/2^l}\)。在这里,M并非内容定义的。对于备份数据,给出\(level-2^{l-b}\) chunk,尽量避免非文本定义的切割点。

Breaking-apart algorithms

Chunk amalgamation algorithms

resynchronization 再同步

Note: Bimodal Content Defined Chunking for Backup Streams的更多相关文章

  1. Data Deduplication Workflow Part 1

    Data deduplication provides a new approach to store data and eliminate duplicate data in chunk level ...

  2. 转 RMAN: RAC Backup, Restore and Recovery using RMAN

    PURPOSE The purpose of this document is to give a quick guide for using RMAN on RAC databases. We wi ...

  3. Video for Linux Two API Specification Revision 2.6.32【转】

    转自:https://www.linuxtv.org/downloads/legacy/video4linux/API/V4L2_API/spec-single/v4l2.html Video for ...

  4. Cryptographic method and system

    The present invention relates to the field of security of electronic data and/or communications. In ...

  5. Oracle Database 11g express edition

    commands : show sys connect sys as sysdba or connect system as sysdba logout or disc clear screen or ...

  6. pdf reference 格式具体说明

    1. PDF概要 1.1. 图像模型 PDF能以平台无关.高效率的方式描叙复杂的文字.图形.排版. PDF 用图像模型来实现设备无关. 图像模型同意应用程序以抽象对象描叙文字.图像.图标.而不是通过详 ...

  7. General-Purpose Operating System Protection Profile

    1 Protection Profile Introduction   This document defines the security functionality expected to be ...

  8. pypdf2:下载Americanlife网页生成pdf合并pdf并添加书签

    初步熟悉 安装 pip install pypdf2 合并并添加书签 #!/usr/bin/env python3.5 # -*- coding: utf-8 -*- # @Time : 2019/1 ...

  9. jenkins部署java项目

    #########################################jenkins部署#################################3 一.jenkins是什么? J ...

随机推荐

  1. something important

    docker run ubuntu /bin/echo 'Hello world' 运行这条命令,docker做了什么 Well, Docker containers only run as long ...

  2. 也来谈幂等和CAS

    什么是幂等? 一个方法,不管你执行多少次,保证执行的结果总是相同的.这种方法或者服务就是幂等的. 什么是CAS? CAS是Compare And Set的缩写,顾名思义,就是先比较再设置,这种方式避免 ...

  3. matlab产生很多个相同的数字

    如产生100行1列的0.5: ones(100,1)*0.5:

  4. 创建表空间的sql语句

    create tablespace ldcounter logging datafile 'D:\user_data.dbf' size 50m autoextend on next 50m maxs ...

  5. Python—numpy.bincount()

    1.它大致说bin的数量比x中的最大值大1,每个bin给出了它的索引值在x中出现的次数.下面,我举个例子让大家更好的理解一下: # 我们可以看到x中最大的数为7,因此bin的数量为8,那么它的索引值为 ...

  6. Apache配置负载均衡-实例

    公司两台服务器都安装了tomcat,配置apache作为负载均衡,当一台服务器出现故障时还能保证业务正常运行. Server1:192.168.1.100 Server2:192.168.1.200 ...

  7. PHP获取一年中每个星期的开始和结束日期的方法

    这篇文章主要介绍了PHP获取一年中每个星期的开始和结束日期的方法,涉及php对日期操作的技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了PHP获取一年中每个星期的开始和结束日期的方法. ...

  8. 【遍历二叉树】10判断二叉树是否平衡【Balanced Binary Tree】

    平衡的二叉树的定义都是递归的定义,所以,用递归来解决问题,还是挺容易的额. 本质上是递归的遍历二叉树. ++++++++++++++++++++++++++++++++++++++++++++++++ ...

  9. [转]nodejs中的process模块--child_process.exec

    1.process是一个全局进程,你可以直接通过process变量直接访问它. process实现了EventEmitter接口,exit方法会在当进程退出的时候执行.因为进程退出之后将不再执行事件循 ...

  10. 洛谷【P1601】A+B Problem(高精)

    题目传送门:https://www.luogu.org/problemnew/show/P1601 高精度加法板子.我们灵性地回忆一波小学学加法列竖式的场景(从\(6\)岁开始口算从未打过草稿的大佬请 ...