Windows Azure
存储支持一种 Blob
类型,即 Page Blob。Page
Blob 通过仅将已写入但未清除的页存入物理存储,
来有效存储稀疏数据。每页大小为 512
字节。Get
Page Ranges
REST
服务调用将返回包含有效数据的所有连续页范围的列表。在 Windows Azure
存储客户端库中,GetPageRanges
方法提供此功能。

如果服务处理请求的时间过长,Get Page Ranges在某些情况下可能会失败。与所有
Blob REST API 类似,Get Page Ranges使用超时参数,此参数用于指定允许请求的时间,包括通过网络进行读/写。但是,仅给服务器一段固定时间来处理请求和开始发送响应。如果此服务器超时已过,则即使还未到
API 超时参数指定的时间,请求也会失败。

在一个高度分散但具有大量写入的 Page Blob
中,填充 Get PageRanges
返回的列表可能要比服务器超时的时间更长,所以请求将失败。因此,如果应用程序使用的模式中含有大量 Page Blob写入,并且您想要调用
GetPageRanges,建议应用程序应一次检索一部分页范围。

例如,假设 500 GB
的 Page Blob
通过 500,000
次写入来填充整个 Blob。默认情况下,存储客户端指定
Get PageRanges 操作的超时时间为 90
秒。如果 Get PageRanges
未在服务器超时间隔内完成,调用将失败。这一问题可以通过分组提取范围(比如
每组50 GB)的方式来解决。这会将工作拆分成
10 个请求。其中每个请求都在各自的服务器超时间隔内单独完成,确保能够成功检索全部范围。

为了确保所有请求都可以在服务器超时间隔内完成,请分段提取范围,每段 150 MB。这样,即使对于最散分布的
Page Blob 来说也很安全。如果 Page Blob
分布较集中,可以使用较大分段。

客户端库扩展

下面我们提供了一个简单的扩展方法,使存储客户端可以通过提供
rangeSize
参数将请求拆分成给定大小的范围来解决此问题。生成的 IEnumerable
对象在需要时才循环访问所有页范围,从而根据需要进行服务调用。

由于将请求拆分成了多个范围,任何超出
rangeSize
边界的页范围都会在结果中拆分成多个页范围。因此对于大小为 10 GB
的分段范围,以下 40 GB
的范围

[0 – 42949672959]

将拆分成四个 10 GB
的范围:

[0 – 10737418239]


[10737418240 –21474836479]


[21474836480 –32212254719]


[32212254720 –42949672959].

若分段范围大小为 20 GB,则上述范围将仅拆分成两个范围。

请注意,通过将BlobRequestOptions
对象指定为参数,可以使用自定义超时,但下面的方法不使用任何重试策略。对每个服务调用单独应用指定的超时。如果由于某种原因导致服务调用失败,GetPageRanges
将抛出异常。

<span style="font-size:14px;">namespace Microsoft.WindowsAzure.StorageClient
{
using System;
using System.Collections.Generic;
using System.Linq;
using System.Net;
using Microsoft.WindowsAzure.StorageClient.Protocol; /// <summary>
/// Class containing an extension method for the <see cref="CloudPageBlob"/> class.
/// </summary>
public static class CloudPageBlobExtensions
{
/// <summary>
/// Enumerates the page ranges of a page blob, sending one service call as needed for each
/// <paramref name="rangeSize"/> bytes.
/// </summary>
/// <param name="pageBlob">The page blob to read.</param>
/// <param name="rangeSize">The range, in bytes, that each service call will cover. This must be a multiple of
/// 512 bytes.</param>
/// <param name="options">The request options, optionally specifying a timeout for the requests.</param>
/// <returns>An <see cref="IEnumerable"/> object that enumerates the page ranges.</returns>
public static IEnumerable<PageRange> GetPageRanges(
this CloudPageBlob pageBlob,
long rangeSize,
BlobRequestOptions options)
{
int timeout; if (options == null || !options.Timeout.HasValue)
{
timeout = (int)pageBlob.ServiceClient.Timeout.TotalSeconds;
}
else
{
timeout = (int)options.Timeout.Value.TotalSeconds;
} if ((rangeSize % 512) != 0)
{
throw new ArgumentOutOfRangeException("rangeSize", "The range size must be a multiple of 512 bytes.");
} long startOffset = 0;
long blobSize; do
{
// Generate a web request for getting page ranges
HttpWebRequest webRequest = BlobRequest.GetPageRanges(
pageBlob.Uri,
timeout,
pageBlob.SnapshotTime,
null /* lease ID */); // Specify a range of bytes to search
webRequest.Headers["x-ms-range"] = string.Format(
"bytes={0}-{1}",
startOffset,
startOffset + rangeSize - 1); // Sign the request
pageBlob.ServiceClient.Credentials.SignRequest(webRequest); List<PageRange> pageRanges; using (HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse())
{
// Refresh the size of the blob
blobSize = long.Parse(webResponse.Headers["x-ms-blob-content-length"]); GetPageRangesResponse getPageRangesResponse = BlobResponse.GetPageRanges(webResponse); // Materialize response so we can close the webResponse
pageRanges = getPageRangesResponse.PageRanges.ToList();
} // Lazily return each page range in this result segment.
foreach (PageRange range in pageRanges)
{
yield return range;
} startOffset += rangeSize;
}
while (startOffset < blobSize);
}
}
}</span>

用法示例:

pageBlob.GetPageRanges(10* 1024 * 1024 * 1024 /* 10 GB */, null);

pageBlob.GetPageRanges(150* 1024 * 1024 /* 150 MB */, options /* custom timeout in options */);



总结

对于某些分段的 Page Blob,GetPageRangesAPI
调用可能不会在最大服务器超时间隔内完成。为解决这一问题,一次可以提取一部分页范围,
完成后再提取下一部分,这样就减少了单个服务调用花费的时间。我们提出一种扩展方法,能够在 Windows Azure
存储客户端库中实施此技术。

Michael Roberson

本文翻译自:

http://blogs.msdn.com/b/windowsazurestorage/archive/2012/03/26/getting-the-page-ranges-of-a-large-page-blob-in-segments.aspx

将大型 Page Blob 的页范围进行分段的更多相关文章

  1. Windows Azure Storage (19) 再谈Azure Block Blob和Page Blob

    <Windows Azure Platform 系列文章目录> 请读者在参考本文之前,预习相关背景知识:Windows Azure Storage (1) Windows Azure St ...

  2. SharePoint 2013 对二进制大型对象(BLOB)进行爬网

    本文是参考MSDN文档做的示例,SharePoint 2013搜索二进制对象(BLOB),通过外部内容类型的方式将外部数据与SharePoint相关联,修改BCD模型,使SharePoint能够爬网外 ...

  3. [译]用AngularJS构建大型ASP.NET单页应用(一)

    原文地址:http://www.codeproject.com/Articles/808213/Developing-a-Large-Scale-Application-with-a-Single 渣 ...

  4. [译]用AngularJS构建大型ASP.NET单页应用(三)

    原文地址:http://www.codeproject.com/Articles/808213/Developing-a-Large-Scale-Application-with-a-Single A ...

  5. [译]用AngularJS构建大型ASP.NET单页应用(二)

    原文地址:http://www.codeproject.com/Articles/808213/Developing-a-Large-Scale-Application-with-a-Single 客 ...

  6. SharePoint 2013 使用 RBS 功能将二进制大型对象 BLOB 存储在内容数据库外部。

    为每个内容数据库设置 BLOB 存储   启用并配置 FILESTREAM 之后,请按照以下过程在文件系统中设置 BLOB 存储.必须为要对其使用 RBS 的每个内容数据库设置 BLOB 存储. 设置 ...

  7. Azure Storage 系列(二) .NET Core Web 项目中操作 Blob 存储

    一,引言 上一篇文章,我们介绍到在实际项目中系统会产生大量的日志文件,用户上传的头像等等,同时也介绍到可以使用Azure Blob Storage 来存储项目中的一些日志文件,用户头像,用户视频等等. ...

  8. kubernetes1.4新特性:支持两种新的卷插件

    背景介绍 在Kubernetes中卷的作用在于提供给POD持久化存储,这些持久化存储可以挂载到POD中的容器上,进而给容器提供持久化存储. 从图中可以看到结构体PodSpec有个属性是Volumes, ...

  9. 刨根究底字符编码之七——ANSI编码与代码页(Code Page)

    ANSI编码与代码页(Code Page) 一.ANSI编码 1. 如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家.民族为了用计算机记录并显示自己的字符, ...

随机推荐

  1. hibernate初涉

    好久都不曾写写总结一些东西了,惰性真的是令人难以克制!虽然和许多北漂族一样,艰苦而又迷茫,但是我总能找到一些方向,一点期盼,因为你就我的目标.我会坚持下去,重拾青春的热血,既然人生如戏,那我不当猪脚. ...

  2. Android ScrollView

    ScrollView 滚动视图 滚动视图用于为其它组件添加滚动条,在默认的情况下,当窗体中内容比较多,而一屏显示不下时,超出的部分不能被用户所看到.因为Android的布局管理器本身没有提供滚动屏幕的 ...

  3. 查看linux版本号的几种方法

    (1)lsb_release 命令查看,FSG(Free Standards Group)组织开发的LSB (Linux Standard Base)标准的一个命令,用来查看linux兼容性的发行版信 ...

  4. 20M宽带的网速等价于多少?

    最近有朋友问我:我家的宽带是20兆的,怎么网速这么慢? 运营商说的20M,完整的单位应该是20Mbps(bps:比特率),而日常中所说的下载速度单位是MB,两者是不一样的. 它们之间的换算关系是:1M ...

  5. Linux 最大进程数

    前言 使用环境:centos 7系统 一.查看用户打开的最大进程数 ulimit -a max user processes              (-u) #系统限制某用户下最多可以运行多少进程 ...

  6. 5、第5节课CSS补充和html 标签讲解20150924

    1. DIV 隐藏 A: 隐藏之后不占位置  display:none; B:隐藏之后占位置 visibility:hidden; 2.DIV 排序 z-index:2;  默认是1,如果想DIV在上 ...

  7. hdu 2201

    题意: 一共有n个人,m表示第m个人,然后问你第i个人不做到m号位置的概率,最后相乘.... 水题(注意下格式输出) AC代码: #include <iostream> using nam ...

  8. json数组传递到后台controller

    现前台有如下格式的数据需要传递到后台的controller, public class UpdatePara { public int RoleID { get; set; } public List ...

  9. sharepoint查询超出阈值

    昨天客户出了webpart显示数据不稳定的bug,经过这两天的艰苦排查终于发现了是列表视图阈值造成的问题,经过在网上搜索终于找到了类似的解决方法. SPQuery query = new SPQuer ...

  10. SOA

    面向服务架构Service-Oriented Architecture 4个特性 1每个服务具有明确的边界 2服务是独立的 3采用标准的契约定义和通信协议 4服务是自解释的