基本介绍及应用场景

Tunnel是MaxCompute提供的离线批量数据通道服务,主要提供大批量离线数据上传和下载,
仅提供每次批量大于等于64MB数据的场景,小批量流式数据场景请使用DataHub实时数据通道以获得更好的性能和体验。

SDK上传最佳实践

  1. import java.io.IOException;
  2. import java.util.Date;
  3. import com.aliyun.odps.Column;
  4. import com.aliyun.odps.Odps;
  5. import com.aliyun.odps.PartitionSpec;
  6. import com.aliyun.odps.TableSchema;
  7. import com.aliyun.odps.account.Account;
  8. import com.aliyun.odps.account.AliyunAccount;
  9. import com.aliyun.odps.data.Record;
  10. import com.aliyun.odps.data.RecordWriter;
  11. import com.aliyun.odps.tunnel.TableTunnel;
  12. import com.aliyun.odps.tunnel.TunnelException;
  13. import com.aliyun.odps.tunnel.TableTunnel.UploadSession;
  14. public class UploadSample {
  15. private static String accessId = "<your access id>";
  16. private static String accessKey = "<your access Key>";
  17. private static String odpsUrl = "http://service.odps.aliyun.com/api";
  18. private static String project = "<your project>";
  19. private static String table = "<your table name>";
  20. private static String partition = "<your partition spec>";
  21. public static void main(String args[]) {
  22. // 准备工作,仅需做一次
  23. Account account = new AliyunAccount(accessId, accessKey);
  24. Odps odps = new Odps(account);
  25. odps.setEndpoint(odpsUrl);
  26. odps.setDefaultProject(project);
  27. TableTunnel tunnel = new TableTunnel(odps);
  28. try {
  29. // 确定写入分区
  30. PartitionSpec partitionSpec = new PartitionSpec(partition);
  31. // 在服务端创建一个在本表本分区上有效期24小时的session,24小时内该session可以共计上传20000个Block数据
  32. // 创建Session的时耗为秒级,会在服务端使用部分资源、创建临时目录等,操作较重,因此强烈建议同一个分区数据尽可能复用Session上传。
  33. UploadSession uploadSession = tunnel.createUploadSession(project,
  34. table, partitionSpec);
  35. System.out.println("Session Status is : "
  36. + uploadSession.getStatus().toString());
  37. TableSchema schema = uploadSession.getSchema();
  38. // 准备数据后打开Writer开始写入数据,准备数据后写入一个Block,每个Block仅能成功上传一次,不可重复上传,CloseWriter成功代表该Block上传完成,失败可以重新上传该Block,同一个Session下最多允许20000个BlockId,即0-19999,若超出请CommitSession并且再创建一个新Session使用,以此类推。
  39. // 单个Block内写入数据过少会产生大量小文件 严重影响计算性能, 强烈建议每次写入64MB以上数据(100GB以内数据均可写入同一Block)
  40. // 可通过数据的平均大小与记录数量大致计算总量即 64MB < 平均记录大小*记录数 < 100GB
  41. // maxBlockID服务端限制为20000,用户可以根据自己业务需求,每个Session使用一定数量的block例如100个,但是建议每个Session内使用block越多越好,因为创建Session是一个很重的操作
  42. // 如果创建一个Session后仅仅上传少量数据,不仅会造成小文件、空目录等问题,还会严重影响上传整体性能(创建Session花费秒级,真正上传可能仅仅用了十几毫秒)
  43. int maxBlockID = 20000;
  44. for (int blockId = 0; blockId < maxBlockID; blockId++) {
  45. // 准备好至少64MB以上数据,准备完成后方可写入
  46. // 例如:读取若干文件或者从数据库中读取数据
  47. try {
  48. // 在该Block上创建一个Writer,writer创建后任意一段时间内,若某连续2分钟没有写入4KB以上数据,则会超时断开连接
  49. // 因此建议在创建writer前在内存中准备可以直接进行写入的数据
  50. RecordWriter recordWriter = uploadSession.openRecordWriter(blockId);
  51. // 将读取到的所有数据转换为Tunnel Record格式并切入
  52. int recordNumber = 1000000;
  53. for (int index = 0; i < recordNumber; i++) {
  54. // 将第index条原始数据转化为odps record
  55. Record record = uploadSession.newRecord();
  56. for (int i = 0; i < schema.getColumns().size(); i++) {
  57. Column column = schema.getColumn(i);
  58. switch (column.getType()) {
  59. case BIGINT:
  60. record.setBigint(i, 1L);
  61. break;
  62. case BOOLEAN:
  63. record.setBoolean(i, true);
  64. break;
  65. case DATETIME:
  66. record.setDatetime(i, new Date());
  67. break;
  68. case DOUBLE:
  69. record.setDouble(i, 0.0);
  70. break;
  71. case STRING:
  72. record.setString(i, "sample");
  73. break;
  74. default:
  75. throw new RuntimeException("Unknown column type: "
  76. + column.getType());
  77. }
  78. }
  79. // Write本条数据至服务端,每写入4KB数据会进行一次网络传输
  80. // 若120s没有网络传输服务端将会关闭连接,届时该Writer将不可用,需要重新写入
  81. recordWriter.write(record);
  82. }
  83. // close成功即代表该block上传成功,但是在整个Session Commit前,这些数据是在odps 临时目录中不可见的
  84. recordWriter.close();
  85. } catch (TunnelException e) {
  86. // 建议重试一定次数
  87. e.printStackTrace();
  88. System.out.println("write failed:" + e.getMessage());
  89. } catch (IOException e) {
  90. // 建议重试一定次数
  91. e.printStackTrace();
  92. System.out.println("write failed:" + e.getMessage());
  93. }
  94. }
  95. // 提交所有Block,uploadSession.getBlockList()可以自行指定需要提交的Block,Commit成功后数据才会正式写入Odps分区,Commit失败建议重试10次
  96. for (int retry = 0; retry < 10; ++retry) {
  97. try {
  98. // 秒级操作,正式提交数据
  99. uploadSession.commit(uploadSession.getBlockList());
  100. break;
  101. } catch (TunnelException e) {
  102. System.out.println("uploadSession commit failed:" + e.getMessage());
  103. } catch (IOException e) {
  104. System.out.println("uploadSession commit failed:" + e.getMessage());
  105. }
  106. }
  107. System.out.println("upload success!");
  108. } catch (TunnelException e) {
  109. e.printStackTrace();
  110. } catch (IOException e) {
  111. e.printStackTrace();
  112. }
  113. }
  114. }

构造器举例说明:

PartitionSpec(String spec):通过字符串构造此类对象。

参数:

spec: 分区定义字符串,比如: pt='1',ds='2'。
因此程序中应该这样配置:private static String partition = "pt='XXX',ds='XXX'";

常见问题

MaxCompute Tunnel是什么?

Tunnel是MaxCompute的数据通道,用户可以通过Tunnel向MaxCompute中上传或者下载数据。目前Tunnel仅支持表(不包括视图View)数据的上传下载。

BlockId是否可以重复?

同一个UploadSession里的blockId不能重复。也就是说,对于同一个UploadSession,用一个blockId打开RecordWriter,写入一批数据后,调用close,
然后再commit完成后,写入成功后不可以重新再用该blockId打开另一个RecordWriter写入数据。 Block默认最多20000个,即0-19999。

Block大小是否存在限制?

一个block大小上限 100GB,强烈建议大于64M的数据,每一个Block对应一个文件,小于64MB的文件统称为小文件,小文件过多将会影响使用性能。
使用新版BufferedWriter可以更简单的进行上传功能避免小文件等问题 Tunnel-SDK-BufferedWriter

Session是否可以共享使用,存在生命周期吗?

每个Session在服务端的生命周期为24小时,创建后24小时内均可使用,也可以跨进程/线程共享使用,但是必须保证同一个BlockId没有重复使用,分布式上传可以按照如下步骤:
创建Session->数据量估算->分配Block(例如线程1使用0-100,线程2使用100-200)->准备数据->上传数据->Commit所有写入成功的Block。

Session创建后不使用是否对系统有消耗?

每个Session在创建时会生成两个文件目录,如果大量创建而不使用,会导致临时目录增多,大量堆积时可能造成系统负担,请一定避免此类行为,尽量共享利用session。

遇到Write/Read超时或IOException怎么处理?

上传数据时,Writer每写入8KB数据会触发一次网络动作,如果120秒内没有网络动作,服务端将主动关闭连接,届时Writer将不可用,请重新打开一个新的Writer写入。

建议使用 [Tunnel-SDK-BufferedWriter]接口上传数据,该接口对用户屏蔽了blockId的细节,并且内部带有数据缓存区,会自动进行失败重试。

下载数据时,Reader也有类似机制,若长时间没有网络IO会被断开连接,建议Read过程连续进行中间不穿插其他系统的接口。

MaxCompute Tunnel目前有哪些语言的SDK?

MaxCompute Tunnel目前提供Java版的SDK。

MaxCompute Tunnel 是否支持多个客户端同时上传同一张表?

支持。

MaxCompute Tunnel适合批量上传还是流式上传

MaxCompute Tunnel用于批量上传,不适合流式上传,流式上传可以使用[DataHub高速流式数据通道],毫秒级延时写入。

MaxCompute Tunnel上传数据时一定要先存在分区吗?

是的,Tunnel不会自动创建分区。

Dship 与 MaxCompute Tunnel的关系?

dship是一个工具,通过MaxCompute Tunnel来上传下载。

Tunnel upload数据的行为是追加还是覆盖?

追加的模式。

Tunnel路由功能是怎么回事?

路由功能指的是Tunnel SDK通过设置MaxCompute获取Tunnel Endpoint的功能。因此,SDK可以只设置MaxCompute的endpoint来正常工作。

用MaxCompute Tunnel上传数据时,一个block的数据量大小多大比较合适

没有一个绝对最优的答案,要综合考虑网络情况,实时性要求,数据如何使用以及集群小文件等因素。一般,如果数量较大是持续上传的模式,可以在64M - 256M,
如果是每天传一次的批量模式,可以设大一些到1G左右

使用MaxCompute Tunnel 下载, 总是提示timeout

一般是endpoint错误,请检查Endpoint配置,简单的判断方法是通过telnet等方法检测网络连通性。

通过MaxCompute Tunnel下载,抛出You have NO privilege ‘odps:Select‘ on {acs:odps:*:projects/XXX/tables/XXX}. project ‘XXX‘ is protected的异常

该project开启了数据保护功能,用户操作这是从一个项目的数据导向另一个项目,这需要该project的owner操作。

Tunnel上传抛出异常ErrorCode=FlowExceeded, ErrorMessage=Your flow quota is exceeded.**

Tunnel对请求的并发进行了控制,默认上传和下载的并发Quota为2000,任何相关的请求发出到结束过程中均会占用一个Quota单位。若出现类似错误,有如下几种建议的解决方案:
1 sleep一下再重试;
2 将project的tunnel并发quota调大,需要联系管理员评估流量压力;
3 报告project owner调查谁占用了大量并发quota,控制一下。

原文链接
本文为云栖社区原创内容,未经允许不得转载。  

离线批量数据通道Tunnel的最佳实践及常见问题的更多相关文章

  1. js-新兴的API,最佳实践,离线应用于客户端存储

    离线应用于客户端存储: 1.离线检测:online以及offline事件,都是在window对象上触发 navigator.online为true的时候是表示设备能够上网 2.使用一个描述文件(man ...

  2. MaxCompute表设计最佳实践

    MaxCompute表设计最佳实践 产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从 而在做表设计的时候考虑避开此类操作. 使 ...

  3. mybatis 3.x源码深度解析与最佳实践(最完整原创)

    mybatis 3.x源码深度解析与最佳实践 1 环境准备 1.1 mybatis介绍以及框架源码的学习目标 1.2 本系列源码解析的方式 1.3 环境搭建 1.4 从Hello World开始 2 ...

  4. Web前端开发最佳实践(13):前端页面卡顿?可能是DOM操作惹的祸,你需要优化代码

    文档对象模型(DOM)是一个独立于特定语言的应用程序接口.在浏览器中,DOM接口是以JavaScript语言实现的,通过JavaScript来操作浏览器页面中的元素,这使得DOM成为了JavaScri ...

  5. 《HBase在滴滴出行的应用场景和最佳实践》

    HBase在滴滴出行的应用场景和最佳实践   背景 对接业务类型 HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时 ...

  6. AWS 架构最佳实践(十二)

    可靠性 基本概念 可靠性 系统从基础设施或服务故障中恢复.动态获取计算资源以满足需求减少中断的能力 系统为最坏情况做好准备,对不同组件实施缓解措施,对恢复程序进行提前测试并且自动执行. 可靠性实践 测 ...

  7. [转]Ethereum-智能合约最佳实践

    主要章节如下: Solidity安全贴士 已知的攻击手段 竞态 可重入 交易顺序依赖 针对Gas的攻击 上溢/下溢 工程技术 参考文献 这篇文档旨在为Solidity开发人员提供一些智能合约的secu ...

  8. [转]10个有关RESTful API良好设计的最佳实践

    Web API已经在最近几年变成重要的话题,一个干净的API设计对于后端系统是非常重要的. 通常我们为Web API使用RESTful设计,REST概念分离了API结构和逻辑资源,通过Http方法GE ...

  9. memcache的最佳实践方案

    1.memcached的基本设置 1)启动Memcache的服务器端 # /usr/local/bin/memcached -d -m 10 -u root -l 192.168.0.200 -p 1 ...

随机推荐

  1. ARTS Challenge- Week 1 (2019.03.25~2019.03.31)

    1.Algorithm - at least one leetcode problem per week(Medium+) 986. Interval List Intersections https ...

  2. 用户注册之后,通过网易邮箱服务器(smtp.163.com)发送电子邮箱到注册者邮箱的的确认通知短信.(可根据需求自行调整)

    Member 是数据实体,穿过来的也就是当前注册用户的信息. 存储的数据一定要有邮箱信息 private void SendAuthCodeToMember(Member member)        ...

  3. node简介

    1. Node.js是什么? 简单的说 Node.js 就是运行在服务端的 JavaScript. Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台. Node.js ...

  4. dedecms 后台可以上传mp4,但无法选择

    原文链接 找到 /include/dialog/select_media.php 找到rmvb,在其后面加 “|mp4” 即可. 1

  5. Redis安装、命令以及设置密码遇到的问题

    一.下载Redis 如果没有 安装wget先安装wget和gcc(使用make的时候会用上) wget http://download.redis.io/releases/redis-4.0.8.ta ...

  6. python3脚本打开摄像头

    openCamera 脚本地址:https://github.com/Mrlshadows/openCamera Mac OS 安装 OpenCV Python 环境为 python3 终端执行如下指 ...

  7. Java作业七(2017-10-30)

    /*造人*/ public class Tman { public int id; public String name; public int age; public String city; pu ...

  8. Mesos源码分析(4) Mesos Master的启动之三

    3. ModuleManager::load(flags.modules.get())如果有参数--modules或者--modules_dir=dirpath,则会将路径中的so文件load进来   ...

  9. ASP.NET WebApi OWIN 实现 OAuth 2.0(自定义获取 Token)

    相关文章:ASP.NET WebApi OWIN 实现 OAuth 2.0 之前的项目实现,Token 放在请求头的 Headers 里面,类似于这样: Accept: application/jso ...

  10. java 23种设计模式 深入理解【转】

    以下是学习过程中查询的资料,别人总结的资料,比较容易理解(站在各位巨人的肩膀上,望博主勿究) 创建型抽象工厂模式 http://www.cnblogs.com/java-my-life/archive ...