如何让FasterTransformer支持动态batch和动态sequence length

FasterTransformer 算子

nvidia在开源的FasterTransformer的代码中，提供tensorrt和tensorflow的自定义算子编译和py调用示例，详见FasterTransformer.py。但是如果使用tensorflow的自定义算子十分不方便，其batch size 和 sequence length都是固定的。现在提供一种方法让其变成动态的，方法如下：

修改bert_transformer_op.cc，将batch_size，from_seq_len，to_seq_len attr属性去掉，改称input参数，代码如下：

   .Input("output_bias: T")

   .Input("output_layernorm_beta: T")

   .Input("output_layernorm_gamma: T")

+  .Input("batch_size: int32")

+  .Input("from_seq_len: int32")

   .Output("output: T")

   .Attr("T: {float, half}")

-  .Attr("batch_size: int >= 1")

-  .Attr("from_seq_len: int >= 1")

-  .Attr("to_seq_len: int >= 1")

+  //.Attr("batch_size: int >= 1")

+  //.Attr("from_seq_len: int >= 1")

+  //.Attr("to_seq_len: int >= 1")

   .Attr("head_num: int >= 1")

   .Attr("size_per_head: int >= 1")

   .SetShapeFn([](shape_inference::InferenceContext *c) {

       int batch_size, from_seq_len, to_seq_len, head_num, size_per_head;

-      c->GetAttr("batch_size", &batch_size);

-      c->GetAttr("from_seq_len", &from_seq_len);

-      c->GetAttr("to_seq_len", &to_seq_len);

+      //c->GetAttr("batch_size", &batch_size);

+      //c->GetAttr("from_seq_len", &from_seq_len);

+      //c->GetAttr("to_seq_len", &to_seq_len);

       c->GetAttr("head_num", &head_num);

       c->GetAttr("size_per_head", &size_per_head);

-      c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));

+      //c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));

+      c->set_output(0, c->input(0));

       return Status::OK();

       });

 template <typename Device, typename T>

@@ -70,14 +71,15 @@ class BertTransformerOp : public OpKernel

   public:

     explicit BertTransformerOp(OpKernelConstruction *context) : OpKernel(context)

     {

-      OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));

-      OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));

-      OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));

+      //OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));

+      //OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));

+      //OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));

       OP_REQUIRES_OK(context, context->GetAttr("head_num", &head_num_));

       OP_REQUIRES_OK(context, context->GetAttr("size_per_head", &size_per_head_));

-      OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),

-          errors::InvalidArgument("Only support from_seq_len == to_seq_len"));

+      //printf("++++++++ %d =%d \n", from_seq_len_, to_seq_len_)

+      //OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),

+      ///    errors::InvalidArgument("Only support from_seq_len == to_seq_len"));

       try

       {

@@ -95,6 +97,11 @@ class BertTransformerOp : public OpKernel

       BertEncoderTransformer<EncoderTraits_> *encoder_transformer_;

       try

       {

+

+        batch_size_ = context->input(19).flat<int32>().size()/3;

+        from_seq_len_ = context->input(20).flat<int32>().size()/3;

+        to_seq_len_ = from_seq_len_;

+        //printf("==>%d %d\n", batch_size_, from_seq_len_);

         fastertransformer::Allocator<AllocatorType::TF> allocator_(context);

         encoder_transformer_ = new BertEncoderTransformer<EncoderTraits_>(allocator_,

           batch_size_, from_seq_len_, to_seq_len_, head_num_, size_per_head_);

@@ -104,7 +111,7 @@ class BertTransformerOp : public OpKernel

         OP_REQUIRES(context, false, errors::Internal(error.what()));

       }

-      OP_REQUIRES(context, context->num_inputs() == 19, errors::InvalidArgument("Less input arguments"));

+      OP_REQUIRES(context, context->num_inputs() == 21, errors::InvalidArgument("Less input arguments"));

       EncoderInitParam<DataType_> param; //init param here

由于input在cuda的显存中，直接读取input的数值是不可能的(把数值从显存拷贝内存中，比较耗时)，但是我们可以在内存中直接读取形状的size，我们伪造一个形状的size，通过这个size来获取batch_size 和 seq_len。

FasterTransformer.py修改如下:

    ...

    fast_list_tensor = tf.shape(input_tensor)

    ...

    layer_output = transformer_op_module.bert_transformer(

        layer_input,

        layer_input,

        trainable_vars[0], trainable_vars[2], trainable_vars[4], trainable_vars[1], trainable_vars[3], trainable_vars[5],

        attention_mask,

        trainable_vars[6], trainable_vars[7], trainable_vars[8], trainable_vars[9], trainable_vars[10], trainable_vars[11],

        trainable_vars[12], trainable_vars[13], trainable_vars[14], trainable_vars[15], tf.tile([[1],[2],[3]], [1,fast_list_tensor[0]]),

        tf.tile([[1],[2],[3]], [1,fast_list_tensor[1]]),

        #batch_size=batch_size,

        #from_seq_len=seq_length,

        #to_seq_len=seq_length,

        head_num=num_attention_heads, size_per_head=attention_head_size)

通过以上修改，我们在使用transformer_op_module的时候，就不需要强制指定batch size 和 seq length了，表示生成模型的时候，类似这么配置：

input_ids = tf.placeholder(tf.int32,(None, None), 'input_ids')

input_mask = tf.placeholder(tf.float32,(None, None), 'input_mask')

input_type_ids = tf.placeholder(tf.int32,(None, None), 'input_type_ids')

便可以生成支持动态batch和动态seq len的tensorflow模型了。

如何让FasterTransformer支持动态batch和动态sequence length的更多相关文章

Spark Streaming揭秘 Day20 动态Batch size实现初探(上)
Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
180729-Quick-Task 动态脚本支持框架之任务动态加载
Quick-Task 动态脚本支持框架之任务动态加载前面几篇博文分别介绍了整个项目的基本架构,使用说明,以及整体框架的设计与实现初稿,接下来则进入更细节的实现篇,将整个工程中核心实现捞出来,从为什么 ...
C++ Primer : 第十二章 : 动态内存之动态数组
动态数组的分配和释放 new和数组 C++语言和标准库提供了一次分配一个对象数组的方法,定义了另一种new表达式语法.我们需要在类型名后跟一对方括号,在其中指明要分配的对象的数目. int* arr ...
【C#】使用Gsof.Native 动态调用 C动态库
[C#] 使用Gsof.Native 动态调用 C动态库一.背景使用C# 开发客户端时候,我们经常会调用一些标准的动态库或是C的类库.虽然C# 提供的PInvoke的方式,但因为使用的场景的多变, ...
技术的正宗与野路子 c#, AOP动态代理实现动态权限控制（一）探索基于.NET下实现一句话木马之asmx篇 asp.net core 系列 9 环境(Development、Staging 、Production)
黄衫女子的武功似乎与周芷若乃是一路,飘忽灵动,变幻无方,但举手抬足之间却是正而不邪,如说周芷若形似鬼魅,那黄衫女子便是态拟神仙. 这段描写出自<倚天屠龙记>第三十八回. “九阴神抓”本是& ...
C# 动态类型与动态编译简介
关于C#的动态类型与动态编译的简介,主要是一个Demo. 动态类型关键字: dynamic 这里有详细的介绍:[C#基础知识系列]专题十七:深入理解动态类型动态类型的应用场景可以减少强制转换(强 ...
java 动态代理和动态编程
概述代理分两种技术,一种是jdk代理(机制就是反射,只对接口操作),一种就是字节码操作技术.前者不能算技术,后者算是新的技术.未来将有大的动作或者较为广泛的应用和变革,它可以实现代码自我的编码(人工 ...

随机推荐

我对line-height及vertical-align的一点理解
张鑫旭老师在文章<我对CSS vertical-align的一些理解与认识(一)>中提到: vertical-align:middle属性的表现与否,仅仅与其父标签有关,至于我们通常看到的 ...
ACM-ICPC 2018 青岛赛区网络预赛 J. Press the Button（数学）
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=4056 题意:有一个按钮,时间倒计器和计数器,在时间[0,t]内, ...
[Svelte 3] Use an onMount lifecycle method to fetch and render data in Svelte 3
Every Svelte component has a lifecycle that starts when it is created, and ends when it is destroyed ...
牛客练习赛52 B题【树状数组维护区间和{查询区间和，如果区间元素重复出现则计数一次}】补题ing
[题目] 查询区间和,如果区间元素重复出现则计数一次. 链接:https://ac.nowcoder.com/acm/contest/1084/B [题解] 将询问按r排序,维护每个数最后出现的位置, ...
map(callback)将一组元素转换成其他数组（不论是否是元素数组）
map(callback) 概述将一组元素转换成其他数组(不论是否是元素数组) 你可以用这个函数来建立一个列表,不论是值.属性还是CSS样式,或者其他特别形式.这都可以用'$.map()'来方便的建 ...
filter(expr|obj|ele|fn)筛选出与指定表达式匹配的元素集合。
filter(expr|obj|ele|fn) 概述筛选出与指定表达式匹配的元素集合. 这个方法用于缩小匹配的范围.用逗号分隔多个表达式参数 exprStringV1.0 字符串值,包含供匹配当前 ...
BZOJ 1706: [usaco2007 Nov]relays 奶牛接力跑倍增Floyd
题不难,但是一开始把读入看错了,调了半天qaq~ Code: #include <bits/stdc++.h> #define N 300 #define setIO(s) freopen ...
北京清北综合强化班 Day1
a [问题描述]你是能看到第一题的 friends呢. —— hja何大爷对字符串十分有 ...
Neo4j 简介 2019
Neo4j是一个世界领先的开源图形数据库,由 Java 编写.图形数据库也就意味着它的数据并非保存在表或集合中,而是保存为节点以及节点之间的关系. Neo4j 的数据由下面几部分构成: 节点边属性Ne ...
sass 插值语句的使用
定义了一个 px 转 rem 的函数 @function remP($px) { @return $px / (750 / 15) * 1rem; } 在使用 calc 的时候想要使用函数求值的时候遇 ...

如何让FasterTransformer支持动态batch和动态sequence length

FasterTransformer 算子

如何让FasterTransformer支持动态batch和动态sequence length的更多相关文章

随机推荐

热门专题