FasterTransformer 算子

nvidia在开源的FasterTransformer的代码中,提供tensorrt和tensorflow的自定义算子编译和py调用示例,详见FasterTransformer.py。但是如果使用tensorflow的自定义算子十分不方便,其batch size 和 sequence length都是固定的。现在提供一种方法让其变成动态的,方法如下:

  1. 修改bert_transformer_op.cc,将batch_size,from_seq_len,to_seq_len attr属性去掉,改称input参数,代码如下:
   .Input("output_bias: T")
.Input("output_layernorm_beta: T")
.Input("output_layernorm_gamma: T")
+ .Input("batch_size: int32")
+ .Input("from_seq_len: int32")
.Output("output: T")
.Attr("T: {float, half}")
- .Attr("batch_size: int >= 1")
- .Attr("from_seq_len: int >= 1")
- .Attr("to_seq_len: int >= 1")
+ //.Attr("batch_size: int >= 1")
+ //.Attr("from_seq_len: int >= 1")
+ //.Attr("to_seq_len: int >= 1")
.Attr("head_num: int >= 1")
.Attr("size_per_head: int >= 1")
.SetShapeFn([](shape_inference::InferenceContext *c) {
int batch_size, from_seq_len, to_seq_len, head_num, size_per_head;
- c->GetAttr("batch_size", &batch_size);
- c->GetAttr("from_seq_len", &from_seq_len);
- c->GetAttr("to_seq_len", &to_seq_len);
+ //c->GetAttr("batch_size", &batch_size);
+ //c->GetAttr("from_seq_len", &from_seq_len);
+ //c->GetAttr("to_seq_len", &to_seq_len);
c->GetAttr("head_num", &head_num);
c->GetAttr("size_per_head", &size_per_head);
- c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));
+ //c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));
+ c->set_output(0, c->input(0));
return Status::OK();
});
template <typename Device, typename T>
@@ -70,14 +71,15 @@ class BertTransformerOp : public OpKernel
public:
explicit BertTransformerOp(OpKernelConstruction *context) : OpKernel(context)
{
- OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));
- OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));
- OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));
+ //OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));
+ //OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));
+ //OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));
OP_REQUIRES_OK(context, context->GetAttr("head_num", &head_num_));
OP_REQUIRES_OK(context, context->GetAttr("size_per_head", &size_per_head_)); - OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),
- errors::InvalidArgument("Only support from_seq_len == to_seq_len"));
+ //printf("++++++++ %d =%d \n", from_seq_len_, to_seq_len_)
+ //OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),
+ /// errors::InvalidArgument("Only support from_seq_len == to_seq_len")); try
{
@@ -95,6 +97,11 @@ class BertTransformerOp : public OpKernel
BertEncoderTransformer<EncoderTraits_> *encoder_transformer_;
try
{
+
+ batch_size_ = context->input(19).flat<int32>().size()/3;
+ from_seq_len_ = context->input(20).flat<int32>().size()/3;
+ to_seq_len_ = from_seq_len_;
+ //printf("==>%d %d\n", batch_size_, from_seq_len_);
fastertransformer::Allocator<AllocatorType::TF> allocator_(context);
encoder_transformer_ = new BertEncoderTransformer<EncoderTraits_>(allocator_,
batch_size_, from_seq_len_, to_seq_len_, head_num_, size_per_head_);
@@ -104,7 +111,7 @@ class BertTransformerOp : public OpKernel
OP_REQUIRES(context, false, errors::Internal(error.what()));
} - OP_REQUIRES(context, context->num_inputs() == 19, errors::InvalidArgument("Less input arguments"));
+ OP_REQUIRES(context, context->num_inputs() == 21, errors::InvalidArgument("Less input arguments")); EncoderInitParam<DataType_> param; //init param here

由于input在cuda的显存中,直接读取input的数值是不可能的(把数值从显存拷贝内存中,比较耗时),但是我们可以在内存中直接读取形状的size,我们伪造一个形状的size,通过这个size来获取batch_size 和 seq_len。

  1. FasterTransformer.py修改如下:
    ...
fast_list_tensor = tf.shape(input_tensor)
...
layer_output = transformer_op_module.bert_transformer(
layer_input,
layer_input,
trainable_vars[0], trainable_vars[2], trainable_vars[4], trainable_vars[1], trainable_vars[3], trainable_vars[5],
attention_mask,
trainable_vars[6], trainable_vars[7], trainable_vars[8], trainable_vars[9], trainable_vars[10], trainable_vars[11],
trainable_vars[12], trainable_vars[13], trainable_vars[14], trainable_vars[15], tf.tile([[1],[2],[3]], [1,fast_list_tensor[0]]),
tf.tile([[1],[2],[3]], [1,fast_list_tensor[1]]),
#batch_size=batch_size,
#from_seq_len=seq_length,
#to_seq_len=seq_length,
head_num=num_attention_heads, size_per_head=attention_head_size)
  1. 通过以上修改,我们在使用transformer_op_module的时候,就不需要强制指定batch size 和 seq length了, 表示生成模型的时候,类似这么配置:
input_ids = tf.placeholder(tf.int32,(None, None), 'input_ids')
input_mask = tf.placeholder(tf.float32,(None, None), 'input_mask')
input_type_ids = tf.placeholder(tf.int32,(None, None), 'input_type_ids')

便可以生成支持动态batch和动态seq len的tensorflow模型了。

如何让FasterTransformer支持动态batch和动态sequence length的更多相关文章

  1. Spark Streaming揭秘 Day20 动态Batch size实现初探(上)

    Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...

  2. Spark Streaming中动态Batch Size实现初探

    本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...

  3. Spark Streaming揭秘 Day21 动态Batch size实现初探(下)

    Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法 动态调整采用了Fix-point迭代算法, ...

  4. 180729-Quick-Task 动态脚本支持框架之任务动态加载

    Quick-Task 动态脚本支持框架之任务动态加载 前面几篇博文分别介绍了整个项目的基本架构,使用说明,以及整体框架的设计与实现初稿,接下来则进入更细节的实现篇,将整个工程中核心实现捞出来,从为什么 ...

  5. C++ Primer : 第十二章 : 动态内存之动态数组

    动态数组的分配和释放 new和数组 C++语言和标准库提供了一次分配一个对象数组的方法,定义了另一种new表达式语法.我们需要在类型名后跟一对方括号,在其中指明要分配的对象的数目. int* arr ...

  6. 【C#】 使用Gsof.Native 动态调用 C动态库

    [C#] 使用Gsof.Native 动态调用 C动态库 一.背景 使用C# 开发客户端时候,我们经常会调用一些标准的动态库或是C的类库.虽然C# 提供的PInvoke的方式,但因为使用的场景的多变, ...

  7. 技术的正宗与野路子 c#, AOP动态代理实现动态权限控制(一) 探索基于.NET下实现一句话木马之asmx篇 asp.net core 系列 9 环境(Development、Staging 、Production)

    黄衫女子的武功似乎与周芷若乃是一路,飘忽灵动,变幻无方,但举手抬足之间却是正而不邪,如说周芷若形似鬼魅,那黄衫女子便是态拟神仙. 这段描写出自<倚天屠龙记>第三十八回. “九阴神抓”本是& ...

  8. C# 动态类型与动态编译简介

    关于C#的动态类型与动态编译的简介,主要是一个Demo. 动态类型 关键字: dynamic 这里有详细的介绍:[C#基础知识系列]专题十七:深入理解动态类型 动态类型的应用场景 可以减少强制转换(强 ...

  9. java 动态代理 和动态编程

    概述 代理分两种技术,一种是jdk代理(机制就是反射,只对接口操作),一种就是字节码操作技术.前者不能算技术,后者算是新的技术.未来将有大的动作或者较为广泛的应用和变革,它可以实现代码自我的编码(人工 ...

随机推荐

  1. DNS服务基础

    DNS服务器的功能 – 正向解析:根据注册的域名查找其对应的IP地址 – 反向解析:根据IP地址查找对应的注册域名(不常用) NS(声明DNS记录) A(正向解析记录) CNAME(解析记录别名) 安 ...

  2. Luogu P2567 [SCOI2010]幸运数字 容斥+脑子

    双倍经验:BZOJ 2393 Cirno的完美算数教室 做法:先把$[1,r]$中所有的幸运数字筛出来,然后用这些幸运数字来筛$[l,r]$中的近似幸运号码: 剪枝:当一个幸运数字$a[i]$是另一个 ...

  3. prev([expr]) 取得一个包含匹配的元素集合中每一个元素紧邻的前一个同辈元素的元素集合。

    prev([expr]) 概述 取得一个包含匹配的元素集合中每一个元素紧邻的前一个同辈元素的元素集合. 可以用一个可选的表达式进行筛选.只有紧邻的同辈元素会被匹配到,而不是前面所有的同辈元素.直线电机 ...

  4. Go位运算

    目录 &(AND) |(OR) ^(XOR) &^(AND NOT) << 和 >> & 位运算 AND | 位运算 OR ^ 位运算 XOR & ...

  5. 【CUDA 基础】5.6 线程束洗牌指令

    title: [CUDA 基础]5.6 线程束洗牌指令 categories: - CUDA - Freshman tags: - 线程束洗牌指令 toc: true date: 2018-06-06 ...

  6. Linux之静态库

    命名规则: lib + 库的名字 + .a 制作步骤 生成对应.o文件  .c à .o 将生成的.o文件打包   ar rcs + 静态库的名字(libMytest.a) + 生成的所有的.o 发布 ...

  7. node中的koa2

    创建koa2工程 首先,我们创建一个目录hello-koa并作为工程目录用VS Code打开.然后,我们创建app.js,输入以下代码: // 导入koa,和koa 1.x不同,在koa2中,我们导入 ...

  8. 【洛谷2053】 [SCOI2007]修车(费用流)

    传送门 洛谷 Solution 考虑把每一个修车工人拆成\(n\)个点,那么考虑令\(id(i,j)\)为第\(i\)个工人倒数第\(j\)次修车. 然后就可以直接跑费用流了!!! 代码实现 /* m ...

  9. 在CUDA8.0下指定位置编译安装OpenCV3.1.0来实现GPU加速(Compiling OpenCV3.1.0 with CUDA8.0 support)

    在CUDA8.0下指定位置编译安装OpenCV3.1.0 一.本人电脑配置:ubuntu 14.04, NVIDIA GTX1060. 二.编译OpenCV3.1.0前,读者需要成功安装CUDA8.0 ...

  10. Docker+Rancher构建部署流水线

    工作多年,在项目部署方面, 1:以前用ftp或者rz上传更新的,每次更新算上打包.目录切换.更新遗漏.备份.出错还原.启动等工作都得搞上一来小时甚至更长,要是多两台服务器那心都凉了: 2:后来有用sv ...