摘要:这是关于一次 Ascend 在线实验的记录,主要内容是通过网络模型加载、推理、结果输出的部署全流程展示,从而快速熟悉并掌握 ACL(Ascend Computing Language)基本开发流程。

本文分享自华为云社区《基于昇腾CANN的推理应用开发快速体验(Python)》,作者: Tianyi_Li 。

前情提要

这是关于一次 Ascend 在线实验的记录,主要内容是通过网络模型加载、推理、结果输出的部署全流程展示,从而快速熟悉并掌握 ACL(Ascend Computing Language)基本开发流程。

注意,为了保证学习和体验效果,用户应该具有以下知识储备:

1.熟练的Python语言编程能力

2.深度学习基础知识,理解神经网络模型输入输出数据结构

1. 目录

2. 最终目标

1.了解ACL的基本概念,清楚ACL具备哪些能力,能为我们做什么

2.了解ACL定义的编程模型,理解各类运行资源的概念及其相互关系

3.能够区分Host和Device的概念,并学会管理这两者各自的内存

4.加载一个离线模型进行推理,并为推理准备输入输出数据结构

3. 基础知识

3.1 ATC介绍

ATC(Ascend Tensor Compiler)是华为昇腾软件栈提供的一个编译工具,它的主要功能是将基于开源框架的网络模型(如 Caffe、TensorFlow 等)以及单算子 Json 文件,转换成昇腾AI处理器支持的离线模型 Offline-Model 文件(简称OM文件)。在编译过程中,可以实现算子调度的优化、权值数据重排、内存使用优化等,并且可以脱离设备完成模型的预处理。更详细的ATC介绍,可参看官方文档 。

需要说明的是,理论上对于华为自研 AI 计算框架 MindSpore 的支持会更加友好。

3.2 ACL介绍

对已训练好的权重文件,比如 Caffe框架下的 caffemodel, TensorFlow框架下得到的 checkpoint 或者 pb 文件,再经过 ATC 工具转换后得到的离线模型文件,ACL(Ascend Computing Language,昇腾计算语言)提供了一套用于在昇腾系列处理器上进行加速计算的API。基于这套API,您能够管理和使用昇腾软硬件计算资源,并进行机器学习相关计算。更详细的ACL介绍,可参看官方文档 。

最新版本支持 onnx 模型和 MindSpore 模型转换为离线模型文件,甚至可以直接通过MindSpore进行部署和推理。

当前 ACL 提供了 C/C++ 和 Python 编程接口,能够很方便的帮助开发者达成包括但不限于如下这些目标:

1.加载深度学习模型进行推理

2.加载单算子进行计算

3.图像、视频数据的预处理

4. 准备工作

最终结果是使用 Resnet50 对 3 张图片进行分类推理。为了达成这个结果,首先我们准备了如下两个素材:

  • 三张待推理分类的图片数据,如:

  • 使用ATC工具,将 tensorflow 的 googlenet.pb 模型转换成昇腾支持的om(offine-model) 文件。

推理后我们将打印每张图片置信度排前5位的标签及其置信度。

5. 开始

5.1 初始化

在开始调用ACL的任何接口之前,首先要做ACL的初始化。初始化的代码很简单,只有一行:

  1. acl.init(config_path)

这个接口调用会帮您准备好ACL的运行时环境。其中调用时传入的参数是一个配置文件在磁盘上的路径,这里暂时不必关注。

有初始化就有去初始化,在确定完成了ACL的所有调用之后,或者进程退出之前,要做去初始化操作,接口调用也十分简单:

  1. acl.finalize()

导入Python包:

  1. import argparse
  2. import numpy as np
  3. import struct
  4. import acl
  5. import os
  6. from PIL import Image

接口介绍:

函数示例:

  1. def init():
  2. ret = acl.init()
  3. check_ret("acl.init", ret)

5.2 申请计算资源

想要使用昇腾处理器提供的加速计算能力,需要对运行管理资源申请,包括Device、Context、Stream。且需要按顺序申请,主要涉及以下三个接口:

  1. acl.rt.set_device(device_id)

这个接口指定计算设备,告诉运行时环境我们想要用哪个设备,或者更具体一点,哪个芯片。但是要注意,芯片和我们在这里传入的编号之间并没有物理上的一一对应关系。

  1. acl.rt.create_context(device_id)

Context作为一个容器,管理了所有对象(包括Stream、Event、设备内存等)的生命周期。不同Context的Stream、不同Context的Event是完全隔离的,无法建立同步等待关系。个人理解为,如果计算资源足够的话,可以创建多个Context,分别运行不同的应用,来提高硬件利用率,而不用担心应用之间的互相干扰,类似于Docker。

  1. acl.rt.create_stream()

Stream用于维护一些异步操作的执行顺序,确保按照应用程序中的代码调用顺序在Device上执行。基于Stream的kernel执行和数据传输能够实现Host运算操作、Host与Device间的数据传输、Device内的运算并行。

接口介绍:

函数示例:

  1. import sys
  2. import os
  3. from IPython.core.interactiveshell import InteractiveShell
  4. InteractiveShell.ast_node_interactivity = "all"
  5.  
  6. home_path = !echo ${HOME}
  7. sys.path.append(os.path.join(home_path[0] , "jupyter-notebook/"))
  8. print('System init success.')
  9.  
  10. # atlas_utils是本团队基于pyACL封装好的一套工具库,如果您也想引用的话,请首先将
  11. # https://gitee.com/ascend/samples/tree/master/python/common/atlas_utils
  12. # 这个路径下的代码引入您的工程中
  13. from atlas_utils.acl_resource import AclResource
  14. from constants import *
  15.  
  16. # 创建一个AclResource类的实例
  17. acl_resource = AclResource()
  18. #AscendCL资源初始化(封装版本)
  19. acl_resource.init()
  20.  
  21. # 上方“init”方法具体实现(仅供参考)
  22. # 请阅读“init(self)”方法,观察初始化和运行时资源申请的详细操作步骤
  23. def init(self):
  24. """
  25. Init resource
  26. """
  27. print("init resource stage:")
  28. ret = acl.init()
  29. utils.check_ret("acl.init", ret)
  30. #指定用于运算的Device
  31. ret = acl.rt.set_device(self.device_id)
  32. utils.check_ret("acl.rt.set_device", ret)
  33. print("Set device n success.")
  34.  
  35. #显式创建一个Context
  36. self.context, ret = acl.rt.create_context(self.device_id)
  37. utils.check_ret("acl.rt.create_context", ret)
  38.  
  39. #创建一个Stream
  40. self.stream, ret = acl.rt.create_stream()
  41. utils.check_ret("acl.rt.create_stream", ret)
  42.  
  43. #获取当前昇腾AI软件栈的运行模式
  44. #0:ACL_DEVICE,表示运行在Device的Control CPU上或开发者版上
  45. #1:ACL_HOST,表示运行在Host CPU上
  46. self.run_mode, ret = acl.rt.get_run_mode()
  47. utils.check_ret("acl.rt.get_run_mode", ret)
  48.  
  49. print("Init resource success")

需要说明的是这里使用了 atlas_utils ,这是昇腾团队基于 pyACL 封装好的一套工具库,可以更加便捷的使用,但可能存在更新不及时的问题,也不易于优化提升,以及个人学习理解,建议能不用,则不用。

5.3 加载模型

既然要调用模型进行推理,首先当然是要把模型加载进来。ACL 提供了多种模型加载和内存管理方式,这里我们只选取其中相对简单的一种,即从磁盘上加载离线模型,并且加载后的模型内存由ACL自动管理:

  1. model_path = "./model/resnet50.om"; # 模型文件在磁盘上的路径
  2. model_id, ret = acl.mdl.load_from_file(model_path) # 加载模型

其中,model_id 是系统完成模型加载后生成的模型ID对应的指针对象,加载后生成的model_id,全局唯一。

记得这个“model_id”,后边我们使用模型进行推理,以及卸载模型的时候还要用到。

有加载自然就有卸载,模型卸载的接口比较简单:

  1. acl.mdl.unload(model_id)

至此,您脑海中应该有这样一个概念,即使用了任何的资源,加载了任何的素材,都要记得用完后销毁和卸载。这点对于使用 C/C++编程的同学应该很好理解。

接口介绍:

函数示例:

  1. def load_model(model_path):
  2. model_path = "./model/googlenet_yuv.om"
  3. model_id, ret = acl.mdl.load_from_file(model_path)
  4. check_ret("acl.mdl.load_from_file", ret)
  5. return model_id

5.4 获取模型信息

模型描述需要特殊的数据类型,使用以下函数来创建并获取该数据类型。

  1. acl.mdl.create_desc()
  2. acl.mdl.get_desc(model_desc, model_id)

获取到模型类型后,还需要根据该类型来获取模型的输入输出个数,调用函数如下:

  1. acl.mdl.get_num_inputs(model_desc)
  2. acl.mdl.get_num_outputs(model_desc)

接口介绍:

函数示例:

  1. def get_model_data(model_id):
  2. global model_desc
  3. model_desc = acl.mdl.create_desc()
  4. ret = acl.mdl.get_desc(model_desc, model_id)
  5. check_ret("acl.mdl.get_desc", ret)
  6.  
  7. input_size = acl.mdl.get_num_inputs(model_desc)
  8. output_size = acl.mdl.get_num_outputs(model_desc)
  9. return input_size, output_size

5.5 申请device内存

要使用 NPU 进行加速计算,首先要申请能够被 NPU 直接访问到的专用内存。在讲解内存申请之前,首先我们要区分如下两个概念:

Host:Host指与Device相连接的X86服务器、ARM服务器,会利用Device提供的NN(Neural-Network )计算能力,完成业务。

Device:Device指安装了芯片的硬件设备,利用PCIe接口与Host侧连接,为Host提供NN计算能力。

简而言之,我们的数据需要先从Host侧进行加载,即读进Host侧内存,随后将其拷贝到Device侧内存,才能进行计算。计算后的结果还要传回Host侧才能进行使用。

申请Device侧内存:

  1. dev_ptr, ret = acl.rt.malloc(size, policy) # 申请device侧内存

其中,dev_ptr是device侧内存指针,size是device侧内存大小。

这里我们分配了跟Host侧同样大小的内存,准备用于在Device侧存放推理数据。本接口最后一个参数policy是内存分配规则。

  1. ACL_MEM_MALLOC_HUGE_FIRST ----- 优先申请大页内存,如果大页内存不够,则使用普通页的内存。
  2. ACL_MEM_MALLOC_HUGE_ONLY ----- 仅申请大页,如果大页内存不够,则返回错误。
  3. ACL_MEM_MALLOC_NORMAL_ONLY ----- 仅申请普通页。

使用完别忘了释放申请过的内存:acl.rt.malloc-> acl.rt.free,切记!!!

接口介绍:

函数示例:

  1. def gen_data_buffer(size, des):
  2. global model_desc
  3. func = buffer_method[des]
  4. for i in range(size):
  5. temp_buffer_size = acl.mdl.get_output_size_by_index(model_desc, i)
  6. temp_buffer, ret = acl.rt.malloc(temp_buffer_size,
  7. const.ACL_MEM_MALLOC_NORMAL_ONLY)
  8. check_ret("acl.rt.malloc", ret)
  9. if des == "in":
  10. input_data.append({"buffer": temp_buffer,
  11. "size": temp_buffer_size})
  12. elif des == "out":
  13. output_data.append({"buffer": temp_buffer,
  14. "size": temp_buffer_size})
  15.  
  16. def malloc_device(input_num, output_num):
  17. gen_data_buffer(input_num, des="in")
  18. gen_data_buffer(output_num, des="out")

5.6 图片处理(DVPP)

数字视觉预处理模块(DVPP)作为昇腾AI软件栈中的编解码和图像转换模块,为神经网络发挥着预处理辅助功能。当来自系统内存和网络的视频或图像数据进入昇腾AI处理器的计算资源中运算之前,由于Davinci架构对输入数据有固定的格式要求,如果数据未满足架构规定的输入格式、分辨率等要求,就需要调用数字视觉处理模块进行格式的转换,才可以进行后续的神经网络计算步骤。

DVPP相关接口介绍:

读取、初始化图片:

  1. AclImage(image_file)

图片预处理:

  1. yuv_image=jpegd(image)

将输入图片缩放为输出尺寸:

  1. resized_image = _dvpp.resize(yuv_image, MODEL_WIDTH, MODEL_HEIGHT)

函数示例:

  1. def image_process_dvpp():
  2. global run_mode
  3. global images_list
  4.  
  5. stream, ret = acl.rt.create_stream()
  6. check_ret("acl.rt.create_stream", ret)
  7.  
  8. run_mode, ret = acl.rt.get_run_mode()
  9. check_ret("acl.rt.get_run_mode", ret)
  10.  
  11. _dvpp = Dvpp(stream, run_mode)
  12. _dvpp.init_resource()
  13. IMG_EXT = ['.jpg', '.JPG', '.png', '.PNG', '.bmp', '.BMP', '.jpeg', '.JPEG']
  14. images_list = [os.path.join("./data", img)
  15. for img in os.listdir("./data")
  16. if os.path.splitext(img)[1] in IMG_EXT]
  17. img_list = []
  18. for image_file in images_list:
  19. image = AclImage(image_file)
  20. image_input = image.copy_to_dvpp()
  21. yuv_image = _dvpp.jpegd(image_input)
  22. resized_image = dvpp.resize(yuv_image,
  23. MODEL_WIDTH, MODEL_HEIGHT)
  24. img_list.append(resized_image)
  25. print("dvpp_process image: {} success".format(image_file))
  26. return img_list

5.7 数据传输

5.7.1 host传输数据至device

把数据从Host侧拷贝至Device侧:

  1. acl.rt.memcpy(dst, dest_max, src, count, direction)

参数的顺序是:目的内存地址,目的内存最大大小,源内存地址,拷贝长度,拷贝方向。

direction拷贝方向当前支持四种:

  1. ACL_MEMCPY_HOST_TO_HOST ----- host->host
  2.  
  3. ACL_MEMCPY_HOST_TO_DEVICE ----- host->device
  4.  
  5. ACL_MEMCPY_DEVICE_TO_HOST ----- device->host
  6.  
  7. ACL_MEMCPY_DEVICE_TO_DEVICE ----- device->device

该步骤已在DVPP接口内自动完成。

接口介绍:

函数示例:

  1. def _data_interaction_in(dataset):
  2. global input_data
  3. temp_data_buffer = input_data
  4. for i in range(len(temp_data_buffer)):
  5. item = temp_data_buffer[i]
  6. ptr = acl.util.numpy_to_ptr(dataset)
  7. ret = acl.rt.memcpy(item["buffer"],
  8. item["size"],
  9. ptr,
  10. item["size"],
  11. ACL_MEMCPY_HOST_TO_DEVICE)
  12. check_ret("acl.rt.memcpy", ret)

5.7.2 准备推理所需数据结构

模型推理所需的输入输出数据,是通过一种特定的数据结构来组织的,这种数据结构叫“dataSet”,即所有的输入,组成了1个dateset,所有的输出组成了一个dataset。而对于很多模型来讲,输入其实不止一个,那么所有的输入集合叫“dataSet”,其中的每一个输入叫什么呢?

答案是“dataBuffer”。即一个模型的多个输入,每个输入是一个“dataBuffer”,所有的dataBuffer构成了一个“dataSet”。

下面我们从构建dataBuffer开始。

dataBuffer的创建很简单,还记得前边我们申请了Device侧的内存,并且把数据传过去了吗?现在要用到了。我们当时的device侧内存地址:data,这段内存的长度:size。使用上边两个对象来创建一个dataBuffer:

  1. acl.create_data_buffer(data, size)

现在,这个“buffer”就是我们的第一个输入了。

接口介绍:

函数示例:

  1. def create_buffer(dataset, type="in"):
  2. global input_data, output_data
  3. if type == "in":
  4. temp_dataset = input_data
  5. else:
  6. temp_dataset = output_data
  7. for i in range(len(temp_dataset)):
  8. item = temp_dataset[i]
  9. data = acl.create_data_buffer(item["buffer"], item["size"])
  10. if data is None:
  11. ret = acl.destroy_data_buffer(dataset)
  12. check_ret("acl.destroy_data_buffer", ret)
  13. _, ret = acl.mdl.add_dataset_buffer(dataset, data)
  14. if ret != ACL_ERROR_NONE:
  15. ret = acl.destroy_data_buffer(dataset)
  16. check_ret("acl.destroy_data_buffer", ret)

针对本实验所用到的 resnet50 模型,我们只需要一个输入即可,那现在有了dataBuffer,要如何构建dataSet呢?

很简单:

  1. acl.mdl.create_dataset()

dataset有了,下面就是向这个dataset中放置DataBuffer了:

  1. acl.mdl.add_dataset_buffer(dataset, data)

这样,我们在dataset中添加了一个databuffer,输入准备好了。

创建输出数据结构同理,当您拿到一个模型,您应该是清楚这个模型的输出数据结构的,根据其输出个数、每个输出占用内存的大小来申请相应的device内存、dataBuffer以及dataSet即可。

现在假设我们已经创建好了输出的dataset,其变量名称叫做:
outputDataSet

至此,我们准备好了推理所需的所有素材。

当然,将来用完之后别忘了销毁:

  1. acl.create_data_buffer-> acl.destory_data_buffer; acl.mdl.create_dataset-> acl.mdl.destroy_dataset

接口介绍:

函数实例:

  1. def _gen_dataset(type="in"):
  2. global load_input_dataset, load_output_dataset
  3. dataset = acl.mdl.create_dataset()
  4. if type == "in":
  5. load_input_dataset = dataset
  6. else:
  7. load_output_dataset = dataset
  8. create_buffer(dataset, type)

5.8 推理

所有素材准备好之后,模型推理已经是顺理成章的事情了,还记得我们的几个关键素材吗?

  1. model_id
  2.  
  3. load_input_dataset
  4.  
  5. load_output_dataset

最终的推理,其实只需要一行代码:

  1. ret = acl.mdl.execute(model_id, input, output)

这是个同步接口,线程会阻塞在这里直到推理结束。推理结束后就可以提取load_output_dataset中的数据进行使用了。

接口介绍:

函数示例:

  1. def inference(model_id, _input, _output):
  2. global load_input_dataset, load_output_dataset
  3. ret = acl.mdl.execute(model_id,
  4. load_input_dataset,
  5. load_output_dataset)
  6. check_ret("acl.mdl.execute", ret)

5.9 后处理

5.9.1释放资源

资源有申请就要有释放,调用以下接口释放之前申请的dataset和databuffer:

  1. ret = acl.mdl.destroy_dataset(dataset)
  2. ret = acl.destory_data_buffer(data_buffer)

接口介绍:

函数示例:

  1. def _destroy_data_set_buffer():
  2. global load_input_dataset, load_output_dataset
  3. for dataset in [load_input_dataset, load_output_dataset]:
  4. if not dataset:
  5. continue
  6. num = acl.mdl.get_dataset_num_buffers(dataset)
  7. for i in range(num):
  8. data_buf = acl.mdl.get_dataset_buffer(dataset, i)
  9. if data_buf:
  10. ret = acl.destroy_data_buffer(data_buf)
  11. check_ret("acl.destroy_data_buffer", ret)
  12. ret = acl.mdl.destroy_dataset(dataset)
  13. check_ret("acl.mdl.destroy_dataset", ret)

5.9.2 申请host内存

建立outputDataset的时候,您应该使用了device侧的内存,将这部分内存拷贝回host侧,即可直接使用了。

申请Host侧内存:

host_ptr是host侧内存指针,随后即可使用host_ptr指向的内存来暂存推理输入数据。把数据从device侧拷贝至host侧:

  1. ret = acl.rt.memcpy(dst, dest_max, src, count, direction)

参数的顺序是:目的内存地址,目的内存最大大小,源内存地址,拷贝长度,拷贝方向。(支持host->host, host->device, device->host, device->device四种,与申请device内存相同)

使用完别忘了释放申请过的内存:

  1. acl.rt.malloc_host-> acl.rt.free_host

接口介绍:

函数示例:

  1. def _data_interaction_out(dataset):
  2. global output_data
  3. temp_data_buffer = output_data
  4. if len(dataset) == 0:
  5. for item in output_data:
  6. temp, ret = acl.rt.malloc_host(item["size"])
  7. if ret != 0:
  8. raise Exception("can't malloc_host ret={}".format(ret))
  9. dataset.append({"size": item["size"], "buffer": temp})
  10. for i in range(len(temp_data_buffer)):
  11. item = temp_data_buffer[i]
  12. ptr = dataset[i]["buffer"]
  13. ret = acl.rt.memcpy(ptr,
  14. item["size"],
  15. item["buffer"],
  16. item["size"],
  17. ACL_MEMCPY_DEVICE_TO_HOST)
  18. check_ret("acl.rt.memcpy", ret)

5.9.3 获取推理结果并打印

将推理后的结果数据转换为numpy类型,然后按照图片分类置信度前五的顺序打印出来。
结果示例如下:

接口介绍:

函数示例:

  1. def print_result(result):
  2. global images_list, INDEX
  3. dataset = []
  4. for i in range(len(result)):
  5. temp = result[i]
  6. size = temp["size"]
  7. ptr = temp["buffer"]
  8. data = acl.util.ptr_to_numpy(ptr, (size,), 1)
  9. dataset.append(data)
  10. st = struct.unpack("1000f", bytearray(dataset[0]))
  11. vals = np.array(st).flatten()
  12. top_k = vals.argsort()[-1:-6:-1]
  13. print()
  14. print("======== image: {} =============".format(images_list[INDEX]))
  15. print("======== top5 inference results: =============")
  16. INDEX+=1
  17. for n in top_k:
  18. object_class = get_image_net_class(n)
  19. print("label:%d confidence: %f, class: %s" % (n, vals[n], object_class))

6. 完整样例演示

ACL完整程序示例:

  1. import argparse
  2. import numpy as np
  3. import struct
  4. import acl
  5. import os
  6. from PIL import Image
  7. import sys
  8.  
  9. home_path = get_ipython().getoutput('echo ${HOME}')
  10. sys.path.append(os.path.join(home_path[0] , "jupyter-notebook/"))
  11. print('System init success.')
  12.  
  13. from src.acl_dvpp import Dvpp
  14. import src.constants as const
  15. from src.acl_image import AclImage
  16. from src.image_net_classes import get_image_net_class
  17. WORK_DIR = os.getcwd()
  18. ACL_MEM_MALLOC_HUGE_FIRST = 0
  19. ACL_MEMCPY_HOST_TO_DEVICE = 1
  20. ACL_MEMCPY_DEVICE_TO_HOST = 2
  21. ACL_ERROR_NONE = 0
  22. MODEL_WIDTH = 224
  23. MODEL_HEIGHT = 224
  24. IMG_EXT = ['.jpg', '.JPG', '.png', '.PNG', '.bmp', '.BMP', '.jpeg', '.JPEG']
  25.  
  26. ret = acl.init()
  27.  
  28. # GLOBAL
  29. load_input_dataset = None
  30. load_output_dataset = None
  31. input_data = []
  32. output_data = []
  33. _output_info = []
  34. images_list = []
  35. model_desc = 0
  36. run_mode = 0
  37. INDEX = 0
  38.  
  39. if WORK_DIR.find("src") == -1:
  40. MODEL_PATH = WORK_DIR + "/src/model/googlenet_yuv.om"
  41. DATA_PATH = WORK_DIR + "/src/data"
  42. else:
  43. MODEL_PATH = WORK_DIR + "/model/googlenet_yuv.om"
  44. DATA_PATH = WORK_DIR + "/data"
  45.  
  46. buffer_method = {
  47. "in": acl.mdl.get_input_size_by_index,
  48. "out": acl.mdl.get_output_size_by_index
  49. }
  50.  
  51. def check_ret(message, ret):
  52. if ret != ACL_ERROR_NONE:
  53. raise Exception("{} failed ret={}"
  54. .format(message, ret))
  55. def init():
  56. ret = acl.init()
  57. check_ret("acl.init", ret)
  58. print("init success")
  59. def allocate_res(device_id):
  60. ret = acl.rt.set_device(device_id)
  61. check_ret("acl.rt.set_device", ret)
  62. context, ret = acl.rt.create_context(device_id)
  63. check_ret("acl.rt.create_context", ret)
  64. print("allocate_res success")
  65. return context
  66. def load_model(model_path):
  67. model_id, ret = acl.mdl.load_from_file(model_path)
  68. check_ret("acl.mdl.load_from_file", ret)
  69. print("load_model success")
  70. return model_id
  71.  
  72. def get_model_data(model_id):
  73. global model_desc
  74. model_desc = acl.mdl.create_desc()
  75. ret = acl.mdl.get_desc(model_desc, model_id)
  76. check_ret("acl.mdl.get_desc", ret)
  77.  
  78. input_size = acl.mdl.get_num_inputs(model_desc)
  79. output_size = acl.mdl.get_num_outputs(model_desc)
  80. print("get_model_data success")
  81. return input_size, output_size
  82.  
  83. def gen_data_buffer(num, des):
  84. global model_desc
  85. func = buffer_method[des]
  86. for i in range(num):
  87. #temp_buffer_size = (model_desc, i)
  88. temp_buffer_size = acl.mdl.get_output_size_by_index(model_desc, i)
  89. temp_buffer, ret = acl.rt.malloc(temp_buffer_size,
  90. const.ACL_MEM_MALLOC_NORMAL_ONLY)
  91. check_ret("acl.rt.malloc", ret)
  92. if des == "in":
  93. input_data.append({"buffer": temp_buffer,
  94. "size": temp_buffer_size})
  95. elif des == "out":
  96. output_data.append({"buffer": temp_buffer,
  97. "size": temp_buffer_size})
  98. def malloc_device(input_num, output_num):
  99. gen_data_buffer(input_num, des="in")
  100. gen_data_buffer(output_num, des="out")
  101. def image_process_dvpp(dvpp):
  102. global run_mode
  103. global images_list
  104.  
  105. # _dvpp.init_resource()
  106. IMG_EXT = ['.jpg', '.JPG', '.png', '.PNG', '.bmp', '.BMP', '.jpeg', '.JPEG']
  107. images_list = [os.path.join(DATA_PATH, img)
  108. for img in os.listdir(DATA_PATH)
  109. if os.path.splitext(img)[1] in IMG_EXT]
  110. img_list = []
  111. for image_file in images_list:
  112. #读入图片
  113. image = AclImage(image_file)
  114. image_input = image.copy_to_dvpp()
  115. #对图片预处理
  116. yuv_image = dvpp.jpegd(image_input)
  117. resized_image = dvpp.resize(yuv_image,
  118. MODEL_WIDTH, MODEL_HEIGHT)
  119. img_list.append(resized_image)
  120.  
  121. print("dvpp_process image: {} success".format(image_file))
  122. return img_list
  123.  
  124. def _data_interaction_in(dataset):
  125. global input_data
  126. temp_data_buffer = input_data
  127. for i in range(len(temp_data_buffer)):
  128. item = temp_data_buffer[i]
  129. ptr = acl.util.numpy_to_ptr(dataset)
  130. ret = acl.rt.memcpy(item["buffer"],
  131. item["size"],
  132. ptr,
  133. item["size"],
  134. ACL_MEMCPY_HOST_TO_DEVICE)
  135. check_ret("acl.rt.memcpy", ret)
  136. print("data_interaction_in success")
  137.  
  138. def create_buffer(dataset, type="in"):
  139. global input_data, output_data
  140. if type == "in":
  141. temp_dataset = input_data
  142. else:
  143. temp_dataset = output_data
  144. for i in range(len(temp_dataset)):
  145. item = temp_dataset[i]
  146. data = acl.create_data_buffer(item["buffer"], item["size"])
  147. if data is None:
  148. ret = acl.destroy_data_buffer(dataset)
  149. check_ret("acl.destroy_data_buffer", ret)
  150. _, ret = acl.mdl.add_dataset_buffer(dataset, data)
  151. if ret != ACL_ERROR_NONE:
  152. ret = acl.destroy_data_buffer(dataset)
  153. check_ret("acl.destroy_data_buffer", ret)
  154. #print("create data_buffer {} success".format(type))
  155.  
  156. def _gen_dataset(type="in"):
  157. global load_input_dataset, load_output_dataset
  158. dataset = acl.mdl.create_dataset()
  159. #print("create data_set {} success".format(type))
  160. if type == "in":
  161. load_input_dataset = dataset
  162. else:
  163. load_output_dataset = dataset
  164. create_buffer(dataset, type)
  165.  
  166. def inference(model_id, _input, _output):
  167. global load_input_dataset, load_output_dataset
  168. ret = acl.mdl.execute(model_id,
  169. load_input_dataset,
  170. load_output_dataset)
  171. check_ret("acl.mdl.execute", ret)
  172. def _destroy_data_set_buffer():
  173. global load_input_dataset, load_output_dataset
  174. for dataset in [load_input_dataset, load_output_dataset]:
  175. if not dataset:
  176. continue
  177. num = acl.mdl.get_dataset_num_buffers(dataset)
  178. for i in range(num):
  179. data_buf = acl.mdl.get_dataset_buffer(dataset, i)
  180. if data_buf:
  181. ret = acl.destroy_data_buffer(data_buf)
  182. check_ret("acl.destroy_data_buffer", ret)
  183. ret = acl.mdl.destroy_dataset(dataset)
  184. check_ret("acl.mdl.destroy_dataset", ret)
  185.  
  186. def _data_interaction_out(dataset):
  187. global output_data
  188. temp_data_buffer = output_data
  189. if len(dataset) == 0:
  190. for item in output_data:
  191. temp, ret = acl.rt.malloc_host(item["size"])
  192. if ret != 0:
  193. raise Exception("can't malloc_host ret={}".format(ret))
  194. dataset.append({"size": item["size"], "buffer": temp})
  195. for i in range(len(temp_data_buffer)):
  196. item = temp_data_buffer[i]
  197. ptr = dataset[i]["buffer"]
  198. ret = acl.rt.memcpy(ptr,
  199. item["size"],
  200. item["buffer"],
  201. item["size"],
  202. ACL_MEMCPY_DEVICE_TO_HOST)
  203. check_ret("acl.rt.memcpy", ret)
  204.  
  205. def print_result(result):
  206. global images_list, INDEX
  207. dataset = []
  208. for i in range(len(result)):
  209. temp = result[i]
  210. size = temp["size"]
  211. ptr = temp["buffer"]
  212. data = acl.util.ptr_to_numpy(ptr, (size,), 1)
  213. dataset.append(data)
  214. st = struct.unpack("1000f", bytearray(dataset[0]))
  215. vals = np.array(st).flatten()
  216. top_k = vals.argsort()[-1:-6:-1]
  217. print()
  218. print("======== image: {} =============".format(images_list[INDEX]))
  219. print("======== top5 inference results: =============")
  220. INDEX+=1
  221. for n in top_k:
  222. object_class = get_image_net_class(n)
  223. print("label:%d confidence: %f, class: %s" % (n, vals[n], object_class))
  224.  
  225. def release(model_id, context):
  226. global input_data, output_data
  227. ret = acl.mdl.unload(model_id)
  228. check_ret("acl.mdl.unload", ret)
  229. while input_data:
  230. item = input_data.pop()
  231. ret = acl.rt.free(item["buffer"])
  232. check_ret("acl.rt.free", ret)
  233. while output_data:
  234. item = output_data.pop()
  235. ret = acl.rt.free(item["buffer"])
  236. check_ret("acl.rt.free", ret)
  237. if context:
  238. ret = acl.rt.destroy_context(context)
  239. check_ret("acl.rt.destroy_context", ret)
  240. context = None
  241. ret = acl.rt.reset_device(0)
  242. check_ret("acl.rt.reset_device", ret)
  243. print('release source success')
  244. def main():
  245. global input_data
  246. #init()
  247. context = allocate_res(0)
  248. model_id = load_model(MODEL_PATH)
  249. input_num, output_num = get_model_data(model_id)
  250. malloc_device(input_num, output_num)
  251. dvpp = Dvpp()
  252. img_list = image_process_dvpp(dvpp)
  253. for image in img_list:
  254. image_data = {"buffer":image.data(), "size":image.size}
  255. input_data[0] = image_data
  256. _gen_dataset("in")
  257. _gen_dataset("out")
  258. inference(model_id, load_input_dataset, load_output_dataset)
  259. _destroy_data_set_buffer()
  260. res = []
  261. _data_interaction_out(res)
  262. print_result(res)
  263. release(model_id,context)
  264.  
  265. if __name__ == '__main__':
  266. main()

更多有关ACL的介绍,请详见官方参考文档 。

点击关注,第一时间了解华为云新鲜技术~

开发实践丨昇腾CANN的推理应用开发体验的更多相关文章

  1. WePY - 小程序敏捷开发实践丨掘金开发者大会

    声明:内容转载他处,如有侵权,可协商下架 本主题虽然在其它地方讲了很多次,但还是有非常多新内容.因为很多东西正在做或者想要做.本次分享主要分为以下几个部分: WePY 的介绍 WePY 的用户 上面展 ...

  2. 开发实践丨用小熊派STM32开发板模拟自动售货机

    摘要:本文内容是讲述用小熊派开发板模拟自动售货机,基于论坛提供的工程代码,通过云端开发和设备终端开发,实现终端数据在的华为云平台显示. 本文内容是讲述用小熊派开发板模拟自动售货机,基于论坛提供的工程代 ...

  3. 一键抠除路人甲,昇腾CANN带你识破神秘的“AI消除术”

    摘要:都说人工智能改变了生活,你感觉到了么?AI的魔力就在你抠去路人甲的一瞬间来到了你身边.今天就跟大家聊聊--神秘的"AI消除术". 引语 旅途归来,重温美好却被秀丽河山前的路人 ...

  4. ASP.NET MVC5 网站开发实践(二) Member区域–管理列表、回复及删除

    本来想接着上次把这篇写完的,没想到后来工作的一些事落下了,放假了赶紧补上. 目录: ASP.NET MVC5 网站开发实践 - 概述 ASP.NET MVC5 网站开发实践(一) - 项目框架 ASP ...

  5. ASP.NET MVC5 网站开发实践(二) Member区域–我的咨询列表及添加咨询

    上次把咨询的架构搭好了,现在分两次来完成咨询:1.用户部分,2管理部分.这次实现用户部分,包含两个功能,查看我的咨询和进行咨询. 目录: ASP.NET MVC5 网站开发实践 - 概述 ASP.NE ...

  6. ASP.NET MVC5 网站开发实践(二) Member区域 - 咨询管理的架构

    咨询.留言.投诉等功能是网站应具备的基本功能,可以加强管理员与用户的交流,在上次完成文章部分后,这次开始做Member区域的咨询功能(留言.投诉都是咨询).咨询跟文章非常相似,而且内容更少.更简单. ...

  7. ASP.NET MVC5 网站开发实践(二) Member区域 - 修改及删除文章

    上次做了显示文章列表,再实现修改和删除文章这部分内容就结束了,这次内容比较简单,由于做过了添加文章,修改文章非常类似,就是多了一个TryUpdateModel部分更新模型数据.   目录: ASP.N ...

  8. ASP.NET MVC5 网站开发实践(二) Member区域 - 全部文章列表

    显示文章列表分两块,管理员可以显示全部文章列表,一般用户只显示自己的文章列表.文章列表的显示采用easyui-datagrid.后台需要与之对应的action返回json类型数据   目录 ASP.N ...

  9. ASP.NET MVC5 网站开发实践(二) Member区域 - 添加文章

    上次把架构做好了,这次做添加文章.添加文章涉及附件的上传管理及富文本编辑器的使用,早添加文章时一并实现. 要点: 富文本编辑器采用KindEditor.功能很强大,国人开发,LGPL开源,自己人的好东 ...

随机推荐

  1. gcc和g++是什么,有什么区别?

    点击上方"开源Linux",选择"设为星标" 回复"学习"获取独家整理的学习资料! 素材来源:C语言中文网 编辑整理:strongerHua ...

  2. 百度3D离线地图开发,3D离线地图开发,百度地图离线开发

    3D离线地图介绍(3D离线采用矢量数据作为地图基础,可保持地图数据最新) 一.开发中引用3D离线地图(可独立部署通过内外IP+端口进行访问,也可拷贝js库文件到项目中通过绝对路径访问) 1).离线AP ...

  3. 手脱MoleBox(2.3.3-2.6.4)

    1.查壳 2.找到OEP 对第二个Call使用ESP定律,再跳转后的位置进入第一个Call,这里就是OEP了,在这里直接dump的话会失败,那是因为MoleBox壳对IAT进行二次跳转,我们先在OEP ...

  4. KMP算法学习以及小结(好马不吃回头草系列)

    首先请允许我对KMP算法的三位创始人Knuth,Morris,Pratt致敬,这三位优秀的算法科学家发明的这种匹配模式可以大大避免重复遍历的情况,从而使得字符串的匹配的速度更快,效率更高. 首先引入对 ...

  5. C# 编写一个简单易用的 Windows 截屏增强工具

    半年前我开源了 DreamScene2 一个小而快并且功能强大的 Windows 动态桌面软件.有很多的人喜欢,这使我有了继续做开源的信心.这是我的第二个开源作品 ScreenshotEx 一个简单易 ...

  6. extcon驱动及其在USB驱动中的应用

    extcon,是External Connector的简称,用于抽象外部连接器,比如说Audio Jack.USB MicroB/TypeC接口等.它的原型是Android的switch-class驱 ...

  7. 不可不知的 MySQL 升级利器及 5.7 升级到 8.0 的注意事项

    数据库升级,是一项让人喜忧参半的工程.喜的是,通过升级,可以享受新版本带来的新特性及性能提升.忧的是,新版本可能与老的版本不兼容,不兼容主要体现在以下三方面: 语法不兼容. 语义不兼容.同一个SQL, ...

  8. 『忘了再学』Shell基础 — 14、环境变量(二)

    目录 1.PS1变量的作用 2.PS1变量的查看 2.PS1可以支持的选项 3.PS1环境变量的配置 4.总结 提示: 在Linux系统中,环境变量分为两种.一种是用户自定义的环境变量,另一种是系统自 ...

  9. 1.还不会部署高可用的kubernetes集群?看我手把手教你使用二进制部署v1.23.6的K8S集群实践(上)

    公众号关注「WeiyiGeek」 设为「特别关注」,每天带你玩转网络安全运维.应用开发.物联网IOT学习! 本章目录: 0x00 前言简述 0x01 环境准备 主机规划 软件版本 网络规划 0x02 ...

  10. 个人冲刺(四阶段)——体温上报app(一阶段)

    任务:完成了后台数据库的类模块 MyDBHelper.java package com.example.helloworld; import android.content.Context; impo ...