背景

最近发现一个叫GroundingDINO的开集目标检测算法，所谓开集目标检测就是能检测的目标类别不局限于训练的类别，这个算法可以通过输入文本的prompt然后输出对应的目标框。可以用来做预标注或者其他应用，比如我们要训练某个细分场景的算法时，我们找不到足够的已经标注的数据，就可以先用这个算法预打标, 与SAM结合，还能做根据text去分割出物体。

GroundingDINO：https://github.com/IDEA-Research/GroundingDINO

将GroundingDINO服务化

为什么要服务化

原始的项目是一个python脚本，不适合单人使用，而不是和团队一起使用。服务化之后，其他人可以通过http请求的方式来访问，而不需要每个人都搭建环境，也便于批量处理数据。

如何服务化

最简单的是通过flask api把python脚本包装一层，这种方式实现简单，但扩展性不够，比如如果想要动态组batch，就需要自己写这部分逻辑。更好的方式是使用成熟的模型推理服务，TorchServe就是其中的一种，比较适合pytorch模型（其实其他格式比如onnx也可以），使用TorchServe，我们只用写好模型的预处理、推理和后处理逻辑，其他的比如实例扩展、动态batch、资源监控这些都不需要我们自己实现。我们有其他模型，也可以用同样的方式服务起来，而不需要为每个模型都写一个服务。因此本文选择TorchServe来作为模型的推理服务。

过程

克隆文末的项目后按顺序执行下面步骤：

1.下载模型

新建一个weights目录，并把下面的模型放入：

wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

新建一个bert-base-uncased 目录，下载bert模型：

https://huggingface.co/bert-base-uncased/tree/main

config.json

pytorch_model.bin

tokenizer_config.json

tokenizer.json

vocab.txt

2.制作torchserve镜像

Dockerfile:

FROM pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel

ARG DEBIAN_FRONTEND=noninteractive

#for Chinese User, uncomment this line

# COPY sources.list /etc/apt/sources.list

RUN apt update && \

     apt install openjdk-17-jdk -y

RUN apt install git -y

#install python packages

COPY requirements.txt /root/

RUN pip install -r /root/requirements.txt --no-cache -i https://repo.huaweicloud.com/repository/pypi/simple/

docker build -t torchserve:groundingdino .

3.转换模型

docker run --rm -it -v $(pwd):/data -w /data torchserve:groundingdino bash -c "torch-model-archiver --model-name groundingdino --version 1.0 --serialized-file weights/groundingdino_swint_ogc.pth --handler grounding_dino_handler.py --extra-files GroundingDINO_SwinT_OGC.py,bert-base-uncased/*"

执行完毕后，将得到一个groundingdino.mar文件。

4.开启服务

根据需要修改服务的配置

docker run -d --name groundingdino -v $(pwd)/model_store:/model_store -p 8080:8080 -p 8081:8081 -p 8082:8082 torchserve:groundingdino bash -c "torchserve --start --foreground --model-store /model_store --models groundingdino=groundingdino.mar"

5.调用服务

import requests

import base64

import time

# URL for the web service

url = "http://ip:8080/predictions/groundingdino"

headers = {"Content-Type": "application/json"}

# Input data

with open("test.jpg", "rb") as f:

    image = f.read()

data = {

        "image": base64.b64encode(image).decode("utf-8"), # base64 encoded image or BytesIO

        "caption": "steel pipe", # text prompt, split by "." for multiple phrases

        "box_threshold": 0.25, # threshold for object detection

        "caption_threshold": 0.25 # threshold for text similarity

        }

# Make the request and display the response

resp = requests.post(url=url, headers=headers, json=data)

outputs = resp.json()

'''

the outputs will be like:

    {

        "boxes": [[0.0, 0.0, 1.0, 1.0]], # list of bounding boxes in xyxy format

        "scores": [0.9999998807907104], # list of object detection scores

        "phrases": ["steel pipe"] # list of text phrases

    }

'''

完整项目：GroundingDINO-Service

GroundingDINO（一种开集目标检测算法）服务化，根据文本生成检测框的更多相关文章

Opencv+Yolov3算法实现社交距离安全检测讲解和实战（Social Distance Detector）
在我们进行交流谈话时,人与人之间总要保持一定的距离,尤其是在疫情的情况下,人与人之间更要保持一定的安全距离,今天给大家来介绍一个检测社交距离的项目,实现社交距离检测器. 社交距离(Social Dis ...
目标检测算法YOLO算法介绍
YOLO算法(You Only Look Once) 比如你输入图像是100x100,然后在图像上放一个网络,为了方便讲述,此处使用3x3网格,实际实现时会用更精细的网格(如19x19).基本思想是, ...
【深度学习】目标检测算法总结（R-CNN、Fast R-CNN、Faster R-CNN、FPN、YOLO、SSD、RetinaNet）
目标检测是很多计算机视觉任务的基础,不论我们需要实现图像与文字的交互还是需要识别精细类别,它都提供了可靠的信息.本文对目标检测进行了整体回顾,第一部分从RCNN开始介绍基于候选区域的目标检测器,包括F ...
目标检测算法(1)目标检测中的问题描述和R-CNN算法
目标检测(object detection)是计算机视觉中非常具有挑战性的一项工作,一方面它是其他很多后续视觉任务的基础,另一方面目标检测不仅需要预测区域,还要进行分类,因此问题更加复杂.最近的5年使 ...
FAIR开源Detectron：整合全部顶尖目标检测算法
昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台. 昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标 ...
AI SSD目标检测算法
Single Shot multibox Detector,简称SSD,是一种目标检测算法. Single Shot意味着SSD属于one stage方法,multibox表示多框预测. CNN 多尺 ...
第三十一节，目标检测算法之 Faster R-CNN算法详解
Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal network ...
第二十九节，目标检测算法之R-CNN算法详解
Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmenta ...
目标检测算法之R-CNN算法详解
R-CNN全称为Region-CNN,它可以说是第一个成功地将深度学习应用到目标检测上的算法.后面提到的Fast R-CNN.Faster R-CNN全部都是建立在R-CNN的基础上的. 传统目标检测 ...
TLD（Tracking-Learning-Detection）一种目标跟踪算法
原文:http://blog.csdn.net/mysniper11/article/details/8726649 视频介绍网址:http://www.cvchina.info/2011/04/05 ...

随机推荐

ARP协议：网络世界的临门一脚
大家好,我是风筝. 各位同学肯定见过关于网络的面试题,什么TCP协议和UDP的区别啦,IP协议工作在哪层啊等等,这都是网络中定义的各种协议.这些标准化的协议就是网络分层模型标准化的核心部分.要想搞懂网 ...
Out Of Memory 案例
案例一:老年代内存泄漏某晚八点收到报警邮件,一看是OOM: 打开 hickwall查看指标:JVM各项指标中老年代在持续增长(从上次发布10月30号到11月10号的 12天一直在增长,存在内 ...
GO实现Redis：GO实现Redis集群（5）
采用一致性hash算法将key分散到不同的节点,客户端可以连接到集群中任意一个节点 https://github.com/csgopher/go-redis 本文涉及以下文件: consistenth ...
前端根据后端返回的数据流导出excel
首先在utils.js里面声明exportMethod函数,该函数的作用是通过发axios post请求后端导出接口,请求成功后: 1. 在成功函数里面先新建一个a标签: const link = d ...
重磅！Apache Hudi联合传智教育推出免费中文视频教程
基础介绍 Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理.这两种原语分别是: Up ...
聊一聊如何使用Crank给我们的类库做基准测试
目录背景什么是 Crank 入门示例 Pull Request 总结参考资料背景当我们写了一个类库提供给别人使用时,我们可能会对它做一些基准测试来测试一下它的性能指标,好比内存分配等. 在 ...
golang pprof 监控系列(4) —— goroutine thread 统计原理
golang pprof 监控系列(4) -- goroutine thread 统计原理大家好,我是蓝胖子. 在之前 golang pprof监控系列文章里我分别介绍了go trace以及go ...
Kubernetes（K8S）内核优化常用参数详解
net.ipv4.tcp_keepalive_time=600 net.ipv4.tcp_keepalive_intvl=30 net.ipv4.tcp_keepalive_probes=10 net ...
LeeCode 栈与队列问题（一）
LeeCode 20: 有效的括号题目描述给定一个只包括 '(', ')', '{', '}', '[', ']' 的字符串s,判断字符串是否有效. 有效字符串满足: 左括号必须用相同类型的右括号 ...
golang常用库包：log日志记录-uber的Go日志库zap使用详解
Go 日志记录库:uber-go 的日志操作库 zap 使用一.简介 zap 是 uber 开源的一个高性能,结构化,分级记录的日志记录包. go1.20.2 zap v1.24.0 zap的特性 ...

GroundingDINO（一种开集目标检测算法）服务化，根据文本生成检测框

背景