1. cv2.dnn.readNetFromCaffe(prototxt, model)  用于进行SSD网络的caffe框架的加载 参数说明:prototxt表示caffe网络的结构文本,model表示已经训练好的参数结果 2.t=delib.correlation_tracker() 使用delib生成单目标的追踪器 3.delib.rectangle(int(box[0]), int(box[1]), int(box[2]), int(box[3])) 用于生成追踪器所需要的矩形框[(st…
代码仓库: https://github.com/brandonlyg/cute-dl 目标         上阶段cute-dl已经可以构建基础的RNN模型.但对文本相模型的支持不够友好, 这个阶段的目标是, 让框架能够友好地支持文本分类和本文生成任务.具体包括: 添加嵌入层, 为文本寻找高效的向量表示. 添加类别抽样函数, 根据模型输出的类别分布抽样得到生成的文本. 使用imdb-review数据集验证文本分类模型. 使用一个古诗数据集验证文本生成模型.         这阶段涉及到的代码比…
[源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator 目录 [源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator 0x00 摘要 0x01 背景知识 1.1 Kubernetes 1.2 容器作为调度单元 1.3 Kubeflow 1.4 Tensorflow on Kubeflow 1.5 Operator 1.6 TF-Operator 0x02 TensorFlow 分布…
[源码解析] 深度学习分布式训练框架 horovod (19) --- kubeflow MPI-operator 目录 [源码解析] 深度学习分布式训练框架 horovod (19) --- kubeflow MPI-operator 0x00 摘要 0x01 背景知识 1.1 MPI 1.2 Open-MPI 1.3 MPI Operator 0x02 设计思路 2.1 架构图 2.2 角色 2.3 主要过程 2.4 CRD 的定义 2.5 创建 2.6 终止 0x03 实现 3.1 K8S…
[源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 目录 [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 0x00 摘要 0x01 背景知识 1.1 分布式体系 1.2 并行任务通信 1.3 MPI 1.4 Open-MPI 1.5 MPI 使用问题 0x02 入口点 2.1 如何运行 2.2 horovodrun 2.3 run_commandline 2.4 非弹性训练 _run_st…
[源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 0x02 统一层 0x03 Horovod OP 类体系 3.1 基类 HorovodOp 3.2 派生类 AllreduceOp 3.3 适配类 MPIAllreduce 3.4 后台线程如何使用 3.4.1 具体collective 操作 3.4.2 调用不同类型的OP 3.4.3 取一个适配层…
[源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 目录 [源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 0x00 摘要 0x01 引子 0x02 设计要点 2.1 问题 2.2 方案 2.3 协调 2.3.1 设计 2.3.2 实现 2.4 Background Thread 2.4.1 设计 2.4.2 实现 0x03 辅助功能 3.1 如何判断是 coordinator 3.2 协调缓存&信息 3.2.1 计算共有 ten…
[源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 0x00 摘要 0x01 Spark相关知识 1.1 为什么整合 Spark 1.2 Spark 简单架构 1.3 Pyspark 原理 1.3.1 架构修改 1.3.2 Driver端 1.3.3 Executor端 1.3.4 流程 0x02 机器学习 on Spark 2.1 机器学习的特点 2.2 机器学习…
[源码解析] 深度学习分布式训练框架 horovod (12) --- 弹性训练总体架构 目录 [源码解析] 深度学习分布式训练框架 horovod (12) --- 弹性训练总体架构 0x00 摘要 0x01 总述 1.1 问题点 1.1 角色 1.2 容错机制 1.4 监控机制 1.5 官方架构图 0x02 示例代码 2.1 python代码 2.2 脚本执行 0x03 逻辑流程 3.1 逻辑流程 3.2 入口点 3.3 主逻辑 3.4 出错处理 0xEE 个人信息 0xFF 参考 0x00…
[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 目录 [源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 0x00 摘要 0x01 总论 0x02 Sampler 2.1 PyTorch Distributed Optimizer 2.1.1 定义 2.1.2 问题点 2.2 ElasticSampler 2.2.1 定义 2.2.2 弹性方案 2.2.2.1 常规流程 2.2.2.2 异常处理 2.2.1 如何使用 2…