Caffe源码解析2：SycedMem

转载请注明出处，楼燚(yì)航的blog，http://www.cnblogs.com/louyihang loves baiyan/

看到SyncedMem就知道，这是在做内存同步的操作。这类个类的代码比较少，但是作用是非常明显的。文件对应着syncedmem.hpp,着syncedmem.cpp

首先是两个全局的内联函数。如果机器是支持GPU的并且安装了cuda，通过cudaMallocHost分配的host memory将会被pinned，这里我谷歌了一下，pinned的意思就是内存不会被paged out，我们知道内存里面是由页作为基本的管理单元。分配的内存可以常驻在内存空间中对效率是有帮助的，空间不会被别的进程所抢占。同样如果内存越大，能被分配的Pinned内存自然也越大。还有一点是，对于单一的GPU而言提升并不会太显著，但是对于多个GPU的并行而言可以显著提高稳定性。

这里是两个封装过的函数，内部通过cuda来分配主机和释放内存的接口

inline void CaffeMallocHost(void** ptr, size_t size, bool* use_cuda) {

#ifndef CPU_ONLY

  if (Caffe::mode() == Caffe::GPU) {

    CUDA_CHECK(cudaMallocHost(ptr, size));// GPU模式下cuda分配内存

    *use_cuda = true;

    return;

  }

#endif

  *ptr = malloc(size);//如果没有cuda则通过c的malloc函数分配

  *use_cuda = false;

  CHECK(*ptr) << "host allocation of size " << size << " failed";

}

inline void CaffeFreeHost(void* ptr, bool use_cuda) {

#ifndef CPU_ONLY

  if (use_cuda) {

    CUDA_CHECK(cudaFreeHost(ptr));//cuda的主机内存释放操作

    return;

  }

#endif

  free(ptr);//c的释放操作

}

SyncedMemory类，首先是构造函数和析构函数

class SyncedMemory {

 public:

  SyncedMemory() //参数构造函数，负责初始化

      : cpu_ptr_(NULL), gpu_ptr_(NULL), size_(0), head_(UNINITIALIZED),

        own_cpu_data_(false), cpu_malloc_use_cuda_(false), own_gpu_data_(false),

        gpu_device_(-1) {}

  explicit SyncedMemory(size_t size)//带explicit关键字的，单个参数构造函数，explicit禁止单参数构造函数的隐式转换

      : cpu_ptr_(NULL), gpu_ptr_(NULL), size_(size), head_(UNINITIALIZED),

        own_cpu_data_(false), cpu_malloc_use_cuda_(false), own_gpu_data_(false),

        gpu_device_(-1) {}

  ~SyncedMemory();//其在析构时调用的也是CaffeFreeHost

这几个函数分别是

  const void* cpu_data();

  void set_cpu_data(void* data);

  const void* gpu_data();

  void set_gpu_data(void* data);

cpu_data()主要是获得cpu上data的地址，set_cpu_data是将cpu的data指针指向一个新的区域由data指针传入，并且将原来申请的内存释放。下面两个同理，分别是获得gpu数据地址和set gpu数据地址。

  void* mutable_cpu_data();

  void* mutable_gpu_data();

  enum SyncedHead { UNINITIALIZED, HEAD_AT_CPU, HEAD_AT_GPU, SYNCED };

  SyncedHead head() { return head_; }

  size_t size() { return size_; }

前两个分别是返回cpu和gpu上的data指针，并且置状态为head_ = HEAD_AT_CPU和响应的gpu版本。SyncedHead主要是个枚举类型，用来设定head_的状态，head()函数即返回相应的数据状态，而size()函数返回数据大小

#ifndef CPU_ONLY

  void async_gpu_push(const cudaStream_t& stream);

#endif

这是一个cuda拷贝的异步传输，从数据从cpu拷贝到gpu，异步传输是已经假定caller会在使用之前做同步操作。

 private:

  void to_cpu();

  void to_gpu();

  void* cpu_ptr_;

  void* gpu_ptr_;

  size_t size_;

  SyncedHead head_;

  bool own_cpu_data_;

  bool cpu_malloc_use_cuda_;

  bool own_gpu_data_;

  int gpu_device_;

  DISABLE_COPY_AND_ASSIGN(SyncedMemory);//禁止该类的拷贝与赋值

};  // class SyncedMemory

其实这里的东西也不多了，to_cpu()，to_gpu()这个看名字就知道了，需要注意的是，如果head 是未被初始化的状态，那么首先需要先分配内存，这个根据cpu和gpu视情况而定，之后再将数据从cpu或者gpu拷贝到另一处。之后函数会重新标记Head的状态，数据是否在cpu或者在gpu中,cpu这里是简称，其实是主机。

cpu_ptr和gpu_ptr分别是在cpu和gpu中的数据指针，size_这就不再说了,head_之前也液晶提到过了，后面都是几个相应的标记为，以及gpu的ID号

Caffe源码解析2：SycedMem的更多相关文章

Caffe源码解析7：Pooling_Layer
转载请注明出处,楼燚(yì)航的blog,http://home.cnblogs.com/louyihang-loves-baiyan/ Pooling 层一般在网络中是跟在Conv卷积层之后,做采样 ...
Caffe源码解析6：Neuron_Layer
转载请注明出处,楼燚(yì)航的blog,http://home.cnblogs.com/louyihang-loves-baiyan/ NeuronLayer,顾名思义这里就是神经元,激活函数的相应 ...
Caffe源码解析5：Conv_Layer
转载请注明出处,楼燚(yì)航的blog,http://home.cnblogs.com/louyihang-loves-baiyan/ Vision_layer里面主要是包括了一些关于一些视觉上的操 ...
Caffe源码解析4： Data_layer
转载请注明出处,楼燚(yì)航的blog,http://home.cnblogs.com/louyihang-loves-baiyan/ data_layer应该是网络的最底层,主要是将数据送给blo ...
Caffe源码解析3：Layer
转载请注明出处,楼燚(yì)航的blog,http://home.cnblogs.com/louyihang-loves-baiyan/ layer这个类可以说是里面最终的一个基本类了,深度网络呢就是 ...
Caffe源码解析1：Blob
转载请注明出处,楼燚(yì)航的blog,http://www.cnblogs.com/louyihang-loves-baiyan/ 首先看到的是Blob这个类,Blob是作为Caffe中数据流通的 ...
caffe源码解析
http://blog.csdn.net/lanxuecc/article/details/53186613
caffe源码阅读
参考网址:https://www.cnblogs.com/louyihang-loves-baiyan/p/5149628.html 1.caffe代码层次熟悉blob,layer,net,solve ...
【Caffe】源码解析----caffe.proto (转载）
分析caffe源码,看首先看caffe.proto,是明智的选择.好吧,我不是创造者,只是搬运工. 原文地址:http://blog.csdn.net/qq_16055159/article/deta ...

随机推荐

C# foreach 中获取索引index的方法
方法一: int i = 0; foreach (var item in arr) { i++; } 方法二: foreach (var item in arr) { int index = arr. ...
iOS面试题集锦
一.前言部分文中的问题多收集整理自网络,不保证100%准确,还望斟酌采纳. 1.怎样防止指针的越界使用问题? 答案: 1 .防止数组越界,必须让指针指向一个有效的内存地址, 2. 防止向一块内存中拷 ...
基础笔记（三）：网络协议之Tcp、Http
目录一.网络协议二.TCP(Transmission Control Protocol,传输控制协议) TCP头格式 TCP协议中的三次握手和四次挥手 TCP报文抓取工具三.HTTP(Hyper ...
使用 Visual Studio Online 进行协同开发
Visual Studio Online(原来的 Team Foundation Service),是项目数据在云中的主页.在我们的云基础架构中只需数分钟便可启动并运行,无需安装或配置任何服务器.设置 ...
【Java每日一题】20161209
package Dec2016; public class Ques1209 { public static void main(String[] args){ People g = new Peop ...
SSRF安全威胁在JAVA代码中的应用
如上图所示代码,在进行外部url调用的时候,引入了SSRF检测:ssrfChecker.checkUrlWithoutConnection(url)机制. SSRF安全威胁: 很多web应用都提供 ...
spring面试题（2）
f-sp-1. Spring的aop你怎样实现? 用动态代理和cglib实现,有接口的用动态代理,无接口的用cglib f-sp-2. Spring在SSH起什么作用整合作用 f-sp-3. Spr ...
1、ASP.NET MVC入门到精通——新语法
本系列目录:ASP.NET MVC4入门到精通系列目录汇总在学习ASP.NET MVC之前,有必要先了解一下C#3.0所带来的新的语法特性,这一点尤为重要,因为在MVC项目中我们利用C#3.0的新特 ...
java web学习总结(十九) -------------------监听器简单使用场景
一.统计当前在线人数在JavaWeb应用开发中,有时候我们需要统计当前在线的用户数,此时就可以使用监听器技术来实现这个功能了. 1 package me.gacl.web.listener; 2 3 ...
tomcat 自定义classpath（亲自测试）
因为一直以来使用tomcat和weblogic作为应用服务器为主,最近在升级新中间件的过程中遇到一个问题,我们的web前端应用现在升级是进行全量包升级的,因为现在的系统架构为前端和后端通过rpc框架交 ...

Caffe源码解析2：SycedMem

转载请注明出处，楼燚(yì)航的blog，http://www.cnblogs.com/louyihang loves baiyan/

Caffe源码解析2：SycedMem的更多相关文章

随机推荐

热门专题