Linux Namespaces机制—

转自：http://www.cnblogs.com/lisperl/archive/2012/05/03/2480573.html

由于Linux内核提供了PID，IPC，NS等多个Namespace，一个进程可能属于多个Namespace。为了task_struct的精简，内核引入了struct nsproxy来统一管理进程所属的Namespace，在task_struct中只需存一个指向struct nsproxy的指针就行了。struct nsproxy定义如下：

struct nsproxy {

atomic_t count;

struct uts_namespace *uts_ns;

struct ipc_namespace *ipc_ns;

struct mnt_namespace *mnt_ns;

struct pid_namespace *pid_ns;

struct net *net_ns;

};

从定义可以看出，nsproxy存储了一组指向各个类型Namespace的指针，为进程访问各个Namespace起了一个代理的作用。由于可能有多个进程所在的Namespace完全一样，nsproxy可以在进程间共享，count字段负责记录该结构的引用数。

系统预定义了一个init_nsproxy，用作默认的nsproxy。

struct nsproxy init_nsproxy = {

.count = ATOMIC_INIT(1),

.uts_ns = &init_uts_ns,

#if defined(CONFIG_POSIX_MQUEUE) || defined(CONFIG_SYSVIPC)

.ipc_ns = &init_ipc_ns,

#endif

.mnt_ns = NULL,

.pid_ns = &init_pid_ns,

#ifdef CONFIG_NET

.net_ns = &init_net,

#endif

};

其中除了mnt_ns外均指向系统默认的Namespace。

内核定义了一组函数来管理nsproxy：

task_nsproxy用于从task_struct指针在RCU保护下获得其中的nsproxy指针。

put_nsproxy用于减少一个nsproxy的引用数。

get_nsproxy用于增加一个nsproxy的引用数。

create_nsproxy用于分配一个新的nsproxy结构。

下面我们来看系统在clone时的处理。系统调用clone是通过sys_clone实现的，而sys_clone又是通过内核函数do_fork实现的，而do_fork大部分工作又是在copy_process中做的。在copy_process中，有这样的代码：

if ((retval = copy_namespaces(clone_flags, p)))

goto bad_fork_cleanup_mm;

这里我们回过头去看copy_namespaces的代码

int copy_namespaces(unsigned long flags, struct task_struct *tsk)

{

struct nsproxy *old_ns = tsk->nsproxy;

struct nsproxy *new_ns;

int err = 0;

if (!old_ns)

return 0;

get_nsproxy(old_ns);

if (!(flags & (CLONE_NEWNS | CLONE_NEWUTS | CLONE_NEWIPC |

CLONE_NEWPID | CLONE_NEWNET)))

return 0;

if (!capable(CAP_SYS_ADMIN)) {

err = -EPERM;

goto out;

}

* CLONE_NEWIPC must detach from the undolist: after switching

* to a new ipc namespace, the semaphore arrays from the old

* namespace are unreachable. In clone parlance, CLONE_SYSVSEM

* means share undolist with parent, so we must forbid using

* it along with CLONE_NEWIPC.

if ((flags & CLONE_NEWIPC) && (flags & CLONE_SYSVSEM)) {

err = -EINVAL;

goto out;

}

new_ns = create_new_namespaces(flags, tsk, tsk->fs);

if (IS_ERR(new_ns)) {

err = PTR_ERR(new_ns);

goto out;

}

tsk->nsproxy = new_ns;

out:

put_nsproxy(old_ns);

return err;

}

该函数首先检查flags，如果没有指定任何一个需要新建Namespace的flag，直接返回0。否则，做相应的权能检查，然后调用create_new_namespaces为进程创建新的Namespace。

我们再来看create_new_namespaces的代码

static struct nsproxy *create_new_namespaces(unsigned long flags,

struct task_struct *tsk, struct fs_struct *new_fs)

{

struct nsproxy *new_nsp;

int err;

new_nsp = create_nsproxy();

if (!new_nsp)

return ERR_PTR(-ENOMEM);

new_nsp->mnt_ns = copy_mnt_ns(flags, tsk->nsproxy->mnt_ns, new_fs);

if (IS_ERR(new_nsp->mnt_ns)) {

err = PTR_ERR(new_nsp->mnt_ns);

goto out_ns;

}

new_nsp->uts_ns = copy_utsname(flags, tsk->nsproxy->uts_ns);

if (IS_ERR(new_nsp->uts_ns)) {

err = PTR_ERR(new_nsp->uts_ns);

goto out_uts;

}

new_nsp->ipc_ns = copy_ipcs(flags, tsk->nsproxy->ipc_ns);

if (IS_ERR(new_nsp->ipc_ns)) {

err = PTR_ERR(new_nsp->ipc_ns);

goto out_ipc;

}

new_nsp->pid_ns = copy_pid_ns(flags, task_active_pid_ns(tsk));

if (IS_ERR(new_nsp->pid_ns)) {

err = PTR_ERR(new_nsp->pid_ns);

goto out_pid;

}

new_nsp->net_ns = copy_net_ns(flags, tsk->nsproxy->net_ns);

if (IS_ERR(new_nsp->net_ns)) {

err = PTR_ERR(new_nsp->net_ns);

goto out_net;

}

return new_nsp;

out_net:

if (new_nsp->pid_ns)

put_pid_ns(new_nsp->pid_ns);

out_pid:

if (new_nsp->ipc_ns)

put_ipc_ns(new_nsp->ipc_ns);

out_ipc:

if (new_nsp->uts_ns)

put_uts_ns(new_nsp->uts_ns);

out_uts:

if (new_nsp->mnt_ns)

put_mnt_ns(new_nsp->mnt_ns);

out_ns:

kmem_cache_free(nsproxy_cachep, new_nsp);

return ERR_PTR(err);

}
该函数首先为进程分配一个新的nsproxy（因为有新的Namespace创建），然后调用各个Namespace相关的函数来为进程一一创建新的Namespace（如果flags指定了的话）。具体的各个Namespace相关的创建函数比较复杂，与各自实现相关，就不在这里分析了。

我们再回到copy_process中，有以下代码：

if (pid != &init_struct_pid) {

retval = -ENOMEM;

pid = alloc_pid(p->nsproxy->pid_ns);

if (!pid)

goto bad_fork_cleanup_io;

if (clone_flags & CLONE_NEWPID) {

retval = pid_ns_prepare_proc(p->nsproxy->pid_ns);

if (retval < 0)

goto bad_fork_free_pid;

}

由于从do_fork中调用copy_process时，pid参数是NULL，所以这里肯定满足第一个if条件。在if内，首先为进程在其所在的Namespace分配pid，然后判断clone时是否set了CLONE_NEWPID，如果设定了就做进一步的处理。这两个函数都是pid Namespace相关的代码，这里就不去分析了。

然后有以下代码：

if (current->nsproxy != p->nsproxy) {

retval = ns_cgroup_clone(p, pid);

if (retval)

goto bad_fork_free_pid;

}

由于我们分析的是设定了clone相关flags的情况，那这个if条件肯定满足。在if里面，调用了ns_cgroup_clone，即为不同nsproxy新建了一个cgroup（关于cgroups的分析可以参加本博客前面的文章：http://www.cnblogs.com/lisperl/archive/2012/04/26/2471776.html）。这里就和之前关于cgroups ns子系统的分析关联起来了，内核这里实际上是利用cgroups ns子系统对进程做了一个自动分类，相同nsproxy（即所有Namespace都相同的进程）的进程在一个cgroup，一旦通过clone创建新的Namespace，就会在当前cgroup下创建一个新的cgroup。这样以来，通过cgroup文件系统，在挂载ns 子系统的目录下，我们就可以清楚地看出Namespace的层次关系。

大家看到这里是不是会有疑问，使用clone相应flags创建新的Namespace是不是必须要cgroups ns子系统的支持？作者可以负责任地告诉你：不需要。

在nsproxy.h中有以下代码：

#ifdef CONFIG_CGROUP_NS
int ns_cgroup_clone(struct task_struct *tsk, struct pid *pid);
#else
static inline int ns_cgroup_clone(struct task_struct *tsk, struct pid *pid)
{
return 0;
}
#endif

即在没有cgroups的情况下，ns_cgroup_clone实现是不同的。

作者曰：这里只是对Linux Namespaces机制的实现做了一个大体的上分析，具体到各个Namespace的实现并没有去讲，因为非常复杂，尤其是Network Namespace。

Linux Namespaces机制——实现的更多相关文章

Linux Namespaces机制
转自:http://www.cnblogs.com/lisperl/archive/2012/05/03/2480316.html Linux Namespaces机制提供一种资源隔离方案.PID,I ...
Linux模块机制浅析
Linux模块机制浅析 Linux允许用户通过插入模块,实现干预内核的目的.一直以来,对linux的模块机制都不够清晰,因此本文对内核模块的加载机制进行简单地分析. 模块的Hello World! ...
android & Linux uevent机制
Linux uevent机制 Uevent是内核通知android有状态变化的一种方法,比如USB线插入.拔出,电池电量变化等等.其本质是内核发送(可以通过socket)一个字符串,应用层(andro ...
利用linux信号机制调试段错误(Segment fault)
在实际开发过程中,大家可能会遇到段错误的问题,虽然是个老问题,但是其带来的隐患是极大的,只要出现一次,程序立即崩溃中止.如果程序运行在PC中,segment fault的调试相对比较方便,因为可以通过 ...
Linux 内存机制详解宝典
Linux 内存机制详解宝典在linux的内存分配机制中,优先使用物理内存,当物理内存还有空闲时(还够用),不会释放其占用内存,就算占用内存的程序已经被关闭了,该程序所占用的内存用来做缓存使用,对于 ...
Linux分页机制之概述--Linux内存管理(六)
1 分页机制在虚拟内存中,页表是个映射表的概念, 即从进程能理解的线性地址(linear address)映射到存储器上的物理地址(phisical address). 很显然,这个页表是需要常驻内 ...
[转帖]Linux分页机制之分页机制的演变--Linux内存管理(七)
Linux分页机制之分页机制的演变--Linux内存管理(七) 2016年09月01日 20:01:31 JeanCheng 阅读数:4543 https://blog.csdn.net/gatiem ...
[转帖]Linux分页机制之概述--Linux内存管理(六)
Linux分页机制之概述--Linux内存管理(六) 2016年09月01日 19:46:08 JeanCheng 阅读数:5491 标签: linuxkernel内存管理分页架构更多个人分类: ┈ ...
Linux 内存机制【转载】
原文地址:http://blog.csdn.net/tianlesoftware/article/details/5463790 一. 内存使用说明 Free 命令相对于top 提供了更简洁的查看系统 ...

随机推荐

第1课 - 学习Lua的意义
学习Lua的意义 1.Lua简介 (1) 1993年.巴西 (2) 小巧精致的脚本语言,大小只有200K (3) 用标准C语言写成,能够在所有的平台上编译运行 (4) 发明的目 ...
基于Spring Security 的JSaaS应用的权限管理
1. 概述权限管理,一般指根据系统设置的安全规则或者安全策略,用户可以访问而且只能访问自己被授权的资源.资源包括访问的页面,访问的数据等,这在传统的应用系统中比较常见.本文介绍的则是基于Saas系统 ...
ios runtime部分事例方法说明
一.场景--动态改变变量 unsigned ; Ivar *ivar = class_copyIvarList([self.person class], &count); ; i<cou ...
windows下使用wineshark分析抓取本地回环包
## 摘要由于windows系统没有提供本地回环网络的接口,用Wireshark监控网络的话看不到localhost的流量. 想要获取本地的网络数据包,可以通过一款小巧的开源软件RawCap来进行抓 ...
第一章 oracle数据库基础
第一章 oracle数据库基础 1.oracle简介-->数据库管理系统 1.1:数据库 1.2:全局数据库名 1.3:数据库实例 1.4:表空间 1.5:数据 ...
Java 原始数据类型的计算：运算符重载（Operator Overload）和类型转换（Type Conversion)
原文阅读:<算法(第四版)>第一章第一节:基础编程模型有没有在面试的时候被问到:下面这几行代码的执行结果是什么?依据是什么? System.out.println (5/3); Sys ...
PROFINET有什么用
“工业4.0”是当前制造业最热门的话题,所以不谈这个话题都不好意思跟同行们打招呼.“工业4.0”里面的一个重要内容是智慧工厂,工厂流水线设备之间通信,无论是传统的有线连接还是先进的无线连接与分布式控制 ...
git提交如何忽略某些文件
在使用git对项目进行版本管理的时候,我们总有一些不需要提交到版本库里的文件和文件夹,这个时候我们就需要让git自动忽略掉一下文件. 使用.gitignore忽略文件为了让git忽略指定的文件和文件 ...
ArrayList 遍历
1.迭代器遍历 package sourceCode.ArrayList; import java.util.ArrayList; import java.util.Iterator; import ...
CKEditor不借助CKFinder实现图片上传（.net版 ashx实现）
参考博客:http://blog.csdn.net/mydwr/article/details/8669594 本人版本:4.4.6 打开文件:ckeditor/plugins/image/dialo ...

Linux Namespaces机制——实现

Linux Namespaces机制——实现的更多相关文章

随机推荐

热门专题