关于C语言静态链接的个人理解，欢迎指正

摘要：本篇主要介绍在静态链接中多个文件合并、地址确定、符号解析和重定位相关问题，以GCC编译器为例。

首先，链接器链接多个文件时，采用何种方式合并为一个文件？方式一，按序叠加，即多个文件依次叠加起来；方式二，相似段合并。采用何种方式就要看哪种方式利大于弊。

方式一：这种方式实现简单，链接速度快，基本不需要太多操作。但是，通常简单的东西往往是粗暴的。我们知道gcc编译后得到的可重定位目标文件是由各种段(section)组成的，这样简单叠加会产生大量零散的段，项目越大这样的段越多，而且还是大量相同名称的段。并且由于每个段都有地址和空间的对齐要求，这样做势必会浪费大量的内存空间（内部碎片）。所以这种方案并不好，可谓小甜头换大痛苦。

方式二：这种方式是将相似段合并，比如将多个不同文件的.text段合并为一个大.text段，类似的.data、.bss等等也是如此。最终得到的文件，在段的数量和类型上与原来各个小文件没有大的区别，只是每个段的大小变大了。当然这样做实现细节上肯定要复杂，也会牺牲一定的速度。但是这种付出是值得的。

对应方式二这种方式链接器一般采用两步链接，即分两步走。

空间与地址分配：(1)扫描各个输入文件获得各个段的长度、属性、位置等信息；(2)收集各个文件的符号表并建立统一的全局符号表。这一步将根据各个段的信息计算出合并后各个段的长度和位置，并建立映射关系（我的理解是更新段表的信息，段表描述ELF文件包含的所有段的信息，比如段名、长度、偏移量等）。
符号解析与重定位：这一步至关重要，由于上一步对相似段进行合并之后，原先的符号表信息已经过时，并且原先文件中代码的地址并没有映射到虚拟地址空间中，所以这一步要完成符号解析与重定位、调整代码中的地址等。

下面是对上面第二步的进一步解析。

首先调整代码位置这相对来说比较简单也易于理解，以Linux为例，在Linux下32bit ELF可执行文件默认地址从0x08048000开始分配，根据合并后各个段的位置做相对移位即可。如有下面示例:

代码b.c

 int shared = ;

 void swap(int* a, int* b)

 {

    *a ^= *b ^= *a ^= *b;

 }

代码a.c

 extern int shared;

 int main(int argc, char** argv)

 {

    int a = ;

    swap(&a, &shared);

    return ;

 }

 ~

编译后输出a.o，b.o，cc -c a.c b.c，使用objdump查看a.o、b.o如下：

连接a.o b.o，的到可执行文件ab

可以看到a.o和b.o他们的起始地址都为0，而可执行文件ab的起始地址则是从0x0804000起（.text段之前还有文件头）。

重点和难点在于符号解析和重定位，即要更新文件合并后的总全局符号表，在构建全局符号表时即完成符号解析，重定位需要在符号解析后完成。在目标文件的结构中有一种section叫重定位表，各个段中如果有需要重定位的符号那么就会有相应的重定位表，如.text的重定位表是.rel.text。由于在a.c代码中用到了shared和swap这两个符号都属于b.c文件中的定义，链接时需要重定位，所以a.o中的的text段就会有相应的重定位表。同样用objdump可以查看目标文件的重定位表内容：

我们可以看到有两行是关于需要重定位符号shared和swap的描述，其中OFFSET表示它们在a.o文件中的偏移值，TYPE表示重定位时对指令的修正方式，下面是书中对其解释的相应的图表：

上面提到的r_offset和r_info是重定位表的结构中的变量，摘取书中的解释：

所以我的理解是A就是还未重定位时，符号shared和swap的地址，P即是在可执行文件ab中需要修改处的偏移值，而S是b.o和a.o合并后符号shared和swap的实际地址。具体该怎么算继续往下面看。

我们将a.o进行反汇编得到：

那么怎样找到代码a.c中对shared和swap的使用是上图哪两条指令呢？因为shared和swap是在b.c中定义的，在链接时a.o中对符号shared和swap必然要重定位，因此a.o中需要重定位的位置即是使用这两个符号的位置，所以由上面text段的重定位表中信息可知在偏移量为11和20处的两条指令即是使用它们地方（因为需要重定位的偏移量刚好在这两条指令中间）。

我们来分析这两条指令，寄存器esp是专门用来作为栈顶指针使用的，所以mov $0x0, 0x4(%esp)是把0储存在偏移栈顶4个字节的位置，那这个0值又是什么呢？当然不是shared值啦，shared值是已知的只是不知道它存储在什么地方，为什么不知道它在什么地方呢？是因为在链接之前还没有对它重定位，所以这个0值应该是未重定位之前shared地址的默认值（这里这样解释只是我自认为的一种通俗表达，我的另一种理解是在编译层面和语言层面shared是不同的东西，在语言层面shared是一个变量，对它的操作是直接对它所在内存区域的操作，而在编译层面shared是内存中某块地址空间的引用，所以在符号表中shared的值是那块内存的地址，因此0值就是shared的值）。这个0又是怎么来的，注意上图是反汇编，所以汇编代码是由机器指令反编译得到的，偏移量11处的机器指令是0xc7 44 24 04 00 00 00 00，前4个字节是指令码，后四个字节是符号shared对应的值，即0。另外一条指令call 21 <...>，在汇编（其他语言也是）中函数名就是函数在内存中的起始地址，所以假设21就是swap的起始地址，那么call 21和call swap是等价的，现在是swap不在代码a.c中定义，这样的话就不能使用call swap了，而是给swap起始地址一个默认值（21），使用call 21。这个21又是怎样得到的呢？看与这条指令对应的机器指令，e8 fc ff ff ff(5个字节长度)，书中对这条机器指令的解释是：0xe8是操作码，在Intel的IA-32体系中表示这是一条近址相对位移调用指令，操作码后面的四个字节就是被调用函数的相对于调用指令的下一条指令的偏移量，在没有重定位前默认为0xfc ff ff ff(小端字节表示法，代表-4的补码)，所以21是（25-4）得来的，这是个假地址。

现在再对链接a.o b.o 输出的可执行文件ab进行反汇编。

由重定位表的偏移量计算可知，现在关于符号shared和swap的使用指令对应上图的偏移量为80480a5和80480b4两条指令。上图我们看到的结果是重定位后的，重定位时我们要修改的值是偏移量80480a5处的后四个字节和偏移量804800b4处后四个字节。根据上文提到的公式S+A和S+A-P，就可以算出重定位后的值。

首先看符号shared重定位后的值怎么算。先查看可执行文件ab得到合并后变量shared的地址，如图

上图数据段在虚拟地址空间中起始地址是0x08049158，因为这个可执行文件中data段中就只有一个数据变量所以这个地址也是shared的地址，即S=0x08049158，重定位前地址是0x0，即A=0x0，所以S+A=0x08049158，在内存中以小端表示法存储时即为58 91 04 08。你可能会问如果不只一个全局变量时，我又怎么知道他们合并后的地址，注意合并后的地址都在符号解析后的全局符号表中，链接器是知道的。

再看swap重定位后的值怎么算，在上面对可执行文件ab反汇编时我们看到函数swap的入口地址为0x080480c0，即S=0x080480c0，重定位前call汇编代码对应的机器指令后四个字节的值是ff ff ff fc(-4)，即A=-4，P是被修正的位置，为0x080480b5，由公式S+A-P（c0-4-b5=7)得重定位后修改为07 00 00 00(小端表示法)。

以上是我在看《程序员的自我修养--链接、装载与库》一书中第四章前2节的个人理解，限于个人水平问题，有些地方的理解可能有偏差，欢迎指正。

关于C语言静态链接的个人理解，欢迎指正的更多相关文章

Linux环境下c语言静态链接库和动态链接库创建和使用
库有动态与静态两种,动态通常用.so为后缀,静态用.a为后缀. 面对比一下两者: 静态链接库:当要使用时,连接器会找出程序所需的函数,然后将它们拷贝到执行文件,由于这种拷贝是完整的,所以一旦连接成功, ...
c语言静态链接库
1 获得lib文件 vc++ 6.0中新建 Win32 Static Library项目,命名为libTest 新建lib.h文件,代码如下 #ifndef LIB_H #define LIB_H ...
C语言编写静态链接库及其使用
本篇讲述使用C语言编写静态链接库,而且使用C和C++的方式来调用等. 一.静态库程序:执行时不独立存在,链接到可执行文件或者动态库中,目标程序的归档. 1.用C编写静态库步骤 a.建立项目(Win32 ...
C语言动静态链接库使用（笔记）
看了视频一直没空写........... C静态链接库不用说了跟你写在cpp文件里的函数一样不会有单独的模块不再赘述生活中用的比较少例子 .h文件 int Plus(int x, int y); ...
vc下的静态链接库与动态链接库（一）
一.静态库与动态库的区别目前以lib后缀的库有两种,一种为静态链接库(Static Libary,以下简称“静态库”),另一种为动态连接库(DLL,以下简称“动态库”)的导入库(Import Lib ...
C语言编译链接
转载请标明: 编译链接是使用高级语言编程所必须的操作,一个源程序只有经过编译.链接操作以后才可以变成计算机可以理解并执行的二进制可执行文件. 编译是指根据用户写的源程序代码,经过词法和语法分析,将高级 ...
COM编程之五动静态链接
[1]静态链接静态链接是指由链接器在链接时将库的内容加入到可执行程序中的做法. 链接器是一个独立程序,将一个或多个库或目标文件(先前由编译器或汇编器生成)链接到一块生成可执行程序. 函数和数据被编译 ...
dll和lib(包括静态链接库和与dll同时生成的lib)
转:http://blog.csdn.net/galaxy_li/article/details/7411956 1:神马是Dll和Lib,神马是静态链接和动态链接大家都懂的,DLL就是动态链接库, ...
GCC编译过程与动态链接库和静态链接库
1. 库的介绍库是写好的现有的,成熟的,可以复用的代码.现实中每个程序都要依赖很多基础的底层库,不可能每个人的代码都从零开始,因此库的存在意义非同寻常. 本质上来说库是一种可执行代码的二进制形式,可 ...

随机推荐

MHA环境搭建【3】node相关依赖的解决
mha的node软件包依赖于perl-DBD-Mysql 这个包,我之前有遇到过用yum安装perl-DBD-MySQL,安装完成后不能正常使用的情况,所以这里选择源码编译安装: perl5.10.1 ...
layout_weight
最近写Demo,突然发现了Layout_weight这个属性,发现网上有很多关于这个属性的有意思的讨论,可是找了好多资料都没有找到一个能够说的清楚的,于是自己结合网上资料研究了一下,终于迎刃而解,写出 ...
从头到尾彻底理解KMP（2014年8月22日版）
http://blog.csdn.net/v_july_v/article/details/7041827
Android 有缓存功能的请求封装接口
/* * @Company 浙江鸿程计算机系统有限公司 * @URL http://www.zjhcsoft.com * @Address 杭州滨江区伟业路1号 * @Emai ...
hibernate中load,get;find,iterator;merge,saveOrUpdate,lock的区别
hibernate中load,get;find,iterator;merge,saveOrUpdate,lock的区别转自http://www.blogjava.net/bnlovebn/archi ...
SxsTrace工具使用方法
Windows7平台上有一个强大的SxsTrace工具,可以跟踪调试应用程序运行时需要的动态库的版本和路径. SxsTrace使用的方法: 1.首先必须以Administrator用户身份登录 ...
JS帮你计算属相
背景:一个人出生在2014年的正月初一,他的生肖到底是属蛇还是属马呢?这就要确定那一天才是一年的开始.是春节还是立春?每年的春节是正月初一,但是生肖必须是从立春日开始计算.春节是1912年孙中 ...
MVC中使用EF(1)：为ASP.NET MVC程序创建Entity Framework数据模型
为ASP.NET MVC程序创建Entity Framework数据模型 (1 of 10) By Tom Dykstra |July 30, 2013 Translated by litdwg ...
程序员求职之道（《程序员面试笔试宝典》）之求职有用网站及QQ群一览表
技术学习网站 www.csdn.com www.iteye.com www.51cto.com http://www.cnblogs.com/ http://oj.leetcode.com/ http ...
java.lang.IllegalArgumentException: Timestamp format must be yyyy-mm-dd hh:mm:ss[.fffffffff]
此方法为Timestamp的转换方法. 这几天做到excel导入功能,其中里面有几个时间时段,所以用了这个类来将导入的字符串格式转换Timestamp格式. 不慎出现了 java.lang.Ille ...

关于C语言静态链接的个人理解，欢迎指正

关于C语言静态链接的个人理解，欢迎指正的更多相关文章

随机推荐

热门专题