本文同时发表在https://github.com/zhangyachen/zhangyachen.github.io/issues/147

最近在研究缓冲区溢出攻击的试验,发现其中有一种方法叫做ret2plt。plt?这个词好熟悉,在汇编代码里经常见到,和plt经常一起出现的还有一个叫got的东西,但是对这两个概念一直很模糊,趁着这个机会研究一下。

可以先说一下结论 : plt和got是动态链接中用来重定位的。

GOT

我们知道,一般我们的代码都需要引用外部文件的函数或者变量,比如#include<stdio.h>里的printf,但是由于我们代码中用到的共享对象是运行时加载进来的,在虚拟地址空间的位置并不确定,所以代码里call <addr of printf>addr of printf不确定,只有等运行时共享对象被加载到进程的虚拟地址空间里时,才能最终确定printf的地址,再进行重定位地址

看一个最简单的例子:

#include <stdio.h>

int main(){

    printf("Hello World");

    return 0;
}

用GDB调试一下(关于GDB调试汇编可以参考之前写的GDB 单步调试汇编):

(gdb) ni
0x000000000040054e in main ()
=> 0x000000000040054e <main+14>: e8 71 fe ff ff callq 0x4003c4 <printf@plt>

可以看出,call <addr of printf>callq 0x4003c4代替,而这个0x4003c4并不是真正的printf函数的地址。

可能有人已经想到了,为什么不能直接在printf函数地址确定后,直接将call <addr of printf>修改为call <real addr of printf>,像静态链接那样呢(静态链接是在链接阶段进行重定位,直接修改的代码段)?有两个原因:

  • 现代操作系统不允许修改代码段,只能修改数据段。
  • 如果上面的代码片段是在一个共享对象内,修改了代码段,那么它就无法做到系统内所有进程共享同一个共享对象,因为代码段被修改了。而动态库的主要一个优点就是多个进程共享同一个共享对象的代码段,节省内存空间,但是进程拥有数据段的独立副本。

所以,我们很容易的想到,既然不能修改代码段,能修改数据段,我们可以在共享对象加载完成后,将真实的符号地址放到数据段中,代码中直接读取数据段内的地址就行,这里开辟的空间就叫做GOT(图有点挫)。

  • 为每一个需要重定位的符号建立一个GOT表项。
  • 当动态链接器装载共享对象时查找每一个需要重定位符号的变量地址,填充GOT。
  • 当指令需要访问变量或者函数的地址时,从对应的GOT表项中读出地址,再访问即可。对应的指令可能是callq *(addr in GOT)或者movq offset(%rip) %rax(%rax就是全局变量的地址,可以用(%rax)解引用)。

但是这样有一个问题,一个动态库可能有成百上千个符号,但是我们引入该动态库可能只会使用其中某几个符号,像上面那种方式就会造成不使用的符号也会进行重定位,造成不必要的效率损失。我们知道,动态链接比静态链接慢1% ~ 5%,其中一个原因就是动态链接需要在运行时查找地址进行重定位。

所以ELF采用了延迟绑定的技术,当函数第一次被用到时才进行绑定。实现方式就是使用plt。

PLT

我们可以先自己独立思考如何实现延迟绑定。

  • 上文描述的是动态链接器主动将确定好的符号地址放到GOT中,延迟绑定需要我们自己主动告诉一个模块:我现在需要该符号的确定地址。假设该模块叫做_dl_runtime_resolve()
  • 我们需要告诉_dl_runtime_resolve()需要寻找的符号,也就是函数参数。可以放到栈中或者寄存器传递。
  • _dl_runtime_resolve()寻找完符号的特定地址后,放到寄存器上,比如%rax,供调用者使用。

所以初步的实现步骤是:

callq plt_printf    <printf@plt>
......
...... plt_printf:
pushq %rbp ## allocate stack frame
movq %rsp,%rbp
pushq iden_of_printf ## 告诉_dl_runtime_resolve()找printf函数地址,即_dl_runtime_resolve()的参数>
callq _dl_runtime_resolve()
callq %rax ## %rax存放printf真实地址
leaveq ## deallocate stack frame
retq

上面的步骤可以实现通过一段小代码(plt)实现延迟绑定,但是存在一个问题:每一次调用printf的时候都需要走一遍这个步骤,然而printf的地址一旦确定就不会变了,所以我们需要一个缓存机制,将查找好的printf地址缓存起来。

PLT与GOT

上面说过_dl_runtime_resolve会将确定好的符合地址放到GOT中,那么在需要延迟加载的情况下,GOT里存放什么地址?上面说过需要我们需要将确定好的符号地址缓存起来,那么ELF是如何通过PLT与GOT的配合做到延迟加载的?我们直接看一个真实的例子就行:

#include <stdio.h>

int main(){

    printf("Hello World");

    printf("Hello World Again");

    return 0;
}

gdb调试一下:

One 调用printf的plt

第一次调用printf,会调用printf对应的plt代码片段,与上面我们自己分析实现延迟加载的步骤一样:

(gdb) ni
0x000000000040054e in main ()
=> 0x000000000040054e <main+14>: e8 71 fe ff ff callq 0x4003c4 <printf@plt>

Two 调到printf对应的GOT里存储的地址

进到<printf@plt>看看:

(gdb) si
0x00000000004003c4 in printf@plt ()
=> 0x00000000004003c4 <printf@plt+0>: ff 25 56 05 20 00 jmpq *0x200556(%rip) # 0x600920 <printf@got.plt>

这里跳到了printf对应的GOT里存储的地址。(elf对got做了细分:got存放全局变量引用的地址,got.plt存放函数引用的地址

看看动态链接在将确定的符号地址放到GOT前,GOT里存放的是什么地址:

(gdb) x 0x600920
0x600920 <printf@got.plt>: 0x004003ca
(gdb) disas 0x4003c4
Dump of assembler code for function printf@plt:
0x00000000004003c4 <+0>: jmpq *0x200556(%rip) # 0x600920 <printf@got.plt>
=> 0x00000000004003ca <+6>: pushq $0x0
0x00000000004003cf <+11>: jmpq 0x4003b4
End of assembler dump.

有意思的是jmp到了下一条指令的地址。其实这个时候我们已经可以猜出来了:延迟加载之前,got.plt里存放的是下一条指令地址,延迟加载之后,got.plt里存放的就是真实的符号地址,就可以直接jmp到printf函数里了。

Three 将printf对应的标识压到栈中,并跳到plt[0]

(gdb) ni
0x00000000004003ca in printf@plt ()
=> 0x00000000004003ca <printf@plt+6>: 68 00 00 00 00 pushq $0x0
(gdb) ni
0x00000000004003cf in printf@plt ()
=> 0x00000000004003cf <printf@plt+11>: e9 e0 ff ff ff jmpq 0x4003b4
(gdb) si
0x00000000004003b4 in ?? () ## 这里应该是plt[0],但是gdb不知道为什么没有显示出来
=> 0x00000000004003b4: ff 35 56 05 20 00 pushq 0x200556(%rip) # 0x600910 <_GLOBAL_OFFSET_TABLE_+8>

Four 在plt[0]中调用_dl_runtime_resolve查找符合真实地址

说明这个是什么地址??0x600910

(gdb)
0x00000000004003b4 in ?? ()
=> 0x00000000004003b4: ff 35 56 05 20 00 pushq 0x200556(%rip) # 0x600910 <_GLOBAL_OFFSET_TABLE_+8>
(gdb)
0x00000000004003ba in ?? ()
=> 0x00000000004003ba: ff 25 58 05 20 00 jmpq *0x200558(%rip) # 0x600918 <_GLOBAL_OFFSET_TABLE_+16>
(gdb)
_dl_runtime_resolve () at ../sysdeps/x86_64/dl-trampoline.S:34
34 subq $56,%rsp
=> 0x00007ffff7deef30 <_dl_runtime_resolve+0>: 48 83 ec 38 sub $0x38,%rsp

我们不用管_dl_runtime_resolve是怎么处理的,直接看_dl_runtime_resolve处理完成后printf对应的GOT的值:

(gdb)
56 jmp *%r11 # Jump to function address.
=> 0x00007ffff7deef8e <_dl_runtime_resolve+94>: 41 ff e3 jmpq *%r11
0x00007ffff7deef91: 66 66 66 66 66 66 2e 0f 1f 84 00 00 00 00 00 data32 data32 data32 data32 data32 nopw %cs:0x0(%rax,%rax,1)
(gdb)
0x00007ffff7a7b5d0 in printf () from /lib64/libc.so.6
=> 0x00007ffff7a7b5d0 <printf+0>: 48 81 ec d8 00 00 00 sub $0xd8,%rsp
(gdb)
......
......
(gdb) x 0x600920
0x600920 <printf@got.plt>: 0xf7a7b5d0

与之前猜测的一样,printf对应的GOT表项目前已经存放了printf真实的虚拟地址。那么在下次调用时就避免再重定位,直接跳到printf地址了。

Five 第二次调用printf

(gdb) si
0x00000000004003c4 in printf@plt ()
=> 0x00000000004003c4 <printf@plt+0>: ff 25 56 05 20 00 jmpq *0x200556(%rip) # 0x600920 <printf@got.plt>
(gdb) x 0x600920
0x600920 <printf@got.plt>: 0xf7a7b5d0
(gdb) si
0x00007ffff7a7b5d0 in printf () from /lib64/libc.so.6
=> 0x00007ffff7a7b5d0 <printf+0>: 48 81 ec d8 00 00 00 sub $0xd8,%rsp

直接跳到printf的虚拟地址。

下面这张图可以总结上面的五步过程:

动态链接的PLT与GOT的更多相关文章

  1. ELF文件加载与动态链接(二)

    GOT应该保存的是puts函数的绝对虚地址,这里为什么保存的却是puts@plt的第二条指令呢? 原来“解释器”将动态库载入内存后,并没有直接将函数地址更新到GOT表中,而是在函数第一次被调用时,才会 ...

  2. 深入了解GOT,PLT和动态链接

    之前几篇介绍exploit的文章, 有提到return-to-plt的技术. 当时只简单介绍了 GOT和PLT表的基本作用和他们之间的关系, 所以今天就来详细分析下其具体的工作过程. 本文所用的依然是 ...

  3. Mach-O 的动态链接(Lazy Bind 机制)

    ➠更多技术干货请戳:听云博客 动态链接 要解决空间浪费和更新困难这两个问题最简单的方法就是把程序的模块相互分割开来,形成独立的文件,而不再将它们静态的链接在一起.简单地讲,就是不对那些组成程序的目标文 ...

  4. ELF动态链接

    为什么要使用动态链接? 在现代的linux系统中,假设一个普通的程序会使用到c语言静态库至少1MB以上,那么,如果我们的机器运行100个这样的程序,就用浪费近100MB的内存:如果磁盘有2000个这样 ...

  5. 程序的链接和装入及Linux下动态链接的实现

    http://www.ibm.com/developerworks/cn/linux/l-dynlink/ 程序的链接和装入及Linux下动态链接的实现 程序的链接和装入存在着多种方法,而如今最为流行 ...

  6. 实例分析ELF文件动态链接

    参考文献: <ELF V1.2> <程序员的自我修养---链接.装载与库>第6章 可执行文件的装载与进程 第7章 动态链接 <Linux GOT与PLT> 开发平台 ...

  7. ELF 动态链接 - so 的 重定位表

    动态链接下,无论时可执行文件还是共享对象,一旦对其他共享对象有依赖,也就是所有导入的符号时,那么代码或数据中就会有对于导入符号的引用.而在编译时期这些导入符号的确切地址时未知的.只有在运行期才能确定真 ...

  8. ELF文件加载与动态链接(一)

    关于ELF文件的详细介绍,推荐阅读: ELF文件格式分析 —— 滕启明.ELF文件由ELF头部.程序头部表.节区头部表以及节区4部分组成. 通过objdump工具和readelf工具,可以观察ELF文 ...

  9. linux 下动态链接实现原理

    符号重定位 讲动态链接之前,得先说说符号重定位. c/c++ 程序的编译是以文件为单位进行的,因此每个 c/cpp 文件也叫作一个编译单元(translation unit), 源文件先是被编译成一个 ...

随机推荐

  1. springCloud项目搭建

    新建父maven项目 groupId:pers.xzp.springCloudartifactId:springCloud 父项目中仅仅需要一个pom文件,用于管理模块的依赖统一.继承等 编辑pom文 ...

  2. cmake引入三方库

    目录结构 . |-- cmake | |-- CompilerSettings.cmake | |-- Options.cmake | `-- ProjectJsonCpp.cmake |-- CMa ...

  3. go 协程阻塞

    func main() { wg.Add(2) go test1() go test2() wg.Wait() } func test1() { defer wg.Done() for i:=0;i& ...

  4. centos平台scp通过密钥远程复制文件(免密登录)

    一,说明:两台机器的平台和ip 1,a服务器: centos8:ip:121.122.123.47 版本 [root@yjweb ~]# cat /etc/redhat-release CentOS ...

  5. 第一章 Linux操作系统及其历史介绍

    一.什么是操作系统 1.基本含义: 简称OS 是计算机系统中必不可少的基础系统软件,是应用程序运行和用户操作必备的基础环境 操作系统就是一个人与计算机之间的中介 2.组成方式: 操作系统的组成: 计算 ...

  6. Linux系统部署WEB项目(2020最新最详细)

    2020最新Linux系统发行版ContOS7演示部署WEB项目 为防止操作权限不足,建议切换root用户,当然如果你对Linux命令熟悉,能够自主完成权限更新操作,可以不考虑此推荐. 更多命令学习推 ...

  7. 爬虫在linux下启动selenium-安装谷歌浏览器和驱动(傻瓜式教程)

    一.升级yum(防止不必要的麻烦) yum update -y yum -y groupinstall "Development tools" yum install openss ...

  8. centos7下PHP安装gd扩展

    第一步: 安装需要用到的库 yum -y install libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel 第二步: ...

  9. Bitmap缩放(二)

    先得到位图宽高不用加载位图,然后按ImageView比例缩放,得到缩放的尺寸进行压缩并加载位图.inSampleSize是缩放多少倍,小于1默认是1,通过调节其inSampleSize参数,比如调节为 ...

  10. vue 路由知识点(一级路由与二级路由嵌套)

    本人小白一个,如果问题,麻烦大神指点, 一级路由: path:'/' 默认为显示; 二级路由: path: '',默认显示为index组件,因为二级路有没有写index组件,所以使用redirect: ...