KSCrash 是一个用于 iOS 平台的崩溃捕捉框架,最近读了其部分源码,在 KSDynamicLinker 文件中有一个函数,代码如下:

/** Get the segment base address of the specified image.
*
* This is required for any symtab command offsets.
*
* @param idx The image index.
* @return The image's base address, or 0 if none was found.
*/
static uintptr_t segmentBaseOfImageIndex(const uint32_t idx)
{
const struct mach_header* header = _dyld_get_image_header(idx); // Look for a segment command and return the file image address.
uintptr_t cmdPtr = firstCmdAfterHeader(header);
if(cmdPtr == 0)
{
return 0;
}
for(uint32_t i = 0;i < header->ncmds; i++)
{
const struct load_command* loadCmd = (struct load_command*)cmdPtr;
if(loadCmd->cmd == LC_SEGMENT)
{
const struct segment_command* segmentCmd = (struct segment_command*)cmdPtr;
if(strcmp(segmentCmd->segname, SEG_LINKEDIT) == 0)
{
return segmentCmd->vmaddr - segmentCmd->fileoff;
}
}
else if(loadCmd->cmd == LC_SEGMENT_64)
{
const struct segment_command_64* segmentCmd = (struct segment_command_64*)cmdPtr;
if(strcmp(segmentCmd->segname, SEG_LINKEDIT) == 0)
{
return (uintptr_t)(segmentCmd->vmaddr - segmentCmd->fileoff);
}
}
cmdPtr += loadCmd->cmdsize;
} return 0;
}

该函数被如此调用:

const uintptr_t segmentBase = segmentBaseOfImageIndex(idx) + imageVMAddrSlide;

0 迷惑现场

一个 image 中会有多个 segment,参数 idx 传递的是 image 的索引,如果返回的是 segment base, 那么是哪个 segment?

有人会说,注释里不是说返回非 0 的话,就表示的是 image base。可是从原理上讲 vmaddr - fileoff 根本得不到 image base(后文有解释)。

而在被调用处,加上由 ASLR 引起的偏移,赋值给了 segmentBase。

fishhook 中,有这么一行代码:

uintptr_t linkedit_base = (uintptr_t)slide + linkedit_segment->vmaddr - linkedit_segment->fileoff;

暂不考虑由 ASLR 造成的 slide,那么又是上边提到的 vmaddr - fileoff,这里的变量命名是 linkedit_base

KSCrash 中的所谓的 segmentBase 和 fishhook 中所谓的 linkedit_base,到底指的是什么?如果指的是 __LINKEDIT 端在内存中的真实地址那应该是 vmaddr + ASLR偏移 才对。

在查找资料的过程中,读了大量的博客、资料,对于这一块的解释,要么没提,要么一带而过,要么是错的。有的认为这个值是__LINKEDIT 段在内存中的基址,有的认为是当前 image 在内存中的基址。

1 揭开面纱

1.1 前置知识

在理解这个值到底是什么之前,我们需要一些前置知识。

  • Mach-O 文件的结构
  • 虚拟内存
  • ASLR

下边我们简单的说一下 Mach-O 文件。

Mach-O

我们知道,进程是可执行文件在内存中加载得到的结果,而 Mach-O 就是一种 macOS 平台的可执行文件格式。

Mach-O 文件分为三个区域 Header、Load commands、Data。其中 Load commands 区的指令指导如何设置并加载二进制数据。下边列出 32 位平台下我们关心的几个:

指令 对应的数据结构 描述
LC_SEGMENT segment_command 定义了这个文件中的一个 segment,在 Mach-O 文件被加载到时,这个 segment 会被映射到对应的地址空间。需要留意,segment_command 中有一个 segname,可通过 segname 来查找指定的 segment。
LC_SYMTAB symtab_command 指定了这个文件的符号表。symtab_command 中包含符号表在文件中的偏移、符号数量、字符串表在文件中的偏移、字符串表的大小。

segment_command 代码如下:

struct segment_command { /* for 32-bit architectures */
uint32_t cmd; /* LC_SEGMENT */
uint32_t cmdsize; /* includes sizeof section structs */
char segname[16]; /* segment name */
uint32_t vmaddr; /* memory address of this segment */
uint32_t vmsize; /* memory size of this segment */
uint32_t fileoff; /* file offset of this segment */
uint32_t filesize; /* amount to map from the file */
vm_prot_t maxprot; /* maximum VM protection */
vm_prot_t initprot; /* initial VM protection */
uint32_t nsects; /* number of sections in segment */
uint32_t flags; /* flags */
};

对于每一个 segment 而言,设置进程虚拟内存的过程就是将相应的内容加载到内存中,也就是从 Mach-O 文件的 fileoff 初加载 filesize 字节到虚拟内存地址的 vmaddr 处,占用 vmsize 字节。需要留意,对某些 segment 来说,vmsize 可能会大于 filesize,如__Data、__LINKEDIT。

在后边的讨论中,我们需要关心的是 segname__LINKEDIT 的段。__LINKEDIT 段由 dyld 使用,包含符号表、字符串表以及其他数据。

symtab_command 代码如下:

struct symtab_command {
uint32_t cmd; /* LC_SYMTAB */
uint32_t cmdsize; /* sizeof(struct symtab_command) */
uint32_t symoff; /* symbol table offset */
uint32_t nsyms; /* number of symbol table entries */
uint32_t stroff; /* string table offset */
uint32_t strsize; /* string table size in bytes */
};

symtab_command 中,symoff 为符号表在 Mach-O 文件中的偏移、stroff 为字符串表在 Mach-O 文件中的偏移。

1.2 揭秘

我们可以使用 MachOView 来打开一个 Mach-O 文件,观察 LC_SEGMENT(__LINKEDIT)、LC_SYMTAB。限于篇幅,这里就不截图观察了。但是你应当留意到符号表、字符串表在 Mach-O 文件的位置,位于 __LINKEDIT 段中,这也验证了上边对 __LINKEDIT 段的介绍。

我们从符号表在虚拟内存中的地址来倒推上边那个所谓的 segmentBaselinkedit_base,看一张图(不是很准确,但可以帮助我们搞明白这个问题)。

我们先忽略 ASLR,图中的深灰色背景表示是虚拟内存,__TEXT 段、__DATA 段我们不关心,图中没有体现。

sym_vmaddr 是指的是符号表在虚拟内存中地址,而在虚拟内存中符号表在 __LINKEDIT 段中偏移,即 sym_vmaddr - vmaddr,与其在 MachO 文件中的偏移,即 symoff - fileoff 相等。

也就是sym_vmaddr - vmaddr = symoff - fileoff

vmaddr 移到右边,即 sym_vmaddr = symoff - fileoff + vmaddr

发现什么了吗?

接着上边推:

减去符号表偏移symoff:sym_vmaddr - symoff = vmaddr - fileoff(式1),

式 1 等号右边的部分加上 ASLR 偏移 slide:vmaddr - fileoff + slide,也就是所谓的 segmentBaselinkedit_base

至此,真相大白。

参考

  • 深入解析Mac OS X & iOS操作系统

  • 深入理解计算机系统

  • Mach-O File Format

  • The Mac Hacker's Handbook

Mach-O在内存中符号表地址、字符串表地址的计算的更多相关文章

  1. 数据在内存中的存储方式( Big Endian和Little Endian的区别 )(x86系列则采用little endian方式存储数据)

    https://www.cnblogs.com/renyuan/archive/2013/05/26/3099766.html 1.故事的起源 “endian”这个词出自<格列佛游记>.小 ...

  2. PE格式第四讲,数据目录表之导入表,以及IAT表

    PE格式第四讲,数据目录表之导入表,以及IAT表 一丶IAT(地址表) 首先我们思考一个问题,程序加载的时候会调用API,比如我们以前写的标准PE 那么他到底是怎么去调用的? 他会Call 下边的Jm ...

  3. 第四讲,数据目录表之导入表,以及IAT表

    一丶IAT(地址表) 首先我们思考一个问题,程序加载的时候会调用API,比如我们以前写的标准PE 那么他到底是怎么去调用的? 它会Call 下边的Jmp位置 而Jmp位置则是对一个全局变量取内容. 看 ...

  4. 小表驱动大表, 兼论exists和in

    给出两个表,A和B,A和B表的数据量, 当A小于B时,用exists select * from A where exists (select * from B where A.id=B.id) ex ...

  5. 线性表之顺序表(C语言实现)

    线性表是从数据元素的逻辑结构上定义的. 这种数据元素的逻辑结构的特征如下: 1.除开第一个和最后一个元素之外.所有元素都有一个前驱元素和后继元素. 2.第一个元素无前驱元素,但有后继元素. 3.最后一 ...

  6. ARM裸板开发:04_MMU 链接地址与运行地址不一致时,(SDRAM)初始化程序地址无关码问题的分析

    ARM裸板开发过程,程序的链接地址设置为为0x30000000,而前期的启动代码以及相关硬件的初始化代码需要在内部iRAM(steppingstone,起始地址0x0)的4K中运行.链接地址与运行地址 ...

  7. 浮点数在计算机内存中的表示(IEEE 754规定1位是符号位,8位是指数,剩下的23位为有效数字)

    本文转载自:阮一峰的博客,http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.html 张玉彬的博客 h ...

  8. In-Memory:在内存中创建临时表和表变量

    在Disk-Base数据库中,由于临时表和表变量的数据存储在tempdb中,如果系统频繁地创建和更新临时表和表变量,大量的IO操作集中在tempdb中,tempdb很可能成为系统性能的瓶颈.在SQL ...

  9. DataTable to Excel(使用NPOI、EPPlus将数据表中的数据读取到excel格式内存中)

    /// <summary> /// DataTable to Excel(将数据表中的数据读取到excel格式内存中) /// </summary> /// <param ...

随机推荐

  1. Linux环境搭建 | VMware下共享文件夹的实现

    在进行程序开发的过程中,我们经常要在主机与虚拟机之间传递文件,比如说,源代码位于虚拟机,而在主机下阅读或修改源代码,这里就需要使用到 「共享文件」 这个机制了.本文介绍了两种共享文件夹的实现机制:VM ...

  2. GPU服务器安装NVIDIA驱动以及CUDA

    1.安装系统 系统版本: ubuntu16.04.05 LTS 分区要求: /boot 1024M swap 64G / 剩余空间

  3. 新手学习FFmpeg - 调用API完成录屏

    调用FFMPEG Device API完成Mac录屏功能. 调用FFMPEG提供的API来完成录屏功能,大致的思路是: 打开输入设备. 打开输出设备. 从输入设备读取视频流,然后经过解码->编码 ...

  4. switch语句(下)(转载)

    之前我们介绍了在switch语句中使用整数类型和枚举类型的情况.这一部分继续介绍使用string类型的情况.string类型是switch语句接受的唯一一种引用类型参数. 下面来看一段C#代码. 代码 ...

  5. Delphi - Indy TIdHTTP方式创建程序外壳 - 实现可执行程序的自动升级

    Delphi 实现可执行程序的自动升级 准备工作: 1:Delphi调用TIdHTTP方式开发程序,生成程序打包外壳 说明:程序工程命名为ERP_Update 界面布局如下: 代码实现如下: unit ...

  6. GO.Web服务

    Web基础 Web服务器的一般工作原理可以简单地归纳为: 客户机浏览器通过TCP/IP协议建立到服务器的TCP连接 客户端向服务器发送HTTP协议请求包,请求服务器里的资源文档 服务器向客户机发送HT ...

  7. 关于web.xml配置

    整理自网上: web应用是一种可以通过Web访问的应用程序.在J2EE领域下,web应用就是遵守基于JAVA技术的一系列标准的应用程序. 最简单的web应用什么样? 2个文件夹.1个xml文件就能成为 ...

  8. 模板汇总——treap

    1. 旋转treap. 思想:一颗权值BST + 一颗 随机数 最小堆. BZOJ - 3224 代码: #include<bits/stdc++.h> using namespace s ...

  9. CH 5101 最长公共上升子序列

    题目传送门 题解:F[i][j] 表示 对于第一个数列枚举到i来说, 第二个数列以j结尾的最大长度是多少. 那么对于更新 F[i] -> F[i+1]来说  如果 a[i+1] == b[j] ...

  10. CodeForces 1105E Helping Hiasat 最大独立集

    Helping Hiasat 题解: 如果我们把连续的2出现的人都相互连边的话, 题目就是问最大独立集的答案是多少. 求最大独立集可以将图变成反图, 然后求最大团. 代码: #include<b ...