hook的妙用
hook是一个非常有用的黑魔法
协程基于它的最大应用之一
我总结了一下hook的原理,和我遇到的hook场景
hook原理
我第一次看到hook这个词是在破解论坛上,大致意思是将指定函数替换成自己的,然后再去执行这个指定函数
从而偷梁换柱,在原有的函数上添加自己想要的功能
从设计模式上说倒是和装饰器模式非常相似
hook的核心就是让系统放弃原有代码,转而运行你的代码
破解为了达到hook的目的有非常多的手段,然而对开发者来说,通过动态链接的符号覆盖机制会简单很多
因此对开发者来说理解hook原理,就是理解动态链接原理
生成可执行文件
可执行文件的生成分两步:
编译:对每个编译单元(C/C++文件)进行编译后,就会生成可重定位文件
链接:对所有可重定位文件链接以后,就会生成可执行文件
这里就带来了一个问题,为什么要分两步?只有编译步骤会有什么问题?
编译将编译单位翻译成各种机器能看懂的符号,由于编译时当前编译单元引用另外一个编译单元的符号时,无法确定这个符号的地址
又因为编译是并行执行的,因此需要单独一个串行步骤:链接,去解决跨编译单元的相互引用问题,这个步骤在读取了全部符号后,将无法确定的符号地址确定后改写,也就是符号重定位,
符号重定位可以分为
- 链接时符号重定位
- 应用于多个.o文件(跨编译单元链接)或者是.a文件(静态链接)之间的符号重定位
- 静态链接本质上将所有符号全拷贝到可执行文件中去,浪费磁盘和内存
- 加载时符号重定位
- 普通模式(编译选项
-fPIE
)- 将静态链接时的符号重定位放到加载时来做,由于需要修改动态库符号的地址,因此动态库无法再重用,在加载时,每个进程在内存中只能对动态库的每个符号都拷贝一遍
- 相对静态链接而言,只节省了磁盘,依然浪费了更为宝贵的内存
- 地址无关代码(编译选项
-fPIC
,鼎鼎大名的PIC,position independent code)- 配合延迟绑定(lazy binding)可以极大的节省内存空间
- 普通模式(编译选项
静态链接(链接时符号重定位)实验
本文的重点是动态链接,所以对静态链接的原理不做详细介绍,只通过实验来观察静态链接的现象
静态链接的实验在gcc version 9.4.0 (Ubuntu 9.4.0-1ubuntu1~20.04.3)
下
源码如下:
1 | // file: a.c |
编译目标文件:
1 | ~ gcc -c a.c main.c -g |
查看a.o汇编:
1 | ~ objdump -S a.o |
b那一行,加载全局变量 g_share
的值到寄存器 edx
11那一行,将参数 a
存储到寄存器 eax
中
14那一行,将全局变量 g_share
的值加上参数 a
的值,结果存储在 eax
中
16那一行,将加法结果从eax
存储回全局变量 g_share
这里代表变量g_share
的部分全部是0x0,这就是编译阶段还没确定符号地址,需要在链接的时候进行重定位
那么链接器如何知道目标文件哪些地址需要重定位,并且重定位到哪个变量呢?这里就有一个映射表项给链接器参考,叫做重定位表(relocatioin table)
1 | ~ readelf -r a.o |
这里指出了代码段的d(也就是b那一行第三个位置)和以及代码段的18(也就是16那一行第三个位置),这两个长度为2的代码段,需要重定向为g_share地址,这里的-4会辅助链接器进行重定向计算,具体逻辑我也不清楚
接着链接可执行文件查看链接后最终结果:
1 | ~ gcc a.o main.o -g -o main |
可以看到1134这一行,将通过RIP相对偏移0x2ed6访问变量,RIP指向下一行指令的首地址,因此是113a + 0x2ed6 = 4010,同理1145 + 0x2ecb = 4010
最后看下4010指向什么:
1 | ~ readelf -s main|grep 4010 |
确实是g_share,再看看它的初始值
1 | ~ readelf -x .data main |
4010的值为1,和预期g_share = 1一致
动态链接(加载时符号重定位)原理
通过简单的实验来理解动态链接过程,实验源码如下
1 | int extern_v = 1; |
编译成动态库
gcc -m32 -fPIC -shared hello.c -o libhello.so
然后就可以查看汇编代码了
objdump -S libhello.so
static的符号访问
static的变量或者函数,由于static限制了他的作用域不能跨文件,因此在编译期间就可以确定他的地址
关注实验代码的static的变量访问部分
1 | static int static_v = 2; |
以下是汇编代码
1 | ~ objdump -S libhello.so |
这里看到执行static_v
的赋值操作前,先调用了__x86.get_pc_thunk.ax
,这是做什么的?
__x86.get_pc_thunk.ax
1 | 000005d5 <__x86.get_pc_thunk.ax>: |
这里是因为x86不允许相对地址调用(x64不存在这个限制),为了获取当前的绝对地址,需要利用函数调用时压栈的小特性
1 | call foo 指令相当于 |
调用时,会把调用者的下一条指令的地址(当前的eip)压栈保存,所以进入get_pc_thunk.xx时,栈顶esp就是调用者的下一条指令地址。
因此mov (%esp),%eax
将栈顶的内容写入寄存器eax,从而得到返回后下一条指令的地址(0x594)
在get_pc_thunk返回后对寄存器eax的内容add了0x1a6c,随后对寄存器eax+0x18偏移量的地址进行访问,也就是0x1a6c+0x594+0x18 = 0x2018
那么地址0x2018是什么呢
1 | ~ readelf -s libhello.so |grep 2018 |
可以看到,在符号表中正是static_v变量
非static的符号访问
某个编译单元由于引用的符号可能位于某个动态库中,只有在运行期间才能获取到符号地址,因此引入了got(global offset table)表,got表在加载时,由动态链接器进行初始化写入需要的符号地址
然而即使是同一个编译单元内的符号,在做地址无关代码的动态库编译后,也会使用got表来进行访问,我认为这主要是为了实现插件式的动态链接需求,对跨模块的同名符号来说,先进入全局符号表的总是会覆盖后进入的,具体的说:
- 当可执行文件和动态库的符号同名时,可执行文件的符号会覆盖动态库符号
- 当动态库之间的符号同名时,覆盖顺序取决于链接时的动态库链接顺序(-la -lb,则a覆盖b)
关注实验代码的非static的变量访问部分
1 | int extern_v = 1; |
以下是汇编代码
1 | ~ objdump -S libhello.so |
可以看到,比起static的符号访问,在add和movl中间多了一步mov -0x14(%eax),%eax
0x1a88+0x578-0x14 = 0x1fec
这个地址位于got表中
1 | ~ readelf -x .got libhello.so |
这个段全部是0,加载到内存后,动态链接器通过重定位段的信息对其重定位来写入到got表
重定位段.rel.dyn
1 | ~ readelf -x .rel.dyn libhello.so |
这一段数据对应Elf32_Rel结构体
1 |
|
其中03b0地址的数据ec1f0000 06060000
,从大端序看,前4字节r_offset正是0x1fec,接着3字节(060)代表.dynsym的下标,最后1字节(6)是类型
接着看.dynsym
1 | Contents of section .dynsym: |
这一段数据对应Elf32_Sym结构体
1 | typedef struct |
因此ec1f0000
对应.dynsym
第7行7a000000 14200000
st_value是这个符号的初始值,也就是0x2014
st_name的值为0x7a,这是他在.dynstr段的偏移量
1 | Contents of section .dynstr: |
因此0x7a
对应.dynstr
第8行的第10个字符开始直到0,也就是extern_v
(题外话,这里可以看到extern_v是字符串test_extern_v的一部分,也是非常巧妙的设计了)
当然和静态链接中实验一样,用readelf -r
也可以很方便的看重定位信息
1 | ~ readelf -r libhello.so |
同模块访问,非符号覆盖下的运行时got表内容
来看一下运行时的got表内容
首先看下操作系统给进程分配的虚拟地址
1 | ~ cat /proc/16221/maps |
重点是
1 | f7fd1000-f7fd2000 r-xp 00000000 00:2c 501122312 /root/test/libhello.so |
第一段r-xp
是代码段(.text),可读可执行,代码段由于不可写,是整个系统共享动态链接库内容的,在发生缺页中断的时候会共享物理内存内容
第二段r--p
是只读数据段(.rodata,只读常量,包括 GOT 表)
第三段rw-p
是可读写数据段(.data 或 .bss)
第二段和第三段的数据段,是每个进程独立的内存空间,在发生缺页中断的时候会用动态链接库的数据段内容初始化这里的内存,在动态链接过程中再修改对应的GOT表内容为重定向的地址
虚拟地址加上偏移量后得到f7fd1000+00001fec=0xF7FD2FEC
,这个地址就是GOT表了,看下这个地址的内容
1 | (gdb) x 0xF7FD2FEC |
将0xf7fd3014去掉虚拟地址转换为偏移量:0xf7fd3014-f7fd1000=2014
2014
这个地址正是在刚才重定位段.dynsym
看到的初始值,说明动态链接库中代码指向的got表内容没有发生改变,还是extern_v
跨模块访问,符号覆盖下的运行时got表内容
got访问跨模块,可以分成几种情形
- extern访问跨模块符号
- 相同符号覆盖
- 动态库和可执行文件覆盖
- 动态库之间覆盖
实际原理都一样,这里用相同符号覆盖中的动态库和可执行文件覆盖来举例
写一个可执行文件来使用刚才编译的动态库
1 | extern void test_extern_v(); |
然后编译执行
1 | ~ gcc -m32 main.c -lhello -L. -o main |
可以看到,extern_v被初始化成了可执行文件中的0,而不再是动态库中的1了
此时的got表地址内容
1 | (gdb) x 0xF7FD2FEC |
看一下main的符号表
1 | ~ readelf -s main |
动态库got表内容对应的正式可执行文件的符号,而不再是动态库自己的符号了
延迟绑定
针对非static的函数符号来说,专门做了一个延迟绑定的优化
使得只有函数被用到时才会进行got表重定位,不再是动态链接器初始化时就进行重定位了
这可以大大节省内存开销,这里没有对变量进行延迟绑定优化,大概是因为非static全局变量的符号数量大大少于非static函数符号吧
关注实验代码中关于函数调用的部分
1 | void func() { |
以下是汇编代码
1 | ~ objdump -S libhello.so |
可以看到test_func没有直接访问func,而是访问的func@plt
func@plt
跳转到了寄存器%ebx
中的地址
这个地址的内容是0x1a3e+5c2+0xc=200c
变量符号位于.got段中,而延迟绑定的函数符号位于.got.plt段中
1 | ~ readelf -x .got.plt libhello.so |
延迟绑定的重定位段.rel.plt
逻辑和重定位段.rel.dyn是一样的
1 | Hex dump of section '.rel.plt': |
其中03d8地址的数据0c200000 070f0000
,从大端序看,前4字节r_offset正是0x200c,接着3字节(0f0)代表.dynsym的下标,最后1字节(7)是类型
接着看.dynsym
1 | Hex dump of section '.dynsym': |
因此0x200c
对应.dynsym
第16行96000000 a6050000
st_value是这个符号的初始值,也就是0x5a6
st_name的值为0x96,这是他在.dynstr段的偏移量
因此0x96
对应.dynstr
第10行的第6个字符开始直到0,也就是func
1 | Hex dump of section '.dynstr': |
使用readelf -r
查看
1 | ~ readelf -r libhello.so |
同模块访问,非符号覆盖下的运行时got表内容
同样看下运行时got内容,在test_func上断点,然后查看got表内容
将got地址200c加上libhello.so的虚拟地址得到
f7fd1000+200c=F7FD300C
1 | (gdb) b test_func |
可以看到,在执行test_func前,他的值指向0xf7fd1426,去掉libhello.so的虚拟地址得到426
正是func@plt的第二句
1 | 00000420 <func@plt>: |
因此这里相当于什么也没有做,继续执行42b,执行完42b后,got地址的内容改变了
1 | (gdb) x 0xF7FD300C |
5a6正是func符号的地址
42b做的显然就是为函数符号延迟绑定got表内容,深挖的话会发现这里执行了_dl_runtime_resolve(link_map_obj, reloc_arg)
函数
这个函数的第一个参数是动态库的模块id,通过该参数在.dynamic取到.dynstr, .dynsym, .rel.plt的地址
第二个参数是语句426中push进去的在重定位表(.rel.plt)中的偏移量(0x0)
从而获取在到.dynsym的信息,然后获取到在.dynstr中的信息(func),得到了符号字符串
此时可以在全局符号表中找到对应的符号地址(5a6),填入记录在.rel.plt中对应的got表(200c)中,并调用解析的函数
运行时动态链接过程
got访问跨模块时,相同符号覆盖的规则显得有点难以理解,这是由运行时动态链接决定的,因此理解其过程非常重要了
在bash执行进程时,首先进行fork,然后是exec,其中调用load_elf_binary
,就可以开始正式的进行动态链接了
1 | static int load_elf_binary(struct linux_binprm *bprm) |
在准备好堆栈后,再加载完elf的各section到到执行视图的segment以后,就来到了load_elf_interp
这个动态链接运行的正式入口
这个动态链接器之前由遍历elf的程序头时的读入解释器名(retval = kernel_read(bprm->file, elf_ppnt->p_offset, elf_interpreter, elf_ppnt->p_filesz);
)提供。
动态链接器会先进行自举,完成自己got表的重定位,这个过程无法调用任何的系统函数
随后就根据elf文件的.dynamic字段,获取到.dynstr, .dynsym, .rel.plt字段,查询到该模块还依赖了哪些动态库,随后广度遍历的进行载入
先被载入的符号会放入全局符号表中,后被载入的相同符号会被忽略掉
这就解释了为什么相同符号进行覆盖时,可执行文件的优先级最高,因为可执行文件的符号载入先于任何动态库
随后动态库的符号优先级,就取决于编译时的链接顺序(或者设置LD_PRELOAD强行运行在其他动态库最前面)
在符号解析和重定位完成以后,就对动态库进行初始化(调用.init段)
随后开始正式运行程序
整个过程可以通过LD_DEBUG=all ./main
观察到
动态链接的坑
符号覆盖问题
这个问题在上一节运行时动态链接过程中已经讨论过了
double free
当使用C++时,会遇到这个符号覆盖的子问题
对变量来说,虽然符号已经覆盖了,但是动态库的初始化和析构都会进行两次,初始化两次相同地址只会导致泄露,析构两次相同地址那就会发生double free了
解决办法:
在编译选项中加入
-Wl,--exclude-libs,<your_static_lib>
-Wl
为gcc 传给静态链接器ld
的选项。gcc -Wl,aa,bbb,cde
在gcc传给ld时,会变为ld aaa bbb cde
这种形式。需要注意的是这里的lib名是需要lib前缀的。
通常情况下,一个动态库链接静态库后,这个动态库也会继承静态库当中的导出符号(即非
static
符号),而使用该链接选项,则可以让动态库在链接静态库后将静态库中的导出符号改为非导出符号,相当链接时为静态库中的所有函数、变量均加上了static
。这样所有静态库符号都保存在本地,同样也不会被主程序或其他动态链接库劫持符号。使用
dlopen
使用
dlopen
打开动态库,例如dlopen("libconflict.so", RTLD_LOCAL | RTLD_LAZY);
,RTLD_LAZY
同样也会保证该 so 中的符号不被劫持。在编译选项中使用-fpie或 -fPIE
当使用选项 -fpie或 -fPIE时,生成的共享库不会为静态成员变量或全局变量在 GOT中创建对应的条目,相当于给全部变量加上了static,当然这也没法进行hook了
基于dlsym的hook
根据上一节的动态链接原理,可以看到有很多方式可以通过修改elf的符号表来进行hook
但是作为开发者来说就不需要这么复杂了,在可执行文件中定义一个和动态库中相同的符号,就可以覆盖动态库符号,执行自己希望的函数
但是只是执行自己的函数显然是不满足hook的需求的,“装饰器模式”才是最终的需求,还需要执行回原来的函数
这时dlsym就登场了,man dlsym
看下他的参数
There are two special pseudo-handles that may be specified in handle: RTLD_DEFAULT Find the first occurrence of the desired symbol using the default shared object search order. The search will include global symbols in the executable and its dependencies, as well as symbols in shared objects that were dynamically loaded with the RTLD_GLOBAL flag.
RTLD_NEXT Find the next occurrence of the desired symbol in the search order after the current object. This allows one to provide a wrapper around a function in another shared object, so that, for example, the definition of a function in a preloaded shared object (see LD_PRELOAD in ld.so(8)) can find and invoke the "real" function provided in another shared object (or for that matter, the "next" definition of the function in cases where there are multiple layers of preloading).
在默认的库查找顺序下,RTLD_DEFAULT是用于查找第一个符号匹配的函数地址,RTLD_NEXT是用于查找第二个符号匹配的函数地址
通过这种方式,可以找回被覆盖的符号,从而进行执行
实验代码如下
1 |
|
然后进行编译
1 | gcc -m32 main.c -o main -Wl,--no-as-need -lhello -ldl -L. |
现在可以反编译看下代码内容了
1 | ~ objdump -S main |
可以看到,需要调用的函数在寄存器eax中,gdb看下里面的内容
1 | (gdb) set env LD_LIBRARY_PATH=. |
没错了,正是libhello.so这个动态库的符号
基于hook的应用
基于hook的异常定位
工作中遇到一个需求,是一个不知道哪里抛出的bad_function_call异常被rpc框架抓住了,rpc框架不可能帮你打印全部的异常堆栈
因此可以hook异常符号__cxa_throw
,指定bad_function_call才打印堆栈
1 |
|
编译后运行
1 | ./out.exe(__cxa_throw+0x83)[0x402970] |
使用addr2line打印行号
1 | ~ addr2line 0x402a34 -e out.exe |
题外话:虽然backtrace_symbols_fd是可以重入的,但是backtrace内部使用了malloc,malloc有锁,因此是不可重入的,如果是malloc抛出的异常进行backtrace,会导致死锁
基于hook的内存统计
定义了一个MemoryUsedHolder结构,hook了malloc和free,从而简单的测试出来数据结构使用多少内存,是否存在内存泄露
以上一篇博文的红黑树实现来进行测试
1 |
|
执行后输出
1 | |memoryUsed=39991080| |
可以看到,测试结果没有泄露,内存消耗和stl相同
题外话:malloc返回的指针是对齐后的数据长度,需要malloc_usable_size才能知道申请的大小,因此不止是free,malloc也需要使用malloc_usable_size,最早在这里裁了坑,以为哪里有泄露,因此重新搞了gperftools检查内存泄露才确定是对malloc_usable_size的使用有问题,记录在c++ 分析 gperftools 总结
总结
可执行文件的生成分两步:
编译:对每个编译单元(C/C++文件)进行编译后,就会生成可重定位文件
链接:对所有可重定位文件链接以后,就会生成可执行文件
编译将编译单位翻译成各种机器能看懂的符号,由于编译时当前编译单元引用另外一个编译单元的符号时,无法确定这个符号的地址
又因为编译是并行执行的,因此需要单独一个串行步骤:链接,去解决跨编译单元的相互引用问题,这个步骤在读取了全部符号后,将无法确定的符号地址确定后改写,也就是符号重定位
符号重定位可以分为
链接时符号重定位
- 应用于多个.o文件(跨编译单元链接)或者是.a文件(静态链接)之间的符号重定位
- 静态链接本质上将所有符号全拷贝到可执行文件中去,浪费磁盘和内存
加载时符号重定位
普通模式(编译选项
-fPIE
)- 将静态链接时的符号重定位放到加载时来做,由于需要修改动态库符号的地址,因此动态库无法再重用,在加载时,每个进程在内存中只能对动态库的每个符号都拷贝一遍
- 相对静态链接而言,只节省了磁盘,依然浪费了更为宝贵的内存
地址无关代码(编译选项
-fPIC
,鼎鼎大名的PIC,position independent code)在动态链接库被进程加载到内存后,由于代码段通过相对偏移访问GOT表,代码段不再进行修改,因此代码段可以共享同一份内存,每个进程在数据段中拥有自己的GOT表
配合只对全局函数生效的延迟绑定(lazy binding)可以极大的节省内存空间
此外,由于通过GOT表进行访问,因此可以发生同名符号的覆盖,先加载的会覆盖后面的(可执行文件和静态链接的总会覆盖动态链接的)
如果不想发生这种情况:
在编译选项中加入
-Wl,--exclude-libs,<your_static_lib>
-Wl
为gcc 传给静态链接器ld
的选项。gcc -Wl,aa,bbb,cde
在gcc传给ld时,会变为ld aaa bbb cde
这种形式。需要注意的是这里的lib名是需要lib前缀的。
通常情况下,一个动态库链接静态库后,这个动态库也会继承静态库当中的导出符号(即非
static
符号),而使用该链接选项,则可以让动态库在链接静态库后将静态库中的导出符号改为非导出符号,相当链接时为静态库中的所有函数、变量均加上了static
。这样所有静态库符号都保存在本地,同样也不会被主程序或其他动态链接库劫持符号。使用
dlopen
使用
dlopen
打开动态库,例如dlopen("libconflict.so", RTLD_LOCAL | RTLD_LAZY);
,RTLD_LAZY
同样也会保证该 so 中的符号不被劫持。在编译选项中使用-fpie或 -fPIE
当使用选项 -fpie或 -fPIE时,生成的共享库不会为静态成员变量或全局变量在 GOT中创建对应的条目,相当于给全部变量加上了static,当然这也没法进行hook了
参考资料
《程序员的自我修养》
-
这一篇讲的非常清晰,几乎可以赶上程序员的自我修养
聊聊Linux动态链接中的PLT和got(1)——何谓PLT与got
聊聊Linux动态链接中的PLT和got(2)——延迟重定位
聊聊Linux动态链接中的PLT和got(3)——公共got表项
聊聊Linux动态链接中的PLT和got(4)—— 穿针引线
系列好文,延迟绑定讲透了
-
2025-01-12
截止25年1月12日,打算使用dlmopen来装载serverless平台第三方动态库的计划,在挣扎了2周后正式宣布破产
总的来说dlmopen虽然已经有几十年历史了,但是在当前还是非常不成熟的,有很多细节问题没有解决
想用上dlmopen,需要深入理解glibc的实现原理,和patches的可能bug斗智斗勇,这个投入产出比很低
背景
serverless平台的设计原理属于机密,略过不提