记一个链接库导出函数被覆盖的问题

链接库的一个问题

前些天遇到这样一个问题:libD.so需要用到libS.a提供的方法,于是静态链接了libS.a。而libS.a和libD.so又都会被可执行文件bin所链接。(因为libD.so还提供给其他可执行程序使用,所以链接libS.a是必须的。而libD.so对于bin来说是可选的,所以bin也必须链接libS.a。)这就形成下面一种情况:
libD.so  <----  bin
    |                 |
libS.a   <--------
那么,如果今后libS.a有所修改(成了libS_new.a),bin重新编译了(重新链接了libS_new.a),而libD.so不变(还是链接的libS.a)。libD.so会受(libS_new.a的)影响吗?需求是libD.so不要受影响。

我之前的理解是:不会受影响。因为旧的libS.a已经静态链接到libD.so里面了,libD.so调用到的libS.a接口已经被链接上。只剩下函数的地址,而符号(函数名)已经不需要了。虽然说libD.so的代码是位置无关的,libS.a被静态链接在其中之后也需要位置无关,但是对于libS.a里面的接口的调用应该是可以使用相对地址寻址来实现的。
libD.so  <----  bin
     |                 |
libS.a        libS_new.a

但是实际情况却不是这样,尽管libD.so没有重新链接libS_new.a,但是它依然会调用到libS_new.a里面。
     libD.so  <----  bin
      |     |              |
libS.a     ----> libS_new.a

测试过程如下:

S.cpp
#include <stdio.h>
namespace S {
    int testS() {
        printf("it's old\n");
        return 0;
    }
}
g++ -fPIC -c S.cpp
ar r libS.a S.o

D.cpp
#include <stdio.h>
namespace S {void testS();}
namespace D {
    int test() {
        return 1;
    }
    void testD() {
        S::testS();
        printf("%s,%d, test=%d\n",__FILE__,__LINE__, test());
    }
}
(注意,这里的D::test()后面另有用处。)
g++ -g -fPIC -shared D.cpp libS.a -o libD.so

bin.cpp
namespace S {void testS();}
namespace D {void testD();}
int main(int argc, char *argv[]) {
    S::testS();
    D::testD();
    return 0;
}
g++ bin.cpp libS.a libD.so -o bin

执行bin程序之后,输出:
it's old
it's old
D.cpp,9, test=1
这没问题。

之后S.cpp的代码发生了变化(变成S_new.cpp):
S_new.cpp
#include <stdio.h>
namespace S {
    int testS() {
        printf("it's new\n");
        return 0;
    }
}
g++ -fPIC -c S_new.cpp
ar r libS_new.a S_new.o

主程序bin重新编译(重新静态链接libS_new.a),而libD.so保持原样(还是静态链接libS.a):
g++ bin.cpp libS_new.a libD.so -o bin

执行bin程序之后,输出:
it's new
it's new
D.cpp,9, test=1
尽管libD.so没有重新编译(它链接的依然是libS.a),它里面调用的S::testS()还是调用到了libS_new.a。

查找原因

objdump看一下libD.so的代码:
objdump -d libD.so
 ......
0000000000000730 <_ZN1S5testSEv@plt>:
730:   ff 25 5a 04 10 00       jmpq   *1049690(%rip)        # 100b90 <_GLOBAL_OFFSET_TABLE_+0x18>
736:   68 00 00 00 00          pushq  $0x0
73b:   e9 e0 ff ff ff          jmpq   720 <_init+0x18>
......
0000000000000818 <_ZN1D5testDEv>:
818:   55                      push   %rbp
819:   48 89 e5                mov    %rsp,%rbp
81c:   e8 0f ff ff ff          callq  730 <_ZN1S5testSEv@plt>
821:   e8 3a ff ff ff          callq  760 <_ZN1D4testEv@plt>
826:   89 c1                   mov    %eax,%ecx
......
0000000000000848 <_ZN1S5testSEv>:
848:   55                      push   %rbp
849:   48 89 e5                mov    %rsp,%rbp
84c:   48 8d 3d 79 00 00 00    lea    121(%rip),%rdi        # 8cc <_fini+0x24>
853:   b8 00 00 00 00          mov    $0x0,%eax
858:   e8 e3 fe ff ff          callq  740 <printf@plt>
......

可以发现尽管libD.so静态链接了libS.a,libS.a里面的S::testS()也确实被包含在了libD.so里面,但是对S::testS()函数的调用却依然是走的GOT符号表(GLOBAL_OFFSET_TABLE)。这与我原先的理解是不一致的。

再objdump看一下bin的代码:
objdump -d bin
 ......
00000000004006f8 <main>:
4006f8:       55                      push   %rbp
4006f9:       48 89 e5                mov    %rsp,%rbp
4006fc:       48 83 ec 10             sub    $0x10,%rsp
400700:       89 7d fc                mov    %edi,0xfffffffffffffffc(%rbp)
400703:       48 89 75 f0             mov    %rsi,0xfffffffffffffff0(%rbp)
400707:       e8 0c 00 00 00          callq  400718 <_ZN1S5testSEv>
40070c:       e8 07 ff ff ff          callq  400618 <_ZN1D5testDEv@plt>
......
0000000000400718 <_ZN1S5testSEv>:
400718:       55                      push   %rbp
......

可以发现,bin对于S::testS()的调用是静态的(直接call的相对地址)。但是,libD.so对S::testS()的调用为什么会调用到bin里面来呢?
readelf看一下bin的符号表:
readelf bin -s
Symbol table '.dynsym' contains 15 entries:
Num:    Value          Size Type    Bind   Vis      Ndx Name
......
2: 0000000000400718    28 FUNC    GLOBAL DEFAULT   12 _ZN1S5testSEv
3: 0000000000500978     0 OBJECT  GLOBAL DEFAULT  ABS _DYNAMIC
......
S::testS()的符号被bin导出了,随着bin被加载,S::testS()符号也被加载到了符号表。这件事情是发生在libD.so加载之前的,等到libD.so被加载的时候,S::testS()符号已经存在,所以libD.so就调用到了bin里面的S::testS()(也就是libS_new.a里面)。

其实不光是libD.so调用libS.a的函数会发生这样的情况,libD.so调用自己的函数都是这样:
objdump -d libD.so
 ......
0000000000000818 <_ZN1D5testDEv>:
818:   55                      push   %rbp
819:   48 89 e5                mov    %rsp,%rbp
81c:   e8 0f ff ff ff          callq  730 <_ZN1S5testSEv@plt>
821:   e8 3a ff ff ff          callq  760 <_ZN1D4testEv@plt>
......
调用libD.so内部的test()函数都是走的符号表!

修改一下bin.cpp,也来实现一个D::test():
bin.cpp
namespace S {void testS();}
namespace D {
    void testD();
    int test() {
        return 999;
    }

}
int main(int argc, char *argv[]) {
    S::testS();
    D::testD();
    return 0;
}
g++ bin.cpp libS_new.a libD.so -o bin

执行bin程序之后,输出:
it's new
it's new
D.cpp,9, test=999

没错吧,D::test()被覆盖了。

一些插曲

使用下面的方式编译bin:
g++ bin.cpp -c
ld -r libS_new.a bin.o -o bin.lo      
gcc bin.lo -o bin libD.so 

输出是:
it's old
it's old
D.cpp,9, test=999

居然D::test()是取的bin里面的,而S::testS()却是libS.a的!
为什么呢?还是objdump看一下bin:
 ......
0000000000400744 <main>:
400744:       55                      push   %rbp
400745:       48 89 e5                mov    %rsp,%rbp
400748:       48 83 ec 10             sub    $0x10,%rsp
40074c:       89 7d fc                mov    %edi,0xfffffffffffffffc(%rbp)
40074f:       48 89 75 f0             mov    %rsi,0xfffffffffffffff0(%rbp)
400753:       e8 e0 fe ff ff          callq  400638 <_ZN1S5testSEv@plt>
400758:       e8 fb fe ff ff          callq  400658 <_ZN1D5testDEv@plt>
......
对S::testS()的调用走的是符号表,而bin里面根本就没有S::testS()。

这其实是跟ld的参数顺序有关的,libS_new.a bin.o,ld试图用bin.o导出的符号去解决libS_new.a的未决符号。而现在我们需要的是用libS_new.a导出的符号(S::testS())去解决bin.o的未决符号。

重新编译一下,把libS_new.a和bin.o的位置换一换:
g++ bin.cpp -c
ld -r bin.o libS_new.a -o bin.lo
gcc bin.lo -o bin libD.so 

执行结果就对了:
it's new
it's new
D.cpp,9, test=999

解决办法

那么,怎样才能让bin调用到libS_new.a、而libD.so调用到libS.a,使它们互不影响呢?一开始想了两种办法:
一、bin以dlopen的方式去打开libD.so,并dlsym查找D::testD():
libD.so  <-(dlopen)-  bin
    |                            |
libS.a                 libS_new.a
这个方法并不可行,D::testD()去调用S::testS()时,同样走GOT,同样找到了bin里面的S::testS();

二、将libS.a打包成动态库libS_d.so,libD.so以dlopen的方式去打开libS_d.so,并dlsym查找S::testS():
libD.so  <--------  bin
    |(dlopen)          |
libS_d.so(libS.a)  libS_new.a
这个方法可行,因为dlsym指明了是在libS_d.so查找符号,所以能正确找到libS_d.so(也就是原来的libS.a)里面的S::testS(),而不是bin里面的S::testS();

不过,继续之前的分析思路想一想。只要链接顺序不错,bin里面已经静态链接了libS_new.a里面的S::testS(),这个地方是不会调错的。而libD.so之所以不能调用到libS.a里面的S::testS(),是因为libD.so通过符号表去调用S::testS()、并且bin先把S::testS()这个符号给导出了。
如果能让bin不导出S::testS()符号呢?或者让libD.so不通过符号表去调用S::testS()呢?

尝试了很多编译选项,似乎都没法阻止bin导出S::testS()符号……
-s (Remove all symbol table and relocation information from the executable.)
这个选项实际上是删除了.symtab段的符号,而不是.dynsym段。前者是链接过程中使用的符号、后者是运行时动态链接使用的符号,前者是后者的超集。而.symtab段在运行时根本就不会mmap到进程的地址空间;

-fvisibility=hidden
这个选项可以阻止动态链接库导出符号,配合__attribute__ ((visibility("default")))语法可以实现类似windows下的dll可以指定导出哪些函数的功能。但是好像对可执行程序无效;

-Wl,--no-export-dynamic
-Wl,--exclude-symbols=_ZN1S5testSEv
-Wl,--exclude-libs=libS_new.a
均无效;

那么能不能让libD.so不通过符号表去调用S::testS()呢?
-Wl,-Bsymbolic(When creating a shared library, bind references to global symbols to the definition within the shared library, if any.)选项能够做到这一点。

重新编译libD.so
g++ -g -fPIC -shared -Wl,-Bsymbolic D.cpp libS.a -o libD.so

执行程序,输出:
it's new
it's old
D.cpp,9, test=1

再objdump看看libD.so:
 ......
00000000000007c8 <_ZN1D5testDEv>:
7c8:   55                      push   %rbp
7c9:   48 89 e5                mov    %rsp,%rbp
7cc:   e8 27 00 00 00          callq  7f8 <_ZN1S5testSEv>
7d1:   e8 e6 ff ff ff          callq  7bc <_ZN1D4testEv>
7d6:   89 c1                   mov    %eax,%ecx
......
00000000000007f8 <_ZN1S5testSEv>:
7f8:   55                      push   %rbp
7f9:   48 89 e5                mov    %rsp,%rbp
......

test()和S::testS()都是直接调用的了,没有再走符号表。
加了-Wl,-Bsymbolic选项,生成的libD.so的确如最初所想的那样,在静态链接时就已经把符号给解决了(只剩下函数的相对地址,而没有符号)。

不过不幸的是,-Wl,-Bsymbolic选项是存在隐患的。因为它有些暴力的使动态链接库内部的符号都本地化了,使得一些需要共享的东西得不到共享。详见《Bsymbolic can cause dangerous side effects》的描述。

那篇文章也给出了解决办法,就是使用version_script来明确指定哪些符号要使用本地的(完成静态链接),哪些不限定本地(走符号表)。(尽管这种做法增加了维护成本,并且据说可移植性不佳。)
写一个version_script,指定S::testS()要使用本地的(D::test()故意不管):
D.vs
VERS_1.1 {local: _ZN1S5testSEv;};

重新编译libD.so:
g++ -g -fPIC -shared D.cpp libS.a -o libD.so -Xlinker --version-script -Xlinker D.vs

执行程序:
it's new
it's old
D.cpp,9, test=999
果然,S::testS()没被覆盖,而D::test()却还是被覆盖了。

version_script这一招对于bin文件似乎照样无效。

一个偏方

最后,对于libD.so调用libS.a的S::testS()函数会被覆盖的情况,还是有利用价值的。
比如,libS.a是一个第三方库,我们编写了libD.so,并用到了这个第三方库。现在,想为libD.so做一下单元测试。
由于libS.a这个第三方库的习性可能不是很容易掌握,或是是受到环境限制,使得我们很难确切构造libS.a接口的返回值。但是,对libD.so的单元测试又需要构造各种各样的返回值。这下怎么办呢?
如本文所述,我们可以山寨一个libS_new.a出来,然后就能随心所欲的构造我们需要的返回值了。
原文地址:https://www.cnblogs.com/wangfengju/p/6173081.html