我正在研究链接到libgomp的OpenMP程序的执行流程。它使用#pragma omp parallel for
。我已经知道,该构造除其他外成为对GOMP_parallel
函数的调用,其实现如下:
void
GOMP_parallel (void (*fn) (void *), void *data,
unsigned num_threads, unsigned int flags)
{
num_threads = gomp_resolve_num_threads (num_threads, 0);
gomp_team_start (fn, data, num_threads, flags, gomp_new_team (num_threads));
fn (data);
ialias_call (GOMP_parallel_end) ();
}
objdump -d
在libgomp上执行时,GOMP_parallel
显示为:
000000000000bc80 <GOMP_parallel@@GOMP_4.0>:
bc80: 41 55 push %r13
bc82: 41 54 push %r12
bc84: 41 89 cd mov %ecx,%r13d
bc87: 55 push %rbp
bc88: 53 push %rbx
bc89: 48 89 f5 mov %rsi,%rbp
bc8c: 48 89 fb mov %rdi,%rbx
bc8f: 31 f6 xor %esi,%esi
bc91: 89 d7 mov %edx,%edi
bc93: 48 83 ec 08 sub $0x8,%rsp
bc97: e8 d4 fd ff ff callq ba70 <GOMP_ordered_end@@GOMP_1.0+0x70>
bc9c: 41 89 c4 mov %eax,%r12d
bc9f: 89 c7 mov %eax,%edi
bca1: e8 ca 37 00 00 callq f470 <omp_in_final@@OMP_3.1+0x2c0>
bca6: 44 89 e9 mov %r13d,%ecx
bca9: 44 89 e2 mov %r12d,%edx
bcac: 48 89 ee mov %rbp,%rsi
bcaf: 48 89 df mov %rbx,%rdi
bcb2: 49 89 c0 mov %rax,%r8
bcb5: e8 16 39 00 00 callq f5d0 <omp_in_final@@OMP_3.1+0x420>
bcba: 48 89 ef mov %rbp,%rdi
bcbd: ff d3 callq *%rbx
bcbf: 48 83 c4 08 add $0x8,%rsp
bcc3: 5b pop %rbx
bcc4: 5d pop %rbp
bcc5: 41 5c pop %r12
bcc7: 41 5d pop %r13
bcc9: e9 32 ff ff ff jmpq bc00 <GOMP_parallel_end@@GOMP_1.0>
bcce: 66 90 xchg %ax,%ax
首先,例如GOMP_ordered_end
在的源代码中没有任何调用GOMP_parallel
。其次,该功能包括:
void
GOMP_ordered_end (void)
{
}
根据objdump输出,此函数从开始于ba00
,结束于bbbd
。在一个空函数中怎么会有这么多代码?顺便说一句,在libgomp的源代码中有一条注释,说它仅在使用ORDERED构造时(如名称所示)才出现,而我的测试不是这种情况。
最后,对我来说,主要的问题是:为什么源代码与反汇编有很大不同?例如,为什么gomp_team_start
在程序集中没有提及?
系统具有gcc版本5.4.0
根据objdump输出,此函数从ba00开始,以bbbd结尾。在一个空函数中怎么会有这么多代码?
函数本身很小,但是GCC只是使用了一些额外的字节来对齐下一个函数并存储了一些静态数据(此文件中的其他函数可能使用了)。这是我在本地看到的ordered.o
:
00000000000003b0 <GOMP_ordered_end>:
3b0: f3 c3 repz retq
3b2: 66 66 66 66 66 2e 0f data32 data32 data32 data32 nopw %cs:0x0(%rax,%rax,1)
3b9: 1f 84 00 00 00 00 00
首先,例如,在GOMP_parallel的源代码中没有对GOMP_ordered_end的任何调用。
不要被GOMP_ordered_end@@GOMP_1.0+0x70
汇编代码中的标记分散注意力。它说的全部是,这调用了一些本地库函数(objdump找不到任何符号信息),该函数恰好位于之后112个字节GOMP_ordered_end
。这是最有可能的gomp_resolve_num_threads
。
例如,为什么在程序集中没有提及gomp_team_start?
嗯,这看起来很像:
bcb5: e8 16 39 00 00 callq f5d0 <omp_in_final@@OMP_3.1+0x420>
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句