说我有以下琐碎的C头文件:
// foo1.h
typedef int foo;
typedef struct {
foo a;
char const* b;
} bar;
bar baz(foo*, bar*, ...);
我的目标是获取此文件,并生成一个看起来像这样的LLVM模块:
%struct.bar = type { i32, i8* }
declare { i32, i8* } @baz(i32*, %struct.bar*, ...)
换句话说,将.h
带有声明的C文件转换为等效的LLVM IR,包括类型解析,宏扩展等。
通过Clang传递它以生成LLVM IR会生成一个空模块(因为实际上没有使用任何定义):
$ clang -cc1 -S -emit-llvm foo1.h -o -
; ModuleID = 'foo1.h'
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-darwin13.3.0"
!llvm.ident = !{!0}
!0 = metadata !{metadata !"clang version 3.5 (trunk 200156) (llvm/trunk 200155)"}
我的第一个直觉是转向Google,我遇到了两个相关的问题:一个来自邮件列表,另一个来自StackOverflow。两者都建议使用-femit-all-decls
标志,所以我尝试了:
$ clang -cc1 -femit-all-decls -S -emit-llvm foo1.h -o -
; ModuleID = 'foo1.h'
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-darwin13.3.0"
!llvm.ident = !{!0}
!0 = metadata !{metadata !"clang version 3.5 (trunk 200156) (llvm/trunk 200155)"}
结果相同。
我还尝试过禁用优化(和-O0
和-disable-llvm-optzns
),但这对输出没有影响。使用以下变体确实产生了所需的IR:
// foo2.h
typedef int foo;
typedef struct {
foo a;
char const* b;
} bar;
bar baz(foo*, bar*, ...);
void doThings() {
foo a = 0;
bar myBar;
baz(&a, &myBar);
}
然后运行:
$ clang -cc1 -S -emit-llvm foo2.h -o -
; ModuleID = 'foo2.h'
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-darwin13.3.0"
%struct.bar = type { i32, i8* }
; Function Attrs: nounwind
define void @doThings() #0 {
entry:
%a = alloca i32, align 4
%myBar = alloca %struct.bar, align 8
%coerce = alloca %struct.bar, align 8
store i32 0, i32* %a, align 4
%call = call { i32, i8* } (i32*, %struct.bar*, ...)* @baz(i32* %a, %struct.bar* %myBar)
%0 = bitcast %struct.bar* %coerce to { i32, i8* }*
%1 = getelementptr { i32, i8* }* %0, i32 0, i32 0
%2 = extractvalue { i32, i8* } %call, 0
store i32 %2, i32* %1, align 1
%3 = getelementptr { i32, i8* }* %0, i32 0, i32 1
%4 = extractvalue { i32, i8* } %call, 1
store i8* %4, i8** %3, align 1
ret void
}
declare { i32, i8* } @baz(i32*, %struct.bar*, ...) #1
attributes #0 = { nounwind "less-precise-fpmad"="false" "no-frame-pointer-elim"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "no-realign-stack" "stack-protector-buffer-size"="8" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #1 = { "less-precise-fpmad"="false" "no-frame-pointer-elim"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "no-realign-stack" "stack-protector-buffer-size"="8" "unsafe-fp-math"="false" "use-soft-float"="false" }
!llvm.ident = !{!0}
!0 = metadata !{metadata !"clang version 3.5 (trunk 200156) (llvm/trunk 200155)"}
除了占位符doThings
,这正是我希望输出看起来像的样子!问题在于这需要1.)使用标头的修改版本,以及2.)事先了解事物的类型。这导致我...
基本上,我正在使用LLVM生成语言的实现。该实现应通过仅指定C头文件和关联的库(无手动声明)来支持C互操作,然后在链接时由编译器使用它们,以确保函数调用匹配其签名。因此,我将问题缩小为两个可能的解决方案:
libclang
解析头,然后查询从得到的AST类型(我的“最后一招”的情况下,没有足够的答案这个问题)我需要获取一个C头文件(例如上述foo1.h
),并且不更改它,而是使用Clang或OR生成上述预期的LLVM IR,找到从C头文件获取函数签名的另一种方法(最好使用libclang
或构建C解析器) )
也许不是那么优雅的解决方案,但是保留了使用doThings
编译器强制IR的函数的想法,因为使用了以下定义:
您使用此方法发现的两个问题是,它需要修改标题,并且需要对所涉及的类型有更深入的了解,以便生成“用途”以放入函数中。这两个都可以相对简单地克服:
它不是直接编译头文件,#include
而是从包含所有“使用”代码的.c文件中编译它(或更可能是其预处理版本或多个头文件)。很简单:
// foo.c
#include "foo.h"
void doThings(void) {
...
}
您不需要详细的类型信息即可生成名称的特定用法,无需像上面“ uses”代码中那样将结构实例化与参数以及所有复杂性进行匹配。实际上,您实际上不需要自己收集函数签名。
您只需要列出名称本身,并跟踪它们是用于函数还是对象类型。然后,您可以重新定义“ uses”功能,如下所示:
void * doThings(void) {
typedef void * (*vfun)(void);
typedef union v { void * o; vfun f; } v;
return (v[]) {
(v){ .o = &(bar){0} },
(v){ .f = (vfun)baz },
};
}
这极大地简化了名称的必要“使用”,可以将其转换为统一的函数类型(并使用其指针而不是调用它的指针),或者将其包装在&(
和中){0}
(实例化它,而不管它是什么)。这意味着您根本不需要存储实际的类型信息,只需要存储从中提取名称的上下文类型即可。
(显然,给虚拟函数和占位符类型扩展了唯一的名称,这样它们就不会与您实际想要保留的代码冲突)
由于您只需要识别结构/联合或函数声明的上下文,而实际上并不需要对周围的信息做太多工作,因此极大地简化了解析步骤。
一个简单但有点怪异的起点(我可能会使用它,因为我的标准:D较低)可能是:
#include
带有尖括号的参数的指令(即,您也不想为其生成声明的已安装标头)。clang -E -I local-dummy-includes/ -D"__attribute__(...)=" foo.h > temp/foo_pp.h
或类似的东西)struct
或union
后跟一个名称,}
后跟一个名称或name (
,并使用此荒谬的简化非分析来构建虚拟函数中的使用列表,并发出.c文件的代码。它不会抓住一切可能性;但是经过一些调整和扩展,它实际上可能会处理大量实际的标头代码。您可以在以后的阶段用专用的简化解析器(仅用于查看所需上下文模式的解析器)代替它。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句