为什么编译器未使用-O3优化此C ++成员函数？

马丁·罗宾逊

下面声明norm的C ++vector类中的成员函数标记为const并且（据我所知）不包含任何副作用。

template <unsigned int N>
struct vector {
  double v[N];

  double norm() const {
    double ret = 0;
    for (int i=0; i<N; ++i) {
      ret += v[i]*v[i];
    }
    return ret;
  }
};

double test(const vector<100>& x) {
  return x.norm() + x.norm();
}

如果我在gcc编译器（版本5.4）norm的const实例化vector（请参见test上面的函数）上调用了多次，并启用了优化功能（即-O3），则编译器会内联norm，但仍会norm多次计算结果，即使结果不应更改。为什么编译器不优化第二个调用，norm而只计算一次该结果？该答案似乎表明，如果编译器确定norm函数没有任何副作用，则编译器应执行此优化。为什么在这种情况下不会发生这种情况？

请注意，我正在确定使用Compiler Explorer生成的编译器，并且下面给出了gcc 5.4版的程序集输出。clang编译器给出类似的结果。还要注意，如果我使用gcc的编译器属性使用手动将其标记norm为const函数__attribute__((const))，则第二次调用将根据需要进行优化，但是我的问题是为什么gcc（和clang）不自动执行此操作，因为norm定义可用？

test(vector<100u>&):
        pxor    xmm2, xmm2
        lea     rdx, [rdi+800]
        mov     rax, rdi
.L2:
        movsd   xmm1, QWORD PTR [rax]
        add     rax, 8
        cmp     rdx, rax
        mulsd   xmm1, xmm1
        addsd   xmm2, xmm1
        jne     .L2
        pxor    xmm0, xmm0
.L3:
        movsd   xmm1, QWORD PTR [rdi]
        add     rdi, 8
        cmp     rdx, rdi
        mulsd   xmm1, xmm1
        addsd   xmm0, xmm1
        jne     .L3
        addsd   xmm0, xmm2
        ret

马尼约

编译器可以计算的结果norm并多次重复使用。例如，使用-Os开关：

test(vector<100u> const&):
        xorps   xmm0, xmm0
        xor     eax, eax
.L2:
        movsd   xmm1, QWORD PTR [rdi+rax]
        add     rax, 8
        cmp     rax, 800
        mulsd   xmm1, xmm1
        addsd   xmm0, xmm1
        jne     .L2
        addsd   xmm0, xmm0
        ret

缺少的优化并不是由于非关联的浮点数或某些可观察到的行为问题。

在未正确互斥的环境中，另一个函数可能会在两次调用规范之间更改数组中的内容

可能会发生，但是对于编译器来说并不是问题（例如https://stackoverflow.com/a/25472679/3235496）。

用-O2 -fdump-tree-all开关编译该示例，您可以看到：

g ++正确检测vector<N>::norm()为纯函数（输出文件.local-pure-const1）；
内联发生在早期阶段（输出文件.einline）。

还要注意的是标记norm与__attribute__ ((noinline))该编译器执行CSE：

test(vector<100u> const&):
    sub     rsp, 8
    call    vector<100u>::norm() const
    add     rsp, 8
    addsd   xmm0, xmm0
    ret

马克·格里斯（Marc Glisse）（可能）是对的。

要取消内联循环表达式，需要使用更高级的通用子表达式消除形式。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-5

我来说两句

0 条评论

登录后参与评论

上一篇：Presto使用“ with”查询创建表

TOP 榜单

文章

为什么编译器未使用-O3优化此C ++成员函数？

为什么编译器未使用-O3优化此C ++成员函数？

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接