如何优化此OpenCL内核？

恩里克·米格尔·莫拉·梅萨（Enrique Miguel Mora Meza）

我正在开发一个项目，但此OpenCL内核存在一些问题:-(

__kernel void gemm_fast_5(
    __global double *ar, __global double *br, __global double *cr,
    __global double *pr, __global double *ur,

    unsigned long c, unsigned long c2,
    unsigned long c3, unsigned long c4,
    unsigned long c5, unsigned long m,
    unsigned char com
){
    unsigned long i = get_global_id(0);
    unsigned long j = get_global_id(1);

    unsigned long x = get_local_id(0);
    unsigned long y = get_local_id(1);

    unsigned long cur = i*c3 + j, rl, rl2, rl3;

    #if ks == 1 || ks == 2 || ks == 3 || ks == 4
    unsigned long rl4;
    #endif


    #if ks == 2
    rl = (i << 1)*c;
    #elif ks == 3
    rl = ((i << 1) + 1)*c;
    #else
    rl = i*c;
    #endif

    __local double ut, pt;

    if (x == 0) pt = pr[i*c4 + ks];
    if (y == 0) ut = ur[j*c5 + ks];

    double aa = 0.0;

    double bb, cc;
    double dd, ee;

    for (unsigned long k=0; k<m; k++){
        #if ks == 1 || ks == 4
        rl3 = (k << 1) + 1; rl4 = (k << 2) + 3;

        bb = ar[rl + rl3 - 1]; cc = ar[rl + rl3];
        dd = br[rl2 + rl4 - 1]; ee = br[rl2 + rl4 - 3];
        #elif ks == 2 || ks == 3
        rl3 = (k << 2) + 3; rl4 = (k << 1) + 1;

        bb = ar[rl + rl3 - 3]; cc = ar[rl + rl3 - 2];
        dd = br[rl2 + rl4]; ee = br[rl2 + rl4 - 1];
        #else
        rl3 = (k << 1) + 1;

        bb = ar[rl + rl3 - 1]; cc = ar[rl + rl3];
        dd = br[rl2 + rl3]; ee = br[rl2 + rl3 - 1];
        #endif

        aa += (bb + dd)*(cc + ee);
    }
    cr[cur] = aa - pt - ut;
}

在工作时，我注意到，如果删除最后一行，即使cr[cur] = 5.0 - pt - ut;例如更改最后一行，内核运行的时间也减少了6倍。

它不应该一样吗，或者至少类似吗？即使利用我拥有CPU和GPU的事实寻找答案，我也在多个运行时（PoCL和opencl-amd）中进行了尝试，并且发生了相同的事情：-/

如果有人能帮助我理解为什么会发生，我将不胜感激。我不明白：“ v

马克·博内利

循环内的所有操作都没有副作用，您只能从那些__global指针中读取内容，并计算一些临时值，这些临时值最终将aa通过该final累积到aa += ...。换句话说，该循环的唯一目的是计算的值aa。

因此，如果您aa从最后一行（循环之外）删除，循环内的所有操作都是完全无用的，最后您将得到一个循环，该循环除了读取某些值并更新将在函数返回时丢弃的局部变量外，什么也不做。在启用优化的情况下编译以上代码（我假设您正在这样做，否则您的问题就没有多大意义了），编译器很可能会摆脱整个循环。因此，没有最终代码的代码aa运行得更快。

这是一个GCC示例（适应于删除CUDA注释），您可以看到，即使是最低级别的优化（-O1）也会删除整个循环，仅留下比较和的增量i。使用-O2，整个循环将被删除。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-26

我来说两句

0 条评论

登录后参与评论

上一篇：使用声明式管道的waitUntil实现依赖并行任务的更优雅方法

TOP 榜单

文章

如何优化此OpenCL内核？

如何优化此OpenCL内核？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID