CUDA 对全局内存的低效访问模式

Julian 发表于 Dev

15

朱利安

我编写了一个 CUDA 内核，它执行两个数组arr1和arr2. 将哪些索引arr1与哪些索引相加的信息arr2存储在一个数组中idx。

这是一个代码示例：

__global__ add(float* arr1, float* arr2, int* idx, int length)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;

    // each thread performs (length) additions,
    // arr2 is (lenght) times larger than arr1
    for (int j=threadIdx.x; j<length*blockDim.x; j+=blockDim.x)
    {
        arr1[i] += arr2[ idx[blockIdx.x*blockDim.x + j] ]; // edited here
    }
}

该代码产生正确的输出，但几乎不比具有 8 个线程的 CPU 上的 openmp-parallel 代码快。我为不同的块大小尝试了这个。

我怀疑访问模式arr2效率低下，因为arr2它在全局内存中并且是准随机访问的——数组idx包含唯一的、排序的、但不连续的索引（可能是 2、3、57、103……） . 因此，没有利用 L1 缓存。此外，数组非常大，不能完全适合共享内存。

有没有办法绕过这个障碍？您对如何优化访问模式有想法arr2吗？

和平坦耶里

您可以在这里尝试做几件事：

全局内存很慢，您可以尝试将数组加载到每个块的共享内存中。因此，例如，您将为每个块部分加载数组。
如果有任何定义为常量的内容，您应该将其移动到常量内存中。
尝试展开循环。
一定要尝试使用不同的流参数以及不同的块/线程组合启动多个内核。

希望这能让您对优化方式有所了解:)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-27

我来说两句

0 条评论

登录后参与评论

上一篇：从图像的右中心使用 jquery 的图像幻灯片

相关文章

CUDA内核中的Heisenbug，全局内存访问

在CUDA中访问全局内存的速度很慢

CUDA：使用多个线程访问全局内存

矩阵乘法：在CUDA中合并全局内存访问后，性能下降

如何在CUDA中正确添加全局内存？

CUDA动态并行和全局内存同步

CUDA中的静态分配的全局内存结构

为什么在平铺矩阵乘法中CUDA共享内存比全局内存要慢？

用CUDA中的全局内存初始化共享内存时出错

CUDA 写入其他经线看不到的全局内存

如何在CUDA中安全地将全局内存中的数据加载到共享内存中？

从主机访问CUDA全局设备变量

基本的CUDA共享内存

CUDA 内存库冲突

cuda内存带宽计算

CUDA直接访问设备内存

CUDA：指向指针内存访问的指针

NVIDIA Cuda访问GPU共享内存

CUDA：使用 atomicAdd 遇到非法内存访问

CUDA：分散通信模式

CUDA sprintf到全局/共享内存缓冲区

CUDA中的动态共享内存

银行冲突CUDA共享内存？

每个 CUDA 线程的本地内存

CUDA恒定内存最佳实践

CUDA addvectors内存直观解释

CUDA统一内存泄漏

CUDA 共享内存问题（以及在 python/ctypes 中使用 CUDA）

CUDA：访问违规读取位置

TOP 榜单

文章

热门标签

归档