CUDA 内存库冲突

Piotr K. 发表于 Dev

彼得·K。

我想确保我正确理解共享内存中的银行冲突。我有 32 部分数据。这些部分由 128 个整数组成。

|0, 1, 2, ..., 125, 126, 127| ... |3968, 3969, 3970, ..., 4093, 4094, 4095|

扭曲中的每个线程只能访问它自己的部分。

线程 0 访问第 0 部分中的位置 0(0)
螺纹 1 进入第 1 部分中的位置 0(128)
螺纹 31 进入第 31 部分中的位置 0(3968)

这是否意味着我在这里有 32 个冲突？如果是，那么如果我将部分拉伸到 129 个元素，那么每个线程将访问唯一的银行。我对吗？

罗伯特·克罗维拉

是的，您将遇到 32 路银行冲突。出于存储库冲突的目的，将共享内存可视化为二维数组可能会有所帮助，其宽度为 32 个元素（例如，32 个int或float数量）。这个二维数组中的每一列都是一个“银行”。

在其上叠加您的存储模式。当您这样做时，您将看到您声明的访问模式将导致扭曲中的所有线程都将请求第 0 列中的项目。

是的，这里通常的“技巧”是每“行”填充 1 个元素（在您的情况下，这可能是每个“部分”一个元素）。这应该可以消除您声明的访问模式的银行冲突。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-15

我来说两句

0 条评论

登录后参与评论

上一篇：如何找出文件中一个数字和下一个相同数字之间的行数？

CUDA共享内存库冲突报告较高

银行冲突CUDA共享内存？

故意导致CUDA设备上共享内存的存储区冲突

基本的CUDA共享内存

cuda内存带宽计算

Golang调用CUDA库

来自 CUDA 上共享内存中的非顺序访问的银行冲突

CUDA中的动态共享内存

每个 CUDA 线程的本地内存

CUDA恒定内存最佳实践

CUDA addvectors内存直观解释

CUDA统一内存泄漏

CUDA 共享内存问题（以及在 python/ctypes 中使用 CUDA）

CMake中CUDA库的链接

CUDA推力库和cudaDeviceReset（）

处理冲突的安装方法Cuda Nvidia

Tensorflow新的Op CUDA内核内存管理

向量和的CUDA统一内存实现

CUDA统一内存和Windows 10

CUDA 对全局内存的低效访问模式

使用Python Cuda创建共享内存代码

离开功能时消耗的CUDA内存

如何在PyTorch中清除Cuda内存

在CUDA内核中使用内存集

CUDA直接访问设备内存

为什么CUDA固定内存这么快？

cuda异常后的内存数据状态

Cuda统一内存vs CudaMalloc

CUDA 6统一内存性能

TOP 榜单

文章

CUDA 内存库冲突

CUDA 内存库冲突

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用