cuda 如何处理内核中的 __syncthreads()？

阿里·莫塔梅尼

认为我有一个 1024 大小的块，并假设我的 gpu 有 192 个 cuda 核心。当cuda核心大小小于块大小时，cuda如何处理内核中的__syncthreads（）？

__global__ void staticReverse(int *d, int n)
{
  __shared__ int s[1024];
  int t = threadIdx.x;
  int tr = n-t-1;
  s[t] = d[t];
  __syncthreads();
  d[t] = s[tr];
}

“tr”如何保留在本地内存中？

天鹅座X1

我认为你正在混合一些东西。

首先，拥有 192 个 CUDA 核心的 GPU 是总核心数。然而，每个块都映射到单个流式多处理器(SM)，它的核心数可能较少（取决于 GPU 代）。

让我们假设您拥有一个 Pascal GPU，每个 SM 有 64 个内核，并且您有 3 个 SM。单个块映射到单个 SM。因此，您将有 64 个内核同时处理 1024 个线程。这样的 SM 有足够的寄存器来保存 1024 个线程所需的所有数据，但它只有 64 个内核，可以快速交换它们正在处理的线程。

这样，所有本地数据（例如）tr都可以保留在内存中。

现在，由于这种快速交换和并发执行，可能会发生——完全是偶然的——某些线程领先于其他线程。如果您想确保在某个时刻所有线程都在同一位置，您可以使用__syncthreads(). 该函数所做的只是指示调度程序将工作正确分配给 CUDA 内核，以便它们在某个时刻都在程序中的那个位置。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-29

我来说两句

0 条评论

登录后参与评论

上一篇：为什么kibana的可视化图表中的唯一计数不正确？

TOP 榜单

文章

cuda 如何处理内核中的 __syncthreads()？

cuda 如何处理内核中的 __syncthreads()？

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u