我正在尝试使用pycuda加速我的神经网络(我知道tensorflow更容易用于GPU加速,因为我对神经网络比较陌生,所以我只想先手动进行它),但是每当我将数组传递给GPU,并让每个线程在threadIdx处打印出数组的值,即使我设置了数组值,它也会打印零。
我尝试使用一个非常简单的内核进行测试,该内核仅打印一维数组的值,并且尝试将数据类型更改为float32。
我用于测试此问题的基本内核:
test_mod = SourceModule("""
__global__ void test(float *a)
{
printf("%d: %d\\n", threadIdx.x, a[threadIdx.x]);
}
""")
我用来创建数组和初始化内核的python代码:
a = np.asarray([4,2,1])
a = a.astype(np.float32)
test_module = test_mod.get_function("test")
test_module(cuda.In(a), block=(3, 1, 1))
我希望它可以打印4、2和1的顺序,但是每个线程都打印0。
问题出在内核中的print语句中。该%d
格式说明是为整数。它不会正确格式化浮点值。要修复它,请按如下所示修改内核:
test_mod = SourceModule("""
__global__ void test(float *a)
{
printf("%d: %f\\n", threadIdx.x, a[threadIdx.x]);
}
""")
[从评论中收集答案,并将其添加为社区Wiki条目,以尝试从CUDA标签的原始队列中解决问题]。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句