存储器上的硬件错误,并在128个内核上进行了大型仿真

youpilat13

在天体物理学的背景下,我启动了一个大型仿真(enzo代码),并在128个内核上执行MPI,如下所示:

mpirun -np 128 ./enzo.exe amr_cosmology.enzo

并且在运行过程中出现以下错误:将其标记为Hardware Error,因此得出结论,总RAM(1GB)的容量不足。如您所见,代码不会停止,但是这些错误消息通常会在所有代码运行期间发生:

TopGrid dt = 3.705042e-02     time = 1.2350099725762    cycle = 14    z = 834.55610989934
TopGrid dt = 3.816191e-02     time = 1.272060395839    cycle = 15    z = 818.25224654732
TopGrid dt = 3.930675e-02     time = 1.3102223091899    cycle = 16    z = 802.26651295398

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711318] [Hardware Error]: Corrected error, no action required.

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711377] [Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[-|CE|MiscV|-|AddrV|-|-|SyndV|-|CECC]: 0x9c2041000000011b

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711387] [Hardware Error]: Error Addr: 0x0000001c9f3d4ac0

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711388] [Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0x0f5940000a801001

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711399] [Hardware Error]: Unified Memory Controller Extended Error Code: 0

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711407] [Hardware Error]: Unified Memory Controller Error: DRAM ECC error.

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711422] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711474] [Hardware Error]: Corrected error, no action required.

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711479] [Hardware Error]: CPU:2 (17:31:0) MC18_STATUS[Over|CE|MiscV|-|AddrV|-|-|SyndV|-|CECC]: 0xdc2041000000011b

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711483] [Hardware Error]: Error Addr: 0x0000001ee2f9b140

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711484] [Hardware Error]: IPID: 0x0000009600550f00, Syndrome: 0xda9020000a800d01

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711489] [Hardware Error]: Unified Memory Controller Extended Error Code: 0

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711492] [Hardware Error]: Unified Memory Controller Error: DRAM ECC error.

Message from [email protected] at Sep 24 20:52:00 ...
 kernel:[2415943.711497] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
TopGrid dt = 4.048593e-02     time = 1.3495290567141    cycle = 17    z = 786.59270291163
TopGrid dt = 4.170048e-02     time = 1.3900149827028    cycle = 18    z = 771.22472945212
TopGrid dt = 4.295147e-02     time = 1.4317154617942    cycle = 19    z = 756.15662471201

这是什么类型的错误:是自动更正还是确实是硬件故障?无论如何,出了点问题。

j23

这是由于RAM错误。频繁的ECC错误校正(例如您的情况)定义了故障的硬件。解决方法是找出导致此问题的内存并将其更换。如果它不是关键系统,则可能不需要立即对其进行修复。

在某些情况下,无法正常工作的RAM也会导致此问题。

有关更多信息,请参见参考。参考1参考2参考3

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

内核是否进行了碎片整理

JPA实体在Ubuntu上进行了更新,但在Windows上引发了乐观锁定异常

表单数据正在发送,但已在控制器Laravel 5.8上进行了处理

进行了错误编辑,如何返回?

Kotlin警告:在Marker类型的非空接收器上进行了不必要的安全呼叫

如果我在在线GitHub编辑器上进行了更改,如何从分支中获取?

解析器错误:在需要表达式的地方进行了插值({{}})

验证是否在Linux上对硬盘驱动器进行了加密

我对服务器上的端口进行了大规模攻击

可能是GCC错误针对两个变量进行了编译

Rust优化器为什么不删除那些无用的指令(在Godbolt编译器资源管理器上进行了测试)?

尽管进行了DHCP,但PC的IP地址仍然错误

错误:nodejs中的getaddrinfo ENOTFOUND进行了get调用

在iOS 7上对UITableView小故障进行了分组

iOS 7和iOS 8在-(void)viewDidAppear:(BOOL)上的不同行为在部分Curl VC上进行了动画处理

不同的sql在两台服务器上进行了解释。“复制到tmp表”非常慢

dotpeek对VS 2015中的项目进行了反编译,报告了同一类上的歧义错误

Adam优化器错误:梯度运算所需的变量之一已通过就地操作进行了修改

始终调用组件是否在构造上进行了更新?

cp命令在不同的Ubuntu版本上进行了额外的复制以克隆文件夹

检查用户是否在不安全的路由上进行了身份验证

/etc/init.d是否在CentOS上进行了硬链接?

Python在单词之间和逗号后的空格上进行了拆分

如何知道Jenkins是否在CentOS 7上进行了修补

如何查看一个进程在品红色内核中进行了多少个上下文切换?

在3种主要的C ++编译器中,程序进行了不同的编译。哪一个是对的?

向量擦除存储器访问错误

git:显示哪些文件在内核3.18.6和3.18.7之间进行了更改

Linux内核如何知道哪个进程进行了系统调用?