Slurm:即使有资源也无法分配资源

玛雅克·贾恩(Mayank Jain)

我试图在使用SLURM进行节点分配的群集上执行套接字编程代码。我使用了Slurm脚本,如下所示:

#!/bin/bash
#SBATCH --job-name="abcd"
#SBATCH --ntasks=2
#SBATCH --nodes=2-2
#SBATCH --cpus-per-task=128
#SBATCH --partition=knl
./a.out

当将其作为sbatch脚本运行时,出现错误“ sbatch:错误:批处理作业提交失败:请求的节点配置不可用”。

但是,我确实看到一些满足上述配置的节点。scontrol输出两个节点,如下所示:

NodeName=compute140 Arch=x86_64 CoresPerSocket=64
   CPUAlloc=20 CPUErr=0 CPUTot=256 CPULoad=20.01
   AvailableFeatures=knl
   ActiveFeatures=knl
   Gres=(null)
   NodeAddr=compute140 NodeHostName=compute140 Version=16.05
   OS=Linux RealMemory=96000 AllocMem=81920 FreeMem=102580 Sockets=1 Boards=1
   MemSpecLimit=1024
   State=MIXED ThreadsPerCore=4 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   BootTime=2018-06-04T12:41:22 SlurmdStartTime=2018-06-04T12:47:01
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s


NodeName=compute141 Arch=x86_64 CoresPerSocket=64
   CPUAlloc=20 CPUErr=0 CPUTot=256 CPULoad=20.01
   AvailableFeatures=knl
   ActiveFeatures=knl
   Gres=(null)
   NodeAddr=compute141 NodeHostName=compute141 Version=16.05
   OS=Linux RealMemory=96000 AllocMem=81920 FreeMem=87441 Sockets=1 Boards=1
   MemSpecLimit=1024
   State=MIXED ThreadsPerCore=4 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   BootTime=2018-06-04T12:46:37 SlurmdStartTime=2018-06-04T12:52:11
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

我不确定为什么当slurm应该为我分配请求的配置时会出现错误。

我想在两个不同的knl节点上运行客户端服务器应用程序,每个任务将是多线程的,每个任务有128个线程。

当我尝试了几件事时请提供帮助,但没有任何帮助。

达米安弗朗索瓦

您没有明确指定每个CPU的内存要求,因此默认设置适用。如果默认值大于RealMemory/ CPUTot,在您的情况下为96000MB / 128 = 750MB,则任务将无法保存在一个节点中。

因此,如果默认值为4GB / CPU,并且每个节点请求一个任务,每个任务请求128个CPU,则实际上每个节点请求524GB的RAM,这是群集无法提供的。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

即使有足够的资源,K8s 也无法将新的 Pod 调度到工作节点

即使有可用内存,系统也无法分配内存

SLURM配置:具有CR_Core的cons_res无法分配资源或作业最终处于CG状态

WebPageTest抱怨即使已启用缓存也无法缓存静态资源

使用SLURM和MPI(4PY):无法分配请求的资源

服务帐户无法删除资源,即使它应该有权删除资源

找不到与给定名称匹配的资源:即使我正在使用appcompat 20,也无法找到attr android:actionModeShareDrawable

即使我有22 GB的额外未分配空间,也无法扩展Ubuntu分区

即使有足够的可用字节数,Malloc也无法分配字节

Ubuntu 15.10:即使我有14GB的未分配空间,也无法扩展Ubuntu分区

使用 SLURM bash 脚本进行并行化和资源分配

即使有dylib符号也无法阅读

tensorflow tf.data.experimental.rejection_resample即使具有种子值也无法实现目标分配

SLURM不遵循请求的资源

无法打开ServletContext资源-除非没有对该资源的引用

FTPClient即使具有Internet权限也无法解析主机

即使有大量数据,WPF DataGrid 也无法滚动

即使存在ID也无法找到具有ID的元素

即使有存档组也无法在Linux上链接

即使具有SELECT特权也无法选择表

即使我有JAVA 8也无法安装Jenkins

程序即使没有错误也无法正常工作

Numba即使有签名也无法确定空白清单的指纹

即使有类型约束也无法匹配类型错误

用户即使拥有正确的权限也无法列出目录

即使有条件也无法同时满足约束

即使imshow有效,也无法写入PNG

即使我有处理程序,也无法处理排序

即使已存在multipartResolver,也无法提供多部分配置,因此无法处理部分