- 主题:请问slurm里如何突破资源限制多跑些任务?
偷奸耍滑很难不被发现,最后还搭上自己名誉
【 在 meizhi (meizhi) 的大作中提到: 】
: 也就是不希望有排队的作业,每个作业时间不长(几分钟到小时吧),但是需要撒到多个节点上。有没有办法让作业自己去打架抢资源。如果排队,吞吐量不太够;如果扩HPC,公司钱不够。。
: 发自「今日水木 on Redmi Note 7」
--
FROM 159.226.171.*
我也不熟,没管理过slurm集群。
稍微查了一下,有一个overcommit选项
https://slurm.schedmd.com/srun.html#OPT_overcommit
但是如果你要让任务自己抢,那不就是依赖操作系统的进程调度吗?不通过slurm,直接运行不就行了?
【 在 meizhi (meizhi) 的大作中提到: 】
: 哦,不是搞事情。。我们公司自己搭的集群,只有我这块在开发使用,只是为了同时多跑一些job,增加吞吐量。请问有啥好建议么?
: 发自「今日水木 on Redmi Note 7」
--
FROM 159.226.171.*
你的任务本身如果不是为多节点写的,那只能运行在单节点上,也不存在跨节点抢资源的可能性。
不用slurm/lfa当然就直接ssh过去run咯
【 在 meizhi (meizhi) 的大作中提到: 】
: 谢谢,我去试试看。
: 登陆到单个节点直接跑可以抢资源;跨节点的如果不用slurm/lsf/pbs这些,我还不知道怎么调动起来。。。
: 发自「今日水木 on Redmi Note 7」
: ...................
--
修改:blitz FROM 159.226.171.*
FROM 159.226.171.*