リソースの確認¶
パーティションの状態確認¶
パーティションの状態はsinfo
コマンドによって確認できます。
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
mjobs* up 7-00:00:00 12 mix c3x[001-010,057-058]
mjobs* up 7-00:00:00 8 idle c3x[059-066]
intr up 12:00:00 2 mix c3x[001,057]
lljobs up 62-00:00:0 1 mix c3x010
lljobs up 62-00:00:0 1 idle c3x066
gpu up 2-00:00:00 2 idle gpu3x[01-02]
gpu_intr up 1:00:00 2 idle gpu3x[01-02]
tmem up 14-00:00:0 1 idle tm3x01
AVAILの欄でパーティションの状態を確認できます。
- up
稼働中です。ジョブを投入できます。
- drain,down,inact
停止中です。ジョブは投入できません。
STATEの欄でノードの状態を確認できます。
- idle
実行中のジョブはありません。ジョブを投入できます。
- mix
実行中のジョブがあります。空きリソースにジョブを投入できます。
- alloc
実行中のジョブがあります。空きリソースがなく、ジョブを投入できません。
- drain,drng,down
停止中です。ジョブは投入できません。
パーティションのリソース状況確認¶
各パーティションごとの計算ノードの利用状況は、slurminfo
コマンドで確認できます。行数が多い場合、less
コマンドにより表示されます。
$ slurminfo
=================== Node List ===================
Node: [NAME] State: [STATE] Job: [# of running jobs] Mem: [Used]/[Allocated]/[Total] CPU: [Allocated]/[Total] Load:[LOAD]
Partition: mjobs Nodes: 70 Status: Up
Node: c3x001 State: Idle Job: 0 Mem: 46.8G/0.0G/453.1G CPU: 0/128 Load:0.00
Node: c3x002 State: Idle Job: 0 Mem: 50.7G/0.0G/453.1G CPU: 0/128 Load:0.0
...
Partition: intr Nodes: 2 Status: Up
Node: c3x001 State: Idle Job: 0 Mem: 46.8G/0.0G/453.1G CPU: 0/128 Load:0.00
Node: c3x057 State: Idle Job: 0 Mem: 0.0G/0.0G/453.1G CPU: 0/128 Load:0.00
Partition: lljobs Nodes: 2 Status: Up
Node: c3x010 State: Idle Job: 0 Mem: 37.4G/0.0G/453.1G CPU: 0/128 Load:0.00
Node: c3x066 State: Idle Job: 0 Mem: 0.0G/0.0G/453.1G CPU: 0/128 Load:0.00
Partition: gpu Nodes: 2 Status: Up
Node: gpu3x01 State: Idle Job: 0 Mem: 96.6G/0.0G/453.1G CPU: 0/128 Load:0.00 GPU: 0/8
Node: gpu3x02 State: Idle Job: 0 Mem: 50.8G/0.0G/453.1G CPU: 0/128 Load:0.08 GPU: 0/8
Partition: gpu_intr Nodes: 2 Status: Up
Node: gpu3x01 State: Idle Job: 0 Mem: 96.6G/0.0G/453.1G CPU: 0/128 Load:0.00 GPU: 0/8
Node: gpu3x02 State: Idle Job: 0 Mem: 50.8G/0.0G/453.1G CPU: 0/128 Load:0.08 GPU: 0/8
Partition: tmem Nodes: 1 Status: Up
Node: tm3x01 State: Idle Job: 0 Mem: 0.0G/0.0G/3627.9G CPU: 0/128 Load:0.00
================= Job List =================
=================== Partition List ===================
Node Total Total Executable Jobs(CPU) Executable Jobs(Memory) Executable Jobs(GPU)
Name Avail Total CPU Mem(G) 1CPU 4CPU 8CPU 24CPU 4G 16G 64G 80G 170G 1 board 8 board
mjobs 20 70 8960 31718 2560 640 320 100 2072 511 123 97 40 0 0
intr 2 2 256 906 256 64 32 10 214 53 13 10 4 0 0
lljobs 2 2 256 906 256 64 32 10 216 53 13 10 4 0 0
gpu 2 2 256 906 256 64 32 10 189 47 11 9 4 16 2
gpu_intr 2 2 256 906 256 64 32 10 189 47 11 9 4 16 2
tmem 1 1 128 3627 128 32 16 5 128 128 56 45 21 0 0
================= User List =================
Running Pending Blocked Error
User Jobs CPU MEM(G) Jobs CPU MEM(G) Jobs CPU MEM(G) Jobs CPU MEM(G)