リソースの確認#

パーティションの状態確認#

パーティションの状態はsinfoコマンドによって確認できます。

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
mjobs*       up 7-00:00:00     12    mix c3x[001-010,057-058]
mjobs*       up 7-00:00:00      8   idle c3x[059-066]
intr         up   12:00:00      2    mix c3x[001,057]
lljobs       up 62-00:00:0      1    mix c3x010
lljobs       up 62-00:00:0      1   idle c3x066
gpu          up 2-00:00:00      2   idle gpu3x[01-02]
gpu_intr     up    1:00:00      2   idle gpu3x[01-02]
tmem         up 14-00:00:0      1   idle tm3x01

AVAILの欄でパーティションの状態を確認できます。

up

稼働中です。ジョブを投入できます。

drain,down,inact

停止中です。ジョブは投入できません。

STATEの欄でノードの状態を確認できます。

idle

実行中のジョブはありません。ジョブを投入できます。

mix

実行中のジョブがあります。空きリソースにジョブを投入できます。

alloc

実行中のジョブがあります。空きリソースがなく、ジョブを投入できません。

drain,drng,down

停止中です。ジョブは投入できません。

パーティションのリソース状況確認#

各パーティションごとの計算ノードの利用状況は、slurminfoコマンドで確認できます。行数が多い場合、lessコマンドにより表示されます。

$ slurminfo
=================== Node List ===================
  Node: [NAME]  State: [STATE]  Job: [# of running jobs]  Mem: [Used]/[Allocated]/[Total]  CPU: [Allocated]/[Total]  Load:[LOAD]
Partition: mjobs       Nodes:  70  Status: Up
  Node: c3x001    State: Idle   Job:  0  Mem: 46.8G/0.0G/453.1G  CPU: 0/128  Load:0.00
  Node: c3x002    State: Idle   Job:  0  Mem: 50.7G/0.0G/453.1G  CPU: 0/128  Load:0.0

...

Partition: intr        Nodes:   2  Status: Up
  Node: c3x001    State: Idle   Job:  0  Mem: 46.8G/0.0G/453.1G  CPU: 0/128  Load:0.00
  Node: c3x057    State: Idle   Job:  0  Mem: 0.0G/0.0G/453.1G  CPU: 0/128  Load:0.00
Partition: lljobs      Nodes:   2  Status: Up
  Node: c3x010    State: Idle   Job:  0  Mem: 37.4G/0.0G/453.1G  CPU: 0/128  Load:0.00
  Node: c3x066    State: Idle   Job:  0  Mem: 0.0G/0.0G/453.1G  CPU: 0/128  Load:0.00
Partition: gpu         Nodes:   2  Status: Up
  Node: gpu3x01   State: Idle   Job:  0  Mem: 96.6G/0.0G/453.1G  CPU: 0/128  Load:0.00 GPU: 0/8
  Node: gpu3x02   State: Idle   Job:  0  Mem: 50.8G/0.0G/453.1G  CPU: 0/128  Load:0.08 GPU: 0/8
Partition: gpu_intr    Nodes:   2  Status: Up
  Node: gpu3x01   State: Idle   Job:  0  Mem: 96.6G/0.0G/453.1G  CPU: 0/128  Load:0.00 GPU: 0/8
  Node: gpu3x02   State: Idle   Job:  0  Mem: 50.8G/0.0G/453.1G  CPU: 0/128  Load:0.08 GPU: 0/8
Partition: tmem        Nodes:   1  Status: Up
  Node: tm3x01    State: Idle   Job:  0  Mem: 0.0G/0.0G/3627.9G  CPU: 0/128  Load:0.00

================= Job List =================

=================== Partition List ===================
             Node        Total   Total  Executable Jobs(CPU)  Executable Jobs(Memory)   Executable Jobs(GPU)
 Name        Avail Total   CPU   Mem(G) 1CPU 4CPU 8CPU 24CPU   4G  16G  64G  80G 170G      1 board  8 board
 mjobs          20    70  8960    31718 2560  640  320   100 2072  511  123   97   40            0        0
 intr            2     2   256      906  256   64   32    10  214   53   13   10    4            0        0
 lljobs          2     2   256      906  256   64   32    10  216   53   13   10    4            0        0
 gpu             2     2   256      906  256   64   32    10  189   47   11    9    4           16        2
 gpu_intr        2     2   256      906  256   64   32    10  189   47   11    9    4           16        2
 tmem            1     1   128     3627  128   32   16     5  128  128   56   45   21            0        0

 ================= User List =================
                 Running             Pending             Blocked             Error
 User            Jobs   CPU  MEM(G)  Jobs   CPU  MEM(G)  Jobs   CPU  MEM(G)  Jobs   CPU  MEM(G)