Lustreの負荷状況の確認方法¶
ToMMoのスーパーコンピュータではファイルシステムとしてLustreを使用しています。大容量が実現でき比較的安価で高速なストレージですが、メタデータの読み書きやランダムアクセスなどの負荷の高い処理を実行すると、応答が遅くなることがあります。最悪の場合、他のユーザーがログイン不能になったり、lsコマンドのような通常はすぐに応答が返ってくるコマンドの実行に数分以上かかることもあります。ToMMoのスーパーコンピュータでは、Lustreの負荷状況を確認するためのコマンドlustatを提供しています。I/Oの負荷が高いジョブを大量に実行する場合には、定期的にlustatコマンドを実行してLustreの負荷状況を確認することをお勧めします。万が一、Lustreに高負荷をかけた結果、他のユーザーがログイン不能なるなど大きな影響が出ている場合にはジョブを強制終了させていただく場合があります。
lustatコマンドを実行すると、以下のような出力が得られます。
$ lustat
Load Average IO stat File operations/sec on MDS
Host 1min 5min 15min rMB/s wMB/s open close setattr getattr
---------------------------- /share1 ---------------------------------------
mds3x01 0.1 0.2 0.3 N/A N/A 13 13 0 6
mds3x02 0.0 0.0 0.1 N/A N/A 0 0 0 0
oss3x011 0.2 0.2 0.1 95.7 0.0 N/A N/A N/A N/A
oss3x012 0.3 0.3 0.3 16.2 0.0 N/A N/A N/A N/A
oss3x013 0.0 0.1 0.1 1.0 0.0 N/A N/A N/A N/A
oss3x014 0.2 0.2 0.2 4.3 0.0 N/A N/A N/A N/A
---------------------------- /share1/public --------------------------------
mds3x03 0.1 0.2 0.2 N/A N/A 12 11 0 7
mds3x04 0.0 0.0 0.1 N/A N/A 0 0 0 0
oss3x011 0.2 0.2 0.1 95.7 0.0 N/A N/A N/A N/A
oss3x012 0.3 0.3 0.3 16.2 0.0 N/A N/A N/A N/A
oss3x013 0.0 0.1 0.1 1.0 0.0 N/A N/A N/A N/A
oss3x014 0.2 0.2 0.2 4.3 0.0 N/A N/A N/A N/A
----------------------------------------------------------------------------
... monitor at 2026/06/02 11:10
この出力の見方については、以下の通りです。
---- /share1 -----のような行は、Lustreのマウントポイントを示しています。/share1は、ユーザーのホームディレクトリがあるマウントポイントです。主にこちらをご確認ください。/share1/publicは、共通データが置いてあるマウントポイントです。/share2、/share5はUnit B/Cにおいて実験データやゲノムデータなどが置いてあるマウントポイントです。Unit Aには存在しません。
- Host: Lustreホスト名
Lustreは複数のメタデータサーバー(MDS)とオブジェクトストレージサーバー(OSS)で構成されており、ホスト名の先頭が
mdsで始まるものがMDS、ossで始まるものがOSSになります計算ノードやログインノードのホスト名ではありません
- Load Average: 1分、5分、15分の平均負荷
正常値は0.0~100程度です
100以上になると負荷が高い状況です
IO stat: 読み書きの速度(MB/s)
File operations/sec on MDS: メタデータサーバーでのファイル操作の回数(open、close、setattr、getattr)
情報は5分ごとに更新され、最後の行に更新日時が表示されます。負荷が高い場合には、Load Averageの値が上がってゆきます。100以上になると負荷が高い状況で、200以上になると応答遅延などの影響が出る可能性が高くなります。負荷が高すぎる場合にはLoad Averageの情報が正常に取得できなくなり、0.0として表示されることがあります。他のホストのLoad Averageの値も確認して、全体的に高い値が表示されているにもかかわらず、特定のホストだけ0.0と表示されている場合やIO statに高い値が表示されている場合には、そのホストに高負荷がかかっている可能性があります。