Slurm

提供: ArchWiki
2024年5月8日 (水) 18:42時点におけるKusanaginoturugi (トーク | 投稿記録)による版 (序文を更新)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

関連記事

Slurm (Slurm Workload Manager や slurm-llnl とも呼ばれます) はあらゆる規模の Linux クラスタで動作するように作られたオープンソースのワークロードマネージャです。世界中のスーパーコンピュータやコンピュータクラスタで使われています。Slurm の機能は主に3つです。まず、一定時間、リソース (コンピュータノード) への排他的・非排他的なアクセスをユーザーに配分して、ユーザーが作業を行えるようにします。次に、割り当てられたノードで作業 (通常は並列のジョブ) を開始・実行したり監視するためのフレームワークを用意しています。最後に、保留されている作業のキューを管理することでリソースの取り合いを調整します。

インストール

AUR から slurm-llnl パッケージをインストールしてください。依存パッケージとして、認証サービスの munge ([1])もインストールされます。munge は slurmd の systemd サービスによって実行され、ホスト間の接続を暗号化します。そのため、クラスタの全てのノードには /etc/munge/munge.key に同じ鍵を保存してください。次に、munge.service起動して有効化します。

slurm パッケージには他にも多数の任意依存パッケージが存在しますが、利用するにはパッケージをインストールした後に slurm を再コンパイルする必要があります。

設定

slurm-llnl の設定ファイルは /etc/slurm-llnl にあります。slurm サービスを起動する前に、設定ファイル /etc/slurm-llnl/slurm.conf を作成して適切に設定してください。クライアントとサーバーは同一の設定ファイルが使えます。https://slurm.schedmd.com/configurator.html からファイルを生成するか /etc/slurm-llnl/slurm.conf.example/etc/slurm-llnl/slurm.conf にコピーして自由に修正してください。

デフォルトでは、インストール時に UID と GID が 64030 の slurm ユーザーが作成されます。このユーザーを使うことで複数の環境でのセットアップが楽になります。UID と GID は Debian で使われている ID と同じなので、Debian と一緒に使うこともできます。ただしバイナリはディストリビューションによって違うので注意してください。

クライアント (計算ノード) の設定

クライアント側で安全に slurmd.service起動/有効化できるようになりました。

ノート: プロセス追跡に Linux cgroups を使用することを選択した場合は、各クライアントで cgroup.conf 設定ファイルを作成する必要があります。設定の詳細については、cgroup.conf マニュアルページを参照してください。

サーバー (ヘッドノード) の設定

slurmctld.service起動/有効化してください。

また、slurmdbd.service起動/有効化することで、mysql データベースを使って重要なプロセスの情報ログを簡単に管理することができます。

ノート: systemd の力を利用して、/etc/default/slurm-llnl の設定を変更することでプログラムに引数を追加することができます。このファイルは様々なサービスの environment ファイルとして処理され、設定された引数がプログラムに渡されます。

トラブルシューティング

起動時にサービスの開始に失敗する

slurmd.service または slurmctld.service が起動時に起動できないが、手動で起動すると正常に動作する場合は、ネットワーク接続が確立される前にサービスが起動しようとしている可能性があります。これを確認するには、失敗したサービスに関連する以下の行を slurm.conf ファイルに追加します。

slurm.conf
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurm-llnl/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log

次に、関連するログファイルを確認します。致命的な例外に Address family not supported by protocol が記載されている場合は、network-online.target 経由の有効なネットワーク接続を待機するようにユニットを拡張することをお勧めします。

ヒントとテクニック

RHEL ベースのノードを並行して実行する

RedHat ベースのディストリビューションでは、slurm はデフォルトで root として実行されます。[2] これらのノードをクラスターに追加するには、まず、Arch Linux で使用されているものと一致するように、UIDGID64030 に等しい slurm ユーザーを作成します。次に、コマンド slurm-setuser -u slurm -g slurm を使用して slurm ユーザーを変更します。

参照