Slurm
Slurm (Slurm Workload Manager や slurm-llnl とも呼ばれます) はあらゆる規模の Linux クラスタで動作するように作られたオープンソースのワークロードマネージャです。世界中のスーパーコンピュータやコンピュータクラスタで使われています。Slurm の機能は主に3つです。まず、一定時間、リソース (コンピュータノード) への排他的・非排他的なアクセスをユーザーに配分して、ユーザーが作業を行えるようにします。次に、割り当てられたノードで作業 (通常は並列のジョブ) を開始・実行したり監視するためのフレームワークを用意しています。最後に、保留されている作業のキューを管理することでリソースの取り合いを調整します。
インストール
AUR から slurm-llnl パッケージをインストールしてください。依存パッケージとして、認証サービスの munge ([1])もインストールされます。munge は slurmd の systemd サービスによって実行され、ホスト間の接続を暗号化します。そのため、クラスタの全てのノードには /etc/munge/munge.key
に同じ鍵を保存してください。次に、munge.service
を起動して有効化します。
slurm パッケージには他にも多数の任意依存パッケージが存在しますが、利用するにはパッケージをインストールした後に slurm を再コンパイルする必要があります。
設定
slurm-llnl の設定ファイルは /etc/slurm-llnl
にあります。slurm サービスを起動する前に、設定ファイル /etc/slurm-llnl/slurm.conf
を作成して適切に設定してください。クライアントとサーバーは同一の設定ファイルが使えます。https://slurm.schedmd.com/configurator.html からファイルを生成するか /etc/slurm-llnl/slurm.conf.example
を /etc/slurm-llnl/slurm.conf
にコピーして自由に修正してください。
デフォルトでは、インストール時に UID と GID が 64030 の slurm ユーザーが作成されます。このユーザーを使うことで複数の環境でのセットアップが楽になります。UID と GID は Debian で使われている ID と同じなので、Debian と一緒に使うこともできます。ただしバイナリはディストリビューションによって違うので注意してください。
クライアント (計算ノード) の設定
クライアント側で安全に slurmd.service
を起動/有効化できるようになりました。
サーバー (ヘッドノード) の設定
slurmctld.service
を起動/有効化してください。
また、slurmdbd.service
を起動/有効化することで、mysql データベースを使って重要なプロセスの情報ログを簡単に管理することができます。
参照
- slurm tutorials - ユーザーとシステム管理者のための Slurm Workload Manager のイントロダクション。Slurm プログラマ向けの資料。
- Quick Start Administrator Guide - 詳細なセットアップガイド。
- SLURM to manage jobs - 便利な SLURM コマンド。
- Running Jobs - ハーバード大学での slurm の利用事例。