S.M.A.R.T.

S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) は、最近のストレージデバイスに多く内蔵されている補助コンポーネントであり、これによってデバイスは動作の健康状態を監視、保存、そして分析します。ソフトウェアは、収集された統計 (温度、代替処理されたセクタ数、シークエラーなど) 用いてデバイスの健康状態の計測、デバイスの障害の予測、危険な値に達した際の通知を行うことができます。

Smartmontools

smartmontools パッケージには、ストレージデバイスの分析と監視のためのユーティリティプログラム smartctl と smartd が含まれています。これらのツールを使用するには smartmontools パッケージをインストールしてください。

これらのツールを効果的に使用するには、各ストレージデバイスで SMART サポートが利用可能であり、かつ有効化されていなければなりません。#smartctl を使うことで SMART サポートを確認したり有効化したりすることができます。それが済んだら、手動で #テストを実行することも #テスト結果を表示することもできますし、#smartd を使って自動的にテストを実行してメールで通知することもできます。

smartctl

smartctl は、「ほとんどの ATA/SATA 及び SCSI/SAS ハードドライブやソリッドステートドライブに組み込まれている Self-Monitoring, Analysis and Reporting Technology (SMART) システムを制御する」コマンドラインツールです。

-i/--info オプションは、デバイスに関する様々な情報を出力します (SMART が利用可能で有効であるかどうかに関する情報を含む):

# smartctl --info /dev/sda | grep 'SMART support is:'

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

SMART が利用可能であるが、有効でない場合、有効化することができます:

# smartctl --smart=on /dev/device

場合によっては、デバイスのタイプを指定する必要があります。例えば、--device=ata は、デバイスのタイプが ATA であることを smartctl に伝え、smartctl がそのデバイスに SCSI コマンドを発行してしまうことを防ぎます。

テストを実行する

デバイスが実行できる自己テストには3種類あります (どのテストもユーザデータに対して安全です):

Short: デバイスの問題を検出する可能性の高いテストを実行します。
Extended 或いは Long: このテストは short チェックと同じですが、時間制限が無く、完全なディスクサーフェス検査を行います。
Conveyance: デバイスの輸送中にダメージが発生したかどうかを調べます。

-c/--capabilities フラグは、デバイスがサポートしているテストと各テストの推定実行時間を出力します。例えば:

# smartctl -c /dev/sda

...
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  74) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
...

テストを実行するには -t/--test=test_name フラグを使用してください:

# smartctl -t short /dev/device
# smartctl -t long /dev/device
# smartctl -t conveyance /dev/device

テスト結果を表示する

-H フラグでデバイスの全体的な健康状態を表示できます。「デバイスが健康状態に問題があると報告した場合、デバイスがすでに故障しているか、24時間以内にデバイス自体が故障することが予測されていることを意味します。この場合 […] 可能な限り早くディスクからデータを取り出し、別の安全な場所に移してください。」

# smartctl -H /dev/device

最近のテスト結果の一覧やデバイスの詳細な情報を表示することもできます:

# smartctl -l selftest /dev/device
# smartctl -a /dev/device

全ディスクの属性表を生成する

#!/bin/bash
function drives_csv {
	declare -A drive_values
	for d in `smartctl --scan -d scsi | cut -d' ' -f1`; do
		drive_values["-Drive-----------------"]="${drive_values[-Drive-----------------]},$d"
		for l in `smartctl -A $d | grep ATTRIBUTE_NAME -A30 | grep -v ATTRIBUTE_NAME | column -H1,3,4,5,6,7,8,9,11,12,13,14,15 -t -o, | sed 's/ //g'`; do
			key=`echo $l | cut -d',' -f1`
			value=`echo $l | cut -d',' -f2`
			existing=${drive_values["$key"]}
			drive_values["${key}"]="${existing},${value}"
			#~ echo "${key},${drive_values[$key]}"
		done
	done
	for key in "${!drive_values[@]}"; do
		echo "${key}${drive_values[$key]}"
	done | sort
}
drives_csv | column -s, -t

smartd

smartd デーモンは SMART の状態を監視して、何か問題が発生したら通知します。このデーモンは systemd で管理でき、設定ファイル /etc/smartd.conf で設定できます。設定ファイルの構文は難解であり、この wiki ページではクイックリファレンスしか提供しません。より完全な情報は設定ファイル内の例やコメントを読んだり、smartd.conf(5) を読んだりしてください。

デーモン管理

デーモンの起動、ステータスの確認、システムブート時の自動起動、最近のログファイルエントリの確認を行うには、smartd.service systemd ユニットを起動/有効化してください。

smartd は通常の systemctl と journalctl のコマンドすべてを尊重します。

管理すべきデバイスを定義する

全ディスク上のすべての SMART エラーを監視するには、以下の設定を設定ファイルに追加しなければなりません:

/etc/smartd.conf

DEVICESCAN -a

注意点として、これはデフォルトの smartd 設定であり、-a パラメータ (デフォルトのパラメータ) は省略できます。

/dev/sda と /dev/sdb のすべての SMART エラーを監視し、他のデバイスすべてを無視するには:

/etc/smartd.conf

/dev/sda -a
/dev/sdb -a

外部接続のディスクのすべての SMART エラーを監視する場合、ドライブの /dev/sdX は再起動後に変化するかもしれないので、ドライブの UUID を smartd に渡すのが賢明です。

まず、監視すべきディスクの UUID を手に入れなければなりません。ls -lah /dev/disk/by-uuid/ を実行して、監視したいディスクを見つけてください:

$ ls -lah /dev/disk/by-uuid/

lrwxrwxrwx 1 root root   9 Nov  5 22:41 820cdd8a-866a-444d-833c-1edb0f4becac -> ../../sde
lrwxrwxrwx 1 root root  10 Nov  5 22:41 b51b87f3-425e-4fe7-883f-f4ff1689189e -> ../../sdf2
lrwxrwxrwx 1 root root   9 Nov  5 22:42 ea2199dd-8f9f-4065-a7ba-71bde11a462c -> ../../sda
lrwxrwxrwx 1 root root  10 Nov  5 22:41 fe9e886a-8031-439f-a909-ad06c494fadb -> ../../sdf1

USB ディスクは /dev/sde に接続されていることが分かっています。/dev/disk/by-uuid/ のパスを使って smartd にこのディスクを監視するように指示します:

/etc/smartd.conf

/dev/disk/by-uuid/820cdd8a-866a-444d-833c-1edb0f4becac -a

注意点として、smartd を機能させるために -d removable も必要である場合があります。

これで、/dev/sdX のパスが再起動によって変化しても、USB ディスクが監視されるようになりました。

潜在的な問題を通知する

障害や新しいエラーが発生した場合にメールを送信させるには、-m オプションを使用してください:

/etc/smartd.conf

DEVICESCAN -m address@domain.com

(root メールアカウントではなく) 外部にメールを送信するには、MTA (Mail Transport Agent) か MUA (Mail User Agent) のインストール・設定が必要です。一般的な MUA は msmtp と Postfix ですが、おそらく最も簡単な dma で十分でしょう。一般的な MTA は sendmail と Postfix です。メールだけであれば S-nail を設定するだけで十分ですが、これらの手順に従う必要があります。

-M test オプションで、smartd デーモンが起動する度にテストメールを送信します:

/etc/smartd.conf

DEVICESCAN -m address@domain.com -M test

メールが届くまでに時間がかかることもあります。ハードドライブの障害が発生したときにすぐに対応が必要な場合、メールの送信に加えて実行されるスクリプトを定義することもできます:

/etc/smartd.conf

DEVICESCAN -m address@domain.com -M exec /usr/local/bin/smartdnotify

メールとシステム通知を送信するには、/usr/local/bin/smartdnotify に以下のようなコードを記述してください:

#!/bin/sh
# Send email
echo "$SMARTD_MESSAGE" | mail -s "$SMARTD_FAILTYPE" "$SMARTD_ADDRESS"
# Notify user
wall "$SMARTD_MESSAGE"

If you are running a desktop environment, you might also prefer having a popup to appear on your desktop. In this case, you can use this script (replace X_user and X_userid with the user and userid running X respectively):

デスクトップ環境を使っている場合、デスクトップ上にポップアップを表示させたい場合があります。そのようなときは、以下のスクリプトを使用することができます (X_user と X_userid は X を実行しているユーザとユーザ ID にそれぞれ置き換えてください):

/usr/local/bin/smartdnotify

#!/bin/sh

sudo -u X_user DISPLAY=:0 DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/X_userid/bus notify-send "S.M.A.R.T Error ($SMARTD_FAILTYPE)" "$SMARTD_MESSAGE" --icon=dialog-warning -u critical

このスクリプトは libnotify と完全なデスクトップ環境を必要とします。詳細はデスクトップ通知を見てください。

また、カスタムのスクリプトを /usr/share/smartmontools/smartd_warning.d/ に置くこともできます:

このスクリプトは、システム上のログイン中の全ユーザに libnotify を介して通知を送ります。

/usr/share/smartmontools/smartd_warning.d/smartdnotify

#!/bin/sh

IFS=$'\n'
for LINE in `w -hs`
do
    USER=`echo $LINE | awk '{print $1}'`
    USER_ID=`id -u $USER`
    DISP_ID=`echo $LINE | awk '{print $8}'`
    sudo -u $USER DISPLAY=$DISP_ID DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/$USER_ID/bus notify-send "S.M.A.R.T Error ($SMARTD_FAILTYPE)" "$SMARTD_MESSAGE" --icon=dialog-warning -u critical
done

このスクリプトは libnotify、procps-ng そして完全なデスクトップ環境を必要とします。

以下でカスタムのスクリプトを実行することができます:

/etc/smartd.conf

DEVICESCAN -m @smartdnotify

電源管理

電源管理の制御下にあるコンピュータを使用している場合、低消費電力モードでディスクを扱う方法を smartd に指示する必要があります。通常、ディスクプラッタは、smartd によって発行された SMART コマンドに応答してスピンアップします。なので、以下のオプションを使用しなかった場合、smartd によって定期的にポーリングされたときに、低消費電力モードにあるディスクがスピンアップして高電力モードになる場合があります。

/etc/smartd.conf

DEVICESCAN -n standby,15,q

詳細は smartmontools wiki を参照してください。

一部のデバイスでは -n が機能しません。syslog に以下のエラーメッセージが出力されます:

# journalctl -u smartd

CHECK POWER MODE: incomplete response, ATA output registers missing
Device: /dev/sdb [SAT], no ATA CHECK POWER STATUS support, ignoring -n Directive

別の方法として smartd の -i オプションを使用することができます。このオプションは、ドライブの状態を確認するためにディスクをスピンアップする頻度を制御します。デフォルトは30分です。頻度を変更するには /etc/conf.d/smartd を編集してください。

/etc/conf.d/smartd

SMARTD_ARGS="-i 10800"  Check status every 10800 seconds (3 hours)

詳細は smartd(8) を参照してください。

自己テストをスケジュールする

smartd は、スケジュールに従って自己診断の実行をするようディスクに指示を出すことができます。以下の /etc/smartd.conf の設定では毎日午前2-3時の間に短い自己診断、土曜日の午前3-4時の間に長い自己診断が行われるようにします:

/etc/smartd.conf

DEVICESCAN -s (S/../.././02|L/../../6/03)

温度の変化を警告する

smartd はディスクの温度を記録して、急激な温度上昇が起こった時や温度の上限に達した時に警告をすることができます。以下の例では、温度が4度以上変化したときにログを取り、温度が35度に達したときにログを取り、40度に達したときに警告をログに記録しメールを送信します:

/etc/smartd.conf

DEVICESCAN -W 4,35,40

ヒント:

コマンド smartctl -A /dev/device | grep Temperature_Celsius を実行することで、現在のディスクの温度を知ることができます｡
一部のディスクが専ら他のディスクより熱い/冷たい場合、DEVICESCAN を削除して個々のデバイスを定義し、適切な温度設定をしてください｡

完全な smartd.conf の例

上記の例を全てまとめると以下のような設定になります:

DEVICESCAN: smartd ディスクをスキャンし、検出されたディスクすべてを監視する
-a: 全ての属性を監視する
-o on: オンラインデータの自動収集を有効化する
-S on: 属性の自動保存を有効化する
-n standby,q: ディスクが待機中の時チェックを実行せず、ディスクアクセスが発生しないようにログに書き込まない
-s ...: 短いテストと長いテストの予定を立てる
-W ...: 温度を監視する
-m ...: メールアラート

/etc/smartd.conf

DEVICESCAN -a -o on -S on -n standby,q -s (S/../.././02|L/../../6/03) -W 4,35,40 -m username-or-email

コンソールアプリケーション

skdump — SMART デバイスの監視と管理、及びハードディスクドライブの健康状態の監視と報告を行うユーティリティ。

https://0pointer.de/blog/projects/being-smart.html || libatasmart

iostat -x (sysstat に含まれる) もいくつかのディスクの健康指標を提供します。特に、f_await 列の値が大きい場合は、ディスクがリクエストに素早く応答していないことを意味しており、障害が発生しているのかもしれません。

GUI アプリケーション

DisKMonitor — SMART デバイスと MDRaid 健康状態を監視する KDE ツール集。

https://github.com/papylhomme/diskmonitor || diskmonitor^AUR

Plasma Disks — KDE Plasma のためのハードディスクの健康状態の監視。

https://invent.kde.org/plasma/plasma-disks/ || plasma-disks

Gnome Disks — libatasmart を使用してハード・ディスク・ドライブの県っこう状態を監視・報告する GNOME フロントエンド (gnome デスクトップの一部であり、gsd-disk-utility-notify も組み込まれている)。

https://gitlab.gnome.org/GNOME/gnome-disk-utility/ || gnome-disk-utility

GSmartControl — smartctl のハードディスクドライブの健康状態調査ツール用の GNOME フロントエンド。

https://gsmartcontrol.sourceforge.io/ || gsmartcontrol

参照

翻訳ステータス: このページは en:S.M.A.R.T. の翻訳バージョンです。最後の翻訳日は 2023-05-03 です。もし英語版に変更があれば、翻訳の同期を手伝うことができます。