Ollama

インストール

ollama パッケージをインストールしてください。このパッケージはデーモン、コマンドラインツール、CPU 推論を提供します。

GPU 推論の場合:

次に、ollama.service を有効化/起動してください。その後、Ollama の状態を確認します:

$ ollama --version

Warning: could not connect to a running Ollama instance と表示される場合、Ollama サービスが実行されていません。それ以外の場合、Ollama サービスは実行中であり、ユーザーからのリクエストを受け付ける準備ができています。

次に、モデルを実行できることを確認します。以下のコマンドは、最新の Gemma 3 の 270M パラメータモデルをダウンロードし、モデルと対話できる Ollama プロンプトを返します:

$ ollama run gemma3:270m

>>> Send a message (/? for help)

Ollama の実行ファイルは検索インターフェイスを提供していません。ollama search というコマンドは存在しません。モデルを検索するには、検索ページにアクセスする必要があります。

モデルを実行するには:

$ ollama run model

モデルを停止するには:

$ ollama stop model

モデルを更新するには:

$ ollama pull model

モデルを削除するには:

$ ollama rm model

ローカルで利用可能なモデルを表示するには:

$ ollama list

Ollama セッション中に GPU の使用率を監視するために amdgpu_top のようなユーティリティを使用したものの、GPU がまったく使われていないことに気づく場合があります。

設定を行わない場合、ROCm は単に未対応の GPU を無視し、すべての計算が CPU で行われます。

ノート 対応 GPU については ROCm System Requirements を参照して確認してください。

これを回避するには、ollama.service のドロップインファイルを作成します:

/etc/systemd/system/ollama.service.d/override_gfx_version.conf

[Service]
Environment="HSA_OVERRIDE_GFX_VERSION=X.Y.Z"

ここで、X.Y.Z はシステムに搭載されている GFX バージョンに依存します。

使用する GFX バージョンを決定するには、まず rocminfo がすでにインストールされていることを確認してください。これは rocblas の依存関係としてシステムに取り込まれているはずです。また、rocblas 自体は ollama-rocm の依存関係です。

次に、システムの実際の GFX バージョンを問い合わせます:

$ /opt/rocm/bin/rocminfo | grep amdhsa

gfx という語の後に表示される数字を覚えておく必要があります。これがシステムの実際の GFX バージョンです。数字は以下のように解釈されます:

次に、インストール済みのすべての rocblas カーネルを探します:

$ find /opt/rocm/lib/rocblas/library -name 'Kernels.so-*'

X.Y.Z には、そこで一覧表示された利用可能なバージョンのうち 1 つを設定する必要があります。ルールは以下のように要約できます:

正しい X.Y.Z を設定した後、daemon-reload を実行し、ollama.service を再起動してください。

その後、通常どおりモデルを実行します。必要であれば、もう一度 amdgpu_top で GPU 使用率を監視してもよいでしょう。

モデルファイルは手動で削除できます。モデルファイルは /var/lib/ollama/blobs に保存されています。