Llama.cppのソースを表示

[[Category:開発]]
[[Category:グラフィック]]

{{Related articles start}}
{{Related|Vulkan}}
{{Related|GPGPU}}
{{Related|Ollama}}
{{Related articles end}}

C/C++ による LLM 推論。

== インストール ==

llama.cpp は [[AUR]] で利用できます:

* CPU 推論には {{AUR|llama.cpp}} を [[インストール]] してください。
* GPU 推論には {{AUR|llama.cpp-vulkan}} を [[インストール]] してください。
* [[CUDA]] による推論には {{AUR|llama.cpp-cuda}} を [[インストール]] してください。
* [[ROCm]] による推論には {{AUR|llama.cpp-hip}} を [[インストール]] してください。

{{Note|
* {{AUR|llama.cpp-vulkan}} をインストールする場合は、適切な [[Vulkan]] ドライバーがインストールされていることを確認してください。	
* パッケージ {{AUR|llama.cpp-cuda}} は 2025-12-22 以降 out-of-date としてフラグされています。
}}

== 使用方法 ==

主な実行プログラムは {{ic|llama-cli}} と {{ic|llama-server}} です。

=== llama-cli ===

{{ic|llama-cli}} はコマンドライン実行プログラムです:

 $ llama-cli -m ''model.gguf''

=== llama-server ===

{{ic|llama-server}} は組み込み WebUI 付きの API サーバーを起動します:

 $ llama-server --host ''address'' --port ''port'' -m ''model.gguf''

== モデルの入手 ==

llama.cpp は GGUF 形式のモデルを使用します。

=== Hugging Face からダウンロード ===

{{ic|-hf}} フラグを使用して、[https://huggingface.co Hugging Face] からモデルをダウンロードします:

 $ llama-cli -hf ''org/model''

{{Warning|これは既存のモデルファイルを確認なしで上書きする可能性があります。}}

=== 手動ダウンロード ===

{{Pkg|wget}} または {{Pkg|curl}} を使用してモデルを手動でダウンロードします:

 $ wget -c ''model.gguf''

== ヒントとテクニック ==

=== モデルの量子化 ===

量子化はモデルの精度を下げることで、メモリ使用量を削減します。

GGUF モデルでは、量子化レベルを示すために接尾辞が使用されます。一般的に、低い数値、例えば '''Q4''' はメモリ使用量が少なくなりますが、高い数値、例えば '''Q8''' と比べて品質が低下する可能性があります。

=== 知識蒸留 ===

知識蒸留は、大きなモデルの振る舞いに従うよう小さなモデルを訓練することで、大きなモデルを小さなモデルに圧縮します。

通常、GGUF モデルでは {{ic|student-teacher-distill}} 表記を使用して知識蒸留を示します。ここで:

* {{ic|student}} は小さいモデルを表します。
* {{ic|teacher}} は大きいモデルを表します。

=== コンテキストサイズの指定 ===

llama.cpp はデフォルトでモデルからコンテキストサイズを読み込み、コンテキストウィンドウ全体に対してメモリを割り当てます。

メモリ不足になる場合は、低いコンテキストサイズを指定してください。

 $ llama-cli -c ''32000'' -m ''model.gguf''

=== Key-value キャッシュの量子化 ===

さらにメモリ効率を高めるには、key-value キャッシュを量子化できます。

 $ llama-cli -ctk ''q8_0'' -ctv ''q8_0'' -m ''model.gguf''

これは、低いコンテキストサイズと組み合わせることで、メモリ使用量を大幅に削減できます。

{{Note|
* '''keys''' に対する強い量子化は、品質を目に見えて低下させます。
* '''values''' に対する強い量子化は通常は比較的許容されますが、それでも劣化のリスクがあります。
}}

=== エージェントシステム ===

llama-server は WebUI を実行しますが、同じエンドポイントは OpenAI 互換サーバーとしても動作します。{{Pkg|opencode}} や {{Pkg|qwen-code}} のようなコーディングエージェントで使用するよう設定できます。

また、最近の更新により、組み込みのエージェント機能が導入されています。

==== 組み込みツール ====

ファイルシステム操作とシェルアクセス用の組み込みツールを有効にするには、次のように llama-server を起動します:

 $ llama-server --tools all -m ''model.gguf''

これは、十分に強力な推論モデルと組み合わせることで、ブラウザで動作する最小限のコーディングエージェントと見なすことができます。

{{Warning|
すべてのやり取りは、llama-server を実行しているユーザーの権限でオペレーティングシステムに送信されることを十分に注意してください。組み込みツールを有効にした状態で、llama-server をネットワークに公開したり、root として実行したりしては'''絶対に'''いけません!
}}

==== Model Context Protocol サーバー ====

その他のツール、例えば search や fetch は、それらのツールが MCP エンドポイントとして提供されている場合、WebUI に追加できます。

=== GPU 使用率の監視 ===

[[Graphics processing unit#Monitoring]] を参照してください。

== トラブルシューティング ==

=== MCP リクエストが CORS ポリシーによって拒否される ===

オンラインでホストされている MCP エンドポイントを WebUI で使用するには、MCP CORS プロキシを有効にします:

 $ llama-server ''--webui-mcp-proxy'' -m ''model.gguf''

== 参照 ==

* [https://github.com/ggml-org/llama.cpp Upstream GitHub repository]
* [https://github.com/ggml-org/llama.cpp/discussions/16938 Upstream guide: using the new WebUI of llama.cpp]
* [https://github.com/ggml-org/llama.cpp/discussions/15396 Upstream guide: running gpt-oss with llama.cpp]