Home
Packages
Forums
Wiki
GitLab
Security
AUR
Download
コンテンツにスキップ
メインメニュー
メインメニュー
サイドバーに移動
非表示
案内
メインページ
目次
コミュニティに貢献
最近の出来事
おまかせ表示
特別ページ
交流
ヘルプ
貢献
最近の更新
最近の議論
新しいページ
統計
リクエスト
ArchWiki
検索
検索
表示
アカウント作成
ログイン
個人用ツール
アカウント作成
ログイン
Llama.cppのソースを表示
ページ
議論
日本語
閲覧
ソースを閲覧
履歴を表示
ツール
ツール
サイドバーに移動
非表示
操作
閲覧
ソースを閲覧
履歴を表示
全般
リンク元
関連ページの更新状況
ページ情報
表示
サイドバーに移動
非表示
←
Llama.cpp
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
[[Category:開発]] [[Category:グラフィック]] {{Related articles start}} {{Related|Vulkan}} {{Related|GPGPU}} {{Related|Ollama}} {{Related articles end}} C/C++ による LLM 推論。 == インストール == llama.cpp は [[AUR]] で利用できます: * CPU 推論には {{AUR|llama.cpp}} を [[インストール]] してください。 * GPU 推論には {{AUR|llama.cpp-vulkan}} を [[インストール]] してください。 * [[CUDA]] による推論には {{AUR|llama.cpp-cuda}} を [[インストール]] してください。 * [[ROCm]] による推論には {{AUR|llama.cpp-hip}} を [[インストール]] してください。 {{Note| * {{AUR|llama.cpp-vulkan}} をインストールする場合は、適切な [[Vulkan]] ドライバーがインストールされていることを確認してください。 * パッケージ {{AUR|llama.cpp-cuda}} は 2025-12-22 以降 out-of-date としてフラグされています。 }} == 使用方法 == 主な実行プログラムは {{ic|llama-cli}} と {{ic|llama-server}} です。 === llama-cli === {{ic|llama-cli}} はコマンドライン実行プログラムです: $ llama-cli -m ''model.gguf'' === llama-server === {{ic|llama-server}} は組み込み WebUI 付きの API サーバーを起動します: $ llama-server --host ''address'' --port ''port'' -m ''model.gguf'' == モデルの入手 == llama.cpp は GGUF 形式のモデルを使用します。 === Hugging Face からダウンロード === {{ic|-hf}} フラグを使用して、[https://huggingface.co Hugging Face] からモデルをダウンロードします: $ llama-cli -hf ''org/model'' {{Warning|これは既存のモデルファイルを確認なしで上書きする可能性があります。}} === 手動ダウンロード === {{Pkg|wget}} または {{Pkg|curl}} を使用してモデルを手動でダウンロードします: $ wget -c ''model.gguf'' == ヒントとテクニック == === モデルの量子化 === 量子化はモデルの精度を下げることで、メモリ使用量を削減します。 GGUF モデルでは、量子化レベルを示すために接尾辞が使用されます。一般的に、低い数値、例えば '''Q4''' はメモリ使用量が少なくなりますが、高い数値、例えば '''Q8''' と比べて品質が低下する可能性があります。 === 知識蒸留 === 知識蒸留は、大きなモデルの振る舞いに従うよう小さなモデルを訓練することで、大きなモデルを小さなモデルに圧縮します。 通常、GGUF モデルでは {{ic|student-teacher-distill}} 表記を使用して知識蒸留を示します。ここで: * {{ic|student}} は小さいモデルを表します。 * {{ic|teacher}} は大きいモデルを表します。 === コンテキストサイズの指定 === llama.cpp はデフォルトでモデルからコンテキストサイズを読み込み、コンテキストウィンドウ全体に対してメモリを割り当てます。 メモリ不足になる場合は、低いコンテキストサイズを指定してください。 $ llama-cli -c ''32000'' -m ''model.gguf'' === Key-value キャッシュの量子化 === さらにメモリ効率を高めるには、key-value キャッシュを量子化できます。 $ llama-cli -ctk ''q8_0'' -ctv ''q8_0'' -m ''model.gguf'' これは、低いコンテキストサイズと組み合わせることで、メモリ使用量を大幅に削減できます。 {{Note| * '''keys''' に対する強い量子化は、品質を目に見えて低下させます。 * '''values''' に対する強い量子化は通常は比較的許容されますが、それでも劣化のリスクがあります。 }} === エージェントシステム === llama-server は WebUI を実行しますが、同じエンドポイントは OpenAI 互換サーバーとしても動作します。{{Pkg|opencode}} や {{Pkg|qwen-code}} のようなコーディングエージェントで使用するよう設定できます。 また、最近の更新により、組み込みのエージェント機能が導入されています。 ==== 組み込みツール ==== ファイルシステム操作とシェルアクセス用の組み込みツールを有効にするには、次のように llama-server を起動します: $ llama-server --tools all -m ''model.gguf'' これは、十分に強力な推論モデルと組み合わせることで、ブラウザで動作する最小限のコーディングエージェントと見なすことができます。 {{Warning| すべてのやり取りは、llama-server を実行しているユーザーの権限でオペレーティングシステムに送信されることを十分に注意してください。組み込みツールを有効にした状態で、llama-server をネットワークに公開したり、root として実行したりしては'''絶対に'''いけません! }} ==== Model Context Protocol サーバー ==== その他のツール、例えば search や fetch は、それらのツールが MCP エンドポイントとして提供されている場合、WebUI に追加できます。 === GPU 使用率の監視 === [[Graphics processing unit#Monitoring]] を参照してください。 == トラブルシューティング == === MCP リクエストが CORS ポリシーによって拒否される === オンラインでホストされている MCP エンドポイントを WebUI で使用するには、MCP CORS プロキシを有効にします: $ llama-server ''--webui-mcp-proxy'' -m ''model.gguf'' == 参照 == * [https://github.com/ggml-org/llama.cpp Upstream GitHub repository] * [https://github.com/ggml-org/llama.cpp/discussions/16938 Upstream guide: using the new WebUI of llama.cpp] * [https://github.com/ggml-org/llama.cpp/discussions/15396 Upstream guide: running gpt-oss with llama.cpp]
このページで使用されているテンプレート:
テンプレート:AUR
(
ソースを閲覧
)
テンプレート:Ic
(
ソースを閲覧
)
テンプレート:META Related articles start
(
ソースを閲覧
)
テンプレート:Note
(
ソースを閲覧
)
テンプレート:Pkg
(
ソースを閲覧
)
テンプレート:Related
(
ソースを閲覧
)
テンプレート:Related articles end
(
ソースを閲覧
)
テンプレート:Related articles start
(
ソースを閲覧
)
テンプレート:Warning
(
ソースを閲覧
)
Llama.cpp
に戻る。
検索
検索
Llama.cppのソースを表示
話題を追加