BitNet-git

bitnet-git は、Microsoft の bitnet.cpp をベースにした、1-bit Large Language Models (LLMs) 用の公式推論フレームワークを提供します。これは、1.58-bit 量子化を使用して、CPU と GPU 上で高速かつエネルギー効率の高い推論を行うように最適化されています。

インストール

bitnet-git^AUR パッケージをインストールしてください。

ハードウェア最適化

このパッケージは自動的にアーキテクチャを検出し、最も適切なカーネルを使用します:

x86_64: 最大のパフォーマンスを得るために TL2 (最適化された Lookup Table カーネル) を使用します。
aarch64: TL1 (ARMv8.2+ 向けに最適化) を使用します。

グローバルモデル管理

ワークフローを効率化するために、グローバルなモデルディレクトリとシェルヘルパーを設定することを推奨します。これにより、完全なパスや URI を入力せずに、名前でモデルを実行できます。

モデルディレクトリの作成

ホームフォルダに標準的なディレクトリを作成します:

$ mkdir -p ~/.local/share/bitnet/models

シェルの設定

以下を ~/.bashrc または ~/.zshrc に追加してください:

# BitNet Models Directory
export BITNET_MODELS_DIR="$HOME/.local/share/bitnet/models"
# BitNet Runner Helper
bitnet-run() {
   if [ -z "$1" ]; then
       echo "Usage: bitnet-run <model_filename> [additional_args]"
       return 1
   fi
   local model_name="$1"
   shift
   llama-cli -m "$BITNET_MODELS_DIR/$model_name" "$@"
   }

シェルを再読み込みしてください: source ~/.bashrc (または ~/.zshrc)。

モデルのダウンロード

推奨モデルを新しいディレクトリに直接ダウンロードします:

# Download the BitNet 2B model
wget -P "$BITNET_MODELS_DIR" https://huggingface.co/microsoft/BitNet-b1.58-2B-4T-gguf/resolve/main/ggml-model-i2_s.gguf

簡単に推論を実行する

これで、ファイル名を指定するだけでモデルを実行できます:

bitnet-run ggml-model-i2_s.gguf -p "What are the benefits of 1-bit LLMs?" -cnv

オプション

-m <path>: GGUF モデルファイルへのパス。
-p <"prompt">: モデルに渡す初期プロンプト。
-t <threads>: 使用する CPU スレッド数。例: -t 4。
-temp <value>: ランダム性を制御します。例: -temp 0.7。
-cnv: 会話/チャットモードを有効化します。

API 経由でモデルを提供する

OpenAI の API と互換性のあるローカル API サーバーを実行することもできます:

bitnet-run -m ggml-model-i2_s.gguf --port 8080

その後、http://localhost:8080 からアクセスできます。

推奨モデル (x86_64)
モデル	パラメータ	サイズ (GGUF)	説明
bitnet_b1_58-large	0.7B	~150 MB	非常に高速で、テストに適しています。
BitNet-b1.58-2B-4T	2.4B	~500 MB	日常利用において最もバランスが良いモデルです。
bitnet_b1_58-3B	3.3B	~700 MB	高性能で、やや高い能力を持ちます。
Llama3-8B-1.58	8.0B	~1.6 GB	高品質ですが、より多くの RAM が必要です。

トラブルシューティング

ビルド失敗: base-devel、cmake、clang がインストールされていることを確認してください。

モデルエラー: モデルファイルが有効な GGUF であり、$BITNET_MODELS_DIR に存在することを確認してください。