hugging faceのモデルデータをggufに変換してllama.cppで使えるようにする
hugging faceのモデルデータからllama.cppで扱えるgguf形式への変換
- hugging faceからモデルデータをダウンロードする
- モデルデータをgguf形式に変換
- gguf形式からquantizeして圧縮する
hugging faceからモデルデータをダウンロード
hugging face cliを使って利用したいモデルをダウンロードする
hf download <model>
モデルデータをgguf形式に変換
llama.cppのgithubレポジトリをクローンしてcmakeによるビルドが完了している前提
レポジトリのルートから実行
python convert_hf_to_gguf.py --outtype f16 ~/.cache/huggingface/hub/models--hogehoge/snapshot/hogehoge
gguf形式からquantizeして圧縮する
gguf形式のモデルを指定。第二引数はquantize形式を指定する。
./build/bin/llama-quantize ~/.cache/huggingface/hub/models--hogehoge/snapshots/hogehoge/hogehoge.gguf Q4_K_M