hugging faceのモデルデータからllama.cppで扱えるgguf形式への変換

hugging faceからモデルデータをダウンロード

hugging face cliを使って利用したいモデルをダウンロードする

hf download <model>

llama.cppのgithubレポジトリをクローンしてcmakeによるビルドが完了している前提

レポジトリのルートから実行

python convert_hf_to_gguf.py --outtype f16 ~/.cache/huggingface/hub/models--hogehoge/snapshot/hogehoge

gguf形式のモデルを指定。第二引数はquantize形式を指定する。

./build/bin/llama-quantize  ~/.cache/huggingface/hub/models--hogehoge/snapshots/hogehoge/hogehoge.gguf Q4_K_M