hugging faceのモデルデータをggufに変換してllama.cppで使えるようにする

hugging faceのモデルデータからllama.cppで扱えるgguf形式への変換

  1. hugging faceからモデルデータをダウンロードする
  2. モデルデータをgguf形式に変換
  3. gguf形式からquantizeして圧縮する

hugging faceからモデルデータをダウンロード

hugging face cliを使って利用したいモデルをダウンロードする

hf download <model>

モデルデータをgguf形式に変換

llama.cppのgithubレポジトリをクローンしてcmakeによるビルドが完了している前提

レポジトリのルートから実行

python convert_hf_to_gguf.py --outtype f16 ~/.cache/huggingface/hub/models--hogehoge/snapshot/hogehoge

gguf形式からquantizeして圧縮する

gguf形式のモデルを指定。第二引数はquantize形式を指定する。

./build/bin/llama-quantize  ~/.cache/huggingface/hub/models--hogehoge/snapshots/hogehoge/hogehoge.gguf Q4_K_M