を参考に。
セットアップ
git clone https://github.com/apple/ml-stable-diffusion.git cd ml-stable-diffusion pip3 install -e .
huggingfaceにログインしておく(必要なんだっけこれ)
$(pyenv prefix)/bin/huggingface-cli login
モデルを取得する
# `--model-version CompVis/stable-diffusion-v1-4` とする # https://huggingface.co/CompVis このあたりを参照 python3 -m python_coreml_stable_diffusion.torch2coreml --attention-implementation ORIGINAL --convert-unet --convert-text-encoder --convert-vae-decoder --convert-safety-checker -o model_original --model-version CompVis/stable-diffusion-v1-4
画像を生成する
python3 -m python_coreml_stable_diffusion.pipeline --prompt "a photo of an japanese high school girl riding a horse on sea." -i model_original -o output_images --compute-unit CPU_AND_GPU --seed 13
512x512サイズで画像一つ生成するのにだいたい20秒。M1 MaxのMBP 2021年モデルにて。
なんか一時期よく見かけた感じの謎に崩れた顔とかの画像が生成される。