SD3 (Stable Diffusion 3) Medium モデルは 6 月に公開されています。今回は SD3 Medium モデルを使用して Google Colab 上 ComfyUI で高品質な画像を生成してみます。
SD3 Medium : Colab / ComfyUI による高品質な画像生成
作成 : Masashi Okumura (@ClassCat)
作成日時 : 10/16/2024
* 本記事の作成には comfyanonymous.github.io/ComfyUI_examples の以下のページを参考にしています :
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
◆ お問合せ : 本件に関するお問合せは下記までお願いします。
- クラスキャット セールス・インフォメーション
- sales-info@classcat.com
- ClassCatJP
SD3 Medium : Colab / ComfyUI による高品質な画像生成
SD3 (Stable Diffusion 3) Medium モデルは 6 月に公開されています。今回は SD3 Medium モデルを使用して Google Colab 上 ComfyUI で高品質な画像を生成してみます。
ComfyUI_examples の ComfyUI_examples : SD3 Examples に従っています。
環境構築
Colab 上で ComfyUI を利用するには以下に従うだけです。SD3 Medium モデルの配備については後述します :
- comfyanonymous/ComfyUI/README.md : Jupyter Notebook
テキストエンコーダを含むチェックポイント
テキストエンコーダを含むチェックポイントとして、sd3_medium_incl_clips.safetensors と sd3_medium_incl_clips_t5xxlfp8.safetensors が利用できます。
2 つの違いは、前者は軽量な 2 つのテキストエンコーダ (clip-l と clip-g) を含むのに対して、後者は加えてテキストエンコーダ t5xxl_fp8_e4m3fn を含むことです。
stabilityai/stable-diffusion-3-medium からダウンロードできますので、いずれかを ComfyUI/models/checkpoints/ ディレクトリに配置します。
得られるワークフローは以下のような単純なものです :
sd3_medium
sd3_medium.safetensors ファイルはテキストエンコーダー/CLIP 重みが含まれていません。
そのため、別途 “text_encoders” ディレクトリから以下をダウンロードする必要があります :
- clip_g.safetensors
- clip_l.safetensors
- sd3_medium_incl_clips_t5xxlfp16.safetensors または sd3_medium_incl_clips_t5xxlfp8.safetensors
これらは ComfyUI/models/clip/ ディレクトリに配置する必要がありますので、注意してください。
ワークフローは以下のようなものです :
サンプリング
例えば、次のプロンプトでサンプリングすると :
happy cute anime fox girl with massive fluffy fennec ears, blonde hair long hair blue eyes wearing a pink scarf a white shirt and a golden belt a long blue maxi skirt with a black coat hands in pockets and white socks rainbow sneakers in space black background standing on planet mars mountains with a star galaxy milky way sky
次のような画像が生成されます :
以上