Skip to content

ClasCat® AI Research

クラスキャット – 生成 AI, AI エージェント, MCP

Menu
  • ホーム
    • ClassCat® AI Research ホーム
    • クラスキャット・ホーム
  • OpenAI API
    • OpenAI Python ライブラリ 1.x : 概要
    • OpenAI ブログ
      • GPT の紹介
      • GPT ストアの紹介
      • ChatGPT Team の紹介
    • OpenAI platform 1.x
      • Get Started : イントロダクション
      • Get Started : クイックスタート (Python)
      • Get Started : クイックスタート (Node.js)
      • Get Started : モデル
      • 機能 : 埋め込み
      • 機能 : 埋め込み (ユースケース)
      • ChatGPT : アクション – イントロダクション
      • ChatGPT : アクション – Getting started
      • ChatGPT : アクション – アクション認証
    • OpenAI ヘルプ : ChatGPT
      • ChatGPTとは何ですか?
      • ChatGPT は真実を語っていますか?
      • GPT の作成
      • GPT FAQ
      • GPT vs アシスタント
      • GPT ビルダー
    • OpenAI ヘルプ : ChatGPT > メモリ
      • FAQ
    • OpenAI ヘルプ : GPT ストア
      • 貴方の GPT をフィーチャーする
    • OpenAI Python ライブラリ 0.27 : 概要
    • OpenAI platform
      • Get Started : イントロダクション
      • Get Started : クイックスタート
      • Get Started : モデル
      • ガイド : GPT モデル
      • ガイド : 画像生成 (DALL·E)
      • ガイド : GPT-3.5 Turbo 対応 微調整
      • ガイド : 微調整 1.イントロダクション
      • ガイド : 微調整 2. データセットの準備 / ケーススタディ
      • ガイド : 埋め込み
      • ガイド : 音声テキスト変換
      • ガイド : モデレーション
      • ChatGPT プラグイン : イントロダクション
    • OpenAI Cookbook
      • 概要
      • API 使用方法 : レート制限の操作
      • API 使用方法 : tiktoken でトークンを数える方法
      • GPT : ChatGPT モデルへの入力をフォーマットする方法
      • GPT : 補完をストリームする方法
      • GPT : 大規模言語モデルを扱う方法
      • 埋め込み : 埋め込みの取得
      • GPT-3 の微調整 : 分類サンプルの微調整
      • DALL-E : DALL·E で 画像を生成して編集する方法
      • DALL·E と Segment Anything で動的マスクを作成する方法
      • Whisper プロンプティング・ガイド
  • Gemini API
    • Tutorials : クイックスタート with Python (1) テキスト-to-テキスト生成
    • (2) マルチモーダル入力 / 日本語チャット
    • (3) 埋め込みの使用
    • (4) 高度なユースケース
    • クイックスタート with Node.js
    • クイックスタート with Dart or Flutter (1) 日本語動作確認
    • Gemma
      • 概要 (README)
      • Tutorials : サンプリング
      • Tutorials : KerasNLP による Getting Started
  • Keras 3
    • 新しいマルチバックエンド Keras
    • Keras 3 について
    • Getting Started : エンジニアのための Keras 入門
    • Google Colab 上のインストールと Stable Diffusion デモ
    • コンピュータビジョン – ゼロからの画像分類
    • コンピュータビジョン – 単純な MNIST convnet
    • コンピュータビジョン – EfficientNet を使用した微調整による画像分類
    • コンピュータビジョン – Vision Transformer による画像分類
    • コンピュータビジョン – 最新の MLPモデルによる画像分類
    • コンピュータビジョン – コンパクトな畳込み Transformer
    • Keras Core
      • Keras Core 0.1
        • 新しいマルチバックエンド Keras (README)
        • Keras for TensorFlow, JAX, & PyTorch
        • 開発者ガイド : Getting started with Keras Core
        • 開発者ガイド : 関数型 API
        • 開発者ガイド : シーケンシャル・モデル
        • 開発者ガイド : サブクラス化で新しい層とモデルを作成する
        • 開発者ガイド : 独自のコールバックを書く
      • Keras Core 0.1.1 & 0.1.2 : リリースノート
      • 開発者ガイド
      • Code examples
      • Keras Stable Diffusion
        • 概要
        • 基本的な使い方 (テキスト-to-画像 / 画像-to-画像変換)
        • 混合精度のパフォーマンス
        • インペインティングの簡易アプリケーション
        • (参考) KerasCV – Stable Diffusion を使用した高性能画像生成
  • TensorFlow
    • TF 2 : 初級チュートリアル
    • TF 2 : 上級チュートリアル
    • TF 2 : ガイド
    • TF 1 : チュートリアル
    • TF 1 : ガイド
  • その他
    • 🦜️🔗 LangChain ドキュメント / ユースケース
    • Stable Diffusion WebUI
      • Google Colab で Stable Diffusion WebUI 入門
      • HuggingFace モデル / VAE の導入
      • LoRA の利用
    • Diffusion Models / 拡散モデル
  • クラスキャット
    • 会社案内
    • お問合せ
    • Facebook
    • ClassCat® Blog
Menu

FLUX.1 : 基礎知識 & Colab / Hugging Face Diffusers による高品質な画像生成

Posted on 08/06/202409/02/2024 by Masashi Okumura

FLUX.1 は Black Forest Labs の立ち上げの アナウンス とともに 8月1日に公開されたばかりのテキスト-to-画像合成モデル群です。
FLUX.1 は最高レベルのプロンプト順守、視覚品質、画像の詳細と出力の多様性を備えた、最先端の性能を持つ画像生成を提供します。

FLUX.1 : 基礎知識 & Colab / Hugging Face Diffusers による高品質な画像生成

作成 : Masashi Okumura (@ClassCat)
作成日時 : 08/06/2024

* 本記事の作成には以下のページを参考にしています :

  • Announcing Black Forest Labs

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス ⭐️ リニューアルしました 😉

◆ クラスキャット は人工知能に関する各種サービスを提供しています。お気軽にご相談ください :

  • 人工知能導入個別相談会(無償)実施中! [詳細]

  • 人工知能研究開発支援 [詳細]
    1. 自社特有情報を含むチャットボット構築支援
    2. 画像認識 (医療系含む) / 画像生成

  • PoC(概念実証)を失敗させないための支援 [詳細]

◆ お問合せ : 本件に関するお問合せは下記までお願いします。

  • クラスキャット セールス・インフォメーション
  • sales-info@classcat.com
  • ClassCatJP

 

FLUX.1 : 基礎知識 & Colab / Hugging Face Diffusers による高品質な画像生成

Black Forest Labs

FLUX.1 は Black Forest Labs の立ち上げの アナウンス とともに 8月1日に公開されたばかりのテキスト-to-画像合成モデル群です。

FLUX.1 は最高レベルのプロンプト順守、視覚品質、画像の詳細と出力の多様性を備えた、最先端の性能を持つ画像生成を提供します。

アナウンスの冒頭を簡単にまとめますと :

Black Forest Labs の立ち上げを発表します。その使命は、画像や動画のようなメディア用の最先端の生成 AI モデルを開発・発展させて、創造性・効率性や多様性の境界を押し広げることです。生成 AI が将来のすべての技術の基礎的なビルディング・ブロックとなることを確信しています。私たちのモデルを広く公開することで、そのメリットをあらゆる人々にもたらし、一般の人々を教育し、これらのモデルの安全性への信頼を高めることを望みます。生成メディアの業界標準を構築することを決意しています。

この目標への最初のステップとして、テキスト-to-画像合成の最前線を押し広げる、FLUX.1 モデルスイートを公開します。

 
Black Forest Labs のメンバーは Stable Diffusion の開発者が含まれているようです :

基礎的な生成 AI モデルの開発において優れた実績を持つ AI 研究者とエンジニアのチームです。その実績は VQGAN と Latent Diffusion、画像と動画生成用の Stable Diffusion (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) そして超高速なリアルタイム画像生成用の Adversarial Diffusion Distillation の作成を含みます。

 

Flux.1 モデル・ファミリー (FLUX.1 [pro], FLUX.1 [dev] & FLUX.1 [schnell])

テキスト-to-画像モデルの FLUX.1 スイートは、テキスト-to-画像合成における画像の詳細、プロンプトの順守、スタイルの多様性、そしてシーンの複雑さの点で新しい基準を打ち立てます。

アクセシビリティとモデルの能力を両立させるため、FLUX.1 には 3 つのバリアントがあります : FLUX.1 [pro], FLUX.1 [dev] & FLUX.1 [schnell] :

  • FLUX.1 [pro] : FLUX.1 のベストモデルで、最高のライン・プロンプト順守、視覚品質、画像の詳細と出力の多様性を備えた、最先端の性能の画像生成を提供します。API 経由で FLUX.1 [pro] にアクセスするためにはサインアップします。FLUX.1 [pro] はまた Replicate と fal.ai 経由で利用可能です。更に専用のカスタマイズされたエンタープライズ・ソリューションも提供しています。

  • FLUX.1 [dev] : FLUX.1 [dev] は非商用用途向けのオープン weight なガイダンス蒸留モデルです。FLUX.1 [pro] から直接蒸留され、FLUX.1 [dev] は同様の品質とプロンプト順守能力を取得する一方で、同じサイズの標準モデルよりも効率的です。FLUX.1 [dev] の重みは Hugging Face で利用可能で、Replicate や Fal.ai でも試すことができます。

  • FLUX.1 [schnell] : ローカル開発とパーソナルユース向けにカスタマイズされた最速モデルです。FLUX.1 [schnell] は Apache2.0 ライセンスでオープンに利用可能です。FLUX.1 [dev] と同様に、重みは Hugging Face で利用可能で、推論コードは GitHub と HuggingFace の Diffusers にあります。Moreover we’re happy to have day-1 integration for ComfyUI.

 

Transformer により強化された大規模な Flow モデル

すべての公開された FLUX.1 モデルは、マルチモーダル及び並列拡散 transformer ブロックのハイブリッド・アーキテクチャに基づき、12B パラメータにスケールされます。フローマッチング上に構築することで以前の最先端な拡散モデルを改良しています。フローマッチングは、拡散を特別な場合として含む、生成モデルを訓練するための一般的で概念的に単純な手法です。更に、rotary 位置埋め込みと並列アテンション層を組み込むことで、モデル性能を高め、ハードウェア効率性を向上させています。We will publish a more detailed tech report in the near future.

 

Colab / Hugging Face Diffusers による高品質な画像生成

それでは、Google Colab 上で Hugging Face ライブラリ Diffusers を利用して実際に画像生成してみましょう。

前述のように、FLUX.1 [dev] と FLUX.1 [schnell] の重みは Hugging Face のモデルとして配備されていますので、通常のようにモデルカードで利用許諾を承認するだけで利用可能になります :

  • black-forest-labs/FLUX.1-dev
  • black-forest-labs/FLUX.1-schnell

あとはモデルカードに記載されているサンプルコードに従うだけです。最初に Diffusers ライブラリをインストールします :
※ ハードウェアアクセラレータは A100 GPU に設定してください。

!pip install git+https://github.com/huggingface/diffusers.git

アクセストークンを設定します :

from google.colab import userdata
hf_token = userdata.get('HF_TOKEN')

FluxPipeline のインスタンスを生成します。FLUX.1[dev] の識別子は “black-forest-labs/FLUX.1-dev”、FLUX.1[schnell] は “black-forest-labs/FLUX.1-schnell” になります :

import torch
from diffusers import  FluxPipeline

pipeline = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",   # "black-forest-labs/FLUX.1-schnell",
    torch_dtype=torch.bfloat16,
    token=hf_token,
)
pipeline.enable_model_cpu_offload()

好みのプロンプトを設定してください :

prompt = "a few orange drones gliding through the forest near the lake"

取り敢えずはサンプルに従ってパラメータを設定します。以下は FLUX.1[dev] の場合 :

%%time

## for flux-dev
image = pipeline(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    #output_type="pil",
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(1)
).images[0]

image.save("flux-dev.png")

FLUX.1[schnell] の場合は僅か 4 ステップでも生成できます :

%%time

## for flux-schnell
image = pipeline(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=0.0,
    #output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(1)
).images[0]

image.save("flux-schnell.png")

生成例 :

Looks Good 😍
素のモデルでも高品質な画像が生成できます。

 

以上



クラスキャット

最近の投稿

  • LangGraph Platform : Get started : クイックスタート
  • LangGraph Platform : 概要
  • LangGraph : Prebuilt エージェント : ユーザインターフェイス
  • LangGraph : Prebuilt エージェント : 配備
  • LangGraph : Prebuilt エージェント : マルチエージェント

タグ

AutoGen (13) ClassCat Press Release (20) ClassCat TF/ONNX Hub (11) DGL 0.5 (14) Eager Execution (7) Edward (17) FLUX.1 (16) Gemini (20) HuggingFace Transformers 4.5 (10) HuggingFace Transformers 4.6 (7) HuggingFace Transformers 4.29 (9) Keras 2 Examples (98) Keras 2 Guide (16) Keras 3 (10) Keras Release Note (17) Kubeflow 1.0 (10) LangChain (45) LangGraph (20) MediaPipe 0.8 (11) Model Context Protocol (16) NNI 1.5 (16) OpenAI Agents SDK (8) OpenAI Cookbook (13) OpenAI platform (10) OpenAI platform 1.x (10) OpenAI ヘルプ (8) TensorFlow 2.0 Advanced Tutorials (33) TensorFlow 2.0 Advanced Tutorials (Alpha) (15) TensorFlow 2.0 Advanced Tutorials (Beta) (16) TensorFlow 2.0 Guide (10) TensorFlow 2.0 Guide (Alpha) (16) TensorFlow 2.0 Guide (Beta) (9) TensorFlow 2.0 Release Note (12) TensorFlow 2.0 Tutorials (20) TensorFlow 2.0 Tutorials (Alpha) (14) TensorFlow 2.0 Tutorials (Beta) (12) TensorFlow 2.4 Guide (24) TensorFlow Deploy (8) TensorFlow Get Started (7) TensorFlow Graphics (7) TensorFlow Probability (9) TensorFlow Programmer's Guide (22) TensorFlow Release Note (18) TensorFlow Tutorials (33) TF-Agents 0.4 (11)
2024年8月
月 火 水 木 金 土 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 7月   9月 »
© 2025 ClasCat® AI Research | Powered by Minimalist Blog WordPress Theme