Skip to content

ClasCat® AI Research

クラスキャット – 生成 AI, AI エージェント, MCP

Menu
  • ホーム
    • ClassCat® AI Research ホーム
    • クラスキャット・ホーム
  • OpenAI API
    • OpenAI Python ライブラリ 1.x : 概要
    • OpenAI ブログ
      • GPT の紹介
      • GPT ストアの紹介
      • ChatGPT Team の紹介
    • OpenAI platform 1.x
      • Get Started : イントロダクション
      • Get Started : クイックスタート (Python)
      • Get Started : クイックスタート (Node.js)
      • Get Started : モデル
      • 機能 : 埋め込み
      • 機能 : 埋め込み (ユースケース)
      • ChatGPT : アクション – イントロダクション
      • ChatGPT : アクション – Getting started
      • ChatGPT : アクション – アクション認証
    • OpenAI ヘルプ : ChatGPT
      • ChatGPTとは何ですか?
      • ChatGPT は真実を語っていますか?
      • GPT の作成
      • GPT FAQ
      • GPT vs アシスタント
      • GPT ビルダー
    • OpenAI ヘルプ : ChatGPT > メモリ
      • FAQ
    • OpenAI ヘルプ : GPT ストア
      • 貴方の GPT をフィーチャーする
    • OpenAI Python ライブラリ 0.27 : 概要
    • OpenAI platform
      • Get Started : イントロダクション
      • Get Started : クイックスタート
      • Get Started : モデル
      • ガイド : GPT モデル
      • ガイド : 画像生成 (DALL·E)
      • ガイド : GPT-3.5 Turbo 対応 微調整
      • ガイド : 微調整 1.イントロダクション
      • ガイド : 微調整 2. データセットの準備 / ケーススタディ
      • ガイド : 埋め込み
      • ガイド : 音声テキスト変換
      • ガイド : モデレーション
      • ChatGPT プラグイン : イントロダクション
    • OpenAI Cookbook
      • 概要
      • API 使用方法 : レート制限の操作
      • API 使用方法 : tiktoken でトークンを数える方法
      • GPT : ChatGPT モデルへの入力をフォーマットする方法
      • GPT : 補完をストリームする方法
      • GPT : 大規模言語モデルを扱う方法
      • 埋め込み : 埋め込みの取得
      • GPT-3 の微調整 : 分類サンプルの微調整
      • DALL-E : DALL·E で 画像を生成して編集する方法
      • DALL·E と Segment Anything で動的マスクを作成する方法
      • Whisper プロンプティング・ガイド
  • Gemini API
    • Tutorials : クイックスタート with Python (1) テキスト-to-テキスト生成
    • (2) マルチモーダル入力 / 日本語チャット
    • (3) 埋め込みの使用
    • (4) 高度なユースケース
    • クイックスタート with Node.js
    • クイックスタート with Dart or Flutter (1) 日本語動作確認
    • Gemma
      • 概要 (README)
      • Tutorials : サンプリング
      • Tutorials : KerasNLP による Getting Started
  • Keras 3
    • 新しいマルチバックエンド Keras
    • Keras 3 について
    • Getting Started : エンジニアのための Keras 入門
    • Google Colab 上のインストールと Stable Diffusion デモ
    • コンピュータビジョン – ゼロからの画像分類
    • コンピュータビジョン – 単純な MNIST convnet
    • コンピュータビジョン – EfficientNet を使用した微調整による画像分類
    • コンピュータビジョン – Vision Transformer による画像分類
    • コンピュータビジョン – 最新の MLPモデルによる画像分類
    • コンピュータビジョン – コンパクトな畳込み Transformer
    • Keras Core
      • Keras Core 0.1
        • 新しいマルチバックエンド Keras (README)
        • Keras for TensorFlow, JAX, & PyTorch
        • 開発者ガイド : Getting started with Keras Core
        • 開発者ガイド : 関数型 API
        • 開発者ガイド : シーケンシャル・モデル
        • 開発者ガイド : サブクラス化で新しい層とモデルを作成する
        • 開発者ガイド : 独自のコールバックを書く
      • Keras Core 0.1.1 & 0.1.2 : リリースノート
      • 開発者ガイド
      • Code examples
      • Keras Stable Diffusion
        • 概要
        • 基本的な使い方 (テキスト-to-画像 / 画像-to-画像変換)
        • 混合精度のパフォーマンス
        • インペインティングの簡易アプリケーション
        • (参考) KerasCV – Stable Diffusion を使用した高性能画像生成
  • TensorFlow
    • TF 2 : 初級チュートリアル
    • TF 2 : 上級チュートリアル
    • TF 2 : ガイド
    • TF 1 : チュートリアル
    • TF 1 : ガイド
  • その他
    • 🦜️🔗 LangChain ドキュメント / ユースケース
    • Stable Diffusion WebUI
      • Google Colab で Stable Diffusion WebUI 入門
      • HuggingFace モデル / VAE の導入
      • LoRA の利用
    • Diffusion Models / 拡散モデル
  • クラスキャット
    • 会社案内
    • お問合せ
    • Facebook
    • ClassCat® Blog
Menu

Gemini : ガイド : メディアファイルを使用したプロンプティング

Posted on 04/18/2024 by Sales Information

Gemini : ガイド : メディアファイルを使用したプロンプティング

作成 : クラスキャット セールスインフォメーション
作成日時 : 04/18/2024

* 本ページは、ai.google.dev の以下のページを独自に翻訳して、適宜、補足説明したものです :

  • Guides : Prompting with media files

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス

◆ クラスキャット は人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

ClassCat Chatbot

  • 人工知能研究開発支援
    1. 人工知能研修サービス(経営者層向けオンサイト研修)
    2. テクニカルコンサルティングサービス
    3. 実証実験(プロトタイプ構築)
    4. アプリケーションへの実装

  • 人工知能研修サービス

  • PoC(概念実証)を失敗させないための支援
◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール。
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

  • クラスキャット セールス・マーケティング本部 セールス・インフォメーション
  • sales-info@classcat.com  ;  Website: www.classcat.com  ;   ClassCatJP

 

Gemini : ガイド : メディアファイルを使用したプロンプティング

Gemini API は、マルチモーダル・プロンプティングとも呼ばれる、テキスト、画像と音声データを使用したプロンプティングをサポートしています。テキスト、画像と音声をプロンプトに含めることができます。小さい画像については、プロンプトを供給するとき Gemini モデルに直接ローカルファイルをポイントさせることができます。より大きい画像、動画 (画像フレームのシークエンス) や音声については、それらをプロンプトに含める前にファイルを File API でアップロードします。

File API は、各ファイルがサイズ 2GB を超えない範囲で、プロジェクト毎に 20GB までファイルをストアすることが可能です。ファイルは 48 時間保存され、その時間内であれば生成のために API キーでアクセスできます。Gemini API が利用可能な すべてのリージョンで無料で利用可能です。

有効なファイル形式 (MIME タイプ) とサポートされるモデルの詳細は、Supported ファイル形式 をご覧ください。

⭐️ Note : Videos must be converted into image frames before uploading to the File API.

このガイドは、File API を使用してメディアファイルをアップロードしてそれを Gemini API への GenerateContent 呼び出しに含める方法を紹介します。詳細は、コードサンプル をご覧ください。

 

セットアップ

File API を使用する前に、Gemini API SDK パッケージをインストールして API キーを設定する必要があります。このセクションはこれらのセットアップ・ステップを完了する方法を説明します。

 

Python SDK をインストールしてパッケージをインポートする

Gemini API 用 Python SDK は google-generativeai パッケージに含まれます。pip を使用して依存関係をインストールします。

pip install -q -U google-generativeai

必要なパッケージをインポートします。

import google.generativeai as genai
from IPython.display import Markdown

 

API キーのセットアップ

File API は認証とアクセスに API キーを使用します。アップロードされたファイルは API キーにリンクされたプロジェクトに関連付けられます。API キーを使用する他の Gemini API とは異なり、API キーは File API にアップロードしたデータへのアクセスもまた許可しますので、API キーを安全に保つことに特に注意してください。キーを安全に保つことの詳細は、API キーを使用するためのベストプラクティス をご覧ください。

API キーは GOOGLE_API_KEY という名前の Colab Secret にストアしてください。まだ API キーを持っていないか、Colab Secret に馴染みがないのであれば、認証クイックスタート を参照してください。

from google.colab import userdata
GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')

genai.configure(api_key=GOOGLE_API_KEY)

 

ファイルを File API にアップロードする

File API は、画像と音声形式を含む、様々なマルチモーダル MIME タイプをアップロードすることを可能にします。File API は model.generateContent や model.streamGenerateContent を使用してコンテンツを生成するために使用できる入力を処理します。

File API はサイズ 2GB 未満のファイルを受け取り、プロジェクト毎に 20GB のファイルまでストアすることができます。ファイルは 2 日間存在し、API からはダウンロードできません。

最初に、API にアップロードするためのサンプル画像を準備します。

独自のファイルをアップロードするためには、Appendix セクション をご覧ください。

curl -o image.jpg https://storage.googleapis.com/generativeai-downloads/images/jetpack.jpg

次に、そのファイルを File API にアップロードします。

sample_file = genai.upload_file(path="image.jpg",
                            display_name="Sample drawing")

print(f"Uploaded file '{sample_file.display_name}' as: {sample_file.uri}")

response は、File API がアップロードされたファイルに対して特定の display_name と Gemini API 呼び出しでファイルを参照するための uri をストアしたことを示しています。アップロードされたファイルがどのように URI にマップされたかを追跡するには response を使用します。

ユースケースに依存して、URI を辞書やデータベースのような構造にストアできるでしょう。

 

ファイルの取得

ファイルをアップロードした後、files.get を呼び出して API がファイルを正常に受け取ったことを検証できます。

API キーが属するクラウド・プロジェクトに関連付けられた、File API にアップロードされたファイル・メタデータを得ることを可能にします。name (そしてその延長線上で uri) だけが一意です。一意性を独自に管理する場合、ファイルを識別するのに displayName だけを使用してください。

file = genai.get_file(name=sample_file.name)
print(f"Retrieved file '{file.display_name}' as: {sample_file.uri}")

 

コンテンツの生成

ファイルのアップロード後、GenerateContent リクエストを行なうことができます、これは File API URI を参照します。この例では、テキストで始まり、アップロードされた画像が続くプロンプトを作成します。

# Set the model to Gemini 1.5 Pro.
model = genai.GenerativeModel(model_name="models/gemini-1.5-pro-latest")

response = model.generate_content(["Describe the image with a creative description.", sample_file])

Markdown(">" + response.text)

 

ファイルの削除

ファイルは 2 日後に自動的に削除されます。files.delete() を使用して手動で削除することもできます。

genai.delete_file(sample_file.name)
print(f'Deleted {sample_file.display_name}.')

 

サポートされるファイル形式

Gemini モデルは複数のファイル形式を使用したプロンプティングをサポートします。このセクションは、プロンプティング、特に画像、音声と動画ファイルについての一般的なメディア形式を使用する際の考慮事項を説明します。次のテーブルで示されるように、特定のモデルバージョンを使用してのみプロンプティングのためにメディアファイルを使用できます。

 

画像形式

gemini-pro-vision と gemini-1.5-pro モデルを使用してプロンプティングのために画像を使用できます。

(訳註: 詳細は 原文 参照。)

 

音声形式

gemini-1.5-pro モデルを使用してプロンプティングのために音声データを使用できます。

(訳註: 詳細は 原文 参照。)

 

動画形式

gemini-1.5-pro モデルを使用してプロンプティングのために動画データを使用できます。ただし、動画ファイル形式は Gemini API による直接的な入力としてはサポートされません。動画を一連の静止フレーム画像と分離された音声ファイルへと分解することにより、動画データをプロンプト入力として使用できます。このアプローチは、動画ファイルから毎秒何フレームがプロンプトに含まれるかを選択することにより、データの総量、動画により提供される詳細なレベルを管理することができます。

⭐️ Note: 構成要素 – 音声ファイルと画像フレームとしてプロンプトに追加された動画ファイルは、モデルにより個別のプロンプトデータ入力としてみなされます。この理由で、音声スニペットと動画フレームの両方がソース動画で現れる時間を指定するリクエストや質問は役立つ結果を生成しない可能性があります。

 

以上



クラスキャット

最近の投稿

  • LangGraph on Colab : SQL エージェントの構築
  • LangGraph on Colab : マルチエージェント・スーパーバイザー
  • LangGraph on Colab : エージェント型 RAG
  • LangGraph : 例題 : エージェント型 RAG
  • LangGraph Platform : Get started : クイックスタート

タグ

AutoGen (13) ClassCat Press Release (20) ClassCat TF/ONNX Hub (11) DGL 0.5 (14) Eager Execution (7) Edward (17) FLUX.1 (16) Gemini (20) HuggingFace Transformers 4.5 (10) HuggingFace Transformers 4.6 (7) HuggingFace Transformers 4.29 (9) Keras 2 Examples (98) Keras 2 Guide (16) Keras 3 (10) Keras Release Note (17) Kubeflow 1.0 (10) LangChain (45) LangGraph (24) MediaPipe 0.8 (11) Model Context Protocol (16) NNI 1.5 (16) OpenAI Agents SDK (8) OpenAI Cookbook (13) OpenAI platform (10) OpenAI platform 1.x (10) OpenAI ヘルプ (8) TensorFlow 2.0 Advanced Tutorials (33) TensorFlow 2.0 Advanced Tutorials (Alpha) (15) TensorFlow 2.0 Advanced Tutorials (Beta) (16) TensorFlow 2.0 Guide (10) TensorFlow 2.0 Guide (Alpha) (16) TensorFlow 2.0 Guide (Beta) (9) TensorFlow 2.0 Release Note (12) TensorFlow 2.0 Tutorials (20) TensorFlow 2.0 Tutorials (Alpha) (14) TensorFlow 2.0 Tutorials (Beta) (12) TensorFlow 2.4 Guide (24) TensorFlow Deploy (8) TensorFlow Get Started (7) TensorFlow Graphics (7) TensorFlow Probability (9) TensorFlow Programmer's Guide (22) TensorFlow Release Note (18) TensorFlow Tutorials (33) TF-Agents 0.4 (11)
2024年4月
月 火 水 木 金 土 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 3月   5月 »
© 2025 ClasCat® AI Research | Powered by Minimalist Blog WordPress Theme