OpenAI platform 1.x : 機能 : 埋め込み (翻訳/解説)
翻訳 : クラスキャット セールスインフォメーション
作成日時 : 11/18/2023 (v1.2.4)
* 本ページは、以下のドキュメントを翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
- 人工知能研究開発支援
- 人工知能研修サービス(経営者層向けオンサイト研修)
- テクニカルコンサルティングサービス
- 実証実験(プロトタイプ構築)
- アプリケーションへの実装
- 人工知能研修サービス
- PoC(概念実証)を失敗させないための支援
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
- クラスキャット セールス・マーケティング本部 セールス・インフォメーション
- sales-info@classcat.com ; Website: www.classcat.com ; ClassCatJP
OpenAI platform 1.x : 機能 : 埋め込み
埋め込みとは何か?
OpenAI のテキスト埋め込みはテキスト文字列の関連性を測定します。埋め込みは一般に以下の目的のために使用されます :
- 検索 (結果はクエリー文字列への関連性によりランク付けされます)
- クラスタリング (テキスト文字列は類似性によりグループ分けされます)
- リコメンデーション (関連するテキスト文字列を含む項目が推奨されます)
- 異常検出 (関連性の低い外れ値が識別されます)
- 多様性測定 (類似性分布が分析されます)
- 分類 (テキスト文字列は最も類似しているラベルにより分類されます)
We are excited to announce that the new Assistants API comes with retrieval and built in message history management. If you don’t want to worry about making and storing embeddings yourself, check out the Assistants API to learn more.
埋め込みは浮動小数点数値のベクトル (リスト) です。2 つのベクトル間の距離は関連性を測定します。小さい距離は高い関連性を示し、大きい距離は低い関連性を示します。
Visit our pricing page to learn about Embeddings pricing. Requests are billed based on the number of tokens in the input sent.
埋め込みの取得方法
埋め込みを取得するには、埋め込みモデル ID (e.g., text-embedding-ada-002) の選択とともに 埋め込み API エンドポイント へテキスト文字列を送信します。レスポンスは埋め込みを含み、これを抽出、セーブ、そして使用することができます。
埋め込み取得 リクエスト例 :
Python
from openai import OpenAI
client = OpenAI()
response = client.embeddings.create(
input="Your text string goes here",
model="text-embedding-ada-002"
)
print(response.data[0].embedding)
レスポンス例 :
Python
{
"data": [
{
"embedding": [
-0.006929283495992422,
-0.005336422007530928,
...
-4.547132266452536e-05,
-0.024047505110502243
],
"index": 0,
"object": "embedding"
}
],
"model": "text-embedding-ada-002",
"object": "list",
"usage": {
"prompt_tokens": 5,
"total_tokens": 5
}
}
OpenAI クックブック でより多くの Python コードサンプルをご覧ください。
OpenAI 埋め込みを使用するとき、制限とリスク に留意してください。
埋め込みモデル
OpenAI は 1 つの第2世代埋め込みモデル (モデル ID の -002 で表記) と 16 個の第1世代モデル (モデル ID の -001 で表記) を提供しています。
殆どすべてのユースケースに対して text-embedding-ada-002 の使用を勧めます。それはより良く、安価で、簡単に使用できます。ブログ投稿の発表 を読んでください。
モデル世代 | トークナイザー | 最大入力トークン | 知識切り捨て |
---|---|---|---|
V2 | cl100k_base | 8191 | Sep 2021 |
V1 | GPT-2/GPT-3 | 2046 | Aug 2020 |
利用は入力トークン毎に価格付けされ、1000 トークン毎に $0.0004、あるいは US ドル毎におよそ ~3,000 ページのレートです (ページ毎 ~800 トークンと仮定して)。
モデル | 1ドル毎のおおよそのページ数 | BEIR 検索評価のパフォーマンス例 |
---|---|---|
text-embedding-ada-002 | 3000 | 53.9 |
*-davinci-*-001 | 6 | 52.8 |
*-curie-*-001 | 60 | 50.9 |
*-babbage-*-001 | 240 | 50.4 |
*-ada-*-001 | 300 | 49.0 |
第2世代モデル
モデル名 | トークナイザー | 最大入力トークン | 出力次元 |
---|---|---|---|
text-embedding-ada-002 | cl100k_base | 8191 | 1536 |
以上