OpenAI platform : ガイド : モデレーション (翻訳/解説)

翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 08/07/2023

* 本ページは、以下のドキュメントを翻訳した上で適宜、補足説明したものです：

Guides : Moderation

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

クラスキャット人工知能研究開発支援サービス

◆ クラスキャットは人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

人工知能研究開発支援
1. 人工知能研修サービス(経営者層向けオンサイト研修)
2. テクニカルコンサルティングサービス
3. 実証実験(プロトタイプ構築)
4. アプリケーションへの実装
人工知能研修サービス
PoC(概念実証)を失敗させないための支援

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール。

お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部セールス・インフォメーション
sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP

OpenAI platform : ガイド : モデレーション

概要

モデレーションエンドポイントはコンテンツが OpenAI の使用ポリシーを遵守しているかを確認するために使用できるツールです。そして開発者は使用ポリシーが禁じているコンテンツを識別し、例えばそれをフィルタリングすることでアクションを取ることができます。

モデルは以下のカテゴリーを分類します :

カテゴリー	説明
ヘイト	人種、ジェンダー、民族性、宗教、国籍、性的指向、障害度やカーストに基づいて、ヘイトを表現し、煽り、助長するコンテンツ。保護されていないグループ (e.g., チェスプレーヤー) を対象とした憎しみに満ちたコンテンツはハラスメントです。
ヘイト / 脅迫的な (threatening)	人種、ジェンダー、民族性、宗教、国籍、性的指向、障害度やカーストに基づいて、対象グループに対する暴力あるいは深刻な危害も含むヘイトに満ちたコンテンツ
ハラスメント	任意のターゲットに対して嫌がらせの (harassing) 言葉を表現し、煽り、助長するコンテンツ。
ハラスメント / 脅迫的な	任意の対象に対する暴力あるいは深刻な危害も含むハラスメントなコンテンツ。
自傷行為	自殺、カットや摂食障害のような自傷行為を助長、奨励し、描写するコンテンツ。
自傷行為 / 意向 (intent)	発言者が、自殺、カットや摂食障害のような自傷行為に関与しているか、関与する意思を表すコンテンツ。
自傷行為 / 指示	自殺、カットや摂食障害のような自傷行為の実行を奨励したり、そのような行為を行なう方法の指示やアドバイスを与えるコンテンツ。
sexual (性的な)	性行為の描写のような、性的興奮を刺激することを意図したコンテンツ、あるいは性的サービスを宣伝するコンテンツ (性教育と健康を除く)。
性的 / 未成年	18 歳未満の個人を含む性的コンテンツ。
暴力	死、暴力や肉体的な傷害を描写するコンテンツ
暴力 / 生々しい (graphic)	死、暴力や肉体的な傷害を生々しく描写するコンテンツ。

モデレーション・エンドポイントは OpenAI の入力と出力を監視するとき無料で使用できます。現在は他のユースケースは許容していません。精度はテキストの長いピースでは低くなるかもしれません。高い精度のためには、テキストの長いピースをそれぞれが 2,000 文字未満の小さいチャンクに分割してみてください。

We are continuously working to improve the accuracy of our classifier. Our support for non-English languages is currently limited.

クイックスタート

テキストのピースに対する分類を取得するには、以下のコードスニペットで示されるようにモデレーション・エンドポイントにリクエストを行ないます :

response = openai.Moderation.create(
    input="Sample text goes here"
)
output = response["results"][0]

以下はエンドポイントのサンプル出力です。それは以下のフィールドを返します :

flagged: モデルがコンテンツを OpenAI の使用ポリシーに違反しているとして分類する場合には true に設定され、それでなければ false です。
categories: カテゴリー毎の二値使用ポリシー違反フラグの辞書を含みます。各カテゴリーについて、モデルが対応するカテゴリーを違反としてフラグ設定した場合には値は true、そうでなければ false です。
category_scores: モデルにより出力されたカテゴリー毎の raw スコアの辞書を含み、入力がカテゴリーについて OpenAI のポリシーに違反しているモデルの確信度を示します。値は 0 と 1 の間で、値が高いほど確信度が高いことを示します。スコアは確率として解釈されるべきではありません。

{
  "id": "modr-XXXXX",
  "model": "text-moderation-005",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true,
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886,
      }
    }
  ]
}

以上

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31