HuggingFace Transformers 4.6 : 上級ガイド : 事前訓練モデル (翻訳/解説)
翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 05/16/2021 (4.6.0)

* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです：

Advanced Guides : Pretrained models

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

★ 無料 Web セミナー開催中 ★ クラスキャット主催人工知能 & ビジネス Web セミナー

人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。
スケジュールは弊社公式 Web サイトでご確認頂けます。

お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
ウェビナー運用には弊社製品「ClassCat® Webinar」を利用しています。

クラスキャットは人工知能・テレワークに関する各種サービスを提供しております :

人工知能研究開発支援	人工知能研修サービス	テレワーク & オンライン授業を支援
PoC(概念実証)を失敗させないための支援 (本支援はセミナーに参加しアンケートに回答した方を対象としています。)

◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部セールス・インフォメーション

E-Mail：sales-info@classcat.com ; WebSite: https://www.classcat.com/ ; Facebook

HuggingFace Transformers : 上級ガイド : 事前訓練モデル

ここに各モデルの短い説明とともに利用可能な事前訓練モデルの部分的なリストがあります。

完全なリストについては、https://huggingface.co/models を参照してください。

アーキテクチャ	モデル id	モデルの詳細
BERT	bert-base-uncased	12-層、768-隠れ次元、12-ヘッド、110M パラメータ lower-cased 英語テキスト上で訓練
	bert-large-uncased	24-層、1024-隠れ次元、16-ヘッド、336M パラメータ lower-cased 英語テキスト上で訓練
	bert-base-cased	12-層、768-隠れ次元、12-ヘッド、109M パラメータ cased 英語テキスト上で訓練
	bert-large-cased	24-層、1024-隠れ次元、16-ヘッド、335M パラメータ cased 英語テキスト上で訓練
	bert-base-multilingual-uncased	(オリジナル、非推奨) 12-層、768-隠れ次元、12-ヘッド、168M パラメータ the largest Wikipedias 内でトップ 102 言語内の lower-cased テキスト上で訓練 (詳細参照)
	bert-base-multilingual-cased	(新規、推奨) 12-層、768-隠れ次元、12-ヘッド、179M パラメータ the largest Wikipedias 内でトップ 104 言語内の cased テキスト上で訓練 (詳細参照)
	bert-base-chinese	12-層、768-隠れ次元、12-ヘッド、103M パラメータ cased 中国語 (簡体字と繁体字) テキスト上で訓練
	bert-base-german-cased	12-層、768-隠れ次元、12-ヘッド、110M パラメータ Deepset.ai による cased ドイツ語テキスト上で訓練 (deepset.ai website 上の詳細参照)
	bert-large-uncased-whole-word-masking	24-層、1024-隠れ次元、16-ヘッド、336M パラメータ Whole-Word-Masking を使用して lower-cased 英語テキスト上で訓練 (詳細参照)
	bert-large-cased-whole-word-masking	24-層、1024-隠れ次元、16-ヘッド、335M パラメータ Whole-Word-Masking を使用して cased 英語テキスト上で訓練 (詳細参照)
	bert-large-uncased-whole-word-masking-finetuned-squad	24-層、1024-隠れ次元、16-ヘッド、336M パラメータ SQuAD 上で再調整された bert-large-uncased-whole-word-masking モデル (example セクションの再調整の詳細参照)
	bert-large-cased-whole-word-masking-finetuned-squad	24-層、1024-隠れ次元、16-ヘッド、335M パラメータ SQuAD 上で再調整された bert-large-cased-whole-word-masking モデル (example セクションの再調整の詳細参照)
	bert-base-cased-finetuned-mrpc	12-層、768-隠れ次元、12-ヘッド、110M パラメータ MRPC 上で再調整された bert-base-cased モデル (example セクションの再調整の詳細参照)
	bert-base-german-dbmdz-cased	12-層、768-隠れ次元、12-ヘッド、110M パラメータ DBMDZ による cased ドイツ語テキスト上で訓練 (dbmdz レポジトリ上の詳細参照)
	bert-base-german-dbmdz-uncased	12-層、768-隠れ次元、12-ヘッド、110M パラメータ DBMDZ による uncased ドイツ語テキスト上で訓練 (dbmdz レポジトリ上の詳細参照)
	cl-tohoku/bert-base-japanese	12-層、768-隠れ次元、12-ヘッド、111M パラメータ日本語テキスト上で訓練。テキストは MeCab と WordPiece でトークン化され、これは幾つかの追加の依存性を必要とします、fugashi これは MeCab のラッパーです。それらをインストールするには pip install transformers[“ja”] (or ソースからインストールする場合は pip install -e .[“ja”]) を使用します。 (cl-tohoku レポジトリ上の詳細参照)
	cl-tohoku/bert-base-japanese-whole-word-masking	12-層、768-隠れ次元、12-ヘッド、111M パラメータ日本語テキスト上で訓練。テキストは MeCab と WordPiece でトークン化され、これは幾つかの追加の依存性を必要とします、fugashi これは MeCab のラッパーです。それらをインストールするには pip install transformers[“ja”] (or ソースからインストールする場合は pip install -e .[“ja”]) を使用します。 (cl-tohoku レポジトリ上の詳細参照)
	cl-tohoku/bert-base-japanese-char	12-層、768-隠れ次元、12-ヘッド、90M パラメータ日本語テキスト上で訓練。テキストは文字にトークン化されます。 (cl-tohoku レポジトリ上の詳細参照)
	cl-tohoku/bert-base-japanese-char-whole-word-masking	12-層、768-隠れ次元、12-ヘッド、90M パラメータ Whole-Word-Masking を使用して日本語テキスト上で訓練。テキストは文字にトークン化されます。 (cl-tohoku レポジトリ上の詳細参照)
	TurkuNLP/bert-base-finnish-cased-v1	12-層、768-隠れ次元、12-ヘッド、125M パラメータ cased フィンランド語テキスト上で訓練。 (turkunlp.org 上の詳細参照。)
	TurkuNLP/bert-base-finnish-uncased-v1	12-層、768-隠れ次元、12-ヘッド、110M パラメータ uncased フィンランド語テキスト上で訓練。 (turkunlp.org 上の詳細参照。)
	wietsedv/bert-base-dutch-cased	12-層、768-隠れ次元、12-ヘッド、110M パラメータ cased オランダ語テキスト上で訓練。 (wietsedv レポジトリ上の詳細参照。)
GPT	openai-gpt	12-層、768-隠れ次元、12-ヘッド、110M パラメータ OpenAI GPT 英語モデル
GPT-2	gpt2	12-層、768-隠れ次元、12-ヘッド、117M パラメータ OpenAI GPT-2 英語モデル
	gpt2-medium	24-層、1024-隠れ次元、16-ヘッド、345M パラメータ OpenAI のミディアムサイズ GPT-2 英語モデル
	gpt2-large	36-層、1280-隠れ次元、20-ヘッド、774M パラメータ OpenAI のラージサイズ GPT-2 英語モデル
	gpt2-xl	48-層、1600-隠れ次元、25-ヘッド、1558M パラメータ OpenAI の XL サイズ GPT-2 英語モデル
GPTNeo	EleutherAI/gpt-neo-1.3B	24-層、2048-隠れ次元、16-ヘッド、1.3B パラメータ EleutherAI の GPT-3 ライク言語モデル
GPTNeo	EleutherAI/gpt-neo-2.7B	32-層、2560-隠れ次元、20-ヘッド、2.7B パラメータ EleutherAI の GPT-3 ライク言語モデル
Transformer-XL	transfo-xl-wt103	18-層、1024-隠れ次元、16-ヘッド、257M パラメータ wikitext-103 上で訓練された英語モデル
XLNet	xlnet-base-cased	12-層、768-隠れ次元、12-ヘッド、110M パラメータ XLNet 英語モデル
XLNet	xlnet-large-cased	24-層、1024-隠れ次元、16-ヘッド、340M パラメータ XLNet ラージ英語モデル
XLM	xlm-mlm-en-2048	12-層、2048-隠れ次元、16-ヘッド XLM 英語モデル
	xlm-mlm-ende-1024	6-層、1024-隠れ次元、8-ヘッド英語とドイツ語 wikipedia の結合上で訓練された XLM 英独モデル
	xlm-mlm-enfr-1024	6-層、1024-隠れ次元、8-ヘッド英語とフランス語 wikipedia の結合上で訓練された XLM 英仏モデル
	xlm-mlm-enro-1024	6-層、1024-隠れ次元、8-ヘッド XLM 英語ルーマニア語多言語モデル
	xlm-mlm-xnli15-1024	12-層、1024-隠れ次元、8-ヘッド 15 XNLI 言語上 MLM で事前訓練された XLM モデル
	xlm-mlm-tlm-xnli15-1024	12-層、1024-隠れ次元、8-ヘッド 15 XNLI 言語上 MLM + TLM で事前訓練された XLM モデル
	xlm-clm-enfr-1024	6-層、1024-隠れ次元、8-ヘッド英語とフランス語 wikipedia の結合上で CLM で訓練された XLM 英仏モデル
	xlm-clm-ende-1024	6-層、1024-隠れ次元、8-ヘッド英語とドイツ語 wikipedia の結合上で CLM で訓練された XLM 英独モデル
	xlm-mlm-17-1280	16-層、1280-隠れ次元、16-ヘッド 17 言語上で MLM で訓練された XLM モデル
	xlm-mlm-100-1280	16-層、1280-隠れ次元、16-ヘッド 100 言語上で MLM で訓練された XLM モデル
RoBERTa	roberta-base	12-層、768-隠れ次元、16-ヘッド、125M パラメータ BERT ベースのアーキテクチャを使用する RoBERTa (詳細参照)
	roberta-large	24-層、1024-隠れ次元、16-ヘッド、355M パラメータ BERT-large アーキテクチャを使用する RoBERTa (詳細参照)
	roberta-large-mnli	24-層、1024-隠れ次元、16-ヘッド、355M パラメータ MNLI 上で再調整された roberta-large (詳細参照)
	distilroberta-base	6-層、768-隠れ次元、12-ヘッド、82M パラメータ RoBERTa モデル roberta-base チェックポイントから蒸留された DistilRoBERTa モデル (詳細参照)
	roberta-base-openai-detector	12-層、768-隠れ次元、12-ヘッド、125M パラメータ 1.5B-パラメータ GPT-2 モデルの出力上で OpenAI により再調整された roberta-base (詳細参照)
	roberta-large-openai-detector	24-層、1024-隠れ次元、16-ヘッド、355M パラメータ 1.5B-パラメータ GPT-2 モデルの出力上で OpenAI により再調整された roberta-large (詳細参照)
DistilBERT	distilbert-base-uncased	6-層、768-隠れ次元、12-ヘッド、66M パラメータ BERT モデル bert-base-uncased チェックポイントから蒸留された DistilBERT モデル (詳細参照)
	distilbert-base-uncased-distilled-squad	6-層、768-隠れ次元、12-ヘッド、66M パラメータ追加の線形層を持ち、BERT モデル bert-base-uncased チェックポイントから蒸留された DistilBERT モデル (詳細参照)
	distilbert-base-cased	6-層、768-隠れ次元、12-ヘッド、65M パラメータ BERT モデル bert-base-cased チェックポイントから蒸留された DistilBERT モデル (詳細参照)
	distilbert-base-cased-distilled-squad	6-層、768-隠れ次元、12-ヘッド、65M パラメータ追加の質問応答層を持ち、BERT モデル bert-base-cased チェックポイントから蒸留された DistilBERT モデル (詳細参照)
	distilgpt2	6-層、768-隠れ次元、12-ヘッド、82M パラメータ GPT2 モデル gpt2 チェックポイントから蒸留された DistilGPT2 モデル (詳細参照)
	distilbert-base-german-cased	6-層、768-隠れ次元、12-ヘッド、66M パラメータドイツ語 DBMDZ BERT モデル bert-base-german-dbmdz-cased チェックポイントから蒸留されたドイツ語 DistilBERT モデル (詳細参照)
	distilbert-base-multilingual-cased	6-層、768-隠れ次元、12-ヘッド、134M パラメータ多言語 BERT モデル bert-base-multilingual-cased チェックポイントから蒸留された多言語 DistilBERT モデル (詳細参照)
CTRL	ctrl	48-層、1280-隠れ次元、16-ヘッド、1.6B パラメータ Salesforce のラージサイズ CTRL 英語モデル
CamemBERT	camembert-base	12-層、768-隠れ次元、12-ヘッド、110M パラメータ BERT-base アーキテクチャを使用する CamemBERT (詳細参照)
ALBERT	albert-base-v1	12-反復 (= repeating) 層、128 埋め込み、768-隠れ次元、12-ヘッド、11M パラメータ ALBERT ベースモデル (詳細参照)
	albert-large-v1	24-反復 (= repeating) 層、128 埋め込み、1024-隠れ次元、16-ヘッド、17M パラメータ ALBERT ラージモデル (詳細参照)
	albert-xlarge-v1	24-反復 (= repeating) 層、128 埋め込み、2048-隠れ次元、16-ヘッド、58M パラメータ ALBERT xlarge モデル (詳細参照)
	albert-xxlarge-v1	12-反復 (= repeating) 層、128 埋め込み、4096-隠れ次元、64-ヘッド、223M パラメータ ALBERT xxlarge モデル (詳細参照)
	albert-base-v2	12-反復 (= repeating) 層、128 埋め込み、768-隠れ次元、12-ヘッド、11M パラメータ dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT ベースモデル (詳細参照)
	albert-large-v2	24-反復 (= repeating) 層、128 埋め込み、1024-隠れ次元、16-ヘッド、17M パラメータ dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT ラージモデル (詳細参照)
	albert-xlarge-v2	24-反復 (= repeating) 層、128 埋め込み、2048-隠れ次元、16-ヘッド、58M パラメータ dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT xlarge モデル (詳細参照)
	albert-xxlarge-v2	12-反復 (= repeating) 層、128 埋め込み、4096-隠れ次元、64-ヘッド、223M パラメータ dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT xxlarge モデル (詳細参照)
T5	t5-small	6-層、512-隠れ状態、2048 順伝播隠れ状態、8-ヘッドを持つ ~60M パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
	t5-base	12-層、768-隠れ状態、3072 順伝播隠れ状態、12-ヘッドを持つ ~220M パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
	t5-large	24-層、1024-隠れ状態、4096 順伝播隠れ状態、16-ヘッドを持つ ~770M パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
	t5-3B	24-層、1024-隠れ状態、16384 順伝播隠れ状態、32-ヘッドを持つ ~2.8B パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
	t5-11B	24-層、1024-隠れ状態、65536 順伝播隠れ状態、128-ヘッドを持つ ~11B パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
XLM-RoBERTa	xlm-roberta-base	12-層、768-隠れ状態、3072 順伝播隠れ状態、8-ヘッドを持つ ~270M パラメータ 100 言語の新たに作成された clean CommonCrawl データの 2.5 TB 上で訓練
XLM-RoBERTa	xlm-roberta-large	24-層、1024-隠れ状態、4096 順伝播隠れ状態、16-ヘッドを持つ ~550M パラメータ 100 言語の新たに作成された clean CommonCrawl データの 2.5 TB 上で訓練
FlauBERT	flaubert/flaubert_small_cased	6-層、512-隠れ状態、8-ヘッド、54M パラメータ FlauBERT small アーキテクチャ (詳細参照)
	flaubert/flaubert_base_uncased	12-層、768-隠れ状態、12-ヘッド、137M パラメータ uncased 語彙による FlauBERT ベースアーキテクチャ (詳細参照)
	flaubert/flaubert_base_cased	12-層、768-隠れ状態、12-ヘッド、138M パラメータ cased 語彙による FlauBERT ベースアーキテクチャ (詳細参照)
	flaubert/flaubert_large_cased	24-層、1024-隠れ状態、16-ヘッド、373M パラメータ FlauBERT large アーキテクチャ (詳細参照)
Bart	facebook/bart-large	24-層、1024-隠れ状態、16-ヘッド、406M パラメータ (詳細参照)
	facebook/bart-base	12-層、768-隠れ状態、16-ヘッド、139M パラメータ
	facebook/bart-large-mnli	1M パラメータを持つ 2 層分類ヘッドを追加 MNLI 上で再調整された、分類ヘッドを持つ bart-large ベースアーキテクチャ
	facebook/bart-large-cnn	24-層、1024-隠れ状態、16-ヘッド、406M パラメータ (large と同じ) cnn 要約タスク上で再調整された bart-large ベースアーキテクチャ
BARThez	moussaKam/barthez	12-層、768-隠れ状態、12-ヘッド、216M パラメータ (詳細参照)
BARThez	moussaKam/mbarthez	24-層、1024-隠れ状態、16-ヘッド、516M パラメータ
DialoGPT	DialoGPT-small	12-層、768-隠れ状態、12-ヘッド、124M パラメータ英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練
	DialoGPT-medium	24-層、1024-隠れ状態、16-ヘッド、355M パラメータ英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練
	DialoGPT-large	36-層、1280-隠れ状態、20-ヘッド、774M パラメータ英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練
Reformer	reformer-enwik8	12-層、1024-隠れ状態、8-ヘッド、149M パラメータ英語 Wikipedia データ – enwiki8 上で訓練
Reformer	reformer-crime-and-punishment	6-層、256-隠れ状態、2-ヘッド、3M パラメータ英語テキスト: 罪と罰小説 by フョードル・ドストエフスキー – 上で訓練
M2M100	facebook/m2m100_418M	24-層、1024-隠れ状態、16-ヘッド、418M パラメータ 100言語のための多言語機械翻訳モデル
M2M100	facebook/m2m100_1.2B	48-層、1024-隠れ状態、16-ヘッド、1.2B パラメータ 100言語のための多言語機械翻訳モデル
MarianMT	Helsinki-NLP/opus-mt-{src}-{tgt}	12-層、512-隠れ状態、8-ヘッド、~74M パラメータ機械翻訳モデル。パラメータ数は語彙サイズに依存して様々です。 (モデルリスト参照)
Pegasus	google/pegasus-{dataset}	16-層、1024-隠れ状態、16-ヘッド、~568M パラメータ、要約のためには 2.2 GB。モデルリスト
Longformer	allenai/longformer-base-4096	12-層、768-隠れ状態、12-ヘッド、~149M パラメータ RoBERTa-base チェックポイントから始めて、最大長 4,096 のドキュメント上で訓練
Longformer	allenai/longformer-large-4096	24-層、1024-隠れ状態、16-ヘッド、~435M パラメータ RoBERTa-large チェックポイントから始めて、最大長 4,096 のドキュメント上で訓練
MBart	facebook/mbart-large-cc25	24-層、1024-隠れ状態、16-ヘッド、610M パラメータ 25 言語の monolingual コーパス上で訓練された mBART (bart-large アーキテクチャ) モデル
	facebook/mbart-large-en-ro	24-層、1024-隠れ状態、16-ヘッド、610M パラメータ WMT 英語ルーマニア翻訳上で再調整された mbart-large-cc25 モデル
	facebook/mbart-large-50	24-層、1024-隠れ状態、16-ヘッド 50 言語の monolingual コーパス上で訓練された mBART モデル
	facebook/mbart-large-50-one-to-many-mmt	24-層、1024-隠れ状態、16-ヘッド一つ (英語) を 50 言語をカバーする多くの多言語機械翻訳のために再調整された mbart-50-large モデル
	facebook/mbart-large-50-many-to-many-mmt	24-層、1024-隠れ状態、16-ヘッド多数 (の言語) を 50 言語をカバーする多くの多言語機械翻訳のために再調整された mbart-50-large モデル
Lxmert	lxmert-base-uncased	9-言語層、9-関係 (= relationship) 層と 12-交差モーダリティ層、768-隠れ状態、12-ヘッド (各層について) ~ 228M パラメータ lxmert-base チェックポイントから始めて、COCO, VisualGenome, GQA, VQA からの 9 百万を越える画像-テキストのカプレット (= couplet) 上で訓練
Funnel Transformer	funnel-transformer/small	14 層: 4 層の 3 ブロックから 2 層デコーダ、768-隠れ状態、12-ヘッド、130M パラメータ (詳細参照)
	funnel-transformer/small-base	12 層: 4 層の 3 ブロック (no デコーダ)、768-隠れ状態、12-ヘッド、115M パラメータ (詳細参照)
	funnel-transformer/medium	14 層: 3 ブロック 6, 3×2, 3×2 層から 2 層デコーダ、768-隠れ状態、12-ヘッド、130M パラメータ (詳細参照)
	funnel-transformer/medium-base	12 層: 3 ブロック 6, 3×2, 3×2 層 (no デコーダ)、768-隠れ状態、12-ヘッド、115M パラメータ (詳細参照)
	funnel-transformer/intermediate	20 層: 6 層の 3 ブロックから 2 層デコーダ、768-隠れ状態、12-ヘッド、177M パラメータ (詳細参照)
	funnel-transformer/intermediate-base	18 層: 6 層の 3 ブロック (no デコーダ)、768-隠れ状態、12-ヘッド、161M パラメータ (詳細参照)
	funnel-transformer/large	26 層: 8 層の 3 ブロックから 2 層デコーダ、1024-隠れ状態、12-ヘッド、386M パラメータ (詳細参照)
	funnel-transformer/large-base	24 層: 8 層の 3 ブロック (no デコーダ)、1024-隠れ状態、12-ヘッド、358M パラメータ (詳細参照)
	funnel-transformer/xlarge	32 層: 10 層の 3 ブロックから 2 層デコーダ、1024-隠れ状態、12-ヘッド、468M パラメータ (詳細参照)
	funnel-transformer/xlarge-base	30 層: 10 層の 3 ブロック (no デコーダ)、1024-隠れ状態、12-ヘッド、440M パラメータ (詳細参照)
LayoutLM	microsoft/layoutlm-base-uncased	12-層、768-隠れ状態、12-ヘッド、113M パラメータ (詳細参照)
LayoutLM	microsoft/layoutlm-large-uncased	24-層、1024-隠れ状態、16-ヘッド、343M パラメータ (詳細参照)
DeBERTa	microsoft/deberta-base	12-層、768-隠れ状態、12-ヘッド、~140M パラメータ BERT ベース・アーキテクチャを使用する DeBERTa (詳細参照)
	microsoft/deberta-large	24-層、1024-隠れ状態、16-ヘッド、~400M パラメータ BERT large アーキテクチャを使用する DeBERTa (詳細参照)
	microsoft/deberta-xlarge	48-層、1024-隠れ状態、16-ヘッド、~750M パラメータ類似した BERT アーキテクチャによる DeBERTa XLarge (詳細参照)
	microsoft/deberta-xlarge-v2	24-層、1536-隠れ状態、24-ヘッド、~900M パラメータ類似した BERT アーキテクチャによる DeBERTa XLarge V2 (詳細参照)
	microsoft/deberta-xxlarge-v2	48-層、1536-隠れ状態、24-ヘッド、~1.5B パラメータ類似した BERT アーキテクチャによる DeBERTa XXLarge V2 (詳細参照)
SqueezeBERT	squeezebert/squeezebert-uncased	12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。 MLM とセンテンス順序予測 (SOP) タスク上でスクラッチから事前訓練された SqueezeBERT アーキテクチャ。
	squeezebert/squeezebert-mnli	12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。これは electra-base からの蒸留による MNLI センテンス・ペア分類タスク上で再調整された squeezebert-uncased モデル。
	squeezebert/squeezebert-mnli-headless	12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。これは electra-base からの蒸留による MNLI センテンス・ペア分類タスク上で再調整された squeezebert-uncased モデル。最後の分類層は除去されていますので、貴方が再調整するとき、最終層は最初期化されます。

以上

2021年5月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31