
この技術の進展は、AI開発に詳しい同僚と見たい文脈が少し見えてきます。

NVIDIA、複数単語を一気に生成するAI言語モデル発表 記事の流れと主な事実
NVIDIAは2026年5月、言語モデルの新アーキテクチャ「Nemotron-Labs-Diffusion」を発表しました。このモデルは、従来主流の自己回帰方式に加え、一度に複数のトークンを生成する「拡散モード」と、両者を組み合わせる「自己投機モード」を搭載し、処理速度と出力精度の両立を目指しています。特に自己投機モードでは、下書きを拡散方式で素早く生成し、自己回帰方式で検証・修正するハイブリッドなアプローチを採用しています。
このモデルファミリーは3Bから14Bパラメータのバリエーションがあり、うち8BモデルではH100 GPU使用時に自己回帰モードと同等の品質を4倍の速度で出力できるとされています。ベンチマークテストでは、同規模のQwen3-8Bをすべてのモードで上回る性能を記録し、コーディングや数学タスクでも優れた結果を示しています。
NVIDIAの発表は、言語モデルの高速化技術における重要な一歩です。拡散モデルは画像生成分野で既に実用化されていますが、言語処理への応用はまだ初期段階。Nemotron-Labs-Diffusionのオープンリリースにより、研究コミュニティでの検証と応用開発が加速することが期待されます。
主な事実
- NVIDIAは2026年5月19日に「Nemotron-Labs-Diffusion」を発表
- このモデルは自己回帰モード、拡散モード、自己投機モードの3つを切り替え可能
- Nemotron-Labs-Diffusion-8Bは自己投機モードで自己回帰モードと同等の結果を4倍の速度で出力
- ベンチマークテストでQwen3-8Bをすべてのモードで上回る性能を記録
- コーディングおよび数学タスクのスコアもQwen3-8Bより高い
- Nemotron-Labs-Diffusion-VLM-8Bを含む4モデルがオープンリリースされた
Cantoのビジュアルニュース解説です。制作にはAIツールが補助的に使われることがあります。 編集方針





