RTX 5060 Tiを接続したミニPCでQwenモデルを実行する様子。画面にはトークン生成速度の比較グラフが表示されている。
RTX 5060 Tiを接続したミニPCでQwenモデルを実行する様子。画面にはトークン生成速度の比較グラフが表示されている。

QwenのMTP対応で1並列処理が速くなった一方、2並列以降では通常版が優位という結果が出ました。この動きは少し先まで見ておきたいところで、見出しの奥を知りたい友人には手がかりになります。

QwenがMTPで速くなる?実測結果 記事の流れと主な事実

2026年5月、LM StudioがMTP(Multi-Token Prediction)対応したことを受け、Qwen 3.6モデルの実際の速度性能が検証されました。テストにはGeForce RTX 5060 Ti(16GB)を搭載したEVO-X1ミニPCが使用され、16GBのVRAM環境下でQwen3.6-27bとQwen3.6-35b-a3bのDenseおよびMoEモデルが評価されました。MTPはトークン生成の前処理(Prefill)を高速化する技術で、llama.cppベースのLM Studioで一般ユーザーも利用可能になりました。実測では、Qwen 3.6-27bの1並列処理で35%の速度向上が確認されました。

主な事実

  • 2026年5月20日、LM StudioがMTP対応したことをXで発表
  • テスト環境はEVO-X1(Ryzen AI 9 HX 370)にGeForce RTX 5060 TiをOCuLink接続
  • Qwen3.6-27bで1並列時、MTP有効時に13.39→18.07 tok/sと35%速度向上
  • Qwen3.6-35b-a3bでは1並列時59.05→63.68 tok/s(+7.8%)だが、2並列以降は通常版より遅くなる
  • MTPはGemma 4には未対応だが、Qwen 3.6ではGGUF変換が可能
  • ds4-agentがリリースされ、DeepSeek V4 Flashを用いたコード編集やファイル操作が可能に

Cantoのビジュアルニュース解説です。制作にはAIツールが補助的に使われることがあります。 編集方針