QwenがMTPで速くなる？実測結果

RTX 5060 Tiを接続したミニPCでQwenモデルを実行する様子。画面にはトークン生成速度の比較グラフが表示されている。

IT June 2026/05/26 6:26

QwenのMTP対応で1並列処理が速くなった一方、2並列以降では通常版が優位という結果が出ました。この動きは少し先まで見ておきたいところで、見出しの奥を知りたい友人には手がかりになります。

QwenがMTPで速くなる？実測結果 記事の流れと主な事実

2026年5月、LM StudioがMTP（Multi-Token Prediction）対応したことを受け、Qwen 3.6モデルの実際の速度性能が検証されました。テストにはGeForce RTX 5060 Ti（16GB）を搭載したEVO-X1ミニPCが使用され、16GBのVRAM環境下でQwen3.6-27bとQwen3.6-35b-a3bのDenseおよびMoEモデルが評価されました。MTPはトークン生成の前処理（Prefill）を高速化する技術で、llama.cppベースのLM Studioで一般ユーザーも利用可能になりました。実測では、Qwen 3.6-27bの1並列処理で35%の速度向上が確認されました。

主な事実

2026年5月20日、LM StudioがMTP対応したことをXで発表
テスト環境はEVO-X1（Ryzen AI 9 HX 370）にGeForce RTX 5060 TiをOCuLink接続
Qwen3.6-27bで1並列時、MTP有効時に13.39→18.07 tok/sと35%速度向上
Qwen3.6-35b-a3bでは1並列時59.05→63.68 tok/s（+7.8%）だが、2並列以降は通常版より遅くなる
MTPはGemma 4には未対応だが、Qwen 3.6ではGGUF変換が可能
ds4-agentがリリースされ、DeepSeek V4 Flashを用いたコード編集やファイル操作が可能に

Cantoのビジュアルニュース解説です。制作にはAIツールが補助的に使われることがあります。編集方針

主な事実

NVIDIA、複数単語を一気に生成するAI言語モデル発表

Razer、AIとゲーミング最強の18インチノート

無料AIが爆進、ローカルLLMの実力

AI処理を加速する新命令「ACE」

Mac mini販売停止の真の原因