DiffusionGemma 26B pushes the boundaries of GH200 performance
1180 tok/s 的地表極速是什麼概念?在 256 tokens 的輸出下,運算只要 0.22 秒就瞬間結束,這表示 DiffusionGemma 26B 在 NVIDIA GH200 上跑 vLLM 的速度,整整比 M2 Max 快了 80 倍! 延續系列第一篇在 M2 Max 96GB (MLX) 篇 中探討地端 Agent「無限 Token 自由」的實驗,當時 Standard 4-bit 雖然擠出了 31.6 tok/s 的不錯峰值,但面對長 Context(上下文)與多用戶併發請求時,Mac 的排隊機制與記憶體頻寬依然顯得力不從心。 為了追求 Production等級部署,我們將
⚡
Key Insights
10 editorial insights.
AiFeed24 Team·⏱ 1 min read·News
Deep Analysis
Multi-Source Intelligence
Found this useful? Share it!
