DeepSeek揭秘如何突破軟硬件瓶頸|科創要聞

責任編輯:丁偉

人工智能軍備競賽在國內外持續迭代演進。OpenAI、谷歌、微軟、阿里巴巴等不斷推出新應用,MCP協議、AI編程、具身智能機器人、芯片自研等場景多樣拓展。自從年初引起全球震動并激發諸多領域AI變革以來,DeepSeek的一舉一動都備受關注,但其最新R2模型千呼萬喚仍未推出。

5月14日,DeepSeek團隊發表最新論文,解釋其DeepSeek-V3模型在硬件架構和模型設計方面的關鍵創新,公開大規模訓練和推理的降本秘訣,令人矚目的效率突破是如何做到的,又給業內很大啟發。

這篇發表在arXiv平臺的論文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek創始人兼CEO梁文鋒出現在合著名單中。

相較此前的DeepSeek-V3技術報告,本篇論文的重點不在算法,而是從硬件架構和模型設計雙重視角出發,探討了硬件和模型兩者如何相互配合,以實現低成本的大規模訓練和推理,主要涵蓋五方面內容,包括DeepSeek模型的設計原則、低精度驅動設計、以互聯為驅動的設計、大規模網絡驅動設計、面向未來的硬件架構設計。

論文重點介紹了多頭潛在注意力(MLA)以提高內存效率、混合專家(MoE)架構以優化計算與通信權衡、FP8混合精度訓練以充分發揮硬件潛力,以及多平面網絡拓撲以最小化集群級網絡開銷等關鍵創新,還為未來AI硬件與模型協同設計提出了建議。

大模型的迅猛擴張暴露了硬件的架構瓶頸:內存容量不足、計算效率低下、互連帶寬受限等。DeepSeek研究團隊通過基礎設施與算法團隊的深度合作,開發了一個適用于MoE模型的FP8混合精度訓練框架。在混合精度訓練中,模型的權重和激活值可以使用FP8進行計算,而關鍵的梯度計算和優化步驟則使用更高的精度(如FP32)來保證訓練的穩定性,從而在不損失模型性能的前提下,充分發揮硬件的計算能力,加速訓練過程,降低訓練成本和內存占用。

論文披露了對通信架構的重構。DeepSeek提出多平面雙層胖樹網絡(MPFT),將傳統三層網絡拓撲壓縮為兩層,通過8個獨立網絡平面實現流量隔離和成本下降。這是DeepSeek首次披露超大規模集群的網絡優化方案。

他們還提出了未來硬件架構設計的前瞻性方

登錄后獲取更多權限

立即登錄

校對:趙立宇

歡迎分享、點贊與留言。本作品的版權為南方周末或相關著作權人所有,任何第三方未經授權,不得轉載,否則即為侵權。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}
午夜宅男在线,中视在线直播,毛片网站在线,福利在线网址