今日報紙

螞蟻集團發布最新AI成果：無需高端GPU，計算成本降低20%

每日經濟新聞 2025-03-26 22:06:55

每經記者｜宋欣悅每經編輯｜蘭素英

長久以來，英偉達憑借高性能芯片構筑起“算力霸權”，在AI（人工智能）模型訓練領域占據主導地位。這一局面在DeepSeek（深度求索）問世后遭遇到不小沖擊，如今又面臨著新的挑戰。

3月初，由螞蟻集團首席技術官何征宇帶領的Ling團隊發表了一篇技術成果論文。論文顯示，該團隊開發了兩款百靈系列開源混合專家（MoE）模型Ling-Lite（總參數為16.8B）和Ling-Plus（總參數為290B）。相比之下，據《麻省理工科技評論》，GPT-4.5總參數為1.8T，DeepSeek-R1總參數為671B。

驚艷之處在于，Ling團隊在模型預訓練階段使用較低規格的硬件系統，將計算成本降低了約20%，訓練1萬億Token（詞元）成本從635萬元降至508萬元，最終取得了與使用高性能芯片（如英偉達H100、H800等）的模型相當的效果。

百靈系列混合專家模型的橫空出世，讓市場再次質疑英偉達的“算力信仰”。Hugging Face（抱抱臉）工程師Tiezhen Wang（人名）在社交媒體上表示，“做空英偉達的又一理由？”Tom’s Hard-ware（一個測評網站）發表評論稱，螞蟻集團此次的技術突破清晰展現出中國正堅定地朝著技術獨立方向邁進。

針對此事，3月24日螞蟻集團回應媒體稱，針對不同芯片持續調優，以降低AI應用成本，目前取得了一定的進展，也會逐步通過開源分享。

計劃應用于醫療等領域

目前，螞蟻集團Ling團隊的技術成果論文《每一個FLOP都至關重要：無需高級GPU（圖形處理器）即可擴展3000億參數混合專家LING大模型》已發表在預印本平臺arXiv上。

螞蟻Ling團隊認為，正如DeepSeek開源發布中分析的“晝夜推理負載不均”問題，在推理服務高峰期，高性能資源同樣面臨短缺。在長期科研實踐中，許多機構都持續面臨著高端AI加速卡供應不足的問題。相比之下，性能較低的加速器更易獲得，且單價更低。因此，模型需要能在異構計算單元和分布式集群間切換的技術框架，同時在AI Infra（人工智能基礎設施）部分，在跨集群、跨設備的兼容和可靠層面進行性能優化。

該團隊的實驗結果表明，參數規模為300B左右的混合專家模型可以在性能較低的設備上有效訓練，并在性能上達到與同規模的其他模型相當的水平。

以Ling-Plus模型為例，在實驗中，該模型在五種不同硬件配置下完成9萬億Token的預訓練任務。經測算，使用高性能硬件設備訓練1萬億Token，預計成本高達635萬元人民幣，而使用低規格硬件系統，成本則可控制在約508萬元，節省近20%。

在英語理解能力上，LingLite模型在一項關鍵基準測試中的表現與Qwen2.5-7B（模型名）相當，優于Llama3.1-8B（模型名）和Mistral-7B-v0.3（模型名）。

在中文理解能力上，LingLite和Ling-Plus模型表現明顯優于海外模型Llama3.1-8B（模型名）和Mistral- 7B- v0.3（模型名）。在部分基準測試中，LingPlus表現略優于DeepSeekV2.5（模型名），與Qwen2.5-7B相當。

在數學和代碼基準測試方面，Ling- Lite的表現與Qwen2.5-7B-Instruct（模型名）相當，優于Llama3.1- 8B和Mistral- 7B-v0.3。Ling- Plus的表現優于DeepSeek-V2.5，接近Qwen2.5-72B的水平。

在工具使用方面，大多數情況下，Ling-Plus和Ling-Lite在基準測試中均取得了最佳成績。而工具使用對于大語言模型來說是一項重要且具有挑戰性的任務。工具使用能力使模型能夠作為AI代理工作、控制機器人系統并與眾多軟件工具集成。

此外，在安全性方面，LingPlus和Qwen2.5-7B表現突出，而Ling-Plus在錯誤拒絕方面表現更佳。

提高大模型的無害性（harmlessness）通常會導致其有用性（helpfulness）的降低。測試結果表明，Ling-Plus在安全性和錯誤拒絕之間整體平衡性上表現最佳。

據悉，螞蟻百靈大模型LingPlus和Ling-Lite計劃開源，并應用于醫療、金融等行業領域。

打破“算力霸權”？

有分析稱，百靈系列混合專家模型的推出標志著螞蟻集團加入AI領域的競賽。自DeepSeek展示出能夠以遠低于OpenAI（公司名）和谷歌投入的數十億美元成本訓練出強大模型以來，這一競爭加速升級。

此前，DeepSeek在技術論文中表示，DeepSeek-V3模型（總參數671B，激活參數37B）總訓練成本為557.6萬美元，完整訓練消耗了278.8萬個GPU小時，幾乎是同等性能水平模型訓練所需的十分之一，堪稱“榨干”GPU，也因此引發了資本市場的恐慌。

對此，英偉達CEO（首席執行官）黃仁勛在公開場合多次贊美DeepSeek，但其認為，DeepSeek-R1等更高效的模型出現，反而會刺激計算需求增長。

然而，螞蟻集團正在探索一條新的路徑——在無高端GPU的情況下擴展模型訓練能力。

百靈系列混合專家模型的橫空出世，讓市場再次質疑英偉達的“算力信仰”。Tiezhen Wang在社交媒體上表示，“做空英偉達的又一理由？”著名硬件媒體Tom’s Hardware指出，這極有可能成為（中國）降低對西方技術依賴進程中的又一重要里程碑。

螞蟻集團有關人士告訴《每日經濟新聞》記者，在模型訓練過程中，他們既使用了國產芯片，也采用了英偉達芯片。

Tom’s Hardware發表評論稱，螞蟻集團此次技術突破清晰展現出中國正堅定地朝著技術獨立方向邁進。彭博資深商業智能分析師羅伯特·李（Robert Lea）同樣指出，螞蟻集團的研究展示了中國在AI創新方面的快速進步，也顯示出本土企業正朝著AI自給自足的方向邁進。

封面圖片來源：視覺中國

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

模型 DeepSeek GPU Ai

上一篇文章

小鵬汽車已規劃至少5款增程車型？公司副總裁回應：信息偏差比較大

返回每經網首頁

下一篇文章

每經熱評丨持續擴大重點領域投資著力推動服務業回升向好

熱文精選

點擊排行

歡迎關注每日經濟新聞APP