要聞

DeepSeek最新模型硬剛o1！英偉達科學家等大佬：這才配叫OpenAI

每日經濟新聞 2025-01-21 19:08:09

1月20日，月之暗面推出多模態思考模型Kimi k1.5，DeepSeek開源R1推理模型，雙雙“硬剛”OpenAI。性能測試顯示，這兩款模型在多項測試中能與o1“叫板”。R1更是得到英偉達高級研究科學家Jim Fan等一眾業界大佬的稱贊。不過，R1與開源模型V3一樣，面臨著幻覺問題。

每經記者｜岳楚鵬每經編輯｜蘭素英

OpenAI怎么也沒想到，o3還在畫餅階段，中國一夜之間就冒出來兩個能和o1打對臺的模型。

1月20日，月之暗面正式推出多模態思考模型Kimi k1.5，并首次公開該模型的訓練技術報告。

Kimi k1.5在short-CoT（短鏈思考）方面達到領先水平，在其他多個測試中也大幅超越GPT-4和Claude Sonnet 3.5。在Long-CoT（長鏈思考）方面，該模型在多個領域的表現也與o1持平。

同一天，DeepSeek也正式開源R1推理模型，并發布技術報告。R1在多個基準測試中也與o1持平，并且成本只有o1的三十分之一。

隨著R1模型的開源，英偉達科學家Jim Fan稱：“我們生活在這樣一個時代：由非美國公司保持OpenAI最初的使命——做真正開放的前沿研究、為所有人賦能。”Perplexity CEO Aravind Srinivas表更是直言：“DeepSeek才配叫做OpenAI。”

不過，R1依然面臨著開源模型V3一樣的毛病。有網友向它提問“誰訓練你的”時，它回答道：“我是被OpenAI開發的”。

DeepSeek、Kimi新模型發布“撞車”，硬剛OpenAI

北京時間1月20日，月之暗面發布了多模態思考模型Kimi k1.5。

在short-CoT模式下，Kimi k1.5的數學、代碼、視覺多模態和通用能力大幅超越了GPT-4o和Claude 3.5 Sonnet，領先幅度高達550%。在Long-CoT模式下，Kimi k1.5的數學、代碼、多模態推理能力達到了OpenAI o1正式版的水平。

月之暗面表示，這應該是全球范圍內，有OpenAI之外的公司首次實現o1正式版的多模態推理性能。

圖片來源：X

同一天，DeepSeek也正式開源R1推理模型，允許所有人在遵循MIT License（注：被廣泛使用的一種軟件許可條款）的情況下，蒸餾R1訓練其他模型。

在數學、代碼和自然語言推理等任務上，R1的性能比肩o1正式版。同時根據DeepSeek公布的測試數據，R1在美國AIME 2024、MATH-500和SWE-bench Verified測試中的比分均高于o1。AIME 2024和MATH-500測試專注于數學能力，SWE-bench Verified則用于評估AI模型解決現實世界軟件問題的能力。

圖片來源：X

更重要的是，R1的價格只有o1的約三十分之一，百萬token輸出只需16元人民幣，相較而言，o1的百萬token輸出需要60美元（約合人民幣436元）。

圖片來源：DeepSeek官網

另外，R1的參數量較低，開發人員可以用相對較低的成本在本地運行模型。Exo Lab創始人Alex Cheema在家使用7個MacMini串聯一個MacBook成功運行起了R1模型。他感嘆道：“AGI（通用人工智能）到家了。”

圖片來源：X

英偉達科學家等大佬：DeepSeek才配叫OpenAI

R1的技術文檔發布后，英偉達高級研究科學家Jim Fan第一時間對論文進行研究，之后發出了這樣的感慨：“我們生活在這樣一個時代：由非美國公司保持OpenAI最初的使命——做真正開放的前沿研究、為所有人賦能。”

他補充道：“DeepSeek-R1不僅開源了大量模型，還泄露了所有訓練秘密。他們可能是第一個顯示 RL（強化學習）飛輪發揮主要作用、持續增長的OSS項目。（對AI研究的）影響不僅可以通過‘內部實現了ASI’或‘草莓計劃’等神話名稱來實現，也可以通過簡單地轉儲原始算法和matplotlib學習曲線來產生影響。”

Jim Fan的每一句話都在戳喜歡搞神秘，賣期貨的OpenAI的肺管子。