要聞

馬斯克用20萬張GPU“砸出”地表最強AI？每經記者實測Grok 3：速度稱王，數學亮眼，但邏輯思考不敵DeepSeek R1

每日經濟新聞 2025-02-23 14:57:06

近日，馬斯克旗下人工智能公司xAI發布了最新一代AI模型Grok 3，并宣稱其為“地球上最聰明的人工智能”。xAI在發布后48小時內免費開放Grok 3供用戶試用。然而，一些用戶體驗后質疑其能力，OpenAI應用研究主管Boris Power也指責xAI存在作弊嫌疑。真相如何？每經記者進行了實測。

每經記者｜岳楚鵬每經編輯｜高涵

近日，人工智能初創公司xAI發布了更新版Grok 3大模型，埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據官方公開的測試結果，Grok 3在包括AIME（評估模型在一系列數學問題上的表現）和 GPQA（評估模型在博士級別的物理學、生物學和化學問題上的表現）等基準測試中，遠超GPT-4o、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 等大模型。

在大模型競技場 Chatbot Arena（LMSYS）測試中，xAI工程師表示，早期版本的Grok 3獲得了第一的成績，達到了140分，超越了Gemini 2.0 Flash Thinking實驗版本、ChatGPT-4o最新版本，以及最近大火的DeepSeek R1等等。

然而，有些用戶在體驗后卻對Grok 3的能力產生了質疑，他們認為Grok 3的能力并沒有馬斯克宣稱的那么強大。OpenAI應用研究主管Boris Power則對Grok團隊在模型評估中的行為表示失望，指出其存在作弊和欺騙的動機。Boris Power提到，o3-mini在各項評估中均優于Grok 3。

真相到底如何，馬斯克吹牛了嗎？《每日經濟新聞》記者測試發現，Grok 3確實是世界頂級模型的水平，但并沒有和其他模型拉開太大差距。唯一拉開差距的是它極快的響應速度。

9.9和9.11誰大？Grok 3輕松拿下

Grok 3是由馬斯克旗下的人工智能公司xAI發布的最新一代AI模型。馬斯克在發布會上稱其為“地球上最聰明的人工智能”，并表示Grok 3的能力比前代產品Grok 2高出一個數量級，具備更強的推理、計算和適應能力。

在新聞發布會上，馬斯克宣稱Grok 3在數學、科學和編程等基準測試中表現出色，超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等競爭對手。

Grok 3在發布后僅48小時內，xAI宣布將其免費開放給所有用戶，直至服務器負載達到極限。目前用戶每天可以體驗十條“思考模式”Grok 3，及不限量免費使用普通Grok 3。

《每日經濟新聞》記者在Grok 3發布后也親自進行了測試。

首先，從最經典的基礎問題開始：9.9和9.11誰大？

Grok 3

這個問題毫無難度，Grok 3輕松拿下。

邏輯思考和文字理解能力：Grok 3不如DeepSeek-R1

馬斯克在發布會上自豪的一點是，Grok 3“思考模型”下的邏輯推理能力，他聲稱，Grok 3 (Think) 學會了改進其解決問題的策略，通過回溯糾正錯誤，簡化步驟，并利用其在預訓練期間獲得的知識。就像人類在解決復雜問題時一樣，Grok 3 (Think) 可以花費幾秒鐘到幾分鐘的時間進行推理，通常會考慮多種方法，驗證自己的解決方案，并評估如何精確滿足問題的要求。

每經記者用弱智吧的問題來檢驗一下它的邏輯是不是真的過關。

（編者注：“弱智吧”是百度貼吧的一個子論壇。在這個論壇中，用戶經常發布包含雙關語、多義詞、因果倒置和諧音詞等具有挑戰性的內容，很多內容設計有邏輯陷阱，即使對人類來說也頗具挑戰。）

第一個問題：用水來兌水，得到的是濃水還是稀水？