精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

馬斯克用20萬張GPU“砸出”地表最強AI?每經記者實測Grok 3:速度稱王,數學亮眼,但邏輯思考不敵DeepSeek R1

每日經濟新聞 2025-02-23 14:57:06

近日,馬斯克旗下人工智能公司xAI發布了最新一代AI模型Grok 3,并宣稱其為“地球上最聰明的人工智能”。xAI在發布后48小時內免費開放Grok 3供用戶試用。然而,一些用戶體驗后質疑其能力,OpenAI應用研究主管Boris Power也指責xAI存在作弊嫌疑。真相如何?每經記者進行了實測。

每經記者|岳楚鵬    每經編輯|高涵    

近日,人工智能初創公司xAI發布了更新版Grok 3大模型,埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據官方公開的測試結果,Grok 3在包括AIME(評估模型在一系列數學問題上的表現)和 GPQA(評估模型在博士級別的物理學、生物學和化學問題上的表現)等基準測試中,遠超GPT-4o、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 等大模型。

在大模型競技場 Chatbot Arena(LMSYS)測試中,xAI工程師表示,早期版本的Grok 3獲得了第一的成績,達到了140分,超越了Gemini 2.0 Flash Thinking實驗版本、ChatGPT-4o最新版本,以及最近大火的DeepSeek R1等等。

然而,有些用戶在體驗后卻對Grok 3的能力產生了質疑,他們認為Grok 3的能力并沒有馬斯克宣稱的那么強大。OpenAI應用研究主管Boris Power則對Grok團隊在模型評估中的行為表示失望,指出其存在作弊和欺騙的動機。Boris Power提到,o3-mini在各項評估中均優于Grok 3。

真相到底如何,馬斯克吹牛了嗎?《每日經濟新聞》記者測試發現,Grok 3確實是世界頂級模型的水平,但并沒有和其他模型拉開太大差距。唯一拉開差距的是它極快的響應速度。

9.9和9.11誰大?Grok 3輕松拿下

Grok 3是由馬斯克旗下的人工智能公司xAI發布的最新一代AI模型。馬斯克在發布會上稱其為“地球上最聰明的人工智能”,并表示Grok 3的能力比前代產品Grok 2高出一個數量級,具備更強的推理、計算和適應能力。

在新聞發布會上,馬斯克宣稱Grok 3在數學、科學和編程等基準測試中表現出色,超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等競爭對手。

Grok 3在發布后僅48小時內,xAI宣布將其免費開放給所有用戶,直至服務器負載達到極限。目前用戶每天可以體驗十條“思考模式”Grok 3,及不限量免費使用普通Grok 3。

《每日經濟新聞》記者在Grok 3發布后也親自進行了測試。

首先,從最經典的基礎問題開始:9.9和9.11誰大?

Grok 3

這個問題毫無難度,Grok 3輕松拿下。

邏輯思考和文字理解能力:Grok 3不如DeepSeek-R1

馬斯克在發布會上自豪的一點是,Grok 3“思考模型”下的邏輯推理能力,他聲稱,Grok 3 (Think) 學會了改進其解決問題的策略,通過回溯糾正錯誤,簡化步驟,并利用其在預訓練期間獲得的知識。就像人類在解決復雜問題時一樣,Grok 3 (Think) 可以花費幾秒鐘到幾分鐘的時間進行推理,通常會考慮多種方法,驗證自己的解決方案,并評估如何精確滿足問題的要求。

每經記者用弱智吧的問題來檢驗一下它的邏輯是不是真的過關。

(編者注:“弱智吧”是百度貼吧的一個子論壇。在這個論壇中,用戶經常發布包含雙關語、多義詞、因果倒置和諧音詞等具有挑戰性的內容,很多內容設計有邏輯陷阱,即使對人類來說也頗具挑戰。)

第一個問題:用水來兌水,得到的是濃水還是稀水?

Grok 3

Grok 3成功答對了問題,并且還指出,這是一個文字游戲。而OpenAI的o1就在這道題上敗下了陣來,認為水兌水后得到的是稀水。

OpenAI o1 

當然除了o1,其他大模型諸如Gemini和R1都答對了這道問題。所以這并不足以證明,Grok的推理模式就是第一的水平,還得加大難度。

下一題:未來的某天,李同學在實驗室制作神秘材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了神秘材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為原因是什么?

Grok 3

很可惜,這道題Grok 3沒有答對,它在思維鏈里面已經想到了老鷹本身就會飛的可能性,但是,沒有在最后的輸出結果里體現出來。

Grok 3思考過程

其他大模型中,只有DeepSeek R1成功答對了問題,且考慮了兩種情況。


DeepSeek R1

之后,每經記者還進行了多次類似弱智吧問題的測試,發現Grok 3對中文的理解和邏輯推理能力確實明顯高于其他國外模型,但還是不如DeepSeek的R1模型。

數學能力:Grok 3最好,但未拉開明顯差距

既然邏輯思考無法奪魁,那么在基準測試里的分最高的數學項目,Grok 3能不能扳回一城呢?

題目如下:

三個人打臺球,兩人對局一人觀戰,輸的人下場換觀戰的人上場,如此往復,最終,A輸了6局,B輸了8局,C輸了10局,問各贏多少局?

這道題只有Grok 3和OpenAI的o1答對。不過,Grok 3只用了1分15秒就得出了答案,o1使用了2分53秒。

Grok 3

再進一步加大難度,看看能不能分出高下。下面是一道群論問題:有幾個階為147的非同構群。

在這個問題上,Grok 3雖然答對了具體的數量,6個,但是中間的具體群卻錯了一個。而其他模型只找到了5個正確的非同構群。這意味著,在數學能力方面,Grok 3確實是最好,但是好得有限,并沒有與其他同等級模型拉開顯著差距。

Grok 3

編程能力:Grok 3險勝o1

針對編程能力,《每日經濟新聞》記者借用了Kcores聯合創始人karminski-牙醫的測評結果。

karminski-牙醫復現了馬斯克在發布會上對于火星發射計劃的代碼模擬,并對多個模型進行了測試比較。

圖片來源:karminski-牙醫

 

在這次測試中,表現最好的是Grok 3的推理模型(思考模式),雖然在最后著陸時,動畫火箭沒有與火星重疊,但軌道需求計算得很好。但是他始終沒有復現出馬斯克在發布會時所展現的那么完美的軌道計算和動畫。Grok 3最后綜合得分排在了第一名,再之后是OpenAI的o1,兩者的綜合得分差距不大。

圖片來源:karminski-牙醫 

結合所有測試來看,Grok 3確實是世界頂尖的AI模型,不愧于20萬張GPU的身價。但是,實際測試效果并沒有馬斯克在發布會上展示得那么夸張,馬斯克所說的世界上最“聰明”的模型,可能還值得商榷。

在實測中,《每日經濟新聞》記者發現,Grok 3模型能力并沒有像基準測試得分那樣遠遠甩開對手一大截,唯一甩開競爭對手的一點是它的響應速度,它得出結果的速度相較于其他同等級的大模型來說是最快的,并且遠超對手。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

Grok 3 模型 GPU 馬斯克

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

      欧美在线一区二区| 99在线精品视频| 日韩精品一区二区三区中文不卡| 午夜精品成人在线视频| 91精品在线观看入口| 久久 天天综合| 久久久久久夜精品精品免费| 成人夜色视频网站在线观看| 日韩码欧中文字| 欧洲另类一二三四区| 日韩福利电影在线观看| 久久亚洲精品小早川怜子| 北条麻妃国产九九精品视频| 欧美va亚洲va| 国产.精品.日韩.另类.中文.在线.播放 | 亚洲情趣在线观看| 在线一区二区三区| 日韩精品成人一区二区在线| 337p粉嫩大胆色噜噜噜噜亚洲| 成人精品免费看| 亚洲与欧洲av电影| 欧美精品v日韩精品v韩国精品v| 国产尤物一区二区在线| 亚洲乱码精品一二三四区日韩在线| 欧美裸体一区二区三区| 韩国在线一区二区| 亚洲女同女同女同女同女同69| 欧美精品vⅰdeose4hd| 国产美女在线观看一区| 一区二区三区在线看| 欧美大片一区二区| 97se亚洲国产综合自在线观| 日日嗨av一区二区三区四区| 日韩精品一区二区三区视频| 91视视频在线观看入口直接观看www | 亚洲成人综合网站| 欧美电影免费提供在线观看| 粉嫩绯色av一区二区在线观看| 亚洲午夜精品网| 久久久国际精品| 日本精品视频一区二区三区| 久久99九九99精品| 亚洲综合精品久久| 国产午夜精品一区二区三区嫩草| 欧美亚洲一区二区三区四区| 精品一区二区三区的国产在线播放| 亚洲欧洲精品一区二区三区| 日韩精品一区二区三区蜜臀 | 久久女同互慰一区二区三区| 欧美视频你懂的| 丁香亚洲综合激情啪啪综合| 蜜臀久久99精品久久久久久9 | 日韩码欧中文字| 日韩精品最新网址| 精品视频在线免费观看| 成人av网站在线观看免费| 欧美a级理论片| 亚洲一区二区三区精品在线| 欧美α欧美αv大片| 欧美色视频一区| 99视频精品免费视频| 久久精品国产久精国产爱| 亚洲狠狠丁香婷婷综合久久久| 精品国产a毛片| 欧美日韩精品福利| 99精品国产91久久久久久| 精品一区二区三区在线观看| 亚洲国产视频一区| 自拍偷拍国产精品| 国产亚洲一区字幕| 91超碰这里只有精品国产| 91女厕偷拍女厕偷拍高清| 国产凹凸在线观看一区二区| 天堂成人免费av电影一区| 中文字幕一区三区| 久久精品日产第一区二区三区高清版| eeuss鲁片一区二区三区| 国产精品正在播放| 美女视频黄久久| 日韩精品一区第一页| 一区二区三区在线免费| 亚洲欧美另类图片小说| 久久先锋影音av鲁色资源| 欧美一区二区三区四区五区| 精品视频1区2区3区| 色综合色狠狠综合色| 丁香婷婷综合激情五月色| 国产精品18久久久久久vr| 激情六月婷婷综合| 久久国内精品自在自线400部| 日韩在线a电影| 日本v片在线高清不卡在线观看| 五月激情丁香一区二区三区| 亚洲国产欧美另类丝袜| 亚洲三级在线播放| 国产精品久久午夜| 国产精品久久久久久久久搜平片| 国产三级精品三级| 国产午夜精品久久| 26uuu成人网一区二区三区| 91精品国产丝袜白色高跟鞋| 91精品国产乱| 欧美一区二区私人影院日本| 制服丝袜亚洲播放| 91精品国产综合久久香蕉的特点 | 欧美日韩国产美女| 欧美亚洲禁片免费| 欧美性一级生活| 欧美视频在线观看一区| 91精品婷婷国产综合久久性色| 欧美日本免费一区二区三区| 欧美色成人综合| 欧美色图天堂网| 欧美日本一区二区在线观看| 精品亚洲国内自在自线福利| 精品写真视频在线观看| 国产精品一区在线| 不卡一区二区在线| 91国偷自产一区二区三区成为亚洲经典| 在线观看免费视频综合| 欧美主播一区二区三区美女| 欧美日韩一区二区三区在线| 欧美一区二区精品在线| xnxx国产精品| 欧美国产日韩精品免费观看| 亚洲日本乱码在线观看| 亚洲国产精品天堂| 日韩电影在线看| 麻豆精品视频在线观看| 国产激情视频一区二区在线观看| 成人免费毛片片v| 成人高清在线视频| 欧洲一区在线观看| 日韩一级片网址| 久久久久久一二三区| 亚洲欧洲成人精品av97| 亚洲人成网站在线| 一区二区欧美精品| 午夜精品爽啪视频| 极品销魂美女一区二区三区| 国产一区美女在线| 91免费在线播放| 日韩欧美区一区二| 久久久777精品电影网影网 | 国产91露脸合集magnet| 成人精品免费看| 在线不卡a资源高清| 国产网站一区二区| 最新不卡av在线| 五月天激情综合| 国产精品原创巨作av| 色婷婷综合久久久中文一区二区| 制服丝袜亚洲色图| 久久久久久久久久久黄色| 最近日韩中文字幕| 日本不卡的三区四区五区| 丁香激情综合五月| 欧美天天综合网| 久久精品视频免费| 五月天激情综合| 成人激情校园春色| 欧美性极品少妇| 精品粉嫩aⅴ一区二区三区四区| 久久精品一级爱片| 性感美女极品91精品| 国产成人免费视频| 9191久久久久久久久久久| 国产精品污网站| 青青草国产成人av片免费| 成人h动漫精品一区二区| 7777精品伊人久久久大香线蕉最新版| 国产免费观看久久| 亚洲精品视频免费看| 国产综合色视频| 欧洲精品视频在线观看| 国产欧美一区二区精品性| 亚洲成av人片一区二区| 成人动漫精品一区二区| 91精品国产色综合久久不卡蜜臀| 亚洲日本中文字幕区| 国产激情91久久精品导航| 欧美日韩大陆在线| 国产精品久久久久一区二区三区共| 丝瓜av网站精品一区二区| 99re热视频这里只精品 | 一本色道久久综合亚洲aⅴ蜜桃 | 久久久三级国产网站| 国产精品丝袜在线| 毛片一区二区三区| 欧美丝袜丝交足nylons图片| 国产精品剧情在线亚洲| 久久精品久久99精品久久| 9i看片成人免费高清| 精品国产三级电影在线观看| 午夜不卡av在线| 日本高清不卡在线观看| 国产精品理伦片| 丁香天五香天堂综合| 欧美mv日韩mv国产网站| 污片在线观看一区二区|