精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

李飛飛團隊“50美元”復刻DeepSeek-R1?一文讀透“白菜價”背后的真正邏輯

每日經濟新聞 2025-02-07 19:13:54

2月6日,據外媒報道,李飛飛等研究人員用不到50美元和16張英偉達H100 GPU,耗時26分鐘訓練出s1-32B人工智能推理模型。據外界分析,該模型基于預訓練模型微調,成本未涵蓋前期“燒錢”部分,且只在特定測試集上超過o1-preview,未超過“滿血版”o1和DeepSeek-R1。在“白菜價”的背后,李飛飛團隊重點研究了如何以簡單方式實現“測試時拓展”,即模型在推理時多次迭代優化結果,還構建了高質量數據集s1K,降低了訓練成本。

每經記者|宋欣悅    每經編輯|蘭素英    

2月6日,據外媒報道,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,使用了16張英偉達H100 GPU,耗時26分鐘就完成了訓練,成功“打造”出了一個名為s1-32B的人工智能推理模型。

根據李飛飛等人的研究論文《s1: Simple test-time scaling》,該模型在數學和編碼能力測試中的表現,與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數學問題上的表現更是比o1-preview高出27%。

憑借低成本、高效能,s1模型成為繼“AI界價格屠夫”DeepSeek之后再次引發科技界熱議的話題。

但s1推理模型的成本真的只有50美元嗎?其性能是否真有描述的那么出色?在“白菜價”的背后,李飛飛團隊又有哪些探索?

針對成本問題,復旦大學計算機學院副教授、博士生鄭驍慶在接受《每日經濟新聞》記者采訪時指出,“像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。”這意味著前期是需要大量“燒錢”的。

圖片來源:論文《s1: Simple test-time scaling》

疑問一:只花了50美元?

據報道,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,使用了16張英偉達H100 GPU,耗時26分鐘就完成了模型s1-32B的訓練。

參與該項目的斯坦福大學研究員尼克拉斯·穆寧霍夫(Niklas Muennighoff)更是表示,如今,只要約20美元就能租到所需的計算資源

然而,關于訓練成本,有幾點需要明確。

首先,模型s1-32B的打造并非是從零開始,而是基于現成的、預訓練的模型(阿里通義千問Qwen2.5-32B-Instruct)進行監督微調。而微調一個模型和從零開始訓練一個模型的成本是無法相提并論的。

其次,50美元是否包含了其他數據、設備、消融實驗等費用,還要打一個問號。正如DeepSeek-V3不到600萬美元的訓練成本,實際上也只包括了訓練時的GPU算力費用。

鄭驍慶向每經記者表示,“像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。”

而消融實驗就意味著,前期是需要大量“燒錢”的。

AI數據公司Databricks研究員奧馬爾·哈塔布(Omar Khattab)評價稱,(李飛飛團隊的)論文似乎是關于Qwen模型的某種發現。

圖片來源:X

谷歌DeepMind資深研究員Wenhu Chen同樣表示,“真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型,用同樣的數據去訓練,但最終并不能達到這么好的效果。”

也就是說,s1-32B是站在了“巨人肩膀”上,且50美元的成本也并沒有涵蓋Qwen模型的訓練費用

疑問二:超過OpenAI的o1和DeepSeek-R1?

李飛飛團隊發表的論文提到,根據Qwen2.5-32B-Instruct進行微調的s1-32B模型,在數學和編碼能力測試中的表現,與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數學問題上的表現更是比o1-preview高出27%。

圖片來源:論文《s1: Simple test-time scaling》

此外,研究結果顯示,s1-32B是樣本效率最高的開放數據推理模型,表現明顯優于其基座模型(Qwen2.5-32B-Instruct)以及OpenAI的推理模型o1-preview。

事實上,s1-32B只能在特定的測試集上超過o1-preview,且并沒有超過“滿血版”o1和DeepSeek-R1。

圖片來源:論文《s1: Simple test-time scaling》

研究結果顯示,在AIME 2024和MATH 500兩個測試集中,s1-32B超過了o1-preview,但無論在哪個測試集,s1-32B都沒有超過“滿血版”o1正式版DeepSeek-R1

“白菜價”模型的背后

測試時拓展:多動腦多檢查

事實上,李飛飛團隊論文的核心也并不在于如何“卷”模型價格,而是研究如何以最簡單的方式實現“測試時拓展”(test-time scaling)

測試時擴展是一種在模型推理階段通過多步推理來提高模型性能的技術。具體來說,研究團隊通過預算強制,控制模型可以“思考”多長時間或進行多少步操作。如果模型過早結束推理,系統會鼓勵模型延長思考時間,確保其充分考慮問題。這也就意味著,模型在推理時會進行多次推理迭代,并逐步優化推理結果,最終生成高質量的答案。

例如,當被問到“raspberry”中有幾個“r”時,模型首先進行了初步推理,并得出了錯誤的初步結果:有2個r。但推理過程并沒有就此結束,模型又重新進行推理,優化了上次回答的結果,輸出了最終的答案:3個r。

圖片來源:論文《s1: Simple test-time scaling》

OpenAI的o1系列模型就是一個典型的例子,展現了測試時拓展在模型性能提升上的潛力。

微軟CEO薩提亞·納德拉(Satya Nadella)曾表示,我們正在見證一種新的規模法則(Scaling Law)的出現——模型效率與測試時間或推理時間計算有關

高質量數據集s1K:數據煉金術

此外,李飛飛研究團隊還從16個來源收集了59029道高質量題目,包括數學競賽問題、博士級別的科學問題、奧林匹克競賽問題等,并通過三個標準進行驗證:難度、多樣性和質量。

通過過濾,研究團隊最終得到了包含1000個樣本的s1K數據集,數據集覆蓋幾何、數論、量子力學等50個領域,并且每個問題都配有從Google Gemini 2.0 Flash Thinking Experimental作為“教師模型”蒸餾而來的的答案和推理軌跡。

這個數據集的構建基于三個關鍵標準:難度、多樣性和質量。

高質量的數據集,極大降低了s1-32B模型的訓練成本

復旦大學計算機學院副教授、博士生鄭驍慶在接受每經記者采訪時表示,大規模的數據可能不會成為下一步大家爭奪的戰場,其成本和產出之間的比例在慢慢壓縮,而高質量數據的微調和強化學習未來將會有更多的投入

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

李飛飛 推理模型 Ai DeepSeek-R1 OpenAI

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

      成人国产精品免费观看视频| 午夜精品久久久久久久| 在线观看日韩毛片| 久久噜噜亚洲综合| 亚洲福利一二三区| 成人性生交大片免费看视频在线 | 一本一道久久a久久精品综合蜜臀| 日韩一区二区免费在线观看| 自拍偷自拍亚洲精品播放| 久久se这里有精品| 国产精品每日更新| 制服丝袜激情欧洲亚洲| 一区二区三区免费网站| 岛国精品一区二区| 亚洲高清视频的网址| 久久五月婷婷丁香社区| 日韩精品福利网| 久久精品网站免费观看| 欧美亚洲国产一区在线观看网站| 国产精品免费人成网站| 国内精品不卡在线| 亚洲欧美日韩国产手机在线| 欧美一区2区视频在线观看| 亚洲综合区在线| 99精品欧美一区二区三区小说| 亚洲va韩国va欧美va精品| 国产视频一区在线观看| 久久99久久久欧美国产| |精品福利一区二区三区| 日韩一区二区精品葵司在线| 亚洲第一成年网| 久久久99精品免费观看| 在线播放91灌醉迷j高跟美女| 亚洲午夜精品网| 久久精品欧美一区二区三区不卡| 欧美色视频在线观看| 一区二区三区色| 久久亚区不卡日本| 9191成人精品久久| 午夜精品久久久久久| 中文字幕精品一区二区精品绿巨人| 欧美久久婷婷综合色| 午夜精品一区二区三区电影天堂 | 福利电影一区二区三区| 色先锋aa成人| 亚洲综合在线视频| 国产亚洲综合在线| 日韩欧美国产三级电影视频| 免费成人性网站| 亚洲综合一区二区三区| 亚洲国产成人私人影院tom| 国产黄色成人av| 欧美在线一区二区三区| 亚洲国产精品一区二区尤物区| 欧美激情在线一区二区三区| 精品国产伦一区二区三区观看体验| 麻豆精品久久精品色综合| 亚洲精品国产第一综合99久久| 国产日韩av一区| 高清成人在线观看| 欧美日韩三级一区| 日本亚洲最大的色成网站www| 亚洲人成在线播放网站岛国| 欧美国产一区二区| 91免费看片在线观看| 91精品国产91久久久久久一区二区 | 久久蜜桃av一区精品变态类天堂 | 欧美无人高清视频在线观看| 亚洲国产中文字幕在线视频综合| 国产精品你懂的在线欣赏| 久久久久亚洲综合| 99久久伊人久久99| 欧美tickling挠脚心丨vk| 国产馆精品极品| 欧美日韩精品一区二区| 久久精品国产精品青草| 色一情一伦一子一伦一区| 亚洲成a人v欧美综合天堂| 亚洲精品成人精品456| 亚洲色图制服丝袜| 国产精品国产三级国产aⅴ入口 | 精品国产一区二区亚洲人成毛片| 国产xxx精品视频大全| 欧美精品成人一区二区三区四区| 韩日精品视频一区| 欧美日韩一本到| 黄色日韩网站视频| 欧美日韩在线播放三区| 国内久久精品视频| 欧美理论在线播放| 国产精品一区二区免费不卡| 欧美日本在线播放| 国产精品88888| 欧美一级视频精品观看| 成人午夜又粗又硬又大| 91精品国产色综合久久久蜜香臀| 国产精品系列在线播放| 91精品国产麻豆| 成人晚上爱看视频| 26uuu亚洲综合色| 久久久久久**毛片大全| 欧美国产欧美综合| 中文字幕成人在线观看| 亚洲天天做日日做天天谢日日欢| 最新国产成人在线观看| 亚洲最新视频在线观看| 亚洲国产综合在线| 蜜臀精品久久久久久蜜臀 | 不卡av免费在线观看| 久久综合给合久久狠狠狠97色69| 久久综合九色综合欧美98| 国产精品丝袜在线| 日韩毛片精品高清免费| 亚洲sss视频在线视频| 色婷婷综合久久久久中文| 久久国产尿小便嘘嘘尿| 在线综合视频播放| www.久久精品| 国产精品国产三级国产aⅴ入口| 亚洲婷婷在线视频| 亚洲gay无套男同| 欧美亚洲综合久久| 成人晚上爱看视频| 国产精品网站在线播放| 亚洲欧美日韩一区二区| 日韩高清一区二区| 7777精品伊人久久久大香线蕉超级流畅| 国产不卡一区视频| 国产清纯美女被跳蛋高潮一区二区久久w| 欧美高清在线精品一区| 亚洲一区中文在线| 欧美色网一区二区| 99热精品国产| 亚洲免费在线播放| 午夜精品影院在线观看| 国产精品白丝av| 国产亚洲精品bt天堂精选| 日韩美女啊v在线免费观看| 日韩精品国产欧美| 日韩欧美中文字幕精品| 国产欧美日韩在线看| 亚洲成人av电影| 51精品秘密在线观看| 久久精品一区二区三区不卡牛牛 | 亚洲夂夂婷婷色拍ww47| 国内一区二区在线| 国产三级精品视频| 亚洲一区二区三区四区不卡| 国产精品白丝av| 国产精品久久久久精k8| 色婷婷国产精品久久包臀| 成人影视亚洲图片在线| 一区精品在线播放| 91精品91久久久中77777| 99精品在线观看视频| 樱花草国产18久久久久| 欧美久久久久久久久中文字幕| 久久久久久一级片| 天堂久久一区二区三区| 欧美va亚洲va在线观看蝴蝶网| 中文字幕在线一区免费| 久久97超碰国产精品超碰| 久久精品一区二区三区av| 亚洲成人一区二区| av一二三不卡影片| 亚洲一区二区三区四区五区黄| 欧美一区二区三区在线电影| 国产精品成人一区二区艾草 | 制服丝袜亚洲网站| 一区二区中文视频| 国产一区二区在线免费观看| 国产精品久久久久久一区二区三区| 色先锋资源久久综合| 91啪亚洲精品| 日韩中文字幕1| 国产亚洲成aⅴ人片在线观看 | 91福利精品第一导航| 久久久久9999亚洲精品| 日韩不卡手机在线v区| 久久久精品影视| 在线免费观看日韩欧美| 国产日韩欧美在线一区| 九九在线精品视频| 国产精品福利一区二区三区| 欧美日韩免费观看一区三区| 国产精品国产三级国产aⅴ原创| 国产麻豆成人精品| 亚洲黄色性网站| 26uuu亚洲综合色欧美| 天天影视网天天综合色在线播放 | 日本一二三不卡| 欧美在线观看一区二区| 国产精品久久久久久久久免费樱桃| 韩国一区二区三区| 夜夜嗨av一区二区三区四季av | 欧美丰满少妇xxxxx高潮对白| 亚洲色图视频免费播放| eeuss鲁片一区二区三区在线看| 天堂一区二区在线免费观看| 亚洲国产成人私人影院tom|