每日經(jīng)濟新聞
      要聞

      每經(jīng)網(wǎng)首頁 > 要聞 > 正文

      最新!李飛飛團隊456頁報告:中美AI模型性能近乎持平,系統(tǒng)推理成本降至280分之一

      每日經(jīng)濟新聞 2025-04-09 20:34:20

      每經(jīng)記者|宋欣悅    每經(jīng)編輯|陳柯名 蘭素英    

      4月8日,由李飛飛聯(lián)合領(lǐng)導(dǎo)的斯坦福大學(xué)以人為本人工智能研究所(Stanford HAI)發(fā)布了《2025年人工智能指數(shù)報告》(Artificial Intelligence Index Report 2025)。這份長達456頁的報告,深入剖析了2024年全球人工智能行業(yè)的發(fā)展態(tài)勢,揭示了12大關(guān)鍵趨勢。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuJyQIfZqLibhibIicPQ2O4YiaR5P372yfOsNBlxqaCjw1mSMwTaN2j8yvTg.png

      圖片來源:斯坦福大學(xué)以人為本人工智能研究所官網(wǎng)

      報告認為,AI正變得更高效、更普惠。隨著小模型性能飆升,達到GPT-3.5水平的系統(tǒng)推理成本在過去兩年間下降到了原來的280分之一。

      報告還指出,中國高性能AI模型的數(shù)量和質(zhì)量不斷提升,中美AI模型性能近乎持平。與此同時,中國在AI領(lǐng)域論文數(shù)量和專利數(shù)量上保持領(lǐng)先地位。

      CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.pngAI性能飆升,表現(xiàn)逐漸接近人類

      2023年,研究人員推出了MMMU、GPQA和SWE-bench等頗具挑戰(zhàn)性的新基準測試,用于測試AI系統(tǒng)的極限。

      測試發(fā)現(xiàn),僅僅一年后,AI系統(tǒng)的性能便實現(xiàn)大幅躍升——在MMMU測試中得分提升18.8個百分點;在GPQA測試中提高48.9個百分點;SWE-bench測試里更是提升了67.3個百分點。

      從整體趨勢來看,AI在各大領(lǐng)域的表現(xiàn)逐漸接近人類,甚至在某些情形下,AI智能體能在限時編程任務(wù)中超越人類。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuDnjWlmF4HxkIibrUvNcW5U2NvzSrOqdrn3E3HAjyic5Y24EibkUoGPujQ.png

      在部分評測指標上,AI技術(shù)性能表現(xiàn)與人類水平的對比?圖片來源:《2025年人工智能指數(shù)報告》

      然而,復(fù)雜的推理對于AI模型而言,仍然是一個挑戰(zhàn)。

      在處理類似國際數(shù)學(xué)奧林匹克競賽題目這類任務(wù)時,AI模型表現(xiàn)出色。但面對諸如PlanBench等復(fù)雜推理基準測試時,卻仍顯得吃力。即使面對那些已知存在正解的邏輯任務(wù),AI也經(jīng)常無法可靠地解決邏輯任務(wù),這極大限制了AI在對精度要求極高的高風(fēng)險行業(yè)中的應(yīng)用。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTu83W711jRLvbuKGh5bYnhgsllIClDALrZMiaxfVx3SSXN1aScqUz1mTA.png

      各大模型在PlanBench基準測試上的正確率 圖片來源:《2025年人工智能指數(shù)報告》

      CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png全球AI投資飆升?

      2024年,生成式AI在全球范圍內(nèi)吸引了339億美元的私人投資,與2023年相比,增長幅度達到18.7%。

      與此同時,企業(yè)對AI的采用率顯著提升,從2023年的55%上升至2024年的78%。越來越多的研究結(jié)果表明,AI不僅能夠有效提升生產(chǎn)力,在多數(shù)情況下,還能縮小勞動力的技能差距。

      值得關(guān)注的是,將生成式AI應(yīng)用于至少一項業(yè)務(wù)職能的企業(yè)數(shù)量出現(xiàn)了激增。2023年,這一比例僅為33%,而到了2024年,該比例躍升至71%,增幅超過一倍。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuRN92iagqoRF88QZGA82iaVv5UOgc6icAtBLbia9RicUYGMkt0GevcITFgjw.png

      2017年至2024年,將AI應(yīng)用于至少一項業(yè)務(wù)職能企業(yè)的比例不斷上升 圖片來源:《2025年人工智能指數(shù)報告》

      CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png中美模型性能近乎持平

      數(shù)據(jù)顯示,美國在AI模型的數(shù)量上處于領(lǐng)先地位。2024年,總部位于美國的機構(gòu)擁有40個知名AI模型,超過中國(15個)和法國(3個)。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTucVy6U9cqNIZRt46DnQicNbUJbUPC1jxCrB1KiaiaTRGPU496ka2sibvfJg.png

      圖片來源:《2025年人工智能指數(shù)報告》

      不過,報告強調(diào),中美模型之間的性能差距正在迅速縮小。以MMLU和HumanEval等主流基準測試結(jié)果來看,2023年,中美頂尖模型之間的性能差距還在兩位數(shù),然而到了2024年,這一差距已大幅縮小,幾乎處于同一水平。?

      與此同時,中國在AI領(lǐng)域論文數(shù)量和專利數(shù)量上依舊保持領(lǐng)先地位。

      CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png小模型性能飆升,推理成本降至280分之一?

      報告指出,AI正變得更加高效、經(jīng)濟實惠和易于獲取。

      隨著小模型性能提升,達到GPT-3.5水平的系統(tǒng)推理成本在過去兩年間下降至280分之一。在硬件層面,成本每年下降30%,而能源效率每年提高40%。

      2022年,在MMLU基準測試中,得分超60%的最小模型是PaLM,參數(shù)量為5400億。到了2024年,微軟Phi-3-mini僅用38億參數(shù),就取得了同樣的實力。這代表,兩年多的時間里模型參數(shù)減少了142倍。

      此外,開源模型正在迎頭趕上,與閉源模型的差距逐漸縮小。2023年,開源模型明顯落后于閉源模型。而到2024年,這一差距幾乎消失。2024年1月初,頂尖閉源模型在大模型競技場排行榜上以8.0%的成績超過了頂尖開源模型。而到2025年2月,這一差距已縮小至1.7%。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuxjufQpjqtp8Bd1IMiaictIYic2YeyO7qRHjBPHorGOdib937IbK2e9FzHA.png

      2022年至2024年,在MMLU上得分高于60%的小模型 圖片來源:《2025年人工智能指數(shù)報告》

      CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png中國對AI的態(tài)度最樂觀

      在對AI的態(tài)度方面,中國是全球主要國家和地區(qū)中最樂觀的。

      報告顯示,2024年中國有83%的人認為AI產(chǎn)品和服務(wù)利大于弊,排在后面的是印度尼西亞(80%)和泰國(77%)。相比之下,美國(39%)、加拿大(40%)等的樂觀情緒遠低于中國。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuYyt6yV7ibKoM2CnMAP8cdncPGqURa5zrbeh1DBgibQL9QrcEsWoL5zdw.png

      2022年至2024年,各國認為“使用AI產(chǎn)品和服務(wù)利大于弊”的比例 圖片來源:《2025年人工智能指數(shù)報告》

      不過,從整體趨勢而言,各國對于AI的樂觀情緒正逐漸升溫,特別是在一些曾對AI最持懷疑態(tài)度的國家。數(shù)據(jù)顯示,自2022年起,美國認為“使用AI產(chǎn)品和服務(wù)利大于弊”的比例提升了4%,加拿大增長了8%,法國增長了10%。

      CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png三分之二受訪者稱AI將在未來3至5年對日常生活產(chǎn)生顯著影響

      從醫(yī)療保健到交通運輸,AI正迅速從實驗室走向日常生活。

      2023年,美國食品藥品監(jiān)督管理局(FDA)批準了223款A(yù)I醫(yī)療設(shè)備,而2015年僅有6款。

      CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuW5I80fjWndEcdyE8MqejuZtWicr8IOvuWD7ZIeWKBFezGL0sknNVUIg.png

      1995年至2023年FDA批準的AI醫(yī)療設(shè)備數(shù)量 圖片來源:《2025年人工智能指數(shù)報告》

      道路交通同樣因AI技術(shù)發(fā)生著日新月異的變化。自動駕駛汽車不再只是實驗,而是逐步駛?cè)氍F(xiàn)實生活。

      美國最大的運營商之一Waymo每周提供超過15萬次自動駕駛服務(wù),而百度旗下的“蘿卜快跑”(Apollo Go)無人駕駛出租車隊已在中國多個城市正式投入運營。

      此外,人們對AI融入日常生活的期待與認可度正在上升。據(jù)統(tǒng)計,全球范圍內(nèi),有多達三分之二的受訪者認為,在未來三到五年內(nèi),AI產(chǎn)品及服務(wù)將對日常生活產(chǎn)生顯著影響。

      記者|宋欣悅?

      編輯|陳柯名?蘭素英 杜波

      校對|金冥羽

      封面圖片來源:視覺中國

      CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

      |每日經(jīng)濟新聞 ?nbdnews??原創(chuàng)文章|

      未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用

      如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
      未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

      讀者熱線:4008890008

      特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

      歡迎關(guān)注每日經(jīng)濟新聞APP

      每經(jīng)經(jīng)濟新聞官方APP

      0

      0

      亚洲AV日韩AV永久无码色欲| 亚洲一区二区三区91| 亚洲日韩国产二区无码| 国产∨亚洲V天堂无码久久久| 亚洲日韩av无码中文| 亚洲国产成人久久77| 国产成人亚洲精品播放器下载| 亚洲情A成黄在线观看动漫软件| 亚洲av无码片区一区二区三区| 亚洲大香伊人蕉在人依线| 亚洲理论片在线中文字幕| 亚洲综合久久综合激情久久 | 亚洲中文字幕在线第六区| 久久久久亚洲AV成人网人人网站| 亚洲精品乱码久久久久久V| 亚洲欧美第一成人网站7777| 亚洲色偷偷综合亚洲av78| 亚洲午夜无码久久久久小说 | 亚洲不卡1卡2卡三卡2021麻豆| 亚洲成a人片在线观看中文!!!| 亚洲国产精品线观看不卡| 亚洲一欧洲中文字幕在线| 亚洲高清一区二区三区| 亚洲日韩精品国产3区| 亚洲国产aⅴ成人精品无吗| 国产精品亚洲专区无码牛牛| 亚洲色欲啪啪久久WWW综合网| 亚洲成a∨人片在无码2023| 日韩亚洲综合精品国产| 国产精品亚洲精品日韩动图| 亚洲日韩在线观看免费视频| 老司机亚洲精品影院在线观看| 在线亚洲精品视频| 亚洲无码精品浪潮| 亚洲精品亚洲人成人网| 亚洲国产精品自在线一区二区 | 国产亚洲视频在线| 在线观看国产区亚洲一区成人 | 亚洲va久久久久| 亚洲人成人伊人成综合网无码| 亚洲AV无码国产一区二区三区|