精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

五大維度評測OpenAI全新o1模型:代碼編寫、游戲制作等能力“驚艷”,事實性知識卻“翻了車”

每日經濟新聞 2024-09-13 20:33:39

◎ 解題能力超越人類博士?《每日經濟新聞》記者從五大維度帶來了對OpenAI最新發布的模型o1-preview的一手評測結果。

每經記者|鄭雨航    每經實習記者|岳楚鵬    每經編輯|蘭素英    

傳說中的“草莓”模型今天在沒有任何預告下忽然上線了!

OpenAI最新發布的模型名為o1,是系列推理模型的首批版本,現階段推出的是o1-preview(預覽版)和o1-mini(迷你版

目前,o1-preview和o1-mini已經面向ChatGPT Plus和Team訂閱用戶開放,而Enterprise和Edu用戶將于下周初獲得訪問權限。OpenAI表示,它計劃向ChatGPT的所有免費用戶提供o1-mini訪問權限,但尚未確定發布日期。

據OpenAI介紹,在解決問題的能力方面,o1模型比以往任何模型都更接近人類思維,并且能夠“推理”數學、編碼和科學任務。

為了驗證新模型的能力是否正如OpenAI所宣稱的那么強大,《每日經濟新聞》記者從經典“草莓測試、代碼編寫、小游戲制作、數學與經濟學,以及事實性知識這五大維度對o1-preview模型進行了測試。

結果顯示,o1-preview表現出了超越OpenAI之前發布的大模型的編程和數學推理能力。例如,o1-preview能夠編寫出流暢運行的代碼,并且在復雜環境中依然能夠自行推理出解決方案。而且,記者在測試過程中也感覺到,o1-preview在人性化方面也有很大的提升,表現出了真人般的思考。不過,新模型也并非毫無缺點,在事實性知識測試就“翻車”了。 

傳說中的“草莓”來了 

當地時間9月12日,OpenAI發布了一款名為o1的新模型,這是其計劃中一系列“推理”模型中的第一個版本,也是此前業界盛傳已久的“草莓”模型。 

圖片來源:X平臺

對于OpenAI來說,o1代表著它朝著類人AI的目標又邁出了一步。OpenAI認為,o1代表著一種全新的能力,這一能力被認為如此重要,以至于公司決定從當前的GPT-4模型重新開始,完全放棄了“GPT”品牌,從1開始命名。 

OpenAI表示,將從當前的GPT-4模型重新開始,“將計數器重置為 1”,甚至放棄了迄今為止定義了聊天機器人乃至整個生成式AI熱潮的“GPT”品牌。o1建立了一個能夠通過一系列離散步驟,謹慎而合乎邏輯地解決問題的系統,每個步驟都建立在上一個步驟的基礎上,類似于人類的推理方式。

OpenAI首席科學家Jakub Pachocki表示,之前的模型在收到用戶問詢時會立即開始回答。“而這個模型(指的是o1)會慢慢來。它思考問題,并嘗試分解問題,尋找角度,努力提供最佳答案。”這就像大多數人在幼年時被父母所要求的那樣,先想好再說話。

OpenAI表示,o1在競賽編程問題(Codeforces)中排名第89個百分點,在美國數學奧林匹克競賽(AIME)預選賽中位列美國前500名學生之列,并且在物理、生物和化學問題的基準測試(GPQA)中超過了人類博士水平的準確度

在OpenAI發布的研究和博客文章中,o1看起來“推理”能力十分強大,不僅可解決高級數學和編碼問題,還能解密復雜的密碼,以及解答來自專家學者們關于遺傳學、經濟學和量子物理學的復雜問題。大量圖表顯示,在內部評估中,o1在編碼、數學和各個科學領域的問題上已經超越了公司最先進的語言模型GPT-4o,甚至可能超越了人類。

 

                            圖片來源:OpenAI官網

五大維度實測:代碼編寫、游戲制作等能力“驚艷”,但“栽”在了事實性知識測試

為了深入了解o1模型的強大能力,《每日經濟新聞》記者從經典草莓測試、代碼編寫、小游戲制作、數學與經濟學,以及事實性知識這五大維度對o1-preview模型進行了測試。 

1)草莓測試

首先,記者用之前幾乎所有大模型都“翻車”的一道簡單題目進行了測試,即“單詞strawberry里面到底有幾個r。從生成的結果看,o1-preview還是帶來了一點小驚喜的。

2)代碼編寫

記者首先向o1-preview詢問了一個在線編程平臺leetcode里最有名的簡單算法題:Two Sum(兩數之和)問題。o1給出了很詳盡的推理過程和答案。

隨后記者故意要求優化答案,o1在思考9秒后意識到自己提供的已經是最優解法了,并就此進行了說明,另外還很“貼心”地提供了一個次優解。而在之前記者對其他模型的測試中,這些模型只會道歉然后將答案更改為次優解。

3)小游戲制作

在o1模型的演示中,OpenAI演示過“用一句話編寫小游戲”的功能。測試過程中,記者讓o1-preview幫忙介紹好用的代碼工具,并協助編寫一個乒乓小游戲。

o1-preview僅用了19秒就給出了一份能夠流暢運行的代碼,并且附上了學習指南和鼓勵的話語,非常地人性化。

為避免o1-preview作弊,使用的是記憶能力,而不是使用推理能力進行回答,記者還請求o1-preview更換了一個代碼運行環境:jupyter note。這一運行環境是針對數據分析進行特化的python環境,開發人員基本不會使用此環境開發小游戲。

經過思考后,o1依然給出了一個可以運行的代碼。不過,相較于之前的代碼,這份答案有著不少的bug,但這也從側面說明這確實是思考出來的答案,而不是訓練過程中加入的標準答案。

為進一步驗證o1-preview的創新推理能力,記者隨后又要求模型在這個小游戲的基礎上開發一個更復雜有趣的小游戲。

這下,o1的表現真的有點驚喜。根據乒乓游戲的碰撞機制,該模型自行迭代出了一個向上登高的跳躍游戲。一般其他大模型需要用戶把需求描述清楚才會輸出一個比較好的答案,但記者在這次測試中沒有進行任何的額外提示,o1就輸出了一個能流暢運行,并且在記者眼中看來也足夠有趣的小游戲。

4)科學類測試

在科學類測試方面,記者重點測試了o1-preview在數學和經濟學上的表現。

首先,記者拋出的是一個數學推理問題,向o1-preview詢問解決歐拉方程有限時間爆破的可能方法(這是著名華裔數學家、菲爾茲獎得主陶哲軒教授本周才發表的討論文章)。

o1雖然沒有給出明確解法,但卻提供了一個解題思路,這一思路和陶哲軒教授文章部分吻合(雖然很少)

經濟學方向上,記者向o1-preview詢問了一個復雜的經濟系統問題。從給出的反饋看,基本沒有什么太大的問題,整體邏輯清晰,思考維度也是多樣化的,給出的數學公式雖然有一點小差錯但是無傷大體

5)事實性知識與語言理解

在這一環節,記者向o1-preview詢問了明朝第一任皇帝的趣事,但o1就將趣事理解成了歷史上實際發生過的事情,將朱元璋的歷史故事整個敘述了出來。

同時,記者也將這一問題丟給了GPT-4o模型,作為對比,GPT-4o能很好地理解記者的問題,并講了兩個流傳很廣的民間小故事。

總體來看,OpenAI宣稱o1模型能接近人類水平在某些方面上看起來并不是虛話

最讓記者驚喜的是,OpenAI將模型思考的過程用文字展示給了用戶,文字思考過程中,大模型大量使用了“我正在“我認為”“我打算”等話語,感覺更加擬人化,就像一個真人在用戶面前闡述自己的思考邏輯一般。

但這也并不意味著o1模型就是完美的。OpenAI也承認,在設計、寫作、編輯文字等方面上,o1遠不如GPT-4o。o1也沒有瀏覽網頁或處理文件和圖像的能力。

而最讓記者感到頭疼的是,即使是一個很簡單的請求,比如說將輸出結果轉換為中文,o1都會消耗十幾秒鐘的時間來思考,而GPT4o就會很快處理好這一請求。

就算在OpenAI的優勢領域中,o1模型也會突然出現性能下降,模型輸出懶惰的情況。已離職的OpenAI創始人Karpathy就吐槽道:“它一直拒絕為我解決黎曼假說。模型懶惰仍然是一個主要問題。”

OpenAI表示,公司會在之后的更新中解決這些問題,畢竟現在這只是推理模型的早期預覽。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

Ai OpenAI 大模型

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

精品久久久久久久久久_欧美香蕉人人人人人人爱_91精品国产免费久久久久久青草_国产亚洲欧美日韩在线观看一区二区

      色天天综合久久久久综合片| 欧美日韩精品一区二区三区| 国产精品免费免费| 成人动漫中文字幕| 亚洲天堂网中文字| 日本乱人伦一区| 亚洲 欧美综合在线网络| 69久久夜色精品国产69蝌蚪网| 亚洲不卡av一区二区三区| 欧美一级生活片| 国产在线精品一区二区三区不卡| 国产女人水真多18毛片18精品视频| av电影在线观看不卡| 亚洲在线视频免费观看| 日韩欧美一区二区不卡| 国产精品夜夜嗨| 亚洲欧美aⅴ...| 欧美一区二视频| 国产福利91精品一区| 亚洲女性喷水在线观看一区| 欧美老年两性高潮| 国产九色sp调教91| 一区二区三区中文字幕精品精品| 欧美精品在线观看播放| 国产在线精品视频| 亚洲美女区一区| 日韩欧美综合一区| 成熟亚洲日本毛茸茸凸凹| 亚洲午夜电影在线| 久久综合中文字幕| 成人av网站在线| 日本欧美韩国一区三区| 综合欧美亚洲日本| 日韩欧美国产综合在线一区二区三区| 成人激情黄色小说| 日本成人中文字幕| 成人免费视频在线观看| 日韩免费福利电影在线观看| 91视频国产观看| 精品一区二区在线免费观看| 一区二区三区在线视频播放| 亚洲精品在线电影| 欧美三级一区二区| 成人午夜伦理影院| 麻豆中文一区二区| 一区二区三区国产精品| 国产亚洲精久久久久久| 在线播放91灌醉迷j高跟美女| 成人免费视频一区| 亚洲电影第三页| 26uuu亚洲| 亚洲欧美电影一区二区| 久久久青草青青国产亚洲免观| 国产精品1024久久| 中文字幕日韩精品一区| 在线观看av一区| 美女视频黄a大片欧美| 国产日韩在线不卡| 美女视频一区在线观看| 成人国产精品免费观看| 欧美成人福利视频| 国产成人在线免费| 亚洲欧美国产三级| 91精品国产福利| 久久福利资源站| 国产精品热久久久久夜色精品三区| 91亚洲男人天堂| 婷婷综合五月天| 久久噜噜亚洲综合| 成人一区二区三区| 久久久久久久综合狠狠综合| 国产精品一区二区91| 亚洲视频 欧洲视频| 欧美久久久一区| 国产黄色精品视频| 亚洲高清在线精品| 久久先锋资源网| 色猫猫国产区一区二在线视频| 亚洲五月六月丁香激情| 日本道免费精品一区二区三区| 亚洲午夜av在线| 久久只精品国产| 欧美亚洲一区二区三区四区| 九九九精品视频| 亚洲综合图片区| 久久综合一区二区| 欧美日韩精品一区二区三区四区 | 波多野结衣中文一区| 久久女同性恋中文字幕| 成人激情综合网站| 日本三级韩国三级欧美三级| 国产精品麻豆久久久| 日韩免费成人网| 91黄色小视频| 国产成人精品免费看| 视频在线在亚洲| 亚洲伦理在线免费看| 欧美色涩在线第一页| 五月婷婷色综合| 精品欧美久久久| 91女人视频在线观看| 国产裸体歌舞团一区二区| 亚洲大尺度视频在线观看| 国产精品三级视频| 精品免费日韩av| 欧美剧在线免费观看网站| 日欧美一区二区| 精品少妇一区二区三区日产乱码| 成人高清视频在线观看| 精品一区二区三区影院在线午夜| 亚洲电影视频在线| 国产精品福利一区| 国产无人区一区二区三区| 欧美日韩国产123区| 91蜜桃免费观看视频| 亚洲福利视频一区| 91麻豆精品国产自产在线 | 久久精品国产澳门| 亚洲国产三级在线| 亚洲男人都懂的| 国产精品污网站| 久久综合色8888| 日韩欧美在线影院| 91精品麻豆日日躁夜夜躁| 美女看a上一区| 日韩精品影音先锋| 欧美成人一区二区三区片免费 | 精彩视频一区二区三区| 五月婷婷久久丁香| 亚洲一区二区中文在线| 国产精品卡一卡二卡三| 欧美韩日一区二区三区四区| 91蜜桃免费观看视频| 一区二区在线看| 欧美国产亚洲另类动漫| 26uuu亚洲综合色欧美| 精品国产网站在线观看| 日韩一级黄色片| 日韩一区二区中文字幕| 欧美一卡二卡在线观看| jlzzjlzz欧美大全| 欧美另类一区二区三区| 欧美视频在线一区| 欧美男男青年gay1069videost| 91国偷自产一区二区开放时间 | 国产一区二区三区| 亚洲大片精品永久免费| 日韩一区在线免费观看| 国产精品久久久久毛片软件| 欧美国产欧美综合| 中文字幕不卡三区| 国产精品毛片高清在线完整版| 国产精品素人视频| 国产精品久久久久永久免费观看| 91成人网在线| 国产高清在线精品| 日本欧美久久久久免费播放网| 日本aⅴ精品一区二区三区| 青青草97国产精品免费观看| 青青草国产精品97视觉盛宴| 日韩av在线发布| 麻豆国产精品一区二区三区 | 亚洲国产精品一区二区尤物区| 夜夜嗨av一区二区三区四季av | 五月天欧美精品| 天堂av在线一区| 免费观看久久久4p| 久久www免费人成看片高清| 精品一区二区免费| 国产一区二区三区综合| 成人免费在线视频| 国产调教视频一区| 日韩视频一区二区在线观看| 欧美在线视频你懂得| 成人免费视频播放| 韩国欧美国产1区| 东方aⅴ免费观看久久av| 91丝袜美女网| 欧美色窝79yyyycom| 7777女厕盗摄久久久| 国产一区二区三区免费看| 亚洲特黄一级片| 国产乱子伦视频一区二区三区| 成人妖精视频yjsp地址| 欧美中文字幕一二三区视频| 欧美三级电影在线观看| 精品日韩成人av| 国产精品麻豆一区二区| 精品国产一区a| 日韩视频一区二区三区在线播放 | 精品精品国产高清a毛片牛牛 | 欧美电影免费观看高清完整版在线 | 欧美日本在线一区| 日韩午夜激情av| 欧美国产激情一区二区三区蜜月| 日本一区二区三区dvd视频在线| 中文字幕视频一区二区三区久| 日韩成人精品在线| 亚洲成人三级小说| 欧美韩国日本不卡|