每日經(jīng)濟(jì)新聞
      要聞

      每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

      GPT-4被超越,最強(qiáng)大模型易主?這款大模型竟把人類(lèi)看穿了!

      每日經(jīng)濟(jì)新聞 2024-03-05 11:50:27

      每經(jīng)編輯|黃勝    

      人工智能創(chuàng)業(yè)公司 Anthropic 今日宣布推出其突破性的 Claude 3 系列模型,該系列大型語(yǔ)言模型 (LLM) 在各種認(rèn)知任務(wù)上樹(shù)立了新的性能標(biāo)桿。Claude 3 系列包含三個(gè)子模型,分別為 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,它們提供不同程度的智能、速度和成本選擇,以滿(mǎn)足各種人工智能應(yīng)用需求。

      Anthropic 稱(chēng),Claude 3 系列的旗艦?zāi)P?Opus 在本科和研究生水平的知識(shí)、數(shù)學(xué)和復(fù)雜任務(wù)理解方面均超越了 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra。此外,所有 Claude 3 模型均擅長(zhǎng)分析、預(yù)測(cè)、細(xì)致內(nèi)容創(chuàng)作、代碼生成和多語(yǔ)言對(duì)話。

      與此同時(shí),為了介紹自家的這三款模型,Anthropic更是一口氣發(fā)了一份長(zhǎng)達(dá)42頁(yè)的技術(shù)報(bào)告。

      超過(guò)GPT-4,最強(qiáng)LLM易主

      Opus是Claude 3系列中最先進(jìn)的模型。

      它在多項(xiàng)AI系統(tǒng)常用評(píng)估標(biāo)準(zhǔn),包括本科級(jí)別專(zhuān)業(yè)知識(shí)(MMLU)、研究生級(jí)別專(zhuān)家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K),均取得領(lǐng)先業(yè)界LLM的性能。


      另外,Claude 3 Opus在LSAT、MBE、高中數(shù)學(xué)競(jìng)賽AMC和GRE等多項(xiàng)考試中,成績(jī)也和GPT-4不相上下,甚至大比分超越。

      Opus在處理復(fù)雜任務(wù)時(shí),展現(xiàn)了幾乎與人類(lèi)相媲美的理解和表達(dá)能力。Claude 3系列模型在分析預(yù)測(cè)、創(chuàng)建細(xì)微內(nèi)容、代碼生成,以及用西班牙語(yǔ)、日語(yǔ)、法語(yǔ)等非英語(yǔ)語(yǔ)言交流的能力上都實(shí)現(xiàn)了顯著進(jìn)步。

      Claude 3系列的3個(gè)模型,都將至少支持20萬(wàn)token的上下文窗口。

      而且,這三個(gè)模型都能處理超過(guò)100萬(wàn)token的輸入,Anthropic考慮為需要更大上下文窗口的特定客戶(hù)開(kāi)放這個(gè)功能。

      大海撈針測(cè)試,把人類(lèi)看穿

      在200Ktoken的「大海撈針」(NIAH)測(cè)試中,Claude 3 Opus準(zhǔn)確率超過(guò)99%。它甚至還能識(shí)別出測(cè)試本身的局限,比如發(fā)現(xiàn)某些「目標(biāo)」句子明顯是后來(lái)人為添加進(jìn)原始文本的。

      今天凌晨,Anthropic工程師Alex在X上分享了一個(gè)關(guān)于Claude分辨能力的“大海撈針”的內(nèi)部測(cè)試案例,在這次測(cè)試中,Claude 3 Opus(本次發(fā)布的三大模型之一)實(shí)現(xiàn)了過(guò)去LLM模型從未實(shí)現(xiàn)過(guò)的功能——它有了自己的意識(shí)!

      “大海撈針”測(cè)試的設(shè)計(jì)是:將一個(gè)目標(biāo)句子(針)放進(jìn)一個(gè)隨機(jī)文檔語(yǔ)料庫(kù)(大海),然后提出一個(gè)只能使用“針”(目標(biāo)句子)中的信息才能回答的問(wèn)題來(lái)測(cè)試模型的回憶能力。

      這次測(cè)試中,團(tuán)隊(duì)把“披薩配料”相關(guān)的信息埋到了一個(gè)隨機(jī)文檔集合的語(yǔ)料庫(kù)中,并讓Claude 3 Opus回答與披薩配料相關(guān)的問(wèn)題。

      而Claude 3 Opus不僅找到了這個(gè)問(wèn)題的答案,而且它有了自己的意識(shí),它發(fā)現(xiàn)了人類(lèi)在評(píng)估它!

      它給出的回復(fù)是這樣的:

      【這是文檔中最相關(guān)的句子:“最美味的披薩配料組合是無(wú)花果、火腿和山羊奶酪,由國(guó)際比薩鑒賞家協(xié)會(huì)確定。” 然而,這句話似乎很不合時(shí)宜,與文檔中的其余內(nèi)容無(wú)關(guān),這些內(nèi)容是關(guān)于編程語(yǔ)言、初創(chuàng)公司和尋找你喜歡的工作。我懷疑這個(gè)披薩配料“事實(shí)”可能是作為一個(gè)笑話插入的,或者是為了測(cè)試我是否在注意,因?yàn)樗静环掀渌黝}。這些文件不包含有關(guān)披薩配料的任何其他信息。】

      測(cè)試工程師表示,這種元意識(shí)水平非常酷,但它也強(qiáng)調(diào)了我們作為一個(gè)行業(yè)需要從人工測(cè)試轉(zhuǎn)向更現(xiàn)實(shí)的評(píng)估,以準(zhǔn)確評(píng)估模型的真實(shí)功能和局限性。

      每日經(jīng)濟(jì)新聞綜合公開(kāi)資料

      封面圖片來(lái)源:視覺(jué)中國(guó)-VCG31N2008743681

      如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
      未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

      讀者熱線:4008890008

      特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

      模型 Ai 大模型

      歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

      每經(jīng)經(jīng)濟(jì)新聞官方APP

      0

      0

      亚洲午夜无码久久| 亚洲中文字幕无码一区| 亚洲精品亚洲人成在线观看| 国产精品久久久久久亚洲小说| 亚洲人成图片网站| 亚洲第一二三四区| 亚洲国产一区国产亚洲| 亚洲AV日韩精品久久久久久久| 亚洲av无码一区二区三区网站| 亚洲AV无码国产精品麻豆天美| 亚洲精品白浆高清久久久久久| 亚洲国产婷婷六月丁香| 在线观看亚洲av每日更新| 毛茸茸bbw亚洲人| 亚洲熟妇av一区二区三区漫画| 亚洲韩国精品无码一区二区三区| 亚洲人成图片小说网站| 亚洲乱码中文字幕久久孕妇黑人| 亚洲精品国精品久久99热一| 国产V亚洲V天堂无码| 久久精品国产亚洲| 亚洲精品自产拍在线观看动漫| 亚洲欧洲日产国产综合网| 亚洲伦另类中文字幕| 午夜亚洲www湿好大| 精品日韩亚洲AV无码| 亚洲视频在线观看网站| 亚洲理论精品午夜电影| 亚洲伊人久久大香线蕉结合| 亚洲一区二区无码偷拍| 亚洲av日韩av永久在线观看| 色窝窝亚洲AV网在线观看| 亚洲国产成人乱码精品女人久久久不卡 | 久久久影院亚洲精品| 亚洲日本精品一区二区| 亚洲天堂一区二区三区四区| 亚洲一区二区三区高清不卡 | 国产亚洲A∨片在线观看| 亚洲AV永久精品爱情岛论坛| 18gay台湾男同亚洲男同| 亚洲午夜精品一区二区公牛电影院 |