每日經(jīng)濟(jì)新聞
      要聞

      每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

      74年最高!研究稱GPT-4通過(guò)圖靈測(cè)試,54%參與者將其誤認(rèn)為真人

      每日經(jīng)濟(jì)新聞 2024-06-20 16:13:41

      ◎ 在圖靈測(cè)試中,有54%的參與者將GPT-4誤認(rèn)為是真人,是迄今為止首次有AI模型以如此高的結(jié)果通過(guò)圖靈測(cè)試。

      每經(jīng)記者|蔡鼎    每經(jīng)編輯|蘭素英    

      自英國(guó)計(jì)算機(jī)科學(xué)家阿蘭·圖靈(Alan Turing)于1950年提出關(guān)于判斷機(jī)器是否能夠思考的著名試驗(yàn)“圖靈測(cè)試”以來(lái),該測(cè)試就被視為判斷計(jì)算機(jī)是否具有模擬人類思維能力的關(guān)鍵。近期,OpenAI開(kāi)發(fā)的GPT-4模型完成了這項(xiàng)聞名全球的測(cè)試,再度引發(fā)廣泛關(guān)注。

      加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系博士生Cameron R. Jones和教授Benjamin K. Bergen在預(yù)印本arXiv上發(fā)表的最新論文表明,越來(lái)越多的人難以在圖靈測(cè)試中區(qū)分GPT-4和人類。

      圖片來(lái)源:arXiv論文

      兩位研究人員以真人、初代聊天機(jī)器人ELIZA、GPT-3.5和GPT-4為研究對(duì)象,試圖了解誰(shuí)在誘使人類參與者認(rèn)為它是人類方面表現(xiàn)最成功。結(jié)果顯示,多達(dá)54%的參與者將GPT-4誤認(rèn)為真人,是迄今為止首次有AI模型以如此高的結(jié)果通過(guò)圖靈測(cè)試。

      還需要指出的是,上述研究開(kāi)展之時(shí),OpenAI尚未宣布新一代的旗艦?zāi)P虶PT-4o,如果參與測(cè)試的是GPT-4o,這一比例可能還會(huì)更高。

      GPT-4通過(guò)圖靈測(cè)試,54%的人將其誤認(rèn)為真人

      上述研究人員招募了500名參與者,讓他們與四位“對(duì)話者”進(jìn)行五分鐘的交流,這四位“對(duì)話者”分別是真人、初代聊天機(jī)器人ELIZA、GPT-3.5和GPT-4。參與者在對(duì)話結(jié)束后需判斷對(duì)方是人還是機(jī)器。(注:ELIZA是由麻省理工團(tuán)隊(duì)在1964年至1966年期間開(kāi)發(fā)的史上第一個(gè)聊天機(jī)器人,上世紀(jì)60年代曾參與圖靈測(cè)試,但宣告失敗。該機(jī)器人沒(méi)有大語(yǔ)言模型或神經(jīng)網(wǎng)絡(luò)支持。)

      雙方將通過(guò)一個(gè)類似即時(shí)通訊應(yīng)用的界面進(jìn)行交流。界面底部有一個(gè)聊天輸入框,屏幕中央為對(duì)話記錄,頂部有一個(gè)計(jì)時(shí)器和觸發(fā)幫助和報(bào)告的按鈕。招募到的參與者首先發(fā)送消息,雙方交替發(fā)送,每條消息限制在一定的字符數(shù)內(nèi)。

      圖片來(lái)源:arXiv

      針對(duì)AI語(yǔ)言模型,研究人員基于表現(xiàn)最好的GPT-4命令集(提示詞)進(jìn)行了修改,指示其表現(xiàn)得像一個(gè)年輕人,不要太認(rèn)真對(duì)待游戲,使用口語(yǔ)化表述,且不要出現(xiàn)拼寫(xiě)和語(yǔ)法錯(cuò)誤。此外,AI模型也不能提供太多的知識(shí),尤其是語(yǔ)文和數(shù)學(xué)方面的知識(shí)。每輪測(cè)試開(kāi)始時(shí),還會(huì)添加一些額外的信息,如姓名、地點(diǎn)和時(shí)間戳。

      而且,為了模擬真實(shí)的交流延遲,AI的回復(fù)會(huì)根據(jù)消息的長(zhǎng)度人為地延遲發(fā)送。這種設(shè)置旨在模擬正常的人際交流節(jié)奏,增加實(shí)驗(yàn)的現(xiàn)實(shí)感。研究小組解釋稱,人類之所以不能百分之百地識(shí)別同類,是因?yàn)樘釂?wèn)者認(rèn)為AI的效率越來(lái)越高。這增加了他們將人類錯(cuò)誤地識(shí)別為機(jī)器的可能性。

      為了深入了解影響參與者最后作出決定的定性因素,研究小組對(duì)其使用的策略和判斷的理由進(jìn)行了分類。36%的參與者與“對(duì)話者”進(jìn)行閑聊,詢問(wèn)個(gè)人細(xì)節(jié)或他們的日常活動(dòng);第二類策略是社交和情感(25%),例如詢問(wèn)“對(duì)話者”的意見(jiàn)、經(jīng)歷并分析判斷它們的幽默感;第三類是知識(shí)和推理(13%),包括數(shù)學(xué)、邏輯和常識(shí)問(wèn)題。

      結(jié)果顯示,有54%的參與者將GPT-4誤認(rèn)為是真人。相比之下,預(yù)先設(shè)定好回復(fù)的ELIZA只有22%的人將其認(rèn)作真人,GPT-3.5則為50%,而“真人對(duì)話者被正確辨認(rèn)的比例則為67%。

      圖片來(lái)源:arXiv

      決策依據(jù)表明,社交情感能力是關(guān)鍵 

      《每日經(jīng)濟(jì)新聞》記者注意到,研究人員在論文中對(duì)“真人對(duì)話者”被正確辨認(rèn)的比例只有67%感到震驚。

      他們指出,這可能反映出參與者認(rèn)為AI系統(tǒng)質(zhì)量在不斷進(jìn)化,這一結(jié)果也與近年來(lái)其他類似的圖靈測(cè)試呈現(xiàn)的情況類似。當(dāng)AI系統(tǒng)能力很差時(shí),真人是很容易被辨別出來(lái)的,而隨著參與者對(duì)AI系統(tǒng)能力的信心增強(qiáng),他們便更有可能將真人誤認(rèn)為AI。

      作者在論文中指出,他們的結(jié)果為圖靈測(cè)試提供了一些經(jīng)驗(yàn)性證據(jù)。就他們使用的策略和給出的決策理由而言,被招募的參與者在測(cè)試中更關(guān)注的是研究對(duì)象在對(duì)話中的風(fēng)格和社交情感因素,而不是更傳統(tǒng)的智力類回答,例如知識(shí)和推理能力。他們認(rèn)為,這可能是因?yàn)閰⑴c者認(rèn)為,社交能力是成為機(jī)器最無(wú)法模仿的人類特征。

      GPT-4和GPT-3.5在測(cè)試中的表現(xiàn)雖然未達(dá)到“真人對(duì)話者”的水平,但目前AI研究者普遍認(rèn)為,只要有30%的回答被誤認(rèn)為是人類,那就算通過(guò)測(cè)試。不過(guò)也有觀點(diǎn)認(rèn)為,50%的基線更加合理,因?yàn)樗茏C明人類在識(shí)別AI方面并不具有偶然性。

      在上述研究中,參與者的置信度得分和決策依據(jù)都表明他們并非隨意猜測(cè):GPT-4是人類的平均置信度為73%。

      還需要指出的是,由于研究人員在進(jìn)行上述實(shí)驗(yàn)時(shí),OpenAI尚未宣布新一代的旗艦?zāi)P虶PT-4o。這一全新模型可以利用語(yǔ)音、視頻和文本信息進(jìn)行實(shí)時(shí)推理,如果參與測(cè)試,被參與者誤認(rèn)為人類的結(jié)果可能就會(huì)更高。

      圖靈測(cè)試是由英國(guó)計(jì)算機(jī)科學(xué)家阿蘭·圖靈(Alan Turing)于1950年在其論文《計(jì)算機(jī)器與智能》中提出的一個(gè)關(guān)于判斷機(jī)器是否能夠思考的著名試驗(yàn),測(cè)試某機(jī)器是否能表現(xiàn)出與人等同或無(wú)法區(qū)分的智能水平。1966年,美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)還以圖靈的名字設(shè)立了圖靈獎(jiǎng),被譽(yù)為“計(jì)算機(jī)界的諾貝爾獎(jiǎng)”,旨在獎(jiǎng)勵(lì)對(duì)計(jì)算機(jī)事業(yè)作出重要貢獻(xiàn)的個(gè)人,每年頒發(fā)一次。

      如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
      未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

      讀者熱線:4008890008

      特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

      GPT Ai 研究 OpenAI

      歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

      每經(jīng)經(jīng)濟(jì)新聞官方APP

      0

      0

      亚洲的天堂av无码| 无码国产亚洲日韩国精品视频一区二区三区 | 爱情岛论坛亚洲品质自拍视频网站 | 亚洲综合视频在线观看| 精品久久香蕉国产线看观看亚洲| 亚洲午夜AV无码专区在线播放| 亚洲av日韩片在线观看| jizzjizz亚洲日本少妇| 久久无码av亚洲精品色午夜| 亚洲av永久无码天堂网| 亚洲aⅴ无码专区在线观看| 亚洲av无码一区二区三区四区| 亚洲精品中文字幕无码A片老| 最新亚洲春色Av无码专区| 久久综合久久综合亚洲| 亚洲色偷偷偷综合网| 色欲aⅴ亚洲情无码AV蜜桃| 亚洲国产成人无码AV在线 | 亚洲久本草在线中文字幕| 亚洲天天在线日亚洲洲精| 亚洲一区精品中文字幕| 亚洲精品国产手机| 亚洲国产福利精品一区二区 | 国产精品亚洲w码日韩中文| 亚洲一区二区三区乱码A| 日本亚洲国产一区二区三区 | 亚洲理论电影在线观看| 亚洲AV午夜成人影院老师机影院| 久久久久亚洲AV无码专区首| 亚洲最大成人网色| 亚洲国产成人手机在线电影bd| 国产亚洲sss在线播放| 亚洲精品色播一区二区| heyzo亚洲精品日韩| 中文字幕日韩亚洲| 亚洲AV无码乱码国产麻豆穿越| 亚洲激情在线视频| 亚洲大片免费观看| 亚洲乱亚洲乱妇24p| 亚洲精品99久久久久中文字幕 | 精品亚洲成α人无码成α在线观看 |