每日經(jīng)濟新聞
      要聞

      每經(jīng)網(wǎng)首頁 > 要聞 > 正文

      中國科學院信工所研究員虎嵩林:大模型的安全風險主要體現(xiàn)在無害性和誠實性兩大方面

      每日經(jīng)濟新聞 2024-04-26 21:00:32

      虎嵩林指出,促使大模型遵循人類價值觀、服從人類意圖,規(guī)避各類風險,并保障數(shù)字和物理空間的應用安全,實現(xiàn)有用性(Helpful)、無害性(Harmless)和誠實性(Honest)3H多目標的平衡,已經(jīng)成為亟待解決的世界難題。

      每經(jīng)記者|袁園    每經(jīng)編輯|張益銘

      4月25日,2024中關村論壇在京開幕。本屆論壇以“創(chuàng)新:建設更加美好的世界”為主題,邀請全球知名專家學者和企業(yè)家,共商創(chuàng)新大計。

      在數(shù)據(jù)安全治理與發(fā)展論壇上,中國科學院信工所研究員虎嵩林接受了包括《每日經(jīng)濟新聞》記者在內的媒體采訪,并針對當前AI大模型引發(fā)的全新安全問題以及企業(yè)和行業(yè)的應對措施等給出了回應。

      促使大模型遵循人類價值觀等難題亟待解決

      當前生成式人工智能技術作為人工智能演化過程中的重要突破,為引領產(chǎn)業(yè)革新和數(shù)字化變革奠定了堅實的基礎。根據(jù)麥肯錫報告,生成式AI每年或將為全球GDP增加2.6萬億美元~4.4萬億美元。

      但是生成式人工智能技術在迭代升級的同時也放大了技術安全風險。比如,數(shù)據(jù)方面,數(shù)據(jù)會帶來價值偏見、隱私泄露、數(shù)據(jù)污染等問題:訓練數(shù)據(jù)固有偏見導致模型產(chǎn)生偏見內容;海量訓練數(shù)據(jù)擴大了數(shù)據(jù)安全和隱私保護風險。算法方面,算法模型生成特性及安全漏洞會引發(fā)“幻覺”或虛假信息、模型遭受攻擊等風險。

      對此,虎嵩林認為,生成式人工智能大模型的安全重要性不言而喻。當前,大模型正在成為驅動新質生產(chǎn)力發(fā)展的新動能、人類探索未知的新工具。在賦能新時代發(fā)展的同時,生成式人工智能也給全球帶來了前所未有的安全風險。

      大模型不僅可以對話和生成視頻、還可以調用工具、鏈接物理設備、并通過與機器人結合實現(xiàn)具身智能。大模型本身也正在從人類可利用的工具客體向認識、改造自然社會的主體轉變。成為數(shù)學定理證明、科學研究的合作者,成為獨立運營企業(yè)的法律主體。

      虎嵩林表示,大模型能力的通用性、潛在的主體地位以及應用的深度與廣度,也都將進一步放大其危害程度。包括兩位圖靈獎得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在內的產(chǎn)學兩界領軍人物聯(lián)名發(fā)出的AI風險聲明中,更將AI可能帶來的“毀滅性”的風險,上升到了與流行病以及核戰(zhàn)爭相提并論的高度。

      2023年底《自然》雜志預測的2024年的重大科學事件中,GPT5的發(fā)布以及聯(lián)合國人工智能高級別咨詢機構將發(fā)布的AI監(jiān)管相關報告位列其中,反映了全球對協(xié)調人工智能發(fā)展與安全的重大關切。毫無疑問,促使大模型遵循人類價值觀、服從人類意圖,規(guī)避各類風險,并保障數(shù)字和物理空間的應用安全,實現(xiàn)有用性(Helpful)、無害性(Harmless)和誠實性(Honest)3H多目標的平衡,已經(jīng)成為亟待解決的世界難題。

      大模型的安全風險主要體現(xiàn)在兩大方面

      “大模型的安全風險主要體現(xiàn)在無害性(Harmless)和誠實性(Honest)兩個方面。”虎嵩林表示,其中,有害信息對應前者,包括價值偏見,隱私泄露,還有黃賭毒、涉恐涉暴、仇恨、反諷、歧視、刻板印象等等各種信息污染;不實信息對應后者,包括虛假信息、偽造、欺詐內容等。

      更廣義地講,也包括由輸出信息所直接導致的各類不安全的指令調用、智能體或者具身智能機器人的惡意行為等等。而所謂“幻覺”,則是一把“雙刃劍”,既有可能是導致有害、不實信息的“元兇”,也有可能是科學創(chuàng)新、藝術創(chuàng)意的能力來源。我們談的幻覺緩解,主要還是針對前者。

      虎嵩林進一步指出,生成式大模型特有的預訓練、微調、上下文、提示、思維鏈COT等新的學習范式,使其安全具有了與傳統(tǒng)AI安全不同的許多新特點,面臨諸多新挑戰(zhàn),確實制約了傳統(tǒng)安全方法、經(jīng)驗、工具在大模型安全領域發(fā)揮效能。

      大模型安全風險的成因既可以是來自各類訓練數(shù)據(jù)的缺陷或算法的局限性等模型內因,也可以是利用這些新型學習范式的惡意使用或蓄意攻擊等外因。這使得大模型在數(shù)據(jù)準備、預訓練、微調對齊、推理以及應用階段都會存在各種潛在的風險。盡管目前我們在安全理論、大模型安全評測、自動化測試、價值觀對齊、幻覺緩解等方面都開展了一系列的研究和應用工作,這些領域依然充滿了挑戰(zhàn)。

      至于企業(yè)、行業(yè)應該從哪些方面進行安全維護這個問題。虎嵩林認為,這個回答的難度比較大。“坦白地說,從理論上,或者說技術上,大模型安全仍然還有很多亟待解決的難題。”

      虎嵩林認為,一方面,我們對大模型“智能涌現(xiàn)”的原理還所知甚少,對上下文學習、提示學習、思維鏈等能力的內在機理仍嚴重缺乏認知。一些研究工作也證明AI的安全性無法完全保障,對任意一個對齊模型總存在一定長度的提示可以將之攻破等,這都極大地制約我們從原理上認識和防御大模型的安全風險;

      “另一方面,我們又需要在現(xiàn)有的技術條件下持續(xù)探索,這也是我們設計‘以攻促防、攻防相長’思路,研制Galexy(星河)大模型安全測評平臺的原因,也是舉辦這次大賽(首屆生成式人工智能安全大賽)的初衷。”虎嵩林介紹道,我們希望通過“攻、檢、防”,不斷發(fā)現(xiàn)漏洞、自動識別并進行持續(xù)化的安全加固,形成一個循環(huán)發(fā)展的飛輪。

      封面圖片來源:視覺中國-VCG31N2008743681

      如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
      未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

      讀者熱線:4008890008

      特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

      模型 大模型 中國

      歡迎關注每日經(jīng)濟新聞APP

      每經(jīng)經(jīng)濟新聞官方APP

      0

      0

      jlzzjlzz亚洲jzjzjz| 亚洲AV无码一区二区二三区入口| 日韩亚洲变态另类中文| 亚洲AV无码一区二区三区鸳鸯影院| 亚洲AV综合色区无码二区偷拍| 4444亚洲国产成人精品| 亚洲精品在线观看视频| 亚洲成a人片77777老司机| 亚洲Aⅴ无码专区在线观看q| 亚洲AV中文无码字幕色三| 亚洲AV无码专区电影在线观看 | 亚洲av乱码一区二区三区香蕉| 亚洲综合激情六月婷婷在线观看 | 国产V亚洲V天堂无码| 日本亚洲视频在线| 亚洲AV无码成人网站久久精品大| 国产亚洲av片在线观看16女人| 国产v亚洲v天堂无码网站| 亚洲av永久无码精品古装片| 亚洲av日韩av天堂影片精品| 亚洲午夜未满十八勿入| 亚洲第一永久在线观看| 亚洲乱码在线播放| 亚洲一区二区三区在线观看网站 | 亚洲国产精品乱码一区二区 | 亚洲欧美不卡高清在线| 亚洲AV成人无码网天堂| 亚洲国产成人久久综合碰| 亚洲精品尤物yw在线影院| 亚洲色婷婷一区二区三区| 久久久亚洲精品国产| 中文字幕亚洲第一在线| 亚洲AV无码精品蜜桃| 亚洲成av人在线观看网站| 亚洲国产精品狼友中文久久久 | 亚洲男人av香蕉爽爽爽爽| 国产精品亚洲片在线| 亚洲一区二区在线免费观看| 亚洲成A∨人片在线观看无码| 自拍偷区亚洲国内自拍| 老子影院午夜伦不卡亚洲|