要聞

每經網首頁 > 要聞 > 正文

專訪天壤創始人、CEO薛貴榮：別把大模型神話，要給它思考時間

每日經濟新聞 2023-09-27 23:24:56

◎天壤創始人、CEO薛貴榮表示：別把大模型神話，最好把它分拆下來，分成10步走，它就會非常好。通過這一輪大模型的輸出，變成下一輪的輸入，變成下一輪提示詞的一部分，你能拿到更好的結果。

每經記者｜朱成祥每經編輯｜張海妮

近日，天壤創始人、CEO薛貴榮在位于上海徐匯濱江的天壤總部接受了《每日經濟新聞》記者的專訪。

天壤創立于2016年，幾年間，從AI圍棋到用AI分析蛋白質結構，乃至設計蛋白質，天壤一直緊跟AI發展的潮流。進入大模型時代，在2023世界人工智能大會上，天壤也連發三款大模型產品。

如何使如今QA（一問一答）形式的大模型更容易使用呢？薛貴榮表示：“要把它（大模型）變成一個企業可用的東西，還需要加一層所謂的操作系統。目前大語言模型能跟人對話，已經很好了。但真正商用，還缺一層操作系統。”

圖片來源：每經記者劉雪梅攝（資料圖）

通用人工智能的起點

很多人第一次被AI震撼，是來自于其在圍棋領域的表現。

堯造圍棋，以教子丹朱。自圍棋發明以來，在這縱橫19路的棋盤上，上演了許多可歌可泣的故事。但這些故事，都是發生在人與人之間。

直到2016年3月，谷歌旗下DeepMind公司研發的“AlphaGo”與曾經的一代王者李世石激戰5盤，最終以4:1獲勝。人工智能第一次在圍棋項目上，戰勝了人類頂尖職業棋手。

這鼓舞了無數AI人。“當時大家都在想，是不是逼近了通用人工智能（AGI）。”薛貴榮回憶。

但很快，薛貴榮就發現AlphaGo這類模型的局限性，“那時我們做了一段時間，發現它的領域還是相對有限，是非常特定領域的小問題。相對于通用人工智能，還是比較小眾。”

因此，薛貴榮認為，這個東西（AlphaGo）可能是通用人工智能的起點。從算法角度，叫深度學習+強化學習。“我覺得這兩者（深度學習+強化學習）結合起來，能夠適應環境的變化，算法能夠作出自身的反應。”

于是，類似于AlphaGo的天壤AI圍棋誕生。記者查詢天壤官方微信發現，在2018年5月第一屆2050大會上，天壤AI圍棋擊敗了世界圍棋冠軍樸廷桓。

薛貴榮也講述了彼時的研發難度：一方面，算法的能力還比較有限，類似Transformer這樣的架構還未出現；其次算力水平也比較低，當時天壤買了很多V100；此外還有系統難題，分布式超大模型的訓練還沒有搞定。

對于系統難題，其詳細解釋道：“直白一點，現在就是給你100塊卡，讓你去訓練一個大的模型，你都算不出來。因為那時（指2017年、2018年）網絡、訓練體系都偏向于（用）一臺機器處理。這里面我們碰到非常多的系統問題，比如模型需要來回不斷傳輸，怎么把模型從這臺機器搬到另一臺機器。”

在算力有限、算法水平有限以及面臨眾多系統問題的背景下，天壤依然突破了AI圍棋模型。但這個過程也讓薛貴榮團隊認識到，通用人工智能可能真的要等一等。

“2018年，我們那時的結論是，得稍微等一等，這個技術沒有那么成熟，推動會很費力。”

這時，DeepMind推出了蛋白質預測模型AlphaFold。于是，天壤把方向轉向蛋白質結構分析。

現階段：別把大模型神話

在研究分析蛋白質結構的同時，天壤也緊盯著AI發展潮流。薛貴榮說道：“我們一直Follow（跟隨）兩家實驗室，DeepMind和OpenAI。因為這兩家實驗室的理念是一致的，即走向AGI（通用人工智能）。DeepMind是AI for Science，更偏研究性；而OpenAI更偏向工程化。”

2022年初，薛貴榮認為其蛋白質分析已經基本成型。在此背景下，天壤希望迎接全新的挑戰。于是，在研究了OpenAI的GPT后，把關注點投向大語言模型。

關于大模型，薛貴榮給出了他的見解。未來，大模型或許能通過提示詞直接生成文章。但是目前，有人寫了1000字的提示詞，仍然無法控制文章生成自己想要的方向。

對此，薛貴榮表示：“這種應用還是比較樸素的。我說的樸素是指，只是寫了提示詞，一下子（讓大模型）把文章搞出來。人做事都不是這樣子的。人類要是寫文章，首先是查詢資料；其次是資料整合；第三開始寫；第四修改。目前大模型沒有這方面（的）能力。”

薛貴榮也給出了他的解決方案：“首先幫你查資料；第二幫你整理資料；第三是擬文章的脈絡；第四把內容放進來，再去適當潤色；第五再檢查。”

其強調稱：“大語言模型的兩大準則，第一要盡可能清晰明了，不要帶很多假設讓它做事。你如果想假設，就把假設寫進去。第二，要給大模型時間思考。如果希望大模型一次性出結果，就沒有給它提供足夠的思考時間。”

薛貴榮進一步表示：“大家別把大模型神話，最好把它分拆下來，分成10步走，它就會非常好。”

簡而言之，通過大模型撰寫稿件，不要追求一步到位。

薛貴榮表示：“我們現在碰到企業，很多都希望一步到位。這是大家的理想。實際上，把問題分拆，會拿到更好的結果。比如說，1000多字的提示詞，這么長的提示詞本身就存在邏輯不自洽的東西。你寫（提示詞）的時候沒有感覺，但是從模型的角度一定會發現邏輯不自洽的東西。”

那么，是否可以通過連續提問，強化大模型對上下文的理解呢？對此，薛貴榮表示認可，并介紹了另一種方案。“通過這一輪大模型的輸出，變成下一輪的輸入，變成下一輪提示詞的一部分，你能拿到更好的結果。”

走向通用人工智能

對于如果使用大模型撰稿，薛貴榮認為應分三步走。第一步，先做Planning（規劃過程）；第二步梳理文章提綱；第三步，往里填充內容。但大部分都是機器完成，不是由作者完成，作者只是Planning。

薛貴榮笑稱：“其實我們人類，做很多事情是有Planning的，但當我們把問題給到GPT上，就變成一個QA。QA和Planning是兩回事，QA能解決一個Planning的事嗎？本來思維就是很復雜的事，你不能通過一個QA（解決問題），應該變成10次，甚至更多。”

記者想通過大模型解決寫文章的問題，企業同樣希望通過大模型獲得價值。“我覺得本質問題就是（大模型）對我們的價值。大模型一定要有用，而且要有核心的價值。”薛貴榮總結道。

但目前的大模型，仍然缺乏落地的應用。薛貴榮描述道：“今年ChatGPT確實提供了（AI）大腦。但只有一個腦，那是個植物人。今天的大語言模型，我覺得一定程度上，還得配上手和腳，還得有個軀干。目前大模型沒有軀干，沒有手、沒有腳。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

大模型薛貴榮天壤

上一篇文章

交易異動！雙鷺藥業：近3個交易日上漲25.7%，無未披露的重大信息

返回每經網首頁

下一篇文章

注意！宸展光電將于10月13日召開股東大會

熱文精選

點擊排行

歡迎關注每日經濟新聞APP