要聞

中國開源參與者數(shù)量位居世界前列大模型開源生態(tài)逐漸形成

每日經濟新聞 2024-09-30 09:51:46

◎近日，“2024開放原子開源生態(tài)大會”在北京舉行。會議現(xiàn)場，人工智能開源的利弊、為何開源等話題再次引發(fā)了與會企業(yè)家及學者的討論。有業(yè)內人士表示，就大模型的發(fā)展來說，中文數(shù)據(jù)，尤其是高質量的中文數(shù)據(jù)還是很欠缺，開源則可彌補這個問題。

每經記者｜楊卉每經編輯｜文多

大模型崛起以來，關于它是否要開源的討論就始終未停歇。Meta、谷歌、阿里云、零一萬物等“開源派”代表，陸續(xù)推出了各自的“開源”大模型，或采用Apache 2.0等常見的開源軟件許可證進行許可，或采用自行定制的模型許可證進行許可。OpenAI、字節(jié)跳動、百度等“閉源派”代表，則通過閉源形式研發(fā)自己的大模型，加速商業(yè)化進程。

伴隨開源陣營逐漸壯大，其生態(tài)也得以展現(xiàn)。近日，“2024開放原子開源生態(tài)大會”在北京舉行。會議現(xiàn)場，人工智能開源的利弊、為何開源等話題再次引發(fā)了與會企業(yè)家及學者的討論。模式之爭的背后，是關于如何平衡技術創(chuàng)新、商業(yè)利益、社區(qū)參與和市場競爭力的討論。

開源能實現(xiàn)快速的迭代試錯

顧名思義，開源是指一種軟件開發(fā)模式，即源代碼免費公布，開發(fā)者可自由下載、修改、分發(fā)，進而反饋軟件Bug（軟件缺陷或錯誤），提出優(yōu)化建議。從目前我國的開源進展來看，根據(jù)工業(yè)和信息化部部長金壯龍在會議期間的介紹，近年來，中國扎實構建國內開源體系，支持設立開放原子開源基金會，搭建起國內外交流、產學研合作的重要平臺。其中，開源歐拉社區(qū)匯聚貢獻者2萬余人，用戶數(shù)量超過350萬；開源鴻蒙項目吸引340余家生態(tài)單位共建，搭載設備數(shù)量超過9億臺，木蘭中文開源許可協(xié)議實現(xiàn)國際通用。目前，我國開源參與者數(shù)量、增長速度均位居世界前列。

開源模型，是指可免費使用、公布了模型參數(shù)等技術細節(jié)的模型。開放原子開源基金會在此次大會期間正式發(fā)布了開放原子模型許可證第一版（OpenAtom Model License, Version 1.0），可為大模型應用提供由基金會中立維護、任何人均可自由選用的開放許可證。

在中國科學院軟件研究所副總工江大勇看來，自1991年Linux創(chuàng)始人首次發(fā)布其操作系統(tǒng)版本以來，系統(tǒng)已從最初的僅含1萬行代碼，發(fā)展到如今的內核規(guī)模達3000萬行代碼，展現(xiàn)了開源軟件的生機與潛力。

“GPT發(fā)展這么快速，單月就發(fā)展到億級用戶，這是歷史上從來沒有的。它為什么能夠發(fā)展這么快？很關鍵的原因是開源推動快速迭代、快速試錯。”在江大勇看來，通過開源的方式實現(xiàn)快速迭代試錯，也是AI的主流技術路線之一。

開放原子開源基金會秘書長助理兼運營部部長李博也認為，開源正逐漸成為推動AI技術進步的重要途徑，開源數(shù)據(jù)集的提供降低了研究和應用的門檻，使得更多的研究人員、初創(chuàng)公司能夠參與到人工智能的研究之中，共享數(shù)據(jù)、共擔算力、共建算法。

不過，開源和閉源究竟哪個所需的成本更低，業(yè)內始終爭論不休。今年4月，百度創(chuàng)始人李彥宏曾公開表示：“大家以前用開源覺得開源便宜，其實在大模型場景下，開源是最貴的。”

在江大勇看來，大模型時代與過去工業(yè)時代“十年磨一劍”不同，如今通過開源的方式可更快實現(xiàn)自身的產品迭代和生態(tài)覆蓋，解決單一主體創(chuàng)新成本過高的問題。“開源后每個人的智能結合在一起，會出現(xiàn)（智力）涌現(xiàn)，這也是大模型的特點。通過去中心化的協(xié)作，激發(fā)各主體創(chuàng)新效率和創(chuàng)新質量。”江大勇稱。

計算架構下，AI發(fā)展仍面臨三大困境

與會期間，不少企業(yè)及專家還表示，其實人工智能開源是很多企業(yè)基于實際情況必須做出的選擇。

中國電信天翼云產品專家、魔樂社區(qū)負責人李寶龍就直言，在國內做人工智能，首先要面對AI中文可用資源匱乏的問題。“不是AI中文資源匱乏，是可用資源匱乏。舉個例子，前段時間GPT出來的時候，國內訓練了一個大模型并開放出來測試，但是需要輸入中文以后翻譯成英文，生成后再翻譯回中文。”

北京智源研究院副院長林泳華也表示，就大模型的發(fā)展來說，中文數(shù)據(jù)，尤其是高質量的中文數(shù)據(jù)還是很欠缺，開源則可彌補這個問題。

除了訓練數(shù)據(jù)不足，江蘇潤開鴻數(shù)字科技有限公司副總裁于大伍介紹，從計算架構來看，當下AI發(fā)展面臨三個困境——訓練與推理高能耗、計算架構與軟硬件生態(tài)封閉、算力系統(tǒng)復雜度高，這導致投入產出比低。與此同時，操作系統(tǒng)還面臨著重、笨、雜的問題。

“我們私底下在想該怎么解決這些問題，想了很多辦法，最后我們覺得，一個比較好的載體是社區(qū)。”于大伍表示。

不過，談到做社區(qū)，業(yè)內不少人認為，社區(qū)形式無法讓AI技術快速變現(xiàn)，會影響商業(yè)化。對此，于大伍持有不同觀點。

“其實大家做開源就知道，開源跟商業(yè)是螺旋向上的發(fā)展（關系），所以社區(qū)一定要跟商業(yè)很好地結合。我們現(xiàn)在想的是，社區(qū)匯聚了國產AI全產業(yè)鏈的能力，但社區(qū)不提供商業(yè)化的服務，而是依托成員單位提供這樣的服務。在這種感召下，會有很多的開發(fā)者愿意分享。”于大伍說。

如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

開源模型生態(tài)

上一篇文章

富時中國A50指數(shù)期貨轉跌，此前一度漲超3%

返回每經網(wǎng)首頁

下一篇文章

滬銀主力合約日內走低2%