每日經濟新聞
      要聞

      每經網首頁 > 要聞 > 正文

      梁文鋒、楊植麟論文“撞車”,直指算法優化,挑戰ChatGPT核心機制!風投公司RAI Digital聯合創始人:AI無需讀完整本書,將更快、更高效

      每日經濟新聞 2025-02-19 18:50:39

      2月18日,DeepSeek和月之暗面幾乎同時發布了最新的論文,主題均直指算法優化,挑戰Transformer架構最核心的注意力機制。值得注意的是,兩家公司的技術派明星創始人梁文鋒和楊植麟都出現在了論文作者之列。談及DeepSeek的最新NSA機制,風投公司RAI Digital聯合創始人薩義德·戈蘇斯對每經記者解釋稱,與馬斯克所追求的“大力出奇跡”不同,DeepSeek的新機制采用了三大主要技術,讓長文處理更高效。

      每經記者|岳楚鵬    每經編輯|蘭素英    

      梁文鋒 圖片來源:視覺中國

      北京時間2月18日,在馬斯克還在慶祝Grok 3模型正式發布的時候,DeepSeek官方在社交平臺X上發布了一篇純技術論文,主要是關于原生稀疏注意力(Native Sparse Attention,下稱NSA),直指ChatGPT等頂尖大模型背后的Transformer架構最核心的注意力機制。

      通過這一技術,DeepSeek不僅能將大語言模型處理64k長文本的速度最高提升11.6倍,更在通用基準測試中實現了對傳統全注意力模型(Full Attention models)的性能反超。

      值得注意的是,這篇論文是由DeepSeek創始人梁文鋒親自提交的,而且他也是作者之一。而就在DeepSeek發表這篇技術論文的同一天,月之暗面創始人楊植麟也“掛帥”發布了最新論文,主題同樣圍繞長文的算法優化。

      月之暗面提出的新方法叫塊注意力混合(Mixture of Block Attention,下稱MoBA)。這項方法沒有完全脫離現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力模型更多的適配空間。

      談及DeepSeek的NSA機制,風投公司RAI Digital聯合創始人薩義德·戈蘇斯對《每日經濟新聞》記者解釋稱,與馬斯克所追求的“大力出奇跡”不同,DeepSeek的新技術更強調通過算法優化來提升長文處理效率。他提到,NSA不會專注每個單詞,而是嘗試通過只關注重要的單詞來提升效率。

      DeepSeek發布新論文,梁文鋒參與并提交

      北京時間2月18日,DeepSeek官方在X上發布新論文,介紹了一種新的算法優化方式——原生稀疏注意力(NSA)。

      據DeepSeek介紹,NSA專為長文本訓練與推理設計,能利用動態分層稀疏策略等方法,通過針對現代硬件的優化設計,顯著優化傳統AI模型在訓練和推理過程中的表現,特別是提升長上下文的推理能力,在保證性能的同時提升了推理速度,并有效降低了預訓練成本。

      圖片來源:X

      通過這一技術,DeepSeek不僅能將大語言模型處理64k長文本的速度最高提升11.6倍,更在通用基準測試中實現了對傳統全注意力模型的性能反超。

      圖片來源:DeepSeek的X賬號

      值得注意的是,DeepSeek創始人梁文鋒也出現在了論文作者的行列當中,在作者排名中位列倒數第二,并且也是他親自提交至預印本網站上的

      圖片來源:arXiv

      論文的第一作者是DeepSeek的實習生袁景陽,他于2022年在北大獲得了學士學位,目前在北大的Anker Embodied AI實驗室繼續攻讀研究生學位。他也是DeepSeek-V3報告的主要作者之一,并參與了DeepSeek-R1的研究工作。 

      月之暗面再次“撞車”DeepSeek 

      無獨有偶,在DeepSeek發論文的當天,月之暗面創始人楊植麟也親自“掛帥”發表了一篇論文,同樣直指算法優化。

      楊植麟 圖片來源:視覺中國

      圖片來源:月之暗面

      該公司提出的新方法叫塊注意力混合(MoBA)。顧名思義,這一方法也運用了將詞變成塊的方法。不過,該方法沒有完全脫離現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力模型更多的適配空間。

      根據論文,MoBA的計算復雜度隨著上下文長度增加而優勢明顯。在1M token的測試中,MoBA比全注意力快了6.5倍;到10M token時,則提速16倍。而且,它已經在Kimi的產品中使用,用來處理日常用戶的超長上下文處理需求。

      而這也并不是DeepSeek和月之暗面第一次“撞車”了,上一次是在DeepSeek推理模型R1和月之暗面推理模型Kimi 1.5發布時。

      MoBA論文主要作者章明星教授笑稱,“有種‘掌中,亦一火字’的感覺(不討論誰是孔明,誰說周郎)。”他同時也感慨:“大模型這套架構最神奇的一點我感覺就是它似乎自己就指出了前進的路線,讓不同的人從不同的角度得出了相似的前進方向。”

      DeepSeek新方法背后的三大技術 

      談及DeepSeek的新方法,風投公司RAI Digital聯合創始人薩義德·戈蘇斯告訴每經記者,這是AI模型處理超長文本的新方法,比傳統方法更快、更高效。

      像ChatGPT這樣的大型語言模型,都使用一種叫“注意力”(Attention)機制的方法來處理文本,2017年谷歌研究員推出的論文《Attention Is All You Need》被認為是現在所有大模型的基石。

      戈蘇斯進一步向每經記者解釋道:“想象一下,你正在讀一本書。要理解一個句子,你不僅要看當前的單詞,還要回憶起前面句子中的相關單詞,以理解所有內容。AI使用注意力做類似的事情,這有助于它確定哪些詞是重要的,以及它們彼此之間的關系。傳統注意力機制(全注意力)會查看文本中的每個單詞,并將其與其他每個單詞進行比較。這對于短文本來說很好,但是當文本很長時(比如整本書或一份長的法律文件),這個過程就會變得太慢,而且在計算機上運行成本太高。”

      而DeepSeek論文中提到的稀疏注意力機制不會專注每個單詞,而是嘗試通過只關注重要的單詞來提升效率,就像是只讀摘要而不是整本書一樣。

      戈蘇斯對每經記者介紹說:“為了做好這一點,NSA引入了一種新方法來過濾不重要的單詞,同時仍保留足夠的上下文來理解完整含義。

      它使用三種主要技術來實現這一點:

      壓縮:NSA不會查看每個單詞,而是將單詞分組為“塊”,并為每個塊創建摘要。可以將其想象成將一個段落變成一個簡短的摘要。

      選擇:模型從文本中挑選出最應該關注的重要單詞。就像在學習時,只突出顯示教科書中的關鍵句子一樣。

      滑動窗口:盡管NSA總結并選擇了單詞,但它仍然會查看附近的單詞,以確保不會錯過細小但重要的細節。想象一下閱讀一本書——人們不會只是從一頁跳到下一頁而不瀏覽附近的句子。

      DeepSeek認為,三部分策略使NSA速度更快,同時理解含義的能力與傳統方法一樣好(甚至更好)。”

      圖片來源:DeepSeek

      有網友稱,這是在教會AI學會“聰明的偷懶”,像人類一樣聰明地分配注意力,從而讓長文的處理又快又準,不再是一個“死讀書的呆子”。雖然犧牲了一定的準確率,但是極大提升了效率,人腦就是這么干的。

      戈蘇斯還表示,DeepSeek這次不僅是單純的算法進步,它還對現有的計算機硬件進行了優化,以便GPU可以實現有效處理。

      有科技媒體指出,DeepSeek此次使用了Triton框架,而非英偉達專用庫,這或許暗示了其在模型研發階段已考慮適配更多類型的計算卡,為未來的開源和廣泛應用奠定了基礎。 

      如需轉載請與《每日經濟新聞》報社聯系。
      未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

      讀者熱線:4008890008

      特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

      楊植麟 DeepSeek Ai 大模型 Kimi 梁文鋒 月之暗面

      歡迎關注每日經濟新聞APP

      每經經濟新聞官方APP

      0

      0

      亚洲人成网网址在线看| 亚洲AV日韩AV天堂久久| 亚洲高清无在码在线电影不卡| 久久精品国产亚洲网站| 狠狠亚洲狠狠欧洲2019| 亚洲人成色7777在线观看不卡| 亚洲国产精品毛片av不卡在线| 蜜臀亚洲AV无码精品国产午夜.| 亚洲欧美成人综合久久久| 亚洲熟妇无码一区二区三区导航 | 亚洲日本一区二区三区在线| 亚洲综合色自拍一区| 亚洲日韩精品一区二区三区| 国产亚洲精品资源在线26u| 亚洲色精品aⅴ一区区三区| 亚洲午夜久久久影院| 亚洲精品国产美女久久久| 国产亚洲精AA在线观看SEE | 亚洲精品国产精品国自产网站| 亚洲国产精品成人精品软件| 亚洲成a人片在线观看中文app| 亚洲国产精品久久久久秋霞影院| 亚洲成人黄色在线观看| 激情内射亚洲一区二区三区爱妻| 77777亚洲午夜久久多喷| 亚洲一区二区三区在线网站| 亚洲三级在线观看| 亚洲av无码日韩av无码网站冲| 亚洲av无码成人精品国产| 国产亚洲精品免费| 中文字幕亚洲专区| 亚洲成色WWW久久网站| 亚洲人成网址在线观看| 亚洲综合色一区二区三区小说| 亚洲噜噜噜噜噜影院在线播放| 亚洲综合久久精品无码色欲| 亚洲AV无码专区在线电影成人| 亚洲成aⅴ人片久青草影院| 国产成人A亚洲精V品无码| 亚洲动漫精品无码av天堂| 亚洲网站免费观看|