1月12日晚間,中國人工智慧(AI)初創公司DeepSeek創始人梁文鋒與北京大學研究人員共同署名發表了一篇技術論文,提出了一種新的模型訓練技術。他們表示,該技術可以通過繞過圖形處理單元(GPU)記憶體限制,實現「參數的積極擴展」。觀察者網報導了前述訊息,隨後引發關注。
《南華早報》1月13日報導指出,此舉凸顯了DeepSeek在算力相對美國行業領先企業存在差距的情況下,持續專注於最大限度地提高成本效率。與此同時,外界猜測該公司將在今年春節之前發佈一款重要的新模型。
報導稱,這篇技術含量極高的論文將受到中國和美國業內人士的廣泛關注,他們希望從中瞭解DeepSeek所取得的最新進展。在過去一年中,DeepSeek一直是中國AI領域創新的典範。
據報導,在這篇題為《基於可擴展查找的條件記憶:大語言模型稀疏性的新維度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新論文中,介紹了一種名為「Engram」(記憶痕跡)的「條件記憶」(conditional memory)技術。
該技術用以解決擴大AI模型規模時的一個關鍵瓶頸——GPU高頻寬記憶體(HBM)容量有限的問題。
現有的大型語言模型(LLM)通過計算來檢索基礎信息,而這一過程需要大量的計算能力。然而,研究人員表示,這種方式浪費了寶貴的「序列深度」(sequential depth),這些「序列深度」本可以被分配用於更高層次推理的瑣碎操作。
《南華早報》指出,HBM是中國在AI硬體方面與美國之間最大的差距之一。韓國半導體行業分析機構SemiAnalysis的分析師Ray Wang表示,儘管近年來取得了穩步進展,但中國存儲晶片巨頭長鑫存儲(CXMT)仍然比韓國的三星電子和SK海力士以及美國的美光科技等行業領軍者落後數年。
在論文中,DeepSeek和北京大學的研究人員表示,通過將計算與存儲「解耦」,Engram可以讓模型更高效地「查找」這些基礎信息。
他們提到的新技術,還能夠提升模型在處理長上下文(即較長輸入)時的效率,而這正是將AI聊天機器人轉變為現實世界中有用的AI代理所面臨的最大挑戰之一。
研究人員在一個擁有270億個參數的模型中驗證了這一技術,發現它使主要行業基準測試的表現提升了幾個百分點。關鍵在於,這也為模型執行計算需求更高的複雜推理保留了更多容量。
他們寫道:「我們認為條件記憶將成為下一代稀疏模型中不可或缺的建模原語。」研究人員將Engram的潛在影響比作他們自己開發的一種「混合專家」(MoE)技術,該技術使模型規模的擴大無需按比例增加計算量,並且此後已被其他中國競爭對手採用。
目前,行業中最大的模型擁有數萬億個參數。開源開發者平台Hugging Face的研究工程師埃利·巴庫奇(Elie Bakouch)在社交媒體上對這篇論文大加稱贊,稱其「在推理和訓練時用硬件上驗證了這一技術」。
據報導,這篇論文列出了14位共同作者,除了梁文鋒之外,還包括北京大學王選計算機研究所助理教授、前微軟亞洲研究院首席研究員張輝帥。
去年年初,DeepSeek發佈的大模型DeepSeek-R1,使用由英偉達H800 GPU驅動的數據中心進行訓練,僅用兩個月就完成了訓練,成本為550萬美元,僅為OpenAI等美國公司所花費金額的一小部分。卻實現了足以匹敵美國頂尖AI模型的效果,震撼業界的同時引發多國關注,尤其是美國。
當地時間1月12日,據英國《金融時報》報導,微軟總裁布拉德·史密斯(Brad Smith)警告稱,在爭奪西方以外用戶的競爭中,美國AI公司正被中國競爭對手超越,中國低成本的「開源」模型是一大優勢所在。
他表示,中國AI初創公司DeepSeek的技術在非洲等新興市場快速普及,凸顯了美國公司在全球面臨的競爭。「我們必須認識到,與一年前不同,現在中國擁有一個,而且越來越多地擁有不止一個具有競爭力的開源模型。」
報導指出,史密斯發表這番言論之際,微軟的一項新研究發現,DeepSeek一年前發佈的R1大型語言模型,因其「易用性和低成本」,幫助加速了AI在全球範圍內的普及,尤其是在全球南方國家。這也讓中國在「開源」AI模型的全球市場份額方面超越了美國,這些模型通常可以免費供開發人員使用、修改和集成。
《南華早報》指出,在DeepSeek發佈其R1模型一週年之際,外界對其即將推出一款新的重要模型的期待正在升溫。美國矽谷的新興科技媒體「The Information」當地時間1月9日報導稱,DeepSeek預計將在今年2月中旬推出一款具備強大編程能力的新V4模型。