行業(yè)行業(yè)
#本文由作者授權(quán)發(fā)布,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#
“DeepSeek一方面將大模型代碼及訓(xùn)練文檔全面開源,另一方面通過專利壁壘守護(hù)關(guān)鍵技術(shù)。”
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:佑斌
近日,中國AI企業(yè)深度求索(DeepSeek)在人工智能領(lǐng)域掀起技術(shù)風(fēng)暴。其研發(fā)的大語言模型在多項(xiàng)基準(zhǔn)測試中表現(xiàn)驚艷,不僅比肩或超越歐美頂尖模型,更以低一個(gè)數(shù)量級的訓(xùn)練成本實(shí)現(xiàn)這一突破。這場技術(shù)地震正在動(dòng)搖AI發(fā)展范式——DeepSeek以超低成本實(shí)現(xiàn)超強(qiáng)性能的表現(xiàn),直接挑戰(zhàn)了行業(yè)對“大算力=高性能”的傳統(tǒng)認(rèn)知,甚至引發(fā)連鎖反應(yīng):以英偉達(dá)為代表的AI芯片巨頭股價(jià)應(yīng)聲下跌,市場開始重新評估算力軍備競賽的商業(yè)邏輯。
值得關(guān)注的是,DeepSeek一方面將大模型代碼及訓(xùn)練文檔全面開源,另一方面通過專利壁壘守護(hù)關(guān)鍵技術(shù)。從AI專利分析平臺Maxipat檢索可見,其核心技術(shù)專利并未直接歸屬運(yùn)營主體,而是分散布局于北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司、杭州幻方系公司(幻方科技/幻方人工智能基礎(chǔ)研究院)及寧波積冪信息科技等關(guān)聯(lián)企業(yè)。最新披露的專利CN118246542A,“人工智能模型訓(xùn)練數(shù)據(jù)集的構(gòu)建方法”,正是通過獨(dú)創(chuàng)的數(shù)據(jù)序列索引技術(shù),實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)存儲與通信資源消耗量級下降,這或許正是其極致性價(jià)比的底層密碼。
從Maxipat的AI對話和解讀中可以獲知:
這項(xiàng)專利解決的技術(shù)問題是人工智能模型訓(xùn)練中數(shù)據(jù)集處理效率低下和資源消耗較大的問題,特別是在大規(guī)模數(shù)據(jù)集訓(xùn)練時(shí),數(shù)據(jù)的混合、打亂及切分操作會導(dǎo)致存儲和通信資源的大量消耗。
核心技術(shù)方案是一種人工智能模型訓(xùn)練數(shù)據(jù)集的構(gòu)建方法,該方法包括將數(shù)據(jù)集劃分為若干大小相同的數(shù)據(jù)序列,以數(shù)據(jù)序列為單位建立索引,根據(jù)需求比例抽取樣本數(shù)據(jù),將樣本數(shù)據(jù)以數(shù)據(jù)序列為單位混合并隨機(jī)打亂,將打亂后的樣本數(shù)據(jù)進(jìn)行均勻切分得到若干個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊包含若干個(gè)完整的數(shù)據(jù)序列,以及在每一步模型訓(xùn)練的數(shù)據(jù)輸入時(shí),通過索引批量讀取相應(yīng)數(shù)據(jù)塊作為該步驟的模型訓(xùn)練數(shù)據(jù)。
技術(shù)優(yōu)勢在于,該方法通過將數(shù)據(jù)集切分為數(shù)據(jù)序列,并以數(shù)據(jù)序列為單位建立索引,實(shí)現(xiàn)了數(shù)據(jù)的按比例混合、打亂及切分操作,整個(gè)過程不會增加冗余數(shù)據(jù)存儲,從而有效減少了對存儲、通信資源的消耗,提高了數(shù)據(jù)處理的效率和模型訓(xùn)練的性能。
Maxipat的AI對話和解讀
主要作用如下:
減少存儲與通信開銷:通過索引管理數(shù)據(jù)序列(而非物理修改數(shù)據(jù)),顯著降低冗余數(shù)據(jù)存儲需求,節(jié)省存儲硬件成本(如SSD、內(nèi)存占用)。異步I/O和批量讀取優(yōu)化了數(shù)據(jù)傳輸效率,減少網(wǎng)絡(luò)帶寬和存儲I/O的壓力,間接降低分布式訓(xùn)練中的通信成本。
提升GPU利用率:高效的數(shù)據(jù)加載(如異步I/O)減少了GPU等待數(shù)據(jù)的空閑時(shí)間,使GPU更專注于計(jì)算任務(wù),提高單位GPU的利用率。數(shù)據(jù)預(yù)處理(混合、打亂、切分)通過邏輯操作完成,無需額外計(jì)算資源,減少對CPU或輔助硬件的依賴,釋放資源供GPU使用。
縮短訓(xùn)練周期:數(shù)據(jù)準(zhǔn)備效率的提升(如快速采樣、動(dòng)態(tài)調(diào)整比例)加速了迭代實(shí)驗(yàn)過程,縮短整體訓(xùn)練時(shí)間。在相同時(shí)間內(nèi),用更少的GPU即可完成原定任務(wù),或更快釋放GPU資源供其他任務(wù)使用。
支持輕量化訓(xùn)練流程:通過邏輯索引管理,無需大規(guī)模數(shù)據(jù)復(fù)制或重組,降低對高性能存儲設(shè)備的依賴,使訓(xùn)練任務(wù)可在成本更低的硬件環(huán)境中運(yùn)行。
除北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司外,杭州幻方人工智能基礎(chǔ)研究有限公司、寧波積冪信息科技有限公司、杭州幻方科技有限公司、上海積冪科技有限公司等關(guān)聯(lián)企業(yè)累計(jì)公開16項(xiàng)核心技術(shù)專利,其中多項(xiàng)聚焦于大模型訓(xùn)練效率提升與系統(tǒng)穩(wěn)定性優(yōu)化。例如公開號CN112925640B,主題為一種集群訓(xùn)練節(jié)點(diǎn)分配方法、電子設(shè)備,解決的技術(shù)問題是在集群訓(xùn)練節(jié)點(diǎn)分配領(lǐng)域中存在的資源利用率低和訓(xùn)練任務(wù)報(bào)錯(cuò)率高的問題,特別是在大規(guī)模機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)中,如何高效地分配計(jì)算資源以減少任務(wù)的總體報(bào)錯(cuò)率和故障率。CN118503194A,主題為一種多GPU集群網(wǎng)絡(luò)的RDMA并行數(shù)據(jù)傳輸方法,CN118075198A,主題為一種高速網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)路徑規(guī)劃的方法及設(shè)備,解決的技術(shù)問題是大規(guī)模集群和分布式訓(xùn)練場景中網(wǎng)絡(luò)擁塞導(dǎo)致GPU算力失效的問題。
從deepseek披露的專利,我們通過Maxipat可以清晰梳理出其技術(shù)路線。
技術(shù)點(diǎn)1:網(wǎng)絡(luò)與硬件優(yōu)化
多平面RDMA通信(CN118612157A):跨節(jié)點(diǎn)GPU直連,減少CPU依賴。胖樹網(wǎng)絡(luò)拓?fù)洳鸱郑–N118250215A):邏輯分塊優(yōu)化路徑,降低擁塞。多GPU動(dòng)態(tài)調(diào)度(CN114780203A):席位機(jī)制管理資源,避免沖突。網(wǎng)絡(luò)吞吐量提升,支持萬卡級集群訓(xùn)練。硬件利用率提高,故障率降低大幅度降低。
技術(shù)點(diǎn)2:數(shù)據(jù)存儲與處理
分布式異步IO存取(CN117707416A):分片存儲+并行讀取,IO效率提升。無損壓縮技術(shù)(CN109787638B):動(dòng)態(tài)壓縮策略,存儲成本減少。智能數(shù)據(jù)集構(gòu)建(CN118246542A):數(shù)據(jù)序列索引抽樣,冗余數(shù)據(jù)趨零。實(shí)現(xiàn)PB級數(shù)據(jù)加載速度提升,支持千億參數(shù)模型訓(xùn)練。
技術(shù)點(diǎn)3:分布式訓(xùn)練框架
異構(gòu)斷點(diǎn)續(xù)訓(xùn)(CN117669701A):虛擬模型參數(shù)兼容不同并行策略。多GPU輪詢通信(CN118612158A):均衡網(wǎng)絡(luò)負(fù)載,帶寬利用率提高。動(dòng)態(tài)任務(wù)調(diào)度(CN114138441B):優(yōu)先級+用戶權(quán)益多維度分配算力。實(shí)現(xiàn)千億模型訓(xùn)練效率提升,中斷恢復(fù)時(shí)間縮短至分鐘級。
技術(shù)點(diǎn)4:開發(fā)效率提升
云原生開發(fā)環(huán)境(CN115061725B):環(huán)境一鍵同步,開發(fā)到訓(xùn)練無縫銜接。長鏈接容錯(cuò)機(jī)制(CN116032999A):動(dòng)態(tài)重連策略,通信穩(wěn)定性99.99%。實(shí)現(xiàn)開發(fā)效率提升,支持AI+行業(yè)場景快速落地。
從底層網(wǎng)絡(luò)優(yōu)化到上層應(yīng)用落地,該公司通過高速通信、智能調(diào)度、高效數(shù)據(jù)工程、彈性訓(xùn)練框架,構(gòu)建了面向大語言模型的“端到端”技術(shù)體系,實(shí)現(xiàn)低成本、高可靠、超大規(guī)模的大語言模型的基礎(chǔ)設(shè)施能力。
所以冰凍三尺非一日之寒,Deepseek取得今天的成就并不是一蹴而就,而是長期的專注的研發(fā)的體現(xiàn),相比對于很多大廠,Deepseek雖然是小公司,但對大語言模型的投入和技術(shù)研發(fā)的深度并不遜色。
(原標(biāo)題:Deepseek的專利揭秘,為什么能夠引爆AI界?)
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:佑斌
編輯:IPRdaily辛夷 校對:IPRdaily縱橫君
注:原文鏈接:Deepseek的專利揭秘,為什么能夠引爆AI界?(點(diǎn)擊標(biāo)題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負(fù)責(zé)人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://globalwellnesspartner.com
文章不錯(cuò),犒勞下辛苦的作者吧