Deepseek的專利揭秘，為什么能夠引爆AI界？

阿耐3個月前

#本文由作者授權(quán)發(fā)布，不代表IPRdaily立場，未經(jīng)作者許可，禁止轉(zhuǎn)載#

“DeepSeek一方面將大模型代碼及訓(xùn)練文檔全面開源，另一方面通過專利壁壘守護關(guān)鍵技術(shù)。”

來源：IPRdaily中文網(wǎng)（iprdaily.cn）

作者：佑斌

近日，中國AI企業(yè)深度求索（DeepSeek）在人工智能領(lǐng)域掀起技術(shù)風暴。其研發(fā)的大語言模型在多項基準測試中表現(xiàn)驚艷，不僅比肩或超越歐美頂尖模型，更以低一個數(shù)量級的訓(xùn)練成本實現(xiàn)這一突破。這場技術(shù)地震正在動搖AI發(fā)展范式——DeepSeek以超低成本實現(xiàn)超強性能的表現(xiàn)，直接挑戰(zhàn)了行業(yè)對“大算力=高性能”的傳統(tǒng)認知，甚至引發(fā)連鎖反應(yīng)：以英偉達為代表的AI芯片巨頭股價應(yīng)聲下跌，市場開始重新評估算力軍備競賽的商業(yè)邏輯。

值得關(guān)注的是，DeepSeek一方面將大模型代碼及訓(xùn)練文檔全面開源，另一方面通過專利壁壘守護關(guān)鍵技術(shù)。從AI專利分析平臺Maxipat檢索可見，其核心技術(shù)專利并未直接歸屬運營主體，而是分散布局于北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司、杭州幻方系公司（幻方科技/幻方人工智能基礎(chǔ)研究院）及寧波積冪信息科技等關(guān)聯(lián)企業(yè)。最新披露的專利CN118246542A，“人工智能模型訓(xùn)練數(shù)據(jù)集的構(gòu)建方法”，正是通過獨創(chuàng)的數(shù)據(jù)序列索引技術(shù)，實現(xiàn)了訓(xùn)練數(shù)據(jù)存儲與通信資源消耗量級下降，這或許正是其極致性價比的底層密碼。

從Maxipat的AI對話和解讀中可以獲知：

這項專利解決的技術(shù)問題是人工智能模型訓(xùn)練中數(shù)據(jù)集處理效率低下和資源消耗較大的問題，特別是在大規(guī)模數(shù)據(jù)集訓(xùn)練時，數(shù)據(jù)的混合、打亂及切分操作會導(dǎo)致存儲和通信資源的大量消耗。

核心技術(shù)方案是一種人工智能模型訓(xùn)練數(shù)據(jù)集的構(gòu)建方法，該方法包括將數(shù)據(jù)集劃分為若干大小相同的數(shù)據(jù)序列，以數(shù)據(jù)序列為單位建立索引，根據(jù)需求比例抽取樣本數(shù)據(jù)，將樣本數(shù)據(jù)以數(shù)據(jù)序列為單位混合并隨機打亂，將打亂后的樣本數(shù)據(jù)進行均勻切分得到若干個數(shù)據(jù)塊，每個數(shù)據(jù)塊包含若干個完整的數(shù)據(jù)序列，以及在每一步模型訓(xùn)練的數(shù)據(jù)輸入時，通過索引批量讀取相應(yīng)數(shù)據(jù)塊作為該步驟的模型訓(xùn)練數(shù)據(jù)。

技術(shù)優(yōu)勢在于，該方法通過將數(shù)據(jù)集切分為數(shù)據(jù)序列，并以數(shù)據(jù)序列為單位建立索引，實現(xiàn)了數(shù)據(jù)的按比例混合、打亂及切分操作，整個過程不會增加冗余數(shù)據(jù)存儲，從而有效減少了對存儲、通信資源的消耗，提高了數(shù)據(jù)處理的效率和模型訓(xùn)練的性能。

Deepseek的專利揭秘，為什么能夠引爆AI界？

Maxipat的AI對話和解讀

主要作用如下：

減少存儲與通信開銷：通過索引管理數(shù)據(jù)序列（而非物理修改數(shù)據(jù)），顯著降低冗余數(shù)據(jù)存儲需求，節(jié)省存儲硬件成本（如SSD、內(nèi)存占用）。異步I/O和批量讀取優(yōu)化了數(shù)據(jù)傳輸效率，減少網(wǎng)絡(luò)帶寬和存儲I/O的壓力，間接降低分布式訓(xùn)練中的通信成本。

提升GPU利用率：高效的數(shù)據(jù)加載（如異步I/O）減少了GPU等待數(shù)據(jù)的空閑時間，使GPU更專注于計算任務(wù)，提高單位GPU的利用率。數(shù)據(jù)預(yù)處理（混合、打亂、切分）通過邏輯操作完成，無需額外計算資源，減少對CPU或輔助硬件的依賴，釋放資源供GPU使用。

縮短訓(xùn)練周期：數(shù)據(jù)準備效率的提升（如快速采樣、動態(tài)調(diào)整比例）加速了迭代實驗過程，縮短整體訓(xùn)練時間。在相同時間內(nèi)，用更少的GPU即可完成原定任務(wù)，或更快釋放GPU資源供其他任務(wù)使用。

支持輕量化訓(xùn)練流程：通過邏輯索引管理，無需大規(guī)模數(shù)據(jù)復(fù)制或重組，降低對高性能存儲設(shè)備的依賴，使訓(xùn)練任務(wù)可在成本更低的硬件環(huán)境中運行。

Deepseek的專利揭秘，為什么能夠引爆AI界？

除北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司外，杭州幻方人工智能基礎(chǔ)研究有限公司、寧波積冪信息科技有限公司、杭州幻方科技有限公司、上海積冪科技有限公司等關(guān)聯(lián)企業(yè)累計公開16項核心技術(shù)專利，其中多項聚焦于大模型訓(xùn)練效率提升與系統(tǒng)穩(wěn)定性優(yōu)化。例如公開號CN112925640B，主題為一種集群訓(xùn)練節(jié)點分配方法、電子設(shè)備，解決的技術(shù)問題是在集群訓(xùn)練節(jié)點分配領(lǐng)域中存在的資源利用率低和訓(xùn)練任務(wù)報錯率高的問題，特別是在大規(guī)模機器學(xué)習(xí)訓(xùn)練任務(wù)中，如何高效地分配計算資源以減少任務(wù)的總體報錯率和故障率。CN118503194A，主題為一種多GPU集群網(wǎng)絡(luò)的RDMA并行數(shù)據(jù)傳輸方法，CN118075198A，主題為一種高速網(wǎng)絡(luò)拓撲結(jié)構(gòu)路徑規(guī)劃的方法及設(shè)備，解決的技術(shù)問題是大規(guī)模集群和分布式訓(xùn)練場景中網(wǎng)絡(luò)擁塞導(dǎo)致GPU算力失效的問題。

從deepseek披露的專利，我們通過Maxipat可以清晰梳理出其技術(shù)路線。

技術(shù)點1：網(wǎng)絡(luò)與硬件優(yōu)化

多平面RDMA通信（CN118612157A）：跨節(jié)點GPU直連，減少CPU依賴。胖樹網(wǎng)絡(luò)拓撲拆分（CN118250215A）：邏輯分塊優(yōu)化路徑，降低擁塞。多GPU動態(tài)調(diào)度（CN114780203A）：席位機制管理資源，避免沖突。網(wǎng)絡(luò)吞吐量提升，支持萬卡級集群訓(xùn)練。硬件利用率提高，故障率降低大幅度降低。

技術(shù)點2：數(shù)據(jù)存儲與處理

分布式異步IO存?。–N117707416A）：分片存儲+并行讀取，IO效率提升。無損壓縮技術(shù)（CN109787638B）：動態(tài)壓縮策略，存儲成本減少。智能數(shù)據(jù)集構(gòu)建（CN118246542A）：數(shù)據(jù)序列索引抽樣，冗余數(shù)據(jù)趨零。實現(xiàn)PB級數(shù)據(jù)加載速度提升，支持千億參數(shù)模型訓(xùn)練。

技術(shù)點3：分布式訓(xùn)練框架

異構(gòu)斷點續(xù)訓(xùn)（CN117669701A）：虛擬模型參數(shù)兼容不同并行策略。多GPU輪詢通信（CN118612158A）：均衡網(wǎng)絡(luò)負載，帶寬利用率提高。動態(tài)任務(wù)調(diào)度（CN114138441B）：優(yōu)先級+用戶權(quán)益多維度分配算力。實現(xiàn)千億模型訓(xùn)練效率提升，中斷恢復(fù)時間縮短至分鐘級。

技術(shù)點4：開發(fā)效率提升

云原生開發(fā)環(huán)境（CN115061725B）：環(huán)境一鍵同步，開發(fā)到訓(xùn)練無縫銜接。長鏈接容錯機制（CN116032999A）：動態(tài)重連策略，通信穩(wěn)定性99.99%。實現(xiàn)開發(fā)效率提升，支持AI+行業(yè)場景快速落地。

從底層網(wǎng)絡(luò)優(yōu)化到上層應(yīng)用落地，該公司通過高速通信、智能調(diào)度、高效數(shù)據(jù)工程、彈性訓(xùn)練框架，構(gòu)建了面向大語言模型的“端到端”技術(shù)體系，實現(xiàn)低成本、高可靠、超大規(guī)模的大語言模型的基礎(chǔ)設(shè)施能力。

所以冰凍三尺非一日之寒，Deepseek取得今天的成就并不是一蹴而就，而是長期的專注的研發(fā)的體現(xiàn)，相比對于很多大廠，Deepseek雖然是小公司，但對大語言模型的投入和技術(shù)研發(fā)的深度并不遜色。

（原標題：Deepseek的專利揭秘，為什么能夠引爆AI界？）

來源：IPRdaily中文網(wǎng)（iprdaily.cn）

作者：佑斌

編輯：IPRdaily辛夷校對：IPRdaily縱橫君

注：原文鏈接：Deepseek的專利揭秘，為什么能夠引爆AI界？（點擊標題查看原文）

Deepseek的專利揭秘，為什么能夠引爆AI界？

「關(guān)于IPRdaily」

IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商，致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人，還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶（國內(nèi)70余萬+海外近30萬），2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。

（英文官網(wǎng)：iprdaily.com 中文官網(wǎng)：iprdaily.cn）

本文來自IPRdaily中文網(wǎng)（iprdaily.cn）并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場，如若轉(zhuǎn)載，請注明出處：“http://globalwellnesspartner.com

Deepseek的專利揭秘，為什么能夠引爆AI界？

Deepseek的專利揭秘，為什么能夠引爆AI界？