#文章僅代表作者觀點(diǎn),文章不代表IPRdaily立場#
發(fā)布:IPRdaily中文網(wǎng)(IPRdaily.cn)
作者:吳飛 上海微電子裝備(集團(tuán))股份有限公司 創(chuàng)新業(yè)務(wù)主管
供稿:企業(yè)國際化智庫
原標(biāo)題:十萬專利,彈指一揮!論專利智能分析和可視化方法之道
在科技高速發(fā)展的當(dāng)代,無論是企業(yè)新產(chǎn)品開發(fā)或是科技人員研究創(chuàng)新,所面臨的主要問題并不是信息太少,而是信息太多。以筆者所在單位開發(fā)半導(dǎo)體領(lǐng)域高端光刻機(jī)為例:納米級工件臺(tái)技術(shù)約1500件專利(專利數(shù)量指去除同族后的數(shù)量),浸沒式光刻約2000件,極紫外EUV曝光約2000件。至今,整個(gè)行業(yè)累計(jì)專利數(shù)量約十萬件,而且每年以4000-5000件的速度遞增。面對如此浩如煙海的專利,企業(yè)傳統(tǒng)的做法是讓知識(shí)產(chǎn)權(quán)和研發(fā)工程人員們?nèi)斯さ厝ラ喿x和理解大量的專利,其實(shí)這是一種十分低效率和高成本的方式。
本文筆者基于科睿唯安公司旗下的德溫特創(chuàng)新平臺(tái)(Derwent Innovation),并結(jié)合多年技術(shù)研發(fā)和知識(shí)產(chǎn)權(quán)工作的心得分享一些方法,將從戰(zhàn)略和戰(zhàn)術(shù)兩個(gè)層面,論述專利智能分析和可視化方法之道,以供各領(lǐng)域?qū)<液蜆I(yè)內(nèi)同行批評指正。
01、
方法一:快速定位高引用專利
在巨大數(shù)量的專利面前,傳統(tǒng)人力閱讀耗時(shí)耗力,因此我們需要學(xué)會(huì)借助同行的洞察力和思維痕跡為我所用?;诘聹靥貏?chuàng)新平臺(tái),可以很迅速地查詢并獲得相關(guān)領(lǐng)域?qū)@麛?shù)據(jù)和關(guān)鍵字段信息:包括專利的引用頻次數(shù)量,并結(jié)合專利申請時(shí)間或優(yōu)先權(quán)日期,可繪制如圖1所示專利引用頻次的時(shí)間分布。通過合理地對整體分布的曲線擬合,擬合曲線如圖1紅色曲線所示,可將在紅色曲線上方的專利視為核心和高價(jià)值專利。這樣就將原本數(shù)量級上千的專利范圍縮小到僅20-30件核心專利,通常這些專利是早期有較高影響力的專利,并兼顧中期優(yōu)秀的改進(jìn)專利,將它們作為一個(gè)核心技術(shù)的專利群,可供知識(shí)產(chǎn)權(quán)和技術(shù)人員精讀、理解和分析。
圖1 某技術(shù)領(lǐng)域?qū)@灰妙l次的時(shí)間分布
(作者原創(chuàng))
對于技術(shù)發(fā)明的普遍規(guī)則就是這樣,早期的技術(shù)發(fā)明通常是系統(tǒng)級的核心技術(shù)概念和方案,發(fā)明等級也是最高的,但這一時(shí)期的系統(tǒng)及性能并不完善,專利數(shù)量也較少,如圖2所示,發(fā)明等級和專利數(shù)量的進(jìn)化關(guān)系趨勢圖。但正是這些早期的技術(shù)方案奠定了該技術(shù)領(lǐng)域的雛形和概貌,所以它們最有研究價(jià)值,并為后人廣泛引用和借鑒。
圖2 發(fā)明等級和專利數(shù)量的進(jìn)化關(guān)系趨勢圖
02
方法二:生成高同族專利引用網(wǎng)絡(luò)進(jìn)化圖
在專利價(jià)值的評價(jià)體系中(參考文獻(xiàn)1)采用內(nèi)部評估因素:同族專利數(shù)量和申請地域(如PCT及四國專利US、JP、EP和CN)。同時(shí)兼顧外部評價(jià)因素:引用的專利文獻(xiàn)及被引用的專利文獻(xiàn),結(jié)合德溫特創(chuàng)新平臺(tái)(Derwent Innovation),以上數(shù)據(jù)可輕松獲得。
作者采用Wolfram Mathematica平臺(tái)(參考文獻(xiàn)2)獨(dú)立開發(fā)了專利分析和可視化軟件平臺(tái)。基于某技術(shù)領(lǐng)域或某企業(yè)的專利數(shù)據(jù)庫,分析其高價(jià)值專利引用網(wǎng)絡(luò)進(jìn)化的全過程,如圖3所示,其中上方彩虹色顏色條代表時(shí)間的指示條,由最早專利和最晚專利的申請時(shí)間構(gòu)成時(shí)間維度。
圖3 某企業(yè)高價(jià)值專利的引用網(wǎng)絡(luò)進(jìn)化動(dòng)畫
(作者原創(chuàng))
圖4 某企業(yè)高價(jià)值專利的引用網(wǎng)絡(luò)進(jìn)化圖
(作者原創(chuàng))
如圖4某企業(yè)高價(jià)值專利的引用網(wǎng)絡(luò)進(jìn)化圖所示,網(wǎng)絡(luò)圖中,節(jié)點(diǎn)直徑代表其內(nèi)部評價(jià)因數(shù)(同族專利數(shù)量或申請地域權(quán)重),節(jié)點(diǎn)顏色代表專利申請時(shí)間或優(yōu)先權(quán)日期,節(jié)點(diǎn)間的連線伴有箭頭指向代表專利間的引用關(guān)系。當(dāng)鼠標(biāo)移至某節(jié)點(diǎn)上方時(shí)會(huì)自動(dòng)顯示提示信息:如同族公開號、申請時(shí)間、同族數(shù)量、該專利文本的5組高頻詞組等信息,輔助分析者理解專利內(nèi)容。
通過對該企業(yè)專利實(shí)施在時(shí)間和空間的分布的可視化,十分便于理解該企業(yè)的專利形成過程和對應(yīng)研發(fā)創(chuàng)新戰(zhàn)略的布局,同時(shí)也有助于本企業(yè)決策當(dāng)前所應(yīng)采取的知識(shí)產(chǎn)權(quán)戰(zhàn)略部署和實(shí)施規(guī)劃。
就企業(yè)級的專利分析工作需求而言,本領(lǐng)域人士應(yīng)當(dāng)都十分清楚行業(yè)領(lǐng)先者是誰。專利分析工作也一樣,其實(shí)并不需要去分析許多的企業(yè)和機(jī)構(gòu),能夠把本領(lǐng)域、本行業(yè)的領(lǐng)先的一、兩家企業(yè)研究清楚,研究透徹,其實(shí)就足夠好了。
03
方法三:活用德溫特專利地圖
科睿唯安旗下的德溫特創(chuàng)新平臺(tái)(Derwent Innovation),其分析版(Derwent Innovation Analyst)用戶可使用Derwent Innovation的全部功能,包括專利地圖和文本聚類以及60,000條記錄的專利檢索結(jié)果。專利地圖就是一種非常有趣的工具。專利地圖的實(shí)質(zhì)是將專利的高頻詞匯通過詞向量(Word Vector)方法投影到二維平面上生成一種可視化效果圖。
舉例而言,半導(dǎo)體設(shè)備領(lǐng)域荷蘭ASML公司及德國Carl Ziess 公司同日本Nikon公司近20年來知識(shí)產(chǎn)權(quán)的訴訟官司不斷,打了又和,和了再打。通過如圖5專利地圖的分析可十分清晰地看清雙方專利的布局,以及“你中有我,我中有你”的交錯(cuò)地帶。對于訴訟和爭議點(diǎn),外行可能看不懂、看不透,但業(yè)內(nèi)專業(yè)人士結(jié)合專利地圖一觀便知,雙方的“用武之地”和“用兵之道”。
圖5 ASML VS Nikon的專利地圖和布局
數(shù)據(jù)來源:Derwent Innovation
以上雙方都是國際型的大公司,在行業(yè)內(nèi)都具有舉足輕重的地位,可謂棋逢對手、廝殺難解。而對大部分國內(nèi)企業(yè)而言,恐怕還沒有經(jīng)歷過國際知識(shí)產(chǎn)權(quán)糾紛的磨難。通過對國際大公司處理和處置同類案件過程的全方位觀察,及具體細(xì)節(jié)的分析,其實(shí)能夠?yàn)閲鴥?nèi)企業(yè)儲(chǔ)備大量實(shí)戰(zhàn)經(jīng)驗(yàn)、方法和資源。
在我們看來,以上業(yè)內(nèi)著名的知識(shí)產(chǎn)權(quán)的案件,正如同是在看一部正在直播的、驚心動(dòng)魄的武俠熱劇。當(dāng)我們在津津有味地點(diǎn)評他國企業(yè)專利戰(zhàn)火之余,也不免擔(dān)憂自家企業(yè)知識(shí)產(chǎn)權(quán)的未來和命運(yùn)。或者說,我們雖是在隔岸觀火,但也絕不敢幸災(zāi)樂禍。
04
方法四:四重分組詞云大法
以上屬于戰(zhàn)略層面的專利分析方法,然而數(shù)以百計(jì)的專利仍然不能脫離人的閱讀和理解,但效率仍可大幅提高。如下作者從戰(zhàn)術(shù)層面論述對單件專利的分析和處理。就專利本身而言,它仍是一個(gè)文本,借助于先進(jìn)的自然語言處理方法和日趨成熟的人工智能算法,仍可以將一篇專利進(jìn)一步地濃縮和提煉,進(jìn)而提高人閱讀專利的效率和精度。
詞云(Word Cloud)是當(dāng)下十分熱門可視化技術(shù)之一,但具體應(yīng)用仍有些區(qū)別和講究。如圖6左上角小圖所示,生成了基于一個(gè)單詞的詞云(one-gram),該單詞在專利文本中出現(xiàn)的頻率,體現(xiàn)為該單詞字體的大小。但其實(shí)一個(gè)個(gè)單詞的信息量或者說信息熵是很低的,舉例如單詞plane(平面),什么平面?這個(gè)平面進(jìn)一步是什么含義?它同閱讀者腦海中的原有認(rèn)知并沒有什么直接關(guān)聯(lián)。
通常在英語或漢語中,2-4個(gè)單詞或漢字組成的詞組具有更多的信息量和閱讀價(jià)值。如圖6右上角小圖所示同一篇專利文本生成的多詞(n-gram)詞云比較而言,它則攜帶了更多能被人理解和接受的有效技術(shù)信息。舉例在多詞詞云中,首先展示的是focal plane(焦面,光學(xué)術(shù)語)。那么焦面這個(gè)詞組相比之前的平面的單詞,它對技術(shù)和專利專家就更具備直接地可讀性了,詞義表達(dá)也精準(zhǔn)多了。
圖6 某美國專利的四重專利詞云圖
(作者原創(chuàng))
再進(jìn)一步分析,對某技術(shù)領(lǐng)域通常都會(huì)有些慣用熟知的專業(yè)詞匯,這類語言可稱為專業(yè)詞匯或?qū)I(yè)領(lǐng)域的慣用語言(Common Language), 如圖6左下角小圖所示,類似于focal plane,imaging lens的詞組都是本領(lǐng)域技術(shù)人員非常熟悉的詞匯,是描述該領(lǐng)域技術(shù)的基本語言,可能并不能完全或立刻反映該專利的技術(shù)特征和創(chuàng)新點(diǎn)。
因此還可以將這類的慣用語再進(jìn)一步分離,就是有了如圖6右下角小圖所示的特殊唯一詞的詞云。當(dāng)技術(shù)人員看到類似exposure time 或 stage moved relative image-recording 的時(shí)候,那么他就非常容易地能夠猜想到這篇專利極可能涉及的發(fā)明點(diǎn)或創(chuàng)新點(diǎn)了。
當(dāng)然在構(gòu)建層次豐富的詞云是需要基于特殊的專利和技術(shù)詞匯數(shù)據(jù)庫,作者在本企業(yè)經(jīng)過長期積累和完善,生成包括:基于專利撰寫的中英文詞庫、本領(lǐng)域技術(shù)的數(shù)據(jù)庫、本領(lǐng)域權(quán)利要求及法律的數(shù)據(jù)庫、本領(lǐng)域技術(shù)名稱的中英文對照及縮略語詞庫,并通過區(qū)別配置和優(yōu)化部署詞庫,為本領(lǐng)域每篇核心專利都配套定制的一張?jiān)~云頁,知識(shí)產(chǎn)權(quán)或技術(shù)人員通常只要花10秒鐘,掃一眼詞云頁,即可判斷是否有必要精讀某篇專利。又或是,在精讀前就已預(yù)先把握了重點(diǎn)詞匯明白這篇專利具體需要精讀那些細(xì)節(jié)。這樣極大程度地提高人對每篇專利閱讀地效率和精度。
05
方法五:實(shí)時(shí)洞察技術(shù)概念詞匯
知道一個(gè)技術(shù)名稱和掌握一項(xiàng)技術(shù)畢竟是兩碼事,但是這并不妨礙專利和技術(shù)報(bào)新和法律預(yù)警的功能。本人在企業(yè)的實(shí)踐過程中,認(rèn)為可以這樣操作。定期將本領(lǐng)域高頻和新鮮的技術(shù)詞匯加以提煉,并采用機(jī)器學(xué)習(xí)算法對不同技術(shù)領(lǐng)域進(jìn)行分類,中英文之前采用機(jī)器翻譯算法將英文專業(yè)詞匯翻譯成中文詞匯,隨后將這些分類整理后的專利技術(shù)詞匯推送給不同的相關(guān)領(lǐng)域?qū)<液图夹g(shù)人員,以準(zhǔn)確傳達(dá)行業(yè)的技術(shù)趨勢和動(dòng)態(tài)變化。
此外,更重要的是企業(yè)內(nèi)長期的人才培養(yǎng)和訓(xùn)練,我司已在企業(yè)內(nèi)部構(gòu)建并部署上線了本領(lǐng)域中英文專業(yè)詞匯及縮略語數(shù)據(jù)庫,技術(shù)人員可通過終端實(shí)時(shí)查詢最新的專業(yè)詞匯,并可理解該詞匯語義和技術(shù)概念以及這些詞的來源(最新專利和文獻(xiàn)),該數(shù)據(jù)庫由專人定期維護(hù)并同步更新。
如圖7所示,為一幅2018年狗年小狗外形輪廓的詞云圖,左上角彩色詞組代表不同的專業(yè)領(lǐng)域的詞匯,不同的顏色對應(yīng)詞云圖中不同領(lǐng)域的技術(shù)詞匯。
圖7 某行業(yè)專利數(shù)據(jù)庫高頻詞組詞云圖
(作者原創(chuàng))
總結(jié)
“十萬專利、彈指一揮”,在今天看來或許有些夸大,但也絕非是兒戲妄言。伴隨計(jì)算機(jī)硬件性能提升和人工智能技術(shù)的迅猛發(fā)展,或許也就是在幾年后,采用計(jì)算機(jī)和人工智能算法自動(dòng)地解讀十萬件專利、分析十萬件專利、應(yīng)對十萬件專利,也僅需彈指一揮鼠標(biāo)或鍵盤。
又或許,到那時(shí)VR(虛擬現(xiàn)實(shí))、AR(增強(qiáng)現(xiàn)實(shí))和MR(混合現(xiàn)實(shí))技術(shù)也足夠好了,就連鼠標(biāo)和鍵盤都早已淘汰,凌空彈指一揮……足矣。
致謝
致謝科睿唯安全球知識(shí)產(chǎn)權(quán)首席科學(xué)家Bob Stembridge來華對作者的指點(diǎn)并提供幫助;以及感謝科睿唯安的諸位同仁:王琦博士、王麗娟經(jīng)理所提供的幫助和支持。
附:【參考文獻(xiàn)】
[1] H. Ernst, N. Omland, The Patent Asset Index – A New Approach to Benchmark Patent Portfolios, World Patent Information (33) , 2011, pp.34–41.
[2] 吳 飛, Mathematica演示項(xiàng)目筆記,清華大學(xué)出版社,2010.
【作者簡介】
吳飛,任職于上海微電子裝備(集團(tuán))股份有限公司,創(chuàng)新業(yè)務(wù)主管,發(fā)表專著1部,獲授權(quán)發(fā)明專利24篇。
發(fā)布:IPRdaily中文網(wǎng)(IPRdaily.cn)
作者:吳飛 上海微電子裝備(集團(tuán))股份有限公司 創(chuàng)新業(yè)務(wù)主管
供稿:企業(yè)國際化智庫
編輯:IPRdaily趙珍 校對:IPRdaily縱橫君
推薦閱讀
2017全球區(qū)塊鏈企業(yè)專利排行榜(前100名)
2017年企業(yè)發(fā)明授權(quán)專利排行榜(前100名)
2017全國申請人確權(quán)商標(biāo)持有量排名(前100名)
“投稿”請投郵箱“iprdaily@163.com”
「關(guān)于IPRdaily」
IPRdaily成立于2014年,是全球影響力的知識(shí)產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺(tái),致力于連接全球知識(shí)產(chǎn)權(quán)人,用戶匯聚了中國、美國、德國、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區(qū)的高科技公司、成長型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬產(chǎn)業(yè)用戶(國內(nèi)25萬+海外30萬);同時(shí)擁有近百萬條高質(zhì)量的技術(shù)資源+專利資源,通過媒體構(gòu)建全球知識(shí)產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自企業(yè)國際化智庫并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://globalwellnesspartner.com/”
文章不錯(cuò),犒勞下辛苦的作者吧