#文章僅代表作者觀點,文章不代表IPRdaily立場#
發(fā)布:IPRdaily中文網(wǎng)(IPRdaily.cn)
作者:吳飛 上海微電子裝備(集團)股份有限公司 創(chuàng)新業(yè)務主管
供稿:企業(yè)國際化智庫
原標題:十萬專利,彈指一揮!論專利智能分析和可視化方法之道
在科技高速發(fā)展的當代,無論是企業(yè)新產(chǎn)品開發(fā)或是科技人員研究創(chuàng)新,所面臨的主要問題并不是信息太少,而是信息太多。以筆者所在單位開發(fā)半導體領域高端光刻機為例:納米級工件臺技術約1500件專利(專利數(shù)量指去除同族后的數(shù)量),浸沒式光刻約2000件,極紫外EUV曝光約2000件。至今,整個行業(yè)累計專利數(shù)量約十萬件,而且每年以4000-5000件的速度遞增。面對如此浩如煙海的專利,企業(yè)傳統(tǒng)的做法是讓知識產(chǎn)權和研發(fā)工程人員們?nèi)斯さ厝ラ喿x和理解大量的專利,其實這是一種十分低效率和高成本的方式。
本文筆者基于科睿唯安公司旗下的德溫特創(chuàng)新平臺(Derwent Innovation),并結(jié)合多年技術研發(fā)和知識產(chǎn)權工作的心得分享一些方法,將從戰(zhàn)略和戰(zhàn)術兩個層面,論述專利智能分析和可視化方法之道,以供各領域?qū)<液蜆I(yè)內(nèi)同行批評指正。
01、
方法一:快速定位高引用專利
在巨大數(shù)量的專利面前,傳統(tǒng)人力閱讀耗時耗力,因此我們需要學會借助同行的洞察力和思維痕跡為我所用?;诘聹靥貏?chuàng)新平臺,可以很迅速地查詢并獲得相關領域?qū)@麛?shù)據(jù)和關鍵字段信息:包括專利的引用頻次數(shù)量,并結(jié)合專利申請時間或優(yōu)先權日期,可繪制如圖1所示專利引用頻次的時間分布。通過合理地對整體分布的曲線擬合,擬合曲線如圖1紅色曲線所示,可將在紅色曲線上方的專利視為核心和高價值專利。這樣就將原本數(shù)量級上千的專利范圍縮小到僅20-30件核心專利,通常這些專利是早期有較高影響力的專利,并兼顧中期優(yōu)秀的改進專利,將它們作為一個核心技術的專利群,可供知識產(chǎn)權和技術人員精讀、理解和分析。
圖1 某技術領域?qū)@灰妙l次的時間分布
(作者原創(chuàng))
對于技術發(fā)明的普遍規(guī)則就是這樣,早期的技術發(fā)明通常是系統(tǒng)級的核心技術概念和方案,發(fā)明等級也是最高的,但這一時期的系統(tǒng)及性能并不完善,專利數(shù)量也較少,如圖2所示,發(fā)明等級和專利數(shù)量的進化關系趨勢圖。但正是這些早期的技術方案奠定了該技術領域的雛形和概貌,所以它們最有研究價值,并為后人廣泛引用和借鑒。
圖2 發(fā)明等級和專利數(shù)量的進化關系趨勢圖
02
方法二:生成高同族專利引用網(wǎng)絡進化圖
在專利價值的評價體系中(參考文獻1)采用內(nèi)部評估因素:同族專利數(shù)量和申請地域(如PCT及四國專利US、JP、EP和CN)。同時兼顧外部評價因素:引用的專利文獻及被引用的專利文獻,結(jié)合德溫特創(chuàng)新平臺(Derwent Innovation),以上數(shù)據(jù)可輕松獲得。
作者采用Wolfram Mathematica平臺(參考文獻2)獨立開發(fā)了專利分析和可視化軟件平臺。基于某技術領域或某企業(yè)的專利數(shù)據(jù)庫,分析其高價值專利引用網(wǎng)絡進化的全過程,如圖3所示,其中上方彩虹色顏色條代表時間的指示條,由最早專利和最晚專利的申請時間構成時間維度。
圖3 某企業(yè)高價值專利的引用網(wǎng)絡進化動畫
(作者原創(chuàng))
圖4 某企業(yè)高價值專利的引用網(wǎng)絡進化圖
(作者原創(chuàng))
如圖4某企業(yè)高價值專利的引用網(wǎng)絡進化圖所示,網(wǎng)絡圖中,節(jié)點直徑代表其內(nèi)部評價因數(shù)(同族專利數(shù)量或申請地域權重),節(jié)點顏色代表專利申請時間或優(yōu)先權日期,節(jié)點間的連線伴有箭頭指向代表專利間的引用關系。當鼠標移至某節(jié)點上方時會自動顯示提示信息:如同族公開號、申請時間、同族數(shù)量、該專利文本的5組高頻詞組等信息,輔助分析者理解專利內(nèi)容。
通過對該企業(yè)專利實施在時間和空間的分布的可視化,十分便于理解該企業(yè)的專利形成過程和對應研發(fā)創(chuàng)新戰(zhàn)略的布局,同時也有助于本企業(yè)決策當前所應采取的知識產(chǎn)權戰(zhàn)略部署和實施規(guī)劃。
就企業(yè)級的專利分析工作需求而言,本領域人士應當都十分清楚行業(yè)領先者是誰。專利分析工作也一樣,其實并不需要去分析許多的企業(yè)和機構,能夠把本領域、本行業(yè)的領先的一、兩家企業(yè)研究清楚,研究透徹,其實就足夠好了。
03
方法三:活用德溫特專利地圖
科睿唯安旗下的德溫特創(chuàng)新平臺(Derwent Innovation),其分析版(Derwent Innovation Analyst)用戶可使用Derwent Innovation的全部功能,包括專利地圖和文本聚類以及60,000條記錄的專利檢索結(jié)果。專利地圖就是一種非常有趣的工具。專利地圖的實質(zhì)是將專利的高頻詞匯通過詞向量(Word Vector)方法投影到二維平面上生成一種可視化效果圖。
舉例而言,半導體設備領域荷蘭ASML公司及德國Carl Ziess 公司同日本Nikon公司近20年來知識產(chǎn)權的訴訟官司不斷,打了又和,和了再打。通過如圖5專利地圖的分析可十分清晰地看清雙方專利的布局,以及“你中有我,我中有你”的交錯地帶。對于訴訟和爭議點,外行可能看不懂、看不透,但業(yè)內(nèi)專業(yè)人士結(jié)合專利地圖一觀便知,雙方的“用武之地”和“用兵之道”。
圖5 ASML VS Nikon的專利地圖和布局
數(shù)據(jù)來源:Derwent Innovation
以上雙方都是國際型的大公司,在行業(yè)內(nèi)都具有舉足輕重的地位,可謂棋逢對手、廝殺難解。而對大部分國內(nèi)企業(yè)而言,恐怕還沒有經(jīng)歷過國際知識產(chǎn)權糾紛的磨難。通過對國際大公司處理和處置同類案件過程的全方位觀察,及具體細節(jié)的分析,其實能夠為國內(nèi)企業(yè)儲備大量實戰(zhàn)經(jīng)驗、方法和資源。
在我們看來,以上業(yè)內(nèi)著名的知識產(chǎn)權的案件,正如同是在看一部正在直播的、驚心動魄的武俠熱劇。當我們在津津有味地點評他國企業(yè)專利戰(zhàn)火之余,也不免擔憂自家企業(yè)知識產(chǎn)權的未來和命運?;蛘哒f,我們雖是在隔岸觀火,但也絕不敢幸災樂禍。
04
方法四:四重分組詞云大法
以上屬于戰(zhàn)略層面的專利分析方法,然而數(shù)以百計的專利仍然不能脫離人的閱讀和理解,但效率仍可大幅提高。如下作者從戰(zhàn)術層面論述對單件專利的分析和處理。就專利本身而言,它仍是一個文本,借助于先進的自然語言處理方法和日趨成熟的人工智能算法,仍可以將一篇專利進一步地濃縮和提煉,進而提高人閱讀專利的效率和精度。
詞云(Word Cloud)是當下十分熱門可視化技術之一,但具體應用仍有些區(qū)別和講究。如圖6左上角小圖所示,生成了基于一個單詞的詞云(one-gram),該單詞在專利文本中出現(xiàn)的頻率,體現(xiàn)為該單詞字體的大小。但其實一個個單詞的信息量或者說信息熵是很低的,舉例如單詞plane(平面),什么平面?這個平面進一步是什么含義?它同閱讀者腦海中的原有認知并沒有什么直接關聯(lián)。
通常在英語或漢語中,2-4個單詞或漢字組成的詞組具有更多的信息量和閱讀價值。如圖6右上角小圖所示同一篇專利文本生成的多詞(n-gram)詞云比較而言,它則攜帶了更多能被人理解和接受的有效技術信息。舉例在多詞詞云中,首先展示的是focal plane(焦面,光學術語)。那么焦面這個詞組相比之前的平面的單詞,它對技術和專利專家就更具備直接地可讀性了,詞義表達也精準多了。
圖6 某美國專利的四重專利詞云圖
(作者原創(chuàng))
再進一步分析,對某技術領域通常都會有些慣用熟知的專業(yè)詞匯,這類語言可稱為專業(yè)詞匯或?qū)I(yè)領域的慣用語言(Common Language), 如圖6左下角小圖所示,類似于focal plane,imaging lens的詞組都是本領域技術人員非常熟悉的詞匯,是描述該領域技術的基本語言,可能并不能完全或立刻反映該專利的技術特征和創(chuàng)新點。
因此還可以將這類的慣用語再進一步分離,就是有了如圖6右下角小圖所示的特殊唯一詞的詞云。當技術人員看到類似exposure time 或 stage moved relative image-recording 的時候,那么他就非常容易地能夠猜想到這篇專利極可能涉及的發(fā)明點或創(chuàng)新點了。
當然在構建層次豐富的詞云是需要基于特殊的專利和技術詞匯數(shù)據(jù)庫,作者在本企業(yè)經(jīng)過長期積累和完善,生成包括:基于專利撰寫的中英文詞庫、本領域技術的數(shù)據(jù)庫、本領域權利要求及法律的數(shù)據(jù)庫、本領域技術名稱的中英文對照及縮略語詞庫,并通過區(qū)別配置和優(yōu)化部署詞庫,為本領域每篇核心專利都配套定制的一張詞云頁,知識產(chǎn)權或技術人員通常只要花10秒鐘,掃一眼詞云頁,即可判斷是否有必要精讀某篇專利。又或是,在精讀前就已預先把握了重點詞匯明白這篇專利具體需要精讀那些細節(jié)。這樣極大程度地提高人對每篇專利閱讀地效率和精度。
05
方法五:實時洞察技術概念詞匯
知道一個技術名稱和掌握一項技術畢竟是兩碼事,但是這并不妨礙專利和技術報新和法律預警的功能。本人在企業(yè)的實踐過程中,認為可以這樣操作。定期將本領域高頻和新鮮的技術詞匯加以提煉,并采用機器學習算法對不同技術領域進行分類,中英文之前采用機器翻譯算法將英文專業(yè)詞匯翻譯成中文詞匯,隨后將這些分類整理后的專利技術詞匯推送給不同的相關領域?qū)<液图夹g人員,以準確傳達行業(yè)的技術趨勢和動態(tài)變化。
此外,更重要的是企業(yè)內(nèi)長期的人才培養(yǎng)和訓練,我司已在企業(yè)內(nèi)部構建并部署上線了本領域中英文專業(yè)詞匯及縮略語數(shù)據(jù)庫,技術人員可通過終端實時查詢最新的專業(yè)詞匯,并可理解該詞匯語義和技術概念以及這些詞的來源(最新專利和文獻),該數(shù)據(jù)庫由專人定期維護并同步更新。
如圖7所示,為一幅2018年狗年小狗外形輪廓的詞云圖,左上角彩色詞組代表不同的專業(yè)領域的詞匯,不同的顏色對應詞云圖中不同領域的技術詞匯。
圖7 某行業(yè)專利數(shù)據(jù)庫高頻詞組詞云圖
(作者原創(chuàng))
總結(jié)
“十萬專利、彈指一揮”,在今天看來或許有些夸大,但也絕非是兒戲妄言。伴隨計算機硬件性能提升和人工智能技術的迅猛發(fā)展,或許也就是在幾年后,采用計算機和人工智能算法自動地解讀十萬件專利、分析十萬件專利、應對十萬件專利,也僅需彈指一揮鼠標或鍵盤。
又或許,到那時VR(虛擬現(xiàn)實)、AR(增強現(xiàn)實)和MR(混合現(xiàn)實)技術也足夠好了,就連鼠標和鍵盤都早已淘汰,凌空彈指一揮……足矣。
致謝
致謝科睿唯安全球知識產(chǎn)權首席科學家Bob Stembridge來華對作者的指點并提供幫助;以及感謝科睿唯安的諸位同仁:王琦博士、王麗娟經(jīng)理所提供的幫助和支持。
附:【參考文獻】
[1] H. Ernst, N. Omland, The Patent Asset Index – A New Approach to Benchmark Patent Portfolios, World Patent Information (33) , 2011, pp.34–41.
[2] 吳 飛, Mathematica演示項目筆記,清華大學出版社,2010.
【作者簡介】
吳飛,任職于上海微電子裝備(集團)股份有限公司,創(chuàng)新業(yè)務主管,發(fā)表專著1部,獲授權發(fā)明專利24篇。
發(fā)布:IPRdaily中文網(wǎng)(IPRdaily.cn)
作者:吳飛 上海微電子裝備(集團)股份有限公司 創(chuàng)新業(yè)務主管
供稿:企業(yè)國際化智庫
編輯:IPRdaily趙珍 校對:IPRdaily縱橫君
推薦閱讀
2017全球區(qū)塊鏈企業(yè)專利排行榜(前100名)
2017年企業(yè)發(fā)明授權專利排行榜(前100名)
“投稿”請投郵箱“iprdaily@163.com”
「關于IPRdaily」
IPRdaily成立于2014年,是全球影響力的知識產(chǎn)權媒體+產(chǎn)業(yè)服務平臺,致力于連接全球知識產(chǎn)權人,用戶匯聚了中國、美國、德國、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司、成長型科技企業(yè)IP高管、研發(fā)人員、法務、政府機構、律所、事務所、科研院校等全球近50多萬產(chǎn)業(yè)用戶(國內(nèi)25萬+海外30萬);同時擁有近百萬條高質(zhì)量的技術資源+專利資源,通過媒體構建全球知識產(chǎn)權資產(chǎn)信息第一入口。2016年獲啟賦資本領投和天使匯跟投的Pre-A輪融資。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自企業(yè)國際化智庫并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://globalwellnesspartner.com/”
文章不錯,犒勞下辛苦的作者吧