#本文僅代表作者觀點(diǎn),未經(jīng)作者許可,禁止轉(zhuǎn)載,不代表IPRdaily立場#
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:隆天集團(tuán)中專隆天知識產(chǎn)權(quán)運(yùn)營(深圳)股份有限公司 周俊 高級項(xiàng)目經(jīng)理、專利分析師
原標(biāo)題:智能語義技術(shù)在專利檢索中的應(yīng)用
摘要
人工智能浪潮下,很多工作將會被替代。智能語義技術(shù)已經(jīng)在專利檢索中大規(guī)模應(yīng)用,未來將成為檢索專家的得力助手還是終結(jié)者?筆者基于其曾在專利審查工作中使用智能語義開展檢索的豐富經(jīng)驗(yàn),通過梳理智能語義技術(shù)產(chǎn)生的原因、基本原理及其在專利檢索中的應(yīng)用方式,給出了一個答案。
專利檢索經(jīng)歷了百余年的發(fā)展歷史,早在19世紀(jì)末美國政府就在咨詢工作中應(yīng)用專利檢索技術(shù),當(dāng)時是針對紙質(zhì)專利文獻(xiàn)的手工檢索。從20世紀(jì)70年代起,基于計(jì)算機(jī)的專利檢索逐步普及,專利檢索的效率也因此大幅提升,但對于當(dāng)時的公眾而言,獲取專利信息仍然是十分困難的事情。直到1997年IBM開始在互聯(lián)網(wǎng)上提供專利信息服務(wù),公眾獲取專利信息才變得相對容易[1] ??v觀專利檢索的發(fā)展歷史,伴隨著信息技術(shù)的變革,專利信息獲取和利用的方式也在不斷發(fā)生變化。
進(jìn)入21世紀(jì)以來,信息技術(shù)創(chuàng)新日益加快,人工智能技術(shù)的發(fā)展尤為迅速,網(wǎng)絡(luò)購物時的推薦算法、掃臉支付、語音助理等新技術(shù)已經(jīng)不知不覺融入到我們的日常生活中。在專利檢索分析領(lǐng)域,被稱作智能語義的新技術(shù)也進(jìn)入到了重要的發(fā)展時期。2018年5月,世界知識產(chǎn)權(quán)組織召開“知識產(chǎn)權(quán)局關(guān)于ICT戰(zhàn)略和人工智能”會議,會議資料顯示,多個國家和地區(qū)的知識產(chǎn)權(quán)局已經(jīng)開始嘗試在專利審查的檢索環(huán)節(jié)應(yīng)用智能語義技術(shù) [2]。在商用專利數(shù)據(jù)庫領(lǐng)域,多款工具已經(jīng)具備了智能語義檢索功能。新技術(shù)的出現(xiàn)為專利檢索工作帶來了什么樣的變化?作者基于其曾在專利審查工作中使用智能語義開展檢索的豐富經(jīng)驗(yàn),簡要介紹智能語義技術(shù)產(chǎn)生的原因、基本原理及其在專利檢索中的應(yīng)用方式。
傳統(tǒng)檢索面臨的困境
困境,不僅存在于專利檢索中,而是在于所有的傳統(tǒng)搜索領(lǐng)域。信息爆炸是困境的主要來源,隨著人類知識以幾何級數(shù)量增長,想要快速準(zhǔn)確的搜索到所需信息并不是一件容易的事情。專利行業(yè)同樣面臨數(shù)據(jù)增長的問題,僅中國大陸公開的專利文獻(xiàn)數(shù)量,發(fā)明和實(shí)用新型專利文獻(xiàn)總量從2008年底只有不到250萬件,已經(jīng)躍升到2018年底的1700萬余件,10年的時間增長了7倍,這為開展專利檢索工作帶來巨大的挑戰(zhàn)。
基于傳統(tǒng)的布爾檢索方式,檢索專家們致力于在檢索全面性和檢索效率之間尋找平衡:任何一個技術(shù)概念都有諸多的表述方式,檢索時只有盡可能全面的列舉這些表述方式,才能保證不漏掉重要文獻(xiàn);但每一種表述方式又會有多重含義,全面的表述將引入大量不準(zhǔn)確的噪聲文件,這些噪聲文件浪費(fèi)了檢索人員的瀏覽時間。如今,檢索專家們面對著增長了數(shù)十倍的專利文獻(xiàn),感到越來越難在檢索的全面性與檢索效率之間找到平衡。
智能語義檢索的興起
為了解決傳統(tǒng)檢索面臨的困境,出現(xiàn)了一種自動擴(kuò)展檢索內(nèi)容的語義技術(shù),具體來說是構(gòu)建一個大型的同義詞庫,將用戶輸入的內(nèi)容在同義詞庫中搜索,擴(kuò)展相關(guān)關(guān)鍵詞來提高檢索的命中率。但是,這種語義技術(shù)雖然提高了檢索的全面性,但應(yīng)用該算法會在每次檢索中命中更多的專利,同樣引入了噪聲文件,增加了檢索人員瀏覽和篩選文獻(xiàn)的工作量。
另一種智能語義技術(shù)是基于語義相關(guān)性的排序。這種技術(shù)基于專利文本數(shù)據(jù)開展機(jī)器學(xué)習(xí),自動運(yùn)算詞語之間和文檔之間的相關(guān)性,基于相關(guān)性對文獻(xiàn)進(jìn)行排序。這種方法的目標(biāo)是將最相關(guān)技術(shù)排在最前,直接提升檢索人員瀏覽文獻(xiàn)的效率。應(yīng)用該技術(shù)的專利檢索工具,可以允許用戶輸入任意長度的一段文本或是直接輸入一個專利公開號,系統(tǒng)將自動推薦最相關(guān)的文獻(xiàn)。
智能語義技術(shù)在專利檢索中的應(yīng)用
對于基于同義詞庫的語義搜索技術(shù),由于計(jì)算機(jī)僅僅是對用戶輸入的內(nèi)容進(jìn)行了擴(kuò)展,在具體檢索時仍然執(zhí)行了布爾檢索,因此這種語義檢索工具和傳統(tǒng)布爾檢索工具的差別不大,在理解和使用上沒有太大的困難。
而基于潛在語義索引的搜索技術(shù),則完全脫離了傳統(tǒng)布爾檢索的范疇,與我們長期對檢索的理解大不相同。這種搜索技術(shù)完全拋棄了從一個文獻(xiàn)集中限定出子集的過程,而是按照用戶所輸入文本內(nèi)容的相關(guān)性,直接對一個文獻(xiàn)集進(jìn)行排序。下面簡要介紹應(yīng)用這種技術(shù)開展專利檢索的兩種方法。
第一種方法是完全獨(dú)立使用智能語義檢索。此時檢索人員只需將想要檢索的一段文本輸入語義檢索系統(tǒng),計(jì)算機(jī)就能根據(jù)用戶輸入的文本,對數(shù)據(jù)庫中存儲的千萬乃至上億條專利做排序,檢索人員依次瀏覽就可能獲得所需的專利。由于這種檢索方式不需要任何的檢索策略,完全沒有檢索經(jīng)驗(yàn)的人也能很快上手。對于檢索經(jīng)驗(yàn)豐富的人,在檢索初期也可以優(yōu)先使用這種方法進(jìn)行試探性檢索,有一定的幾率可以很快獲得滿意的結(jié)果,并且可以通過統(tǒng)計(jì)分析排序靠前的專利,發(fā)現(xiàn)更多的關(guān)鍵詞表述方式或相關(guān)的專利分類號。
完全獨(dú)立使用智能語義檢索,雖然可以提升檢索的效率,但仍然不能替代檢索專家和布爾檢索。其中一個主要原因是:智能語義技術(shù)無法進(jìn)行技術(shù)方案層面的理解,換句話說,智能語義技術(shù)還不能像檢索專家一樣,提煉出技術(shù)方案的核心技術(shù)特征開展精準(zhǔn)檢索。例如針對下面的一段文本,檢索專家基于其中描述的技術(shù)方案和對現(xiàn)有技術(shù)的理解,會將“缺口”和“折彎部”這兩個特征作為核心特征來檢索,而目前的智能語義算法還無法模擬檢索專家從文本到技術(shù)方案這一抽象的思維過程。
一種一體式自拍裝置,包括伸縮桿及用于夾持拍攝設(shè)備的夾持裝置,所述夾持裝置包括載物臺及設(shè)于載物臺上方的可拉伸夾緊機(jī)構(gòu),其特征在于:所述夾持裝置一體式轉(zhuǎn)動連接于所述伸縮桿的頂端,所述載物臺上設(shè)有一缺口,所述夾緊機(jī)構(gòu)設(shè)有一與所述缺口位置相對應(yīng)的折彎部,所述伸縮桿折疊后可容置于所述缺口及折彎部。
使用智能語義最佳的方式是與專家布爾檢索結(jié)合使用。具體來說是利用布爾檢索式獲得檢索結(jié)果后,再利用一個與布爾檢索式無關(guān)的排序因子對上述檢索結(jié)果進(jìn)行排序。布爾檢索式用于精準(zhǔn)的表達(dá)技術(shù)方案的核心特征,智能語義將其他非核心特征用相關(guān)性來表述,用排序的方法展示給檢索專家。這樣檢索的好處是,一方面可以充分發(fā)揮檢索專家定義核心特征的作用,保證了檢索的精準(zhǔn)度,同時發(fā)揮智能語義算法搜索的全面性,避免了因?yàn)閷Ψ呛诵募夹g(shù)特征的表述不夠全面而導(dǎo)致的漏檢。
針對上面的例子,如果獨(dú)立使用布爾檢索,則至少要在檢索時限定出自拍裝置、夾持裝置、缺口、彎折部等特征,但將語義與布爾檢索結(jié)合時,可以僅用布爾檢索搜索缺口、彎折部等核心特征,再將該全部文本作為排序因子對檢索結(jié)果排序,就能將與自拍裝置、夾持高度相關(guān)的專利排序到最前。這種檢索方式既提高了檢索的準(zhǔn)確性,又避免了漏掉重要專利,檢索的效率也能大幅提升。
每當(dāng)聽到人工智能將會取代某些工作時,相信不少人會有一絲擔(dān)憂。但筆者認(rèn)為,專利檢索本身是一種目標(biāo)高度不確定、需要大量主觀思考判斷和綜合分析的工作,檢索專家們完全不必把智能語義看作是競爭對手,而是當(dāng)成今后工作中的重要工具為自己賦能。相信語義技術(shù)與專家布爾檢索的結(jié)合會是未來檢索的主流,基于海量數(shù)據(jù)模型的語義排序與基于布爾的精確命中,將會合奏出人與人工智能融合的完美樂章。
注釋:
[1]陳燕, 黃迎燕, 方建國. 專利信息采集與分析[M]. 清華大學(xué)出版社, 2006:104-106.
[2]WIPO/IP/ITAI/GE/18,May 23 to May 25, 2018 (Geneva, Switzerland),https://www.wipo.int/meetings/en/details.jsp?meeting_id=46586.
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:隆天集團(tuán)中專隆天知識產(chǎn)權(quán)運(yùn)營(深圳)股份有限公司 周俊 高級項(xiàng)目經(jīng)理、專利分析師
編輯:IPRdaily趙珍 校對:IPRdaily縱橫君
推薦閱讀(點(diǎn)擊圖文,閱讀全文)
開年重磅!尋找40位40歲以下企業(yè)知識產(chǎn)權(quán)精英(40 Under 40)
“投稿”請投郵箱“iprdaily@163.com”
「關(guān)于IPRdaily」
IPRdaily成立于2014年,是全球影響力的知識產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺,致力于連接全球知識產(chǎn)權(quán)人,用戶匯聚了中國、美國、德國、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司、成長型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬產(chǎn)業(yè)用戶(國內(nèi)25萬+海外30萬);同時擁有近百萬條高質(zhì)量的技術(shù)資源+專利資源,通過媒體構(gòu)建全球知識產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily.cn 中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://globalwellnesspartner.com/”
文章不錯,犒勞下辛苦的作者吧