#本文僅代表作者觀點(diǎn),不代表IPRdaily立場#
原標(biāo)題:專利深一度|計(jì)算機(jī)視覺技術(shù)專利分析
人隨著深度學(xué)習(xí)的快速發(fā)展,計(jì)算機(jī)視覺與語音識別、自然語言處理共同構(gòu)成了人工智能的三個關(guān)鍵應(yīng)用技術(shù)。計(jì)算機(jī)視覺賦予機(jī)器感知和認(rèn)知世界的功能。
基于行業(yè)發(fā)展需求,國家知識產(chǎn)權(quán)局專利分析普及推廣項(xiàng)目人工智能關(guān)鍵技術(shù)課題組從計(jì)算機(jī)視覺技術(shù)專利整體現(xiàn)狀,智能安防、自動駕駛和醫(yī)療影像三大應(yīng)用領(lǐng)域?qū)@季?,對?jì)算機(jī)視覺技術(shù)進(jìn)行了深度剖析。
專利整體現(xiàn)狀
受益于深度學(xué)習(xí)算法的優(yōu)化、計(jì)算能力的突破以及數(shù)據(jù)的積累,計(jì)算機(jī)視覺技術(shù)從2012年開始快速迭代,不斷推陳出新。2012年,ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中,冠軍團(tuán)隊(duì)使用深度學(xué)習(xí)算法將識別錯誤率降低了10%,成為影響人工智能進(jìn)程的里程碑事件,從此計(jì)算機(jī)視覺技術(shù)商業(yè)化落地能力不斷提高,迎來了突破性發(fā)展。
伴隨著技術(shù)的創(chuàng)新與突破,全球計(jì)算機(jī)視覺技術(shù)專利申請量開始激增,呈現(xiàn)指數(shù)增長,從2010年的200多件激增至2016年4000多件。中國近年來專利申請量連續(xù)取得世界第一,再加上中國對人工智能技術(shù)的重視,又是世界上最大的目標(biāo)市場,因此中國以67.7%的占比,排在目標(biāo)國申請量的首位,美國以近22%位居第二。
計(jì)算機(jī)視覺應(yīng)用領(lǐng)域。
01、助力智能安防
隨著安防產(chǎn)品應(yīng)用領(lǐng)域的不斷擴(kuò)張,傳統(tǒng)安防技術(shù)的計(jì)算能力不足以應(yīng)對日益增長的視頻和圖像數(shù)據(jù),識別效率和識別準(zhǔn)確率也阻礙安防產(chǎn)業(yè)進(jìn)一步發(fā)展。計(jì)算機(jī)視覺技術(shù)中人臉識別技術(shù)具備超越人眼的實(shí)時識別準(zhǔn)確率,與安防使用場景契合度較高,已成為智能安防的關(guān)鍵技術(shù)之一。
智能安防中的人臉識別算法經(jīng)歷了早期算法、人工特征+分類器、深度學(xué)習(xí)三個階段。早期算法有基于幾何特征的算法,基于模板匹配的算法,子空間算法等多種類型,這些算法嚴(yán)重依賴訓(xùn)練集和測試集場景,且對光照、人臉的表情、姿態(tài)敏感,泛化能力不足,不具有太多的實(shí)用價值;第二階段的人臉識別算法普遍采用了人工特征+分類器的思路,部分解決了光照敏感問題,但還是存在姿態(tài)和表情的問題;目前利用深度學(xué)習(xí)的人臉識別算法已成主流,極大地提高了智能安防實(shí)時監(jiān)控精度,推動這一技術(shù)真正走向?qū)嵱谩?br/>
2013年,臉書(Facebook)的Yaniv Taigman等人提出了DeepFace算法,該算法基于檢測點(diǎn)實(shí)現(xiàn)人臉檢測,通過對檢測后的圖片進(jìn)行二維裁剪,將人臉部分裁剪出來,然后轉(zhuǎn)換為3D模型,利用CNN模型對3D模型進(jìn)行特征提取、歸一和分類完成人臉識別。DeepFace算法是人臉識別的奠基之作,直接影響了后續(xù)的DeepID和FaceNet等算法。
同年,香港中文大學(xué)的湯曉鷗教授及其團(tuán)隊(duì)提出了DeepID算法,并憑借該算法參加2014年ImageNet大規(guī)模物體檢測任務(wù)比賽獲得第二名優(yōu)異成績。隨后團(tuán)隊(duì)對DeepID算法進(jìn)行改進(jìn)提出DeepID2算法。DeepID2采用深度學(xué)習(xí)的方法來提取人臉高級特征,其采用的CNN網(wǎng)絡(luò)結(jié)構(gòu)共為10層,包括輸入層、4個卷積層、3個池化層、1個DeepID層和1個Softmax層;在提取特征后,使用了Joint Bayesian和Neural Network兩種方法進(jìn)行區(qū)人臉比對,最終得出識別結(jié)果。
同年,谷歌的Christian Szegedy等人提出了Inception網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)構(gòu)造了一種“基礎(chǔ)神經(jīng)元”結(jié)構(gòu),來搭建一個稀疏性、高計(jì)算性能的網(wǎng)絡(luò)結(jié)構(gòu),將CNN中常用的卷積(1x1,3x3,5x5)、池化操作(3x3)堆疊在一起(卷積、池化后的尺寸相同,將通道相加),一方面增加了網(wǎng)絡(luò)的寬度,另一方面也增加了網(wǎng)絡(luò)對尺度的適應(yīng)性。谷歌基于Inception搭建了GoogleNet。GoogleNet憑借其優(yōu)秀的表現(xiàn),得到了很多研究人員的學(xué)習(xí)和使用。隨后,谷歌的Philbin James William等人又提出了FaceNet,與其他的深度學(xué)習(xí)方法在人臉上的應(yīng)用不同,F(xiàn)aceNet并沒有用傳統(tǒng)的softmax的方式去進(jìn)行分類學(xué)習(xí),然后抽取其中某一層作為特征,而是直接進(jìn)行端對端學(xué)習(xí)一種從圖像到歐式空間的編碼方法,然后基于這個編碼再做人臉識別、人臉驗(yàn)證和人臉聚類等;將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)去掉sofmax后的結(jié)構(gòu),經(jīng)過L2的歸一化,然后得到特征表示,基于這個特征表示計(jì)算三元組損失,其可使用兩種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第一種是Zeiler&Fergus架構(gòu),22層,第二種是GoogleNet式的Inception模型。在LFW上,使用了兩種模式:直接取LFW圖片的中間部分進(jìn)行訓(xùn)練,效果98.87左右;使用額外的人臉對齊工具,效果99.63左右,超過DeepID。
2014年至2016年期間,GoogleNet團(tuán)隊(duì)對GoogleNet進(jìn)行了進(jìn)一步的發(fā)掘改進(jìn),研發(fā)出了Inception v2,Inception v3和Inception v4。最終基于Inception v4提出了inception-ResNet-v2。專利(申請?zhí)枺篣S15395530)披露了將nxn的卷積通過1xn卷積后接nx1卷積來替代以加速計(jì)算,又可以將1個卷積拆成2個卷積,使得網(wǎng)絡(luò)深度進(jìn)一步增加,增加了網(wǎng)絡(luò)的非線性;或者使用了兩個并行化的模塊(卷積、池化并行執(zhí)行,再進(jìn)行合并)來降低計(jì)算量,以及將ResNet與Inception 結(jié)合。
同在2016年,谷歌的Barret ZOPH等提出了NasNet,并以此提交了專利申請(申請?zhí)枺篣S62414300)。這個模型并非是人為設(shè)計(jì)出來的,而是通過谷歌很早之前推出的AutoML自動訓(xùn)練出來的。該項(xiàng)目目的是實(shí)現(xiàn)“自動化的機(jī)器學(xué)習(xí)”,即訓(xùn)練機(jī)器學(xué)習(xí)的軟件來打造機(jī)器學(xué)習(xí)的軟件,自行開發(fā)新系統(tǒng)的代碼層,它也是一種神經(jīng)架構(gòu)搜索技術(shù)(Neural Architecture Search technology)。其模型就是基于AutoML首先在CIFAR-10這種數(shù)據(jù)集上進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,以便AutoML找到最佳層并靈活進(jìn)行多次堆疊來創(chuàng)建最終網(wǎng)絡(luò),并將學(xué)到的最好架構(gòu)轉(zhuǎn)移到 ImageNet 圖像分類和COCO對象檢測中,其在圖像分類任務(wù)中表現(xiàn)極為優(yōu)秀。
為了更好地適應(yīng)移動端平臺,2017年,谷歌的Howard Andrew Gerald等推出了MobileNet。該技術(shù)使用了一種稱之為deep-wise的卷積方式來替代原有的傳統(tǒng)3D卷積,減少了卷積核的冗余表達(dá),在計(jì)算量和參數(shù)數(shù)量明顯下降之后,卷積網(wǎng)絡(luò)可以應(yīng)用在更多的移動端平臺。其他創(chuàng)新主體也圍繞移動端應(yīng)用進(jìn)行大量技術(shù)創(chuàng)新,如通過神經(jīng)網(wǎng)絡(luò)模型的壓縮、大型網(wǎng)絡(luò)的特性遷移至小型網(wǎng)絡(luò)等。
02、賦能醫(yī)療影像
傳統(tǒng)的醫(yī)學(xué)影像依賴于醫(yī)師根據(jù)影像提供的信息進(jìn)行診斷,而計(jì)算機(jī)視覺技術(shù)為醫(yī)療影像帶來了新機(jī)會。自2006年,全球涉及醫(yī)療影像的計(jì)算機(jī)視覺相關(guān)專利近2000件。
醫(yī)療影像的計(jì)算機(jī)視覺技術(shù)可以分為前期的圖像獲取,中期的圖像處理,以及后期的圖像診斷。圖像獲取進(jìn)一步細(xì)分為圖像構(gòu)建、圖像生成、目標(biāo)跟蹤,圖像處理包括圖像增強(qiáng)、圖像修復(fù)、圖像分割,圖像診斷分為圖像匹配、圖像構(gòu)建、圖像分類。無論從專利布局?jǐn)?shù)量還是布局質(zhì)量,西門子、通用電氣和飛利浦是該領(lǐng)域最重要的專利申請主體。三家企業(yè)在醫(yī)療圖像構(gòu)建、醫(yī)療圖像生成、醫(yī)療圖像增強(qiáng)和醫(yī)療圖像修復(fù)等細(xì)分技術(shù)均進(jìn)行了大量的專利布局,上述專利技術(shù)主要關(guān)注如何通過計(jì)算機(jī)視覺技術(shù)更高效地分析處理醫(yī)療數(shù)據(jù),提升圖像檢測設(shè)備的性能,使其能獲取更加準(zhǔn)確、更加豐富的信息。
03、革新自動駕駛
除了智能安防、醫(yī)療影像,視覺技術(shù)在自動駕駛方面的應(yīng)用越來越受到眾多科技型企業(yè)、傳感器企業(yè)、汽車企業(yè)的重視。自動駕駛的圖像視覺處理領(lǐng)域,Mobileye公司具有絕對的技術(shù)優(yōu)勢和市場優(yōu)勢,Mobileye也一次又一次地利用技術(shù)的革新推動著產(chǎn)業(yè)的發(fā)展。
2006年,深度學(xué)習(xí)算法剛提出不久,Mobileye就嘗試?yán)蒙疃葘W(xué)習(xí)算法對車燈進(jìn)行了識別,并利用車燈信息對車輛進(jìn)行識別導(dǎo)航。與此同時,福特提出利用人工智能技術(shù)修復(fù)低分辨率的圖像,使得汽車在夜間也能獲得更加清晰的圖像。早稻田大學(xué)嘗試將視覺系統(tǒng)和激光點(diǎn)云相融合,并融入人工智能技術(shù)。松下提出了專門處理環(huán)視視覺的處理器架構(gòu),其布局可謂十分超前。因?yàn)橹钡讲痪们?,Mobileye推出新的視覺輔助駕駛系統(tǒng)才開始采用多攝像頭的環(huán)視技術(shù)。Mobileye也在硬件系統(tǒng)上進(jìn)行了嘗試,如對片上系統(tǒng)的中斷技術(shù)進(jìn)行了研究。在這一階段,由于技術(shù)的不成熟,車輛控制技術(shù)所出現(xiàn)的關(guān)鍵技術(shù)較少。
2013年以后,人工智能在計(jì)算機(jī)視覺方面的技術(shù)發(fā)展得越來越成熟,大量的關(guān)鍵性技術(shù)涌現(xiàn)出來。比如Mobileye采用了人工智能識別算法,識別道路輪廓。百度也利用人工智能算法識別車道線。這些都對車輛行駛路徑的規(guī)劃提供了技術(shù)保障。福特、蘋果等也在算法領(lǐng)域進(jìn)行了各種探索。
在硬件設(shè)備領(lǐng)域,同樣出現(xiàn)了一批代表性技術(shù)。隨著傳感技術(shù)和算法的發(fā)展,智能網(wǎng)聯(lián)汽車獲得的數(shù)據(jù)越來越多,而車輛的操控具備及時性,這就要求處理器能在短時間內(nèi)處理大量的數(shù)據(jù)。
Mobileye在硬件系統(tǒng)方面做出了大量的嘗試,研發(fā)了多核多線程處理設(shè)備。從產(chǎn)品上來看,Mobileye也一直自主設(shè)計(jì)芯片,其擁有多代EyeQ芯片,芯片和算法的融合設(shè)計(jì)使得其計(jì)算能力得到了進(jìn)一步提升。其他的創(chuàng)新主體,比如法雷奧、東芝也在硬件設(shè)備的改造上進(jìn)行了嘗試。
國家知識產(chǎn)權(quán)局專利分析普及推廣項(xiàng)目人工智能關(guān)鍵技術(shù)課題組
來源:國家知識產(chǎn)權(quán)局微信
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
推薦閱讀(點(diǎn)擊圖文,閱讀全文)
官宣!2019全球知識產(chǎn)權(quán)生態(tài)大會(GIPC)即將來襲!
官宣!首屆“全球科技創(chuàng)新與知識產(chǎn)權(quán)總裁研修班”招生簡章
“投稿”請投郵箱“iprdaily@163.com”
「關(guān)于IPRdaily」
IPRdaily成立于2014年,是全球影響力的知識產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺,致力于連接全球知識產(chǎn)權(quán)人,用戶匯聚了中國、美國、德國、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司、成長型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬產(chǎn)業(yè)用戶(國內(nèi)25萬+海外30萬);同時擁有近百萬條高質(zhì)量的技術(shù)資源+專利資源,通過媒體構(gòu)建全球知識產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自國家知識產(chǎn)權(quán)局微信并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://globalwellnesspartner.com/”
文章不錯,犒勞下辛苦的作者吧