#本文僅代表作者觀點,不代表IPRdaily立場#
來源:IPRdaily中文網(iprdaily.cn)
原標題:人工智能產業(yè)中不可忽略的技術領域之NLP
據國家工業(yè)信息安全發(fā)展研究中心知識產權所(工信部電子知識產權中心)發(fā)布的《2020人工智能中國專利技術分析報告》顯示,截止到2020年10月底,我國自然語言處理技術領域專利共有48137件,2019年專利申請數量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術領域專利申請量為7910件。自2015年以來,自然語言專利技術申請量增長速度明顯加快,說明自然語言專利技術專利布局正處于活躍時期,是創(chuàng)新主體關注的重點。
“我們可以期待,總有一天機器會同人在一切的智能領域里競爭起來。但是,以哪一點作為競爭的出發(fā)點呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,我更傾向于支持另一種主張,這種主張認為,最好的出發(fā)點是制造出一種具有智能的、可用錢買到的機器,然后,教這種機器理解英語并且說英語。這個過程可以仿效小孩子說話的那種辦法來進行?!?/p>
- A. M. Turing,Computing Machinery and Illigence,Mind Vol.59,1950.
自然語言處理( Natural Language Processing)作為人工智能三大關鍵技術之一,從20世紀40年代算起,已經有70多年的歷史了,隨著信息網絡時代的到來,已經成為現代語言學中一個頗為引人注目的學科,并且已經廣泛應用于情感分析、問答系統(tǒng)、自動摘要、機器翻譯、語音識別、聊天機器人、市場預測、文本分類、拼寫檢查等領域。
那么,究竟什么是自然語言處理呢?
自然語言處理是以語言為對象,利用計算機技術來分析、理解和處理自然語言的一門學科,即把計算機作為語言研究的強大工具,在計算機的支持下對語言信息進行定量化的研究,并提供可供人與計算機之間能共同使用的語言描寫。
自然語言處理為什么重要?
比爾蓋茨曾說“語言理解是人工智能領域皇冠上的明珠”,自然語言處理有助于打破人與機器之間的障礙,改善人機交流的效率和生產力。在人工智能出現之前,機器只能處理結構化的數據,例如Excel里的數據;但是網絡中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻等,在非結構數據中,文本的數量是最多的,雖然沒有圖片和視頻占用的空間大,但是文本的信息量是最大的,為了能夠分析和利用這些文本信息,我們就需要利用NLP技術,讓機器理解這些文本信息,并加以利用。自然語言處理就是在機器語言和人類語言之間溝通的橋梁,以實現人機交流的目的。
圖1 圖片來源:公眾號:easyai-tech
2020年的自然語言處理技術專利發(fā)展現狀
據國家工業(yè)信息安全發(fā)展研究中心知識產權所(工信部電子知識產權中心)發(fā)布的《2020人工智能中國專利技術分析報告》(以下簡稱“報告”)顯示,截止到2020年10月底,我國自然語言處理技術領域專利共有48137件,2019年專利申請數量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術領域專利申請量為7910件。自2015年以來,自然語言專利技術申請量增長速度明顯加快,說明自然語言專利技術專利布局正處于活躍時期,是創(chuàng)新主體關注的重點。
圖2我國人工智能自然語言處理領域專利申請量年度變化趨勢
(受公開滯后影響,2020年專利數據公開不完整,統(tǒng)計數據截止至2020年10月底)
自然語言處理基礎技術包括知識圖譜、詞法分析、句法分析、語義分析和語言模型,基于對全球專利申請態(tài)勢的檢索,如下圖所示,知識圖譜專利申請量占比最高,為26%,其次為詞法分析、句法分析和語言模型,占比為19%,語義分析的申請量占比最低,為17%。(數據來源:《產業(yè)專利分析報告-人工智能關鍵技術(第68冊)》)
圖3 全球自然語言處理基礎技術各技術分支占比分析
數據來源:《產業(yè)專利分析報告-人工智能關鍵技術(第68冊)》
針對知識圖譜技術,筆者在國家知識產權局專利檢索及分析網站進行了檢索,如下圖所示的檢索結果顯示,在知識圖譜技術領域,北京百度網訊科技有限公司、平安科技(深圳)有限公司、騰訊科技(深圳)有限公司、北京明略軟件系統(tǒng)有限公司以及珠海格力電器股份有限公司分別排名前五。其中,百度網訊以392件專利量排名第一,平安科技以187件專利量排名第二,騰訊科技以151件專利量排名第三,明略科技以83件專利量排名第四,珠海格力以81件專利量排名第五。
圖4
針對詞法分析技術,筆者在國家知識產權局專利檢索及分析網站進行了檢索,如下圖所示的檢索結果顯示,在詞法分析技術領域,北京郵電大學、騰訊科技(深圳)有限公司、北京航空航天大學、中興通訊股份有限公司、華為技術有限公司分別排名前五。其中,北京郵電大學以57件專利量排名第一,騰訊科技以33件專利量排名第二,北京航空航天大學以21件專利量排名第三,中興通訊股份有限公司、華為技術有限公司以20件專利量并列第四。
圖5
針對句法分析技術,筆者在國家知識產權局專利檢索及分析網站進行了檢索,如下圖所示的檢索結果顯示,在句法分析技術領域,蘇州大學、北京百度網訊科技有限公司、百度在線網絡技術(北京)有限公司 、昆明理工大學、阿里巴巴集團控股有限公司、騰訊科技(深圳)有限公司、中國科學院自動化研究所排名前五。其中,蘇州大學以37件專利量排名第一,百度網訊以31件專利量排名第二,百度在線、昆明理工大學以28件專利量并列第三,阿里巴巴集團控股、騰訊科技、中國科學院自動化研究所以23件專利量并列排名第五。
圖6
針對語義分析技術,筆者在國家知識產權局專利檢索及分析網站進行了檢索,如下圖所示的檢索結果顯示,在語義分析技術領域,百度在線網絡技術(北京)有限公司 、騰訊科技(深圳)有限公司、北京百度網訊科技有限公司、阿里巴巴集團控股有限公司、平安科技(深圳)有限公司分別排名前五。其中,百度在線以198件專利量排名第一,騰訊科技以163件專利量排名第二,百度網訊以127件專利量排名第三,阿里巴巴集團控股以101件專利量排名第四,平安科技以85件專利量排名第五。
圖7
針對語言模型技術,筆者在國家知識產權局專利檢索及分析網站進行了檢索,如下圖所示的檢索結果顯示,在語言模型技術領域,北京百度網訊科技有限公司、騰訊科技(深圳)有限公司、平安科技(深圳)有限公司、百度在線網絡技術(北京)有限公司 、微軟公司分別排名前五。其中,百度網訊以169件專利量排名第一,騰訊科技以148件專利量排名第二,平安科技以121件專利量排名第三,百度在線以114件專利量排名第四,微軟公司以110件專利量排名第五。
圖8
根據自然語言處理技術的專利檢索情況,如下圖所示,人工智能、自然語言處理、神經網絡、機器學習、自然語言等關鍵詞成為自然語言處理技術相關專利中的創(chuàng)新詞云。
圖9 :自然語言處理技術相關專利中的創(chuàng)新詞云
使用工具:智慧芽專利數據庫,智慧芽英策
從綜合水平來看,專注于自然語言處理的公司相當多,根據2019《互聯(lián)網周刊》&eNet研究院選擇排行,國內自然語言處理領域的代表性企業(yè)如下圖所示,包括被稱為人工智能領域“黃埔軍?!钡奈④泚喼扪芯吭?,專注于輸入法的搜狗,專業(yè)從事語音研究的科大訊飛、云知聲、思必馳、捷通華聲、出門問問等企業(yè),也包括深入大數據挖掘的達觀數據、明略科技等企業(yè)。
圖10
展望未來
隨著互聯(lián)網的普及和海量數據和信息的涌現,自然語言處理作為人工智能的核心技術,在人們的工作、學習、生活中扮演著越來越重要的角色,并將在社會發(fā)展和科技進步的過程中發(fā)揮越來越重要的作用;一場人機關系變革正在進行中,自然語言處理已經迎來了最好的發(fā)展時代,旨在讓計算機真正理解我們的自然語言處理技術,正在把人工智能推向一個新的高度—能理解、會思考的認知智能,這讓我們能夠對未來有更大的想象空間。
那么NLP技術在實際工作中是如何在不同領域發(fā)揮其功用呢?筆者咨詢了明略科技集團信息檢索實驗室主任梁吉光博士,梁吉光博士表示:
“關于NLP的落地,不同于圖像識別、語音認識能感知智能的落地,NLP屬于認知智能,落地門檻稍高。NLP的應用主要有兩種:通用型技術應用和領域型技術應用。通用型技術應用主要包括語法分析、信息檢索、文本分類、情感分析、人機對話等任務,領域性技術應用則與應用場景緊密相關,如安全領域的輿情監(jiān)控、金融領域的智能風控、營銷領域的智能營銷、智能家居領域的智能音箱等。”
目前NLP技術已經有了一定發(fā)展,并逐步在安全、金融、互聯(lián)網、智能家居設備、電子產品等領域開始落地應用,那么國內NLP領域的發(fā)展情況究竟如何,已經具備了哪些優(yōu)勢?未來NLP技術發(fā)展又會面對哪些技術挑戰(zhàn)呢?針對這些問題,梁吉光博士回復說:
“國內自然語言處理研究一直走在國際前列水平,總體來講位居世界第二,僅次美國。從大環(huán)境角度,國內自然語言處理技術的飛速發(fā)展得益于中國四十年改革開放,為技術與國際接軌提供了溫床。人工智能落地包括四要素:場景、數據、算法、算力。同樣,自然語言處理技術的發(fā)展也離不開這四大要素。工業(yè)界從不缺場景,缺的是能適用于場景的技術。在信息爆炸時代,數據越來越多,各種訓練集測試集涌現;算法越來越復雜、越來越先進,尤其以深度神經網絡為代表的的深度學習架構,預訓練模型更是將自然語言處理推向了新的范式;計算能力也越來越高,提供了大規(guī)模計算的可能性,從這一角度,數據“大”、算法“優(yōu)”,算力“快”是推動自然語言處理發(fā)展的直接原因?!?/p>
自然語言處理,讓人機交互不再遙遠;深度學習(DL),讓語言解析不再是智能系統(tǒng)的瓶頸?;谏疃葘W習的NLP技術已經成為時下最主流的研究方法,并在在NLP領域的研究中取得一個又一個突破。DL最早突破的是語言模型,解決了傳統(tǒng)語言模型數據稀疏的問題。隨后,以CNN、RNN、LSTM為代表的深度神經網絡模型對自然語言詞序列的特征提取發(fā)起了進階。再到當下“預訓練+微調”這一NLP新范式更是橫掃整個領域,尤其以GPT、BERT模型為優(yōu)秀代表頻頻刷新SOTA。這一新范式結合下游任務,將NLP推向了新的研究豐碑。
對于未來NLP技術發(fā)展將會面對的技術挑戰(zhàn)方面,梁博繼續(xù)補充道:
(1)“大力出奇跡”有瓶頸
當下基于深度學習方法的NLP技術取得了卓越的效果,但這類方法基于“大”數據、“大”模型,數據動則TB量級,模型參數更是達到千億級別,著實卷,沒有最大只有更大。此外,此類算力多不可復現,且局限于財力雄厚玩家。卷到何時算了?卷不動的時候,或者大力已不能解決問題的時候,需要考慮技術突破方向。
(2)不可解釋性
自深度學習模型席卷NLP領域以來,其不可解釋性一直是研究者的關注點之一。這種不可解釋性也注定無法將模型很好地應用到依賴于過程解釋結果的領域,如法學、醫(yī)療、金融等領域。
從蒸汽時代到電氣時代,再到21世紀的信息時代,科技的發(fā)展推動著時代的進步,而人工智能正成為推動人類進入智能時代的決定性力量。當今的宇宙中人類是孤獨的,但在不久的未來,我們期待自然語言處理這一關鍵技術可以讓冰冷機器變得有溫度,實現人機同行的美好愿景。
相關閱讀:
來源:IPRdaily中文網(iprdaily.cn)
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
注:原文鏈接:人工智能產業(yè)中不可忽略的技術領域之NLP(點擊標題查看原文)
青年有為!尋找2021年“40位40歲以下企業(yè)知識產權精英”活動正式啟動
「關于IPRdaily」
IPRdaily是具有全球影響力的知識產權媒體,致力于連接全球知識產權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產權負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶(國內70余萬+海外近30萬),2019年全年全網頁面瀏覽量已經突破過億次傳播。
(英文官網:iprdaily.com 中文官網:iprdaily.cn)
本文來自IPRdaily中文網(iprdaily.cn)并經IPRdaily.cn中文網編輯。轉載此文章須經權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://globalwellnesspartner.com/
文章不錯,犒勞下辛苦的作者吧