人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

#本文僅代表作者觀點(diǎn)，不代表IPRdaily立場(chǎng)#

來(lái)源：IPRdaily中文網(wǎng)（iprdaily.cn）

原標(biāo)題：人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

據(jù)國(guó)家工業(yè)信息安全發(fā)展研究中心知識(shí)產(chǎn)權(quán)所（工信部電子知識(shí)產(chǎn)權(quán)中心）發(fā)布的《2020人工智能中國(guó)專利技術(shù)分析報(bào)告》顯示，截止到2020年10月底，我國(guó)自然語(yǔ)言處理技術(shù)領(lǐng)域?qū)＠灿?8137件，2019年專利申請(qǐng)數(shù)量為11342件，是2000年專利申請(qǐng)量的118倍，占人工智能年度專利總申請(qǐng)量的5.65%。2020年度（截止到2020年10月底）自然語(yǔ)言處理技術(shù)領(lǐng)域?qū)＠暾?qǐng)量為7910件。自2015年以來(lái)，自然語(yǔ)言專利技術(shù)申請(qǐng)量增長(zhǎng)速度明顯加快，說(shuō)明自然語(yǔ)言專利技術(shù)專利布局正處于活躍時(shí)期，是創(chuàng)新主體關(guān)注的重點(diǎn)。

“我們可以期待，總有一天機(jī)器會(huì)同人在一切的智能領(lǐng)域里競(jìng)爭(zhēng)起來(lái)。但是，以哪一點(diǎn)作為競(jìng)爭(zhēng)的出發(fā)點(diǎn)呢？這是一個(gè)很難決定的問(wèn)題。許多人以為可以把下棋之類的極為抽象的活動(dòng)作為最好的出發(fā)點(diǎn)，不過(guò)，我更傾向于支持另一種主張，這種主張認(rèn)為，最好的出發(fā)點(diǎn)是制造出一種具有智能的、可用錢買到的機(jī)器，然后，教這種機(jī)器理解英語(yǔ)并且說(shuō)英語(yǔ)。這個(gè)過(guò)程可以仿效小孩子說(shuō)話的那種辦法來(lái)進(jìn)行?！?/p>

- A. M. Turing，Computing Machinery and Illigence，Mind Vol.59，1950.

自然語(yǔ)言處理( Natural Language Processing)作為人工智能三大關(guān)鍵技術(shù)之一，從20世紀(jì)40年代算起，已經(jīng)有70多年的歷史了，隨著信息網(wǎng)絡(luò)時(shí)代的到來(lái)，已經(jīng)成為現(xiàn)代語(yǔ)言學(xué)中一個(gè)頗為引人注目的學(xué)科，并且已經(jīng)廣泛應(yīng)用于情感分析、問(wèn)答系統(tǒng)、自動(dòng)摘要、機(jī)器翻譯、語(yǔ)音識(shí)別、聊天機(jī)器人、市場(chǎng)預(yù)測(cè)、文本分類、拼寫檢查等領(lǐng)域。

那么，究竟什么是自然語(yǔ)言處理呢？

自然語(yǔ)言處理是以語(yǔ)言為對(duì)象，利用計(jì)算機(jī)技術(shù)來(lái)分析、理解和處理自然語(yǔ)言的一門學(xué)科，即把計(jì)算機(jī)作為語(yǔ)言研究的強(qiáng)大工具，在計(jì)算機(jī)的支持下對(duì)語(yǔ)言信息進(jìn)行定量化的研究，并提供可供人與計(jì)算機(jī)之間能共同使用的語(yǔ)言描寫。

自然語(yǔ)言處理為什么重要？

比爾蓋茨曾說(shuō)“語(yǔ)言理解是人工智能領(lǐng)域皇冠上的明珠”，自然語(yǔ)言處理有助于打破人與機(jī)器之間的障礙，改善人機(jī)交流的效率和生產(chǎn)力。在人工智能出現(xiàn)之前，機(jī)器只能處理結(jié)構(gòu)化的數(shù)據(jù)，例如Excel里的數(shù)據(jù)；但是網(wǎng)絡(luò)中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的，例如：文章、圖片、音頻、視頻等，在非結(jié)構(gòu)數(shù)據(jù)中，文本的數(shù)量是最多的，雖然沒(méi)有圖片和視頻占用的空間大，但是文本的信息量是最大的，為了能夠分析和利用這些文本信息，我們就需要利用NLP技術(shù)，讓機(jī)器理解這些文本信息，并加以利用。自然語(yǔ)言處理就是在機(jī)器語(yǔ)言和人類語(yǔ)言之間溝通的橋梁，以實(shí)現(xiàn)人機(jī)交流的目的。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖1 圖片來(lái)源：公眾號(hào)：easyai-tech

2020年的自然語(yǔ)言處理技術(shù)專利發(fā)展現(xiàn)狀

據(jù)國(guó)家工業(yè)信息安全發(fā)展研究中心知識(shí)產(chǎn)權(quán)所（工信部電子知識(shí)產(chǎn)權(quán)中心）發(fā)布的《2020人工智能中國(guó)專利技術(shù)分析報(bào)告》（以下簡(jiǎn)稱“報(bào)告”）顯示，截止到2020年10月底，我國(guó)自然語(yǔ)言處理技術(shù)領(lǐng)域?qū)＠灿?8137件，2019年專利申請(qǐng)數(shù)量為11342件，是2000年專利申請(qǐng)量的118倍，占人工智能年度專利總申請(qǐng)量的5.65%。2020年度（截止到2020年10月底）自然語(yǔ)言處理技術(shù)領(lǐng)域?qū)＠暾?qǐng)量為7910件。自2015年以來(lái)，自然語(yǔ)言專利技術(shù)申請(qǐng)量增長(zhǎng)速度明顯加快，說(shuō)明自然語(yǔ)言專利技術(shù)專利布局正處于活躍時(shí)期，是創(chuàng)新主體關(guān)注的重點(diǎn)。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖2我國(guó)人工智能自然語(yǔ)言處理領(lǐng)域?qū)＠暾?qǐng)量年度變化趨勢(shì)

（受公開滯后影響，2020年專利數(shù)據(jù)公開不完整，統(tǒng)計(jì)數(shù)據(jù)截止至2020年10月底）

自然語(yǔ)言處理基礎(chǔ)技術(shù)包括知識(shí)圖譜、詞法分析、句法分析、語(yǔ)義分析和語(yǔ)言模型，基于對(duì)全球?qū)＠暾?qǐng)態(tài)勢(shì)的檢索，如下圖所示，知識(shí)圖譜專利申請(qǐng)量占比最高，為26%，其次為詞法分析、句法分析和語(yǔ)言模型，占比為19%，語(yǔ)義分析的申請(qǐng)量占比最低，為17%。（數(shù)據(jù)來(lái)源：《產(chǎn)業(yè)專利分析報(bào)告-人工智能關(guān)鍵技術(shù)（第68冊(cè)）》）

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖3 全球自然語(yǔ)言處理基礎(chǔ)技術(shù)各技術(shù)分支占比分析

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

數(shù)據(jù)來(lái)源：《產(chǎn)業(yè)專利分析報(bào)告-人工智能關(guān)鍵技術(shù)（第68冊(cè)）》

針對(duì)知識(shí)圖譜技術(shù)，筆者在國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索，如下圖所示的檢索結(jié)果顯示，在知識(shí)圖譜技術(shù)領(lǐng)域，北京百度網(wǎng)訊科技有限公司、平安科技（深圳）有限公司、騰訊科技（深圳）有限公司、北京明略軟件系統(tǒng)有限公司以及珠海格力電器股份有限公司分別排名前五。其中，百度網(wǎng)訊以392件專利量排名第一，平安科技以187件專利量排名第二，騰訊科技以151件專利量排名第三，明略科技以83件專利量排名第四，珠海格力以81件專利量排名第五。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖4

針對(duì)詞法分析技術(shù)，筆者在國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索，如下圖所示的檢索結(jié)果顯示，在詞法分析技術(shù)領(lǐng)域，北京郵電大學(xué)、騰訊科技（深圳）有限公司、北京航空航天大學(xué)、中興通訊股份有限公司、華為技術(shù)有限公司分別排名前五。其中，北京郵電大學(xué)以57件專利量排名第一，騰訊科技以33件專利量排名第二，北京航空航天大學(xué)以21件專利量排名第三，中興通訊股份有限公司、華為技術(shù)有限公司以20件專利量并列第四。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖5

針對(duì)句法分析技術(shù)，筆者在國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索，如下圖所示的檢索結(jié)果顯示，在句法分析技術(shù)領(lǐng)域，蘇州大學(xué)、北京百度網(wǎng)訊科技有限公司、百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司、昆明理工大學(xué)、阿里巴巴集團(tuán)控股有限公司、騰訊科技（深圳）有限公司、中國(guó)科學(xué)院自動(dòng)化研究所排名前五。其中，蘇州大學(xué)以37件專利量排名第一，百度網(wǎng)訊以31件專利量排名第二，百度在線、昆明理工大學(xué)以28件專利量并列第三，阿里巴巴集團(tuán)控股、騰訊科技、中國(guó)科學(xué)院自動(dòng)化研究所以23件專利量并列排名第五。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖6

針對(duì)語(yǔ)義分析技術(shù)，筆者在國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索，如下圖所示的檢索結(jié)果顯示，在語(yǔ)義分析技術(shù)領(lǐng)域，百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司、騰訊科技（深圳）有限公司、北京百度網(wǎng)訊科技有限公司、阿里巴巴集團(tuán)控股有限公司、平安科技（深圳）有限公司分別排名前五。其中，百度在線以198件專利量排名第一，騰訊科技以163件專利量排名第二，百度網(wǎng)訊以127件專利量排名第三，阿里巴巴集團(tuán)控股以101件專利量排名第四，平安科技以85件專利量排名第五。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖7

針對(duì)語(yǔ)言模型技術(shù)，筆者在國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索，如下圖所示的檢索結(jié)果顯示，在語(yǔ)言模型技術(shù)領(lǐng)域，北京百度網(wǎng)訊科技有限公司、騰訊科技（深圳）有限公司、平安科技（深圳）有限公司、百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司、微軟公司分別排名前五。其中，百度網(wǎng)訊以169件專利量排名第一，騰訊科技以148件專利量排名第二，平安科技以121件專利量排名第三，百度在線以114件專利量排名第四，微軟公司以110件專利量排名第五。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP 圖8

根據(jù)自然語(yǔ)言處理技術(shù)的專利檢索情況，如下圖所示，人工智能、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、自然語(yǔ)言等關(guān)鍵詞成為自然語(yǔ)言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖9 ：自然語(yǔ)言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云

使用工具：智慧芽專利數(shù)據(jù)庫(kù)，智慧芽英策

從綜合水平來(lái)看，專注于自然語(yǔ)言處理的公司相當(dāng)多，根據(jù)2019《互聯(lián)網(wǎng)周刊》&eNet研究院選擇排行，國(guó)內(nèi)自然語(yǔ)言處理領(lǐng)域的代表性企業(yè)如下圖所示，包括被稱為人工智能領(lǐng)域“黃埔軍?！钡奈④泚喼扪芯吭海瑢Ｗ⒂谳斎敕ǖ乃压?，專業(yè)從事語(yǔ)音研究的科大訊飛、云知聲、思必馳、捷通華聲、出門問(wèn)問(wèn)等企業(yè)，也包括深入大數(shù)據(jù)挖掘的達(dá)觀數(shù)據(jù)、明略科技等企業(yè)。

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖10

展望未來(lái)

隨著互聯(lián)網(wǎng)的普及和海量數(shù)據(jù)和信息的涌現(xiàn)，自然語(yǔ)言處理作為人工智能的核心技術(shù)，在人們的工作、學(xué)習(xí)、生活中扮演著越來(lái)越重要的角色，并將在社會(huì)發(fā)展和科技進(jìn)步的過(guò)程中發(fā)揮越來(lái)越重要的作用；一場(chǎng)人機(jī)關(guān)系變革正在進(jìn)行中，自然語(yǔ)言處理已經(jīng)迎來(lái)了最好的發(fā)展時(shí)代，旨在讓計(jì)算機(jī)真正理解我們的自然語(yǔ)言處理技術(shù)，正在把人工智能推向一個(gè)新的高度—能理解、會(huì)思考的認(rèn)知智能，這讓我們能夠?qū)ξ磥?lái)有更大的想象空間。

那么NLP技術(shù)在實(shí)際工作中是如何在不同領(lǐng)域發(fā)揮其功用呢？筆者咨詢了明略科技集團(tuán)信息檢索實(shí)驗(yàn)室主任梁吉光博士，梁吉光博士表示：

“關(guān)于NLP的落地，不同于圖像識(shí)別、語(yǔ)音認(rèn)識(shí)能感知智能的落地，NLP屬于認(rèn)知智能，落地門檻稍高。NLP的應(yīng)用主要有兩種：通用型技術(shù)應(yīng)用和領(lǐng)域型技術(shù)應(yīng)用。通用型技術(shù)應(yīng)用主要包括語(yǔ)法分析、信息檢索、文本分類、情感分析、人機(jī)對(duì)話等任務(wù)，領(lǐng)域性技術(shù)應(yīng)用則與應(yīng)用場(chǎng)景緊密相關(guān)，如安全領(lǐng)域的輿情監(jiān)控、金融領(lǐng)域的智能風(fēng)控、營(yíng)銷領(lǐng)域的智能營(yíng)銷、智能家居領(lǐng)域的智能音箱等。”

目前NLP技術(shù)已經(jīng)有了一定發(fā)展，并逐步在安全、金融、互聯(lián)網(wǎng)、智能家居設(shè)備、電子產(chǎn)品等領(lǐng)域開始落地應(yīng)用，那么國(guó)內(nèi)NLP領(lǐng)域的發(fā)展情況究竟如何，已經(jīng)具備了哪些優(yōu)勢(shì)？未來(lái)NLP技術(shù)發(fā)展又會(huì)面對(duì)哪些技術(shù)挑戰(zhàn)呢？針對(duì)這些問(wèn)題，梁吉光博士回復(fù)說(shuō)：

“國(guó)內(nèi)自然語(yǔ)言處理研究一直走在國(guó)際前列水平，總體來(lái)講位居世界第二，僅次美國(guó)。從大環(huán)境角度，國(guó)內(nèi)自然語(yǔ)言處理技術(shù)的飛速發(fā)展得益于中國(guó)四十年改革開放，為技術(shù)與國(guó)際接軌提供了溫床。人工智能落地包括四要素：場(chǎng)景、數(shù)據(jù)、算法、算力。同樣，自然語(yǔ)言處理技術(shù)的發(fā)展也離不開這四大要素。工業(yè)界從不缺場(chǎng)景，缺的是能適用于場(chǎng)景的技術(shù)。在信息爆炸時(shí)代，數(shù)據(jù)越來(lái)越多，各種訓(xùn)練集測(cè)試集涌現(xiàn)；算法越來(lái)越復(fù)雜、越來(lái)越先進(jìn)，尤其以深度神經(jīng)網(wǎng)絡(luò)為代表的的深度學(xué)習(xí)架構(gòu)，預(yù)訓(xùn)練模型更是將自然語(yǔ)言處理推向了新的范式；計(jì)算能力也越來(lái)越高，提供了大規(guī)模計(jì)算的可能性，從這一角度，數(shù)據(jù)“大”、算法“優(yōu)”，算力“快”是推動(dòng)自然語(yǔ)言處理發(fā)展的直接原因?！?/p>

自然語(yǔ)言處理，讓人機(jī)交互不再遙遠(yuǎn)；深度學(xué)習(xí)(DL)，讓語(yǔ)言解析不再是智能系統(tǒng)的瓶頸。基于深度學(xué)習(xí)的NLP技術(shù)已經(jīng)成為時(shí)下最主流的研究方法，并在在NLP領(lǐng)域的研究中取得一個(gè)又一個(gè)突破。DL最早突破的是語(yǔ)言模型，解決了傳統(tǒng)語(yǔ)言模型數(shù)據(jù)稀疏的問(wèn)題。隨后，以CNN、RNN、LSTM為代表的深度神經(jīng)網(wǎng)絡(luò)模型對(duì)自然語(yǔ)言詞序列的特征提取發(fā)起了進(jìn)階。再到當(dāng)下“預(yù)訓(xùn)練+微調(diào)”這一NLP新范式更是橫掃整個(gè)領(lǐng)域，尤其以GPT、BERT模型為優(yōu)秀代表頻頻刷新SOTA。這一新范式結(jié)合下游任務(wù)，將NLP推向了新的研究豐碑。

對(duì)于未來(lái)NLP技術(shù)發(fā)展將會(huì)面對(duì)的技術(shù)挑戰(zhàn)方面，梁博繼續(xù)補(bǔ)充道：

（1）“大力出奇跡”有瓶頸

當(dāng)下基于深度學(xué)習(xí)方法的NLP技術(shù)取得了卓越的效果，但這類方法基于“大”數(shù)據(jù)、“大”模型，數(shù)據(jù)動(dòng)則TB量級(jí)，模型參數(shù)更是達(dá)到千億級(jí)別，著實(shí)卷，沒(méi)有最大只有更大。此外，此類算力多不可復(fù)現(xiàn)，且局限于財(cái)力雄厚玩家。卷到何時(shí)算了？卷不動(dòng)的時(shí)候，或者大力已不能解決問(wèn)題的時(shí)候，需要考慮技術(shù)突破方向。

（2）不可解釋性

自深度學(xué)習(xí)模型席卷NLP領(lǐng)域以來(lái)，其不可解釋性一直是研究者的關(guān)注點(diǎn)之一。這種不可解釋性也注定無(wú)法將模型很好地應(yīng)用到依賴于過(guò)程解釋結(jié)果的領(lǐng)域，如法學(xué)、醫(yī)療、金融等領(lǐng)域。

從蒸汽時(shí)代到電氣時(shí)代，再到21世紀(jì)的信息時(shí)代，科技的發(fā)展推動(dòng)著時(shí)代的進(jìn)步，而人工智能正成為推動(dòng)人類進(jìn)入智能時(shí)代的決定性力量。當(dāng)今的宇宙中人類是孤獨(dú)的，但在不久的未來(lái)，我們期待自然語(yǔ)言處理這一關(guān)鍵技術(shù)可以讓冰冷機(jī)器變得有溫度，實(shí)現(xiàn)人機(jī)同行的美好愿景。

相關(guān)閱讀：

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之知識(shí)圖譜

來(lái)源：IPRdaily中文網(wǎng)（iprdaily.cn）

編輯：IPRdaily王穎校對(duì)：IPRdaily縱橫君

注：原文鏈接：人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP（點(diǎn)擊標(biāo)題查看原文）

青年有為！尋找2021年“40位40歲以下企業(yè)知識(shí)產(chǎn)權(quán)精英”活動(dòng)正式啟動(dòng)

報(bào)名！2021年「涉外專利代理高級(jí)研修班【上海站】」來(lái)啦！

報(bào)名！8天過(guò)實(shí)務(wù)-專代實(shí)務(wù)考試面授集訓(xùn)營(yíng)【華南站】正式招生

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

「關(guān)于IPRdaily」

IPRdaily是具有全球影響力的知識(shí)產(chǎn)權(quán)媒體，致力于連接全球知識(shí)產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來(lái)自于中國(guó)、美國(guó)、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國(guó)等15個(gè)國(guó)家和地區(qū)的高科技公司及成長(zhǎng)型科技企業(yè)的管理者及科技研發(fā)或知識(shí)產(chǎn)權(quán)負(fù)責(zé)人，還有來(lái)自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬(wàn)用戶（國(guó)內(nèi)70余萬(wàn)+海外近30萬(wàn)），2019年全年全網(wǎng)頁(yè)面瀏覽量已經(jīng)突破過(guò)億次傳播。

（英文官網(wǎng)：iprdaily.com 中文官網(wǎng)：iprdaily.cn）

本文來(lái)自IPRdaily中文網(wǎng)（iprdaily.cn）并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng)，如若轉(zhuǎn)載，請(qǐng)注明出處：“http://globalwellnesspartner.com/