林贊磊
摘 要:隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及人類管理與知識(shí)水平的提高,信息技術(shù)發(fā)展的瓶頸已不僅僅存在于數(shù)據(jù)的獲取、存儲(chǔ)與傳輸,而更受限于數(shù)據(jù)的加工、分析和利用。采用有效的人工智能技術(shù)從大數(shù)據(jù)中獲取抽象信息并將其轉(zhuǎn)換為有用的知識(shí),是當(dāng)前大數(shù)據(jù)分析所面臨的核心問題之一。本文從我國現(xiàn)有專利審批現(xiàn)狀入手,分析當(dāng)前審批業(yè)務(wù)中存在的圖像審查需求,闡述采用深度學(xué)習(xí)技術(shù)進(jìn)行專利圖像智能識(shí)別與分類的可行性。
關(guān)鍵詞:深度學(xué)習(xí);人工智能;審查質(zhì)量
中圖分類號(hào):TP751 文獻(xiàn)標(biāo)志碼:A
0 引言
最近幾年,隨著我國創(chuàng)新能力和創(chuàng)新水平的不斷提高,我國專利申請(qǐng)量保持著快速增長的態(tài)勢(shì)。按照當(dāng)前的審批現(xiàn)狀,申請(qǐng)文件需要經(jīng)過人工加工,形成代碼化數(shù)據(jù)后才能供審查員使用。隨著越來越多的智能審查系統(tǒng)應(yīng)用于專利審批工作,通過人工識(shí)別專利申請(qǐng)文件圖像的方式已經(jīng)無法支撐現(xiàn)有專利審批的智能審查體系,如何在提高審查效率的同時(shí),保證審查質(zhì)量,成為專利審批管理工作面臨的問題。
1 深度學(xué)習(xí)技術(shù)
深度學(xué)習(xí)技術(shù)是新興的機(jī)器學(xué)習(xí)研究領(lǐng)域,旨在研究如何從數(shù)據(jù)中自動(dòng)提取多層特征表示,其核心思想是通過數(shù)據(jù)驅(qū)動(dòng)的方式,采用一系列的非線性變換,從原始數(shù)據(jù)中提取由低層到高層、由具體到抽象、由一般到特定語義的特征。深度學(xué)習(xí)不僅改變著傳統(tǒng)的機(jī)器學(xué)習(xí)方法,也影響著本文對(duì)人類感知的理解,迄今已在語音識(shí)別、圖像理解、自然語言處理等應(yīng)用領(lǐng)域引發(fā)了突破性的變革。
2 人工智能
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,可以設(shè)想,未來人工智能帶來的科技產(chǎn)品,將會(huì)是人類智慧的“容器”。
3 我國專利審批現(xiàn)狀
3.1 專利審批業(yè)務(wù)現(xiàn)狀
根據(jù)《專利審查指南》的審查要求規(guī)定,專利審查員需要對(duì)權(quán)利要求書、說明書這類申請(qǐng)文件中是否存在除化學(xué)式、數(shù)學(xué)式、表格之外的插圖做出正確的判斷。
2016年專利申請(qǐng)文件總量達(dá)2000多萬件,其中,發(fā)明專利申請(qǐng)中含圖像約60萬張,而且圖像種類繁多,經(jīng)過統(tǒng)計(jì),專利申請(qǐng)文件中至少存在12種可識(shí)別的圖像種類,其中,僅化學(xué)式、數(shù)學(xué)式及表格3種類型的圖像占比約20%。
3.2 專利審批系統(tǒng)現(xiàn)狀
2010年2月電子審批系統(tǒng)的上線,專利局實(shí)現(xiàn)了全流程、無紙化審查,提升了工作效率,規(guī)范了信息流程。專利申請(qǐng)文件的遞交存在兩種方式,一種是通過離線客戶端編輯并遞交的電子申請(qǐng)方式,另一種是遞交量較少的紙件申請(qǐng)。專利申請(qǐng)文件的遞交類型主要包括XML結(jié)構(gòu)化文件和PDF/WORD非結(jié)構(gòu)化文件兩種,其中,以XML結(jié)構(gòu)化文件類型為主,2016年新申請(qǐng)文件中,XML文件類型占比約68%,PDF/WORD文件類別占比約32%。
4 專利申請(qǐng)文件圖像審查存在的問題
4.1 專利申請(qǐng)文件圖像種類繁多,缺乏輔助手段
專利文件中的對(duì)于圖像的審查是審查工作的一項(xiàng)難點(diǎn),由于專利文件中存在大量的插圖,而且這些插圖類別不同,常見的插圖有表格、數(shù)學(xué)式、化學(xué)式和文檔截圖等,專利審批系統(tǒng)對(duì)于圖像的處理分為圖像加工和圖像審查兩部分,圖像加工是通過人工的方式對(duì)圖像進(jìn)行識(shí)別并分類,圖像審查是對(duì)圖像的準(zhǔn)確性和合理性進(jìn)行審批,這兩部分工作都缺乏相應(yīng)的輔助手段,在當(dāng)前專利審批智能化程度日益強(qiáng)化的形式下,專利申請(qǐng)文件圖像處理技術(shù)相對(duì)落后,可能會(huì)影響到其他審查流程的處理效率,隨著逐年專利申請(qǐng)量的不斷遞增,審查員的審查壓力變得越來越大,為了有效提升審查效率,對(duì)于專利申請(qǐng)文件中圖像的處理需要增加相應(yīng)的輔助手段。
4.2 專利申請(qǐng)文件圖像處理需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)
專利審批系統(tǒng)對(duì)于圖像加工和圖像審查都采用人工的方式進(jìn)行,圖像加工需要人工識(shí)別圖像并對(duì)不同的圖像進(jìn)行分類,由于數(shù)據(jù)加工人員水平各異,數(shù)據(jù)加工標(biāo)準(zhǔn)分類比較粗,分類不夠細(xì)化,導(dǎo)致數(shù)據(jù)加工存在加工分類不規(guī)范或錯(cuò)誤的情況,加工周期也比較長,在審查員對(duì)圖像進(jìn)行審查時(shí),需要對(duì)圖像分類的準(zhǔn)確性進(jìn)一步進(jìn)行核實(shí),審查員和數(shù)據(jù)加工人員的工作重復(fù)工作,對(duì)于圖像的審查嚴(yán)重影響了案件的審查效率,為了保證審查質(zhì)量,專利申請(qǐng)文件圖像處理需要建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。
5 將深度學(xué)習(xí)技術(shù)應(yīng)用于專利圖像識(shí)別與分類的可行性
傳統(tǒng)的圖像識(shí)別技術(shù)主要應(yīng)用于樣本需求量小的領(lǐng)域,對(duì)于專利圖像上萬級(jí)的數(shù)據(jù)領(lǐng)域,傳統(tǒng)圖像識(shí)別技術(shù)已經(jīng)不是很適用。
與傳統(tǒng)的圖像識(shí)別技術(shù)相比,采用深度學(xué)習(xí)技術(shù),從專利申請(qǐng)文件中常見的圖像入手,自動(dòng)提取圖像特征,增加了泛化性,采用歸一化的方式,減少了過多的人為因素,通過CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))方式,自行搭建網(wǎng)絡(luò),使用訓(xùn)練成功的分類模型,實(shí)現(xiàn)專利申請(qǐng)文件中圖像的自動(dòng)識(shí)別和自動(dòng)分類,最終實(shí)現(xiàn)申請(qǐng)文件的中插圖的自動(dòng)比對(duì)審查,提高審查效率和審查質(zhì)量。
5.1 圖像識(shí)別結(jié)果精確,提高圖像審查效率
深度學(xué)習(xí)技術(shù)采用神經(jīng)網(wǎng)絡(luò)對(duì)專利圖像信息進(jìn)行構(gòu)型,進(jìn)行圖像特征的提取與對(duì)比,能夠大幅提升機(jī)器對(duì)專利圖像信息的辨識(shí)能力,面對(duì)海量專利圖像信息時(shí),使圖像識(shí)別的結(jié)果更為精確,提高了數(shù)據(jù)加工及圖像審查效率。例如:通過搭建RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))方式,識(shí)別專利申請(qǐng)文件中的一個(gè)表格,能夠在申請(qǐng)文件中精確的確定表格的如下幾類特征:
(1)僅包括水平直線且列之間排列整齊;
(2)包括全部的表格線;
(3)橫排表格;
(4)表格邊線不全、不連續(xù);
(5)彩色邊線;
(6)帶灰度、漸變圖像特征的表格;
(7)含viso、UI元素、表格的組合;
(8)帶灰度漸變圖像特征的表格。
5.2 形成圖像分類標(biāo)準(zhǔn),提高圖像審查質(zhì)量
通過采用卷積神經(jīng)網(wǎng)絡(luò)方式可以在專利圖像分類方面取得很好的效果,準(zhǔn)確的選擇網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)對(duì)圖像分類的效果和效率有很大的提高。專利申請(qǐng)文件中的圖像種類繁多,目前僅有表格、化學(xué)式、數(shù)學(xué)式等主要類型,采用深度學(xué)習(xí)技術(shù)識(shí)別圖像特征,可以根據(jù)圖像特征形成圖像分類的標(biāo)準(zhǔn),經(jīng)過理論分析及實(shí)際實(shí)驗(yàn),采用卷積神經(jīng)網(wǎng)絡(luò)方式,專利申請(qǐng)文件按照?qǐng)D像特征分為12類圖像種類,分別包括:表格、化學(xué)式、數(shù)學(xué)式、文字類的程序源代碼、文檔截屏或者序列表、電路圖、機(jī)械圖及零件圖、流程圖及框架圖、示意圖、圖表、照片、UI界面等。
準(zhǔn)確地對(duì)專利申請(qǐng)文件中的圖像進(jìn)行自動(dòng)分類,形成專利領(lǐng)域的圖像分類標(biāo)準(zhǔn),在專利數(shù)據(jù)加工環(huán)節(jié),紙件專利申請(qǐng)及WORD/PDF提交的專利數(shù)據(jù)可以按照約定標(biāo)準(zhǔn)加工復(fù)雜單元數(shù)據(jù)生成XML數(shù)據(jù),供后端智能審查引擎使用,對(duì)比當(dāng)前審查識(shí)別圖像的現(xiàn)狀,審查員對(duì)已經(jīng)進(jìn)行準(zhǔn)確分類的圖像做出的審查結(jié)論質(zhì)量更高。
參考文獻(xiàn)
[1]中華人民共和國專利法(2008年修訂版)[S].
[2]中華人民共和國專利法實(shí)施細(xì)則(2010年修訂版)[S].
[3]中華人民共和國國家知識(shí)產(chǎn)權(quán)局.專利審查指南(2010)[S].