李 鳴,郭晨皓,陳 星*
(1.福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,福州 350108;2.福建省網(wǎng)絡(luò)計算與智能信息處理重點實驗室(福州大學(xué)),福州 350108)
(?通信作者電子郵箱chenxing@fzu.edu.cn)
視覺是人類理解認識外部世界的重要途徑,在人類認知的過程中,有超過80%的信息量來自視覺系統(tǒng),而計算機視覺作為計算機科學(xué)領(lǐng)域一個重要的研究方向,目標是讓計算機能夠幫助或者代替人眼感知圖像、視頻或者多維數(shù)據(jù),并從中獲得目標的信息和數(shù)據(jù)[1]。
如今,隨著對深度神經(jīng)網(wǎng)絡(luò)研究的進一步深入,它在計算機視覺領(lǐng)域中也有了廣泛的應(yīng)用,并在目標檢測、目標跟蹤、超分辨率、圖片生成、3D 建模和人體姿態(tài)相關(guān)等方向都取得了不錯的效果[2]。因此,含有更多隱藏層的復(fù)雜模型被提出,相對于傳統(tǒng)的機器學(xué)習(xí)方法具有更強大有效的特征學(xué)習(xí)和特征表達能力。而面對著越來越多的模型,通過閱讀論文文檔來學(xué)習(xí)了解相關(guān)模型的開發(fā)人員也就產(chǎn)生了如何根據(jù)所遇到的問題快速準確地找到合適模型的需求。本文根據(jù)這一需求進行了相關(guān)的調(diào)研,發(fā)現(xiàn)目前已有對科學(xué)文章進行提取關(guān)鍵詞并推薦的研究[3],但是,它不是專門針對視覺類計算機神經(jīng)網(wǎng)絡(luò)來實現(xiàn)自動標注。因此,本文提出了模型應(yīng)用領(lǐng)域的自動標注系統(tǒng),通過對模型進行自動標注,能夠幫助開發(fā)人員更加快速準確了解該模型的應(yīng)用領(lǐng)域,從而判斷是否是自己需要的模型。
本文的主要工作如下:
1)利用詞頻等信息計算得到不同領(lǐng)域中的關(guān)鍵詞以及其對應(yīng)的權(quán)值,并據(jù)此構(gòu)建了視覺類深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)圖,方便之后的模型分類。
2)本文發(fā)現(xiàn)關(guān)鍵詞作為最能體現(xiàn)模型所屬領(lǐng)域特點的詞組表達,往往在摘要中出現(xiàn)的地方具有相似性與固定性,根據(jù)這一發(fā)現(xiàn),提出了能夠提取文章摘要關(guān)鍵詞組的八種提取模型。
3)在實際數(shù)據(jù)上進行實驗,結(jié)果表明,與傳統(tǒng)機器學(xué)習(xí)分類算法相比,本文的方法可實現(xiàn)更好的性能。
目前,關(guān)鍵詞提取技術(shù)主要可以分為三類:語言學(xué)方法、統(tǒng)計方法、機器學(xué)習(xí)方法。
1.1.1 語言學(xué)方法
語言學(xué)方法中使用了單詞、句子和文檔的語言屬性,最常使用的語言屬性是詞法分析、句法分析、語義分析和語篇分析[4-6]。基于語言學(xué)方法具有不可避免的缺點,首先語法規(guī)則不可能涵蓋所有語句,其次這種方法對開發(fā)者的要求極為苛刻,開發(fā)者不僅要精通計算機還要精通語言學(xué),因此,雖然語言學(xué)方法解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。
1.1.2 統(tǒng)計方法
統(tǒng)計方法基于術(shù)語內(nèi)部詞之間黏著度較高的假設(shè),該方法不需要訓(xùn)練數(shù)據(jù),而是利用統(tǒng)計特征實現(xiàn)關(guān)鍵詞提?。?]。目前統(tǒng)計方法包括n-gram 統(tǒng)計信息[8]、單詞詞頻[9]、詞匯同現(xiàn)[10]、PAT 樹(PATricia tree)[11]等。但是單純依靠內(nèi)部黏著度效果并不理想,并且互信息算法很難排除語料中超低頻詞和超高頻詞的干擾等。
1.1.3 機器學(xué)習(xí)方法
機器學(xué)習(xí)方法在關(guān)鍵詞提取上的應(yīng)用主要分為有監(jiān)督和無監(jiān)督學(xué)習(xí)方法。有監(jiān)督的關(guān)鍵詞提取將問題看作是二進制分類的問題,主要存在三個問題:需要昂貴的人工標注費用,不能滿足某些的特定要求和無法提取面向事件的關(guān)鍵短語[12]。與之相反,無監(jiān)督方法不需要標記的訓(xùn)練數(shù)據(jù),而是探索一些外部統(tǒng)計信息來識別關(guān)鍵短語[13],目前無監(jiān)督的方法主要是基于詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)、聚類和圖的排序[14-16]。
目前,文本分類主要可以分兩類:基于傳統(tǒng)機器學(xué)習(xí)的文本分類和基于深度學(xué)習(xí)的文本分類。
1.2.1 基于傳統(tǒng)機器學(xué)習(xí)
傳統(tǒng)的機器學(xué)習(xí)方法主要利用自然語言處理中的n-gram概念對文本進行特征提取,并且利用TF-IDF[17]對n-gram 特征權(quán)重進行調(diào)整,然后將提取到的文本輸入到Logistics 回歸[18]、支持向量機(Support Vector Machine,SVM)[19]等分類器中進行訓(xùn)練,但是,這類問題存在數(shù)據(jù)稀疏和緯度爆炸等問題。
1.2.2 基于深度學(xué)習(xí)
針對傳統(tǒng)機器學(xué)習(xí)的高緯度高稀疏、特征表達能力弱等問題,相關(guān)領(lǐng)域?qū)<覍⑸疃葘W(xué)習(xí)應(yīng)用到文本分類中來解決這些不足。
Wang 等[20]通過應(yīng)用word embedding 來改善短文文本的分類,雖然該方法在一些文本分類任務(wù)中,分類的效果甚至超過了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)/循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),但是如果一個句子如果很長,少量的重要信息會被多數(shù)的無用信息淹沒。Banerjee 等[21]將CNN/RNN 應(yīng)用在文本分類中,與word embedding 相比更適用于長文本的分析,其中CNN 擅長捕獲更短的序列信息,RNN 擅長捕獲更長的序列信息,但它們難以捕獲長期的上下文信息和非連續(xù)詞之間的相關(guān)性。Cheng等[22]通過引入Attention 機制,可以對輸入的每個部分賦予不同的權(quán)值,抽取出更加關(guān)鍵及重要的信息,使模型作出更加準確的判斷,同時不會給模型的計算和存儲帶來更大的開銷。
視覺類深度神經(jīng)網(wǎng)絡(luò)自動標注的流程如圖1所示。
圖1 總體框架Fig.1 Overall framework
首先將模型描述作為輸入,根據(jù)關(guān)鍵詞提取可以得到文章的關(guān)鍵詞,然后依據(jù)得到的關(guān)鍵詞以及不同領(lǐng)域關(guān)鍵詞對應(yīng)的權(quán)值計算得到該模型的應(yīng)用領(lǐng)域。
2.2.1 視覺類深度神經(jīng)網(wǎng)絡(luò)架構(gòu)圖設(shè)計
目前,深度神經(jīng)網(wǎng)絡(luò)在計算機視覺中的多個領(lǐng)域都有著廣泛的應(yīng)用[23],本文主要針對其中的六個領(lǐng)域進行研究,從網(wǎng)絡(luò)公開的計算機視覺類論文中,收集了這六個領(lǐng)域共264 篇論文作為實驗的語料庫。其中:目標檢測48 篇,目標跟蹤44篇,超分辨率54篇,圖像生成43篇,3D建模相關(guān)36篇,人體姿態(tài)相關(guān)39 篇。根據(jù)語料庫中264 篇論文,并通過以下的計算公式,得到不同領(lǐng)域?qū)?yīng)的關(guān)鍵詞及其對應(yīng)的權(quán)值(關(guān)鍵詞和權(quán)值會隨著語料庫的擴充進行相應(yīng)的增加和修改)。
在對某個領(lǐng)域進行關(guān)鍵詞選擇和權(quán)值計算時,本文主要考慮兩方面:第一,詞在該領(lǐng)域論文摘要中出現(xiàn)的頻率;第二,詞出現(xiàn)的論文摘要在該領(lǐng)域摘要中的占比。
1)計算詞在不同領(lǐng)域論文摘要中出現(xiàn)的頻率,計算式如下:
其中:freqi表示該詞在i領(lǐng)域論文摘要出現(xiàn)的次數(shù);sizei表示i領(lǐng)域中總的論文摘要數(shù)。通過觀察發(fā)現(xiàn),詞在一篇文章中出現(xiàn)的次數(shù)一般為1~3,基本都是低頻詞,所以這里將sizei乘以2.5 是為了保證計算的frequencyi值不會超過1 并且又不會過小。
2)計算詞出現(xiàn)的論文在不同領(lǐng)域的占比,計算式如下:
其中:timei表示i領(lǐng)域論文摘要中出現(xiàn)該詞的摘要數(shù);sizei表示i領(lǐng)域中總的論文摘要數(shù)。
3)計算詞在不同領(lǐng)域的權(quán)值,計算公式定義如下:
其中詞頻和占比以4∶6 的比例計算,最終結(jié)果保留一位有效數(shù)字。在計算過程中過濾掉proportioni低于0.2 的詞,因為這些詞不具有領(lǐng)域代表性。最后,通過人工經(jīng)驗篩去一些干擾詞,得到領(lǐng)域的關(guān)鍵詞及其對應(yīng)的權(quán)值
根據(jù)實驗得到的關(guān)鍵詞和權(quán)值構(gòu)建出了視覺類深度神經(jīng)網(wǎng)絡(luò)架構(gòu),如圖2 所示,其中:第三層中單詞字號越大代表該單詞在這個領(lǐng)域的比重越大,而相同大小的單詞代表相同的權(quán)值,第四層是第三層中每個領(lǐng)域?qū)?yīng)關(guān)鍵詞的具體權(quán)值,這里每個領(lǐng)域只具體列出前五個。
圖2 視覺類深度神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig.2 Visual deep neural network architecture
2.2.2 模型關(guān)鍵詞的提取
通過觀察視覺類神經(jīng)網(wǎng)絡(luò)論文的摘要特點,發(fā)現(xiàn)關(guān)鍵詞作為最能體現(xiàn)模型所屬領(lǐng)域特點的詞組表達,往往在文中出現(xiàn)的地方具有相似性與固定性。根據(jù)這一發(fā)現(xiàn),本文提出了八種關(guān)鍵詞提取模型,以下是模型的定義與示例。
1)提取模型一:首句主語。
在計算機視覺類論文的文摘中,論文試圖解決的問題一般會在首句就有體現(xiàn),而首句的主語一般就會有對該問題的表述,所以首句的主語對應(yīng)的詞組對于內(nèi)容的判別來說很有參考和提取的價值。
提取模型一定義:從句子依存樹的ROOT(根節(jié)點)出發(fā),向前回溯,找到依存于該ROOT 且關(guān)系為nsubj(名詞性主語)的實體詞組,如未找到則取第一個找到的依存關(guān)系為dobj(直接賓語)的實體詞組。
以句子s1為例:
s1對應(yīng)依存樹如圖3所示。
圖3 s1對應(yīng)的依存分析樹Fig.3 Dependency analysis tree corresponding to s1
根據(jù)提取模型一的定義,從ROOT 出發(fā),即可得到關(guān)系為nsubj 的詞“recognition”,再以該詞為起點向前和向后尋找與該詞有依存且為修飾關(guān)系的詞,提取到整個實體詞組:“Material recognition for real-world outdoor surfaces”。
2)提取模型二:特定名詞及其修飾詞。
在計算機視覺類論文的摘要中,表述文章解決的問題或涉及的領(lǐng)域的信息常常會包含某些特定的名詞(具體如表1所示),針對這些特定的名詞提取出對應(yīng)的詞組,也能夠幫助判別模型所屬的領(lǐng)域。
提取模型二定義:以特定名詞作為實體詞組的名詞性主體和觸發(fā)條件,向前回溯與這一名詞性主體存在依存關(guān)系的修飾詞,同時向后遍歷,提取case(狀語)關(guān)系涉及的修飾和conj(連接詞)作為后綴修飾信息。
以句子s2為例:
s2對應(yīng)依存樹如圖4所示。
根據(jù)提取模型二的定義,該句中“problems”為特定名詞,向前回溯得到依存于該詞的修飾詞,最終提取出詞組“various visual recognition problems”,由于“problems”無后綴,所以這里不需要向后遍歷。
圖4 s2對應(yīng)的依存分析樹Fig.4 Dependency analysis tree corresponding to s2
3)提取模型三:特定名詞的case/mark 指向部分。
根據(jù)觀察,提及論文主要工作的詞組常常出現(xiàn)在特定名詞(具體如表1 所示)的case(狀語)或者mark(主要為“that”“whether”或者“because”)指向的部分。由此現(xiàn)象,提出了該提取模型三。
提取模型三定義:以特定的名詞出發(fā),向后查看是否存在限定場景、領(lǐng)域和應(yīng)用范圍的case/mark 關(guān)系引導(dǎo),如果有,根據(jù)case和mark引導(dǎo)規(guī)則的不同:對于case,直接對case指向的實體詞組進行提取;而對于mark,向后遍歷找到依存關(guān)系是dobj(直接賓語)的詞語,然后判別mark 與dobj 對應(yīng)詞之間的詞是否依存于mark或mark指向的詞,如果有則加入到最后提取出的詞組的前修飾中。
以句子s3為例:
s3對應(yīng)依存樹如圖5所示。
圖5 s3對應(yīng)的依存分析樹Fig.5 Dependency analysis tree corresponding to s3
根據(jù)提取模型三的定義,該句中the problem of 為特定名詞,而其后是mark 引導(dǎo)的,所以向后尋找依存于mark 的直接賓語,得到“keypoints”,然后提取整個實體詞組,最終得到“estimating and tracking human body keypoints”。
4)提取模型四:特定及物動詞的直接賓語。
在計算機視覺類論文的摘要中特定的及物動詞(具體如表1 所示)往往直接賓語往往能夠代表文章的主要工作,所以這類直接賓語即為需要提取的目標詞組。針對這一規(guī)則,提出了提取模型四。
提取模型四定義:檢測句子中的關(guān)鍵詞,隨后尋找該關(guān)鍵詞的直接賓語,即依存關(guān)系為dobj(直接賓語)的詞語,依據(jù)索引獲取該詞語對應(yīng)的實體詞組。
以句子s4為例:
s4對應(yīng)依存樹如圖6所示。
圖6 s4對應(yīng)的依存分析樹Fig.6 Dependency analysis tree corresponding to s4
根據(jù)提取模型四的定義,該句中“improve”為特定的及物動詞,所以提取其直接賓語“precision”,然后根據(jù)“precision”提取實體詞組,得到“precision of facial landmark detectors”。
5)提取模型五:特定動詞的直接賓語對應(yīng)的動詞短語。
對于特定的動詞(具體如表1 所示),表達主要文章工作的內(nèi)容常常出現(xiàn)在該修飾的賓語的從句之中,而特定動詞修飾的賓語在從句中通常充當(dāng)主語的成分,對應(yīng)的動詞短語即是目標詞組。
提取模型五定義:首先檢測該特定動詞對應(yīng)的依存關(guān)系為dobj(直接賓語)的詞語,如果之后有從句信息,則繼續(xù)向后遍歷查找依存于該直接賓語的動詞,根據(jù)查找到的動詞,獲取動詞短語作為目標詞組。
以句子s5為例:
s5對應(yīng)依存樹如圖7所示。
圖7 s5對應(yīng)的依存分析樹Fig.7 Dependency analysis tree corresponding to s5
根據(jù)提取模型五的定義,該句中“propose”為特定動詞,然后尋找得到對應(yīng)的直接賓語“network”,由于之后還有從句信息,所以尋找“network”對應(yīng)的動詞即“reconstruct”,最終找到“reconstruct”對應(yīng)的動詞短語“reconstruct the high resolution image”。
6)提取模型六:for引導(dǎo)的短語。
在摘要之中,“For”常常在句首出現(xiàn),作為句子表明解決的問題的限定,對表達論文屬于哪一計算機視覺類的研究方向有著一定指示的作用,同時由于句式的不同和表達方式的不同,也存在句中使用“for”引導(dǎo)的情況?;谝陨嫌^察,設(shè)計和實現(xiàn)提取模型六。
提取模型六定義:首先判斷是否句首為“For”并且依存關(guān)系為case(狀語),如果滿足,則根據(jù)case 這一依存關(guān)系指示的對象提取實體詞組。如果句首不是“For”,則遍歷句子查找“for”單詞,滿足上述同樣的條件的情況下,提取目標短語。
以句子s6為例:
s6對應(yīng)依存樹如圖8所示。
根據(jù)提取模型六的定義,該句滿足句首為“For”并且依存關(guān)系為case 這一條件,所以找到依存于“for”且關(guān)系為case 的“modeling”,最后根據(jù)“modeling”提取實體詞組得到“modeling the 3D world behind 2D images”。
7)提取模型七:特定及物動詞引導(dǎo)的賓語。
計算機視覺類論文的摘要中,一般存在主語為“We”,且句中存在特定及物動詞(具體如表1 所示)來表述關(guān)鍵信息的句子,基于這樣的觀察,設(shè)計提取模型七。
提取模型七定義:如果句子主語為“We”,則尋找句子中特定及物動詞,找到特定及物動詞后繼續(xù)向后遍歷找到與該及物動詞存在依存關(guān)系的詞,根據(jù)該詞提取前置修飾和后綴修飾,整理組合作為目標短語。
以句子s7為例:
s7對應(yīng)依存樹如圖9所示。
圖8 s6對應(yīng)的依存分析樹Fig.8 Dependency analysis tree corresponding to s6
圖9 s7對應(yīng)的依存分析樹Fig.9 Dependency analysis tree corresponding to s7
根據(jù)提取模型七的定義,該句主語為“We”,并且“propose”是特定及物動詞,繼續(xù)向后遍歷得到依存于“propose”的詞“algorithm”,然后根據(jù)“algorithm”提取前置修飾和后綴修飾,最終得到“a novel visual tracking algorithm based on the representations”為目標詞組。
8)提取模型八:特定非及物動詞引導(dǎo)的賓語。
與提取模型七同理,存在主語為“We”,且句中存在特定非及物動詞(具體如表1 所示)來表述關(guān)鍵信息的句子,基于這樣的觀察,設(shè)計提取模型八。
提取模型八定義:如果句子主語為“We”,則尋找句子中特定非及物動詞,找到非及物動詞后繼續(xù)向后遍歷,尋找與該詞存在依存關(guān)系的賓語,根據(jù)該賓語提取前置修飾和后綴修飾,整理組合作為目標詞組。
以句子s8為例:
s8對應(yīng)依存樹如圖10所示。
根據(jù)提取模型八的定義,該句主語為“We”,并且“focus”是特定非及物動詞,繼續(xù)向后遍歷得到依存于“focus”的賓語“task”,然后根據(jù)“task”提取前置修飾和后綴修飾,最終得到“task of amodal 3D object detection”為目標詞組。
由于抽象出的提取模型不同,所以需要結(jié)合不同的特定詞完成提取目標詞組,提取模型對應(yīng)的特定詞如表1所示。
圖10 s8對應(yīng)的依存分析樹Fig.10 Dependency analysis tree corresponding to s8
表1 提取模型對應(yīng)的特定詞Tab.1 Specific words corresponding to extraction models
根據(jù)上述的八種模型,提取得到摘要的關(guān)鍵詞組,為便于后續(xù)公式計算,進行應(yīng)用領(lǐng)域判別,需要將提取到的目標詞組轉(zhuǎn)化為單詞的集合,這里采用詞袋模型[24]的思想。
式中:patternResult是所有提取模型結(jié)合關(guān)鍵詞匹配提取的目標詞組;wordsi由第i個模型匹配得到的詞組以詞為單位分解而來的詞集;wordBag是所有wordsi包含的詞的集合。
2.2.3 領(lǐng)域判別
根據(jù)上述2.2.2 節(jié)中八個模型提取到的關(guān)鍵詞組以及2.2.1節(jié)中構(gòu)建出的視覺類深度神經(jīng)網(wǎng)絡(luò)架構(gòu),通過判別公式可以計算得出模型所屬的領(lǐng)域,這里的判別公示采用余弦相似度[25]來判斷預(yù)測模型與哪種領(lǐng)域更加匹配,具體步驟如下:
步驟1 根據(jù)式(7)和2.2.1節(jié)構(gòu)建的視覺類深度神經(jīng)網(wǎng)絡(luò)架構(gòu)第四層的關(guān)鍵詞對應(yīng)的權(quán)值,計算六個領(lǐng)域的領(lǐng)域向量xi。式(7)中wij即為i領(lǐng)域中第j個關(guān)鍵詞對應(yīng)的權(quán)值,總共有m個關(guān)鍵詞(m值根據(jù)所屬領(lǐng)域的關(guān)鍵詞數(shù)量決定),最終得到六個領(lǐng)域的領(lǐng)域向量如表2所示。
步驟2 根據(jù)式(8)以及模型通過2.2.2節(jié)中八個模型提取到的關(guān)鍵詞集合,計算該模型在六個領(lǐng)域的模型領(lǐng)域向量yi。式(8)中,zij為i領(lǐng)域中第j個詞的模型權(quán)值,zij的值有兩種情況,如果模型提取出的關(guān)鍵詞集合中含有i領(lǐng)域的第j個詞,則zij與wij值一致;否則為0。
步驟3 計算模型與六個領(lǐng)域的匹配程度,由步驟1與步驟2 可以得到xi和yi向量,然后通過式(9)計算得到余弦相似度simi表示該模型在第i領(lǐng)域中的相似度,值越大越接近于1表示與這個領(lǐng)域越匹配。
步驟4 計算模型第k匹配的領(lǐng)域,根據(jù)式(10)可以得到topk,即6 個領(lǐng)域中與模型第k接近的領(lǐng)域,當(dāng)k為1 時即表示模型最大概率所屬的應(yīng)用領(lǐng)域。
表2 六個領(lǐng)域?qū)?yīng)的領(lǐng)域向量Tab.2 Field vectors corresponding to six fields
2.2.4 評估標準
為了正確評估實驗性能,選擇以下指標作為評估標準:查全率R(recall)、查準率P(precision)、均值F1、宏平均查全率Macro_R、宏平均查準率Macro_P、宏平均值Macro_F1[26]。
計算式如下:
其中:TPi表示標注結(jié)果為第i領(lǐng)域且結(jié)果正確的論文摘要數(shù)目;FNi表示將第i類領(lǐng)域錯誤標注成其他領(lǐng)域的論文摘要數(shù)目;FPij表示將第j類論文領(lǐng)域錯誤標注成i類的論文摘要數(shù)目。
實驗數(shù)據(jù)來自近三年計算機視覺方面的三大頂級國際會議:國際計算機視覺大會(IEEE International Conference on Computer Vision,ICCV)、IEEE 國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)和歐洲計算機視覺國際會議(European Conference on Computer Vision,ECCV),共收集了72 篇論文。其中,目標檢測14 篇,目標跟蹤11 篇,超分辨率14 篇,圖片生成11篇,3D建模10篇以及人體姿態(tài)相關(guān)12篇。
首先,對模型輸入進行分句、分詞和依存分析,然后得到實驗所需的單詞集合以及依存分析樹,接著通過2.2.2 節(jié)中的八個提取模型對輸入模型進行關(guān)鍵詞的提取,最終根據(jù)2.2.3節(jié)的流程得到輸入模型的應(yīng)用領(lǐng)域判別結(jié)果。
以圖11 為例,在輸入模型之后,得到了模型提取的關(guān)鍵詞、模型領(lǐng)域向量以及模型領(lǐng)域判別結(jié)果,該模型應(yīng)用領(lǐng)域判別結(jié)果顯示:最匹配的領(lǐng)域為人體姿態(tài)相關(guān),隨后依次是3D建模相關(guān)和目標檢測,由于與另外三類相似度為0(根據(jù)模型領(lǐng)域向量在這三個領(lǐng)域值都為0 可以看出),所以這里只輸出三個匹配結(jié)果。
圖11 實驗示例Fig.11 Experimental example
文本實驗設(shè)計基于以下兩個方面進行比較和驗證提出的自動標注系統(tǒng)的優(yōu)越性和有效性:1)對于相同的語料庫和驗證集,采用不用的傳統(tǒng)機器學(xué)習(xí)算法進行分類,比較并驗證本文提出的自動標注系統(tǒng)的優(yōu)越性;2)對比系統(tǒng)分析出的top1和top2的正確率來判斷自動標注系統(tǒng)的有效性。
1)實驗1。
此次實驗直接將自動標注系統(tǒng)輸出的top1作為最終預(yù)測的結(jié)果,并和貝葉斯、Logistics回歸、SVM和決策樹方法進行文本分類比較。其中貝葉斯采用多項式分布樸素貝葉斯方法,SVM 采用LinearSVC(Linear Support Vector Classification)。評估標準根據(jù)2.2.4節(jié)中所定義,實驗結(jié)果如圖12和表3所示。
圖12 實驗1中不同方法的F1值對比Fig.12 F1 value comparison of different methods for experiment 1
通過圖12 和表3 可以看出,雖然本文方法在目標跟蹤和3D 建模上的F1 值不是最高的,但是在其他幾種領(lǐng)域上都是最高且F1 值達到0.9 以上,尤其在目標檢測上達到1,并且在Macro_R、Macro_P和Macro_F1 平均達到0.89,均遠遠高于其他4種方法,說明獲得了較好的分類效果。
表3 五種方法的宏平均對比Tab.3 Macro average comparison of five methods
2)實驗2。
為了深入了解模型自動標注的效果,本實驗對模型領(lǐng)域預(yù)測中相似度最高的前兩名計算了正確率,也就是對應(yīng)自動標注系統(tǒng)輸出結(jié)果的top1 和top2 的總正確率,結(jié)果如圖13所示。
圖13 實驗2中top1和top2的正確率Fig.13 Accuracies of top1 and top2 for experiment 2
單看top1的正確率,目標檢測、圖片生成以及人體姿態(tài)相關(guān)都能達到100%,而超分辨率和目標跟蹤次之,分別為93%和73%,3D 建模最低為70%。當(dāng)引入了top2 的正確率后,可以明顯看出,除了目標跟蹤為82%的正確率,其他五個領(lǐng)域都能達到100%的正確率,說明該自動標注系統(tǒng)基本能實現(xiàn)對輸入模型的準確判定。開發(fā)人員在使用這套系統(tǒng)的時候,直接通過輸出的top1 和top2 的結(jié)果,基本就可以快速判斷該模型是否是自己所需要的模型。
綜合以上實驗可以看出,本文的方法在評估標準上取得了很好的結(jié)果,各方面均優(yōu)于其他的傳統(tǒng)機器學(xué)習(xí)算法,證明了本文方法的有效性和優(yōu)越性。
本文針對開發(fā)人員難以從眾多復(fù)雜的模型中選擇自己所需要模型的問題,提出了對視覺類深度神經(jīng)網(wǎng)絡(luò)的模型進行自動標注的系統(tǒng),建立了能夠抽取關(guān)鍵詞的八種模型,并基于這些模型對模型進行自動標注。實驗結(jié)果表明,該方法相較于其他傳統(tǒng)機器學(xué)習(xí)算法能夠得到較高的宏平均。下一步,將把該自動標注系統(tǒng)應(yīng)用于對模型的推薦系統(tǒng)之中,使得開發(fā)人員能夠更好地獲取自己需要的相關(guān)模型。