趙海英,高子惠,鄧 戀,侯小剛,李 寧
基于圖文混排的傳統(tǒng)服飾圖像以文標(biāo)圖算法
趙海英1,高子惠2,鄧 戀2,侯小剛1,李 寧1
(1. 北京郵電大學(xué)人工智能學(xué)院,北京 100876;2. 北京郵電大學(xué)數(shù)字媒體與設(shè)計(jì)藝術(shù)學(xué)院,北京 100876)
針對(duì)高效解讀和智能處理海量圖文資料是一項(xiàng)極具挑戰(zhàn)并具有實(shí)用價(jià)值工作,而自動(dòng)標(biāo)注精度又面臨依賴訓(xùn)練樣本的難題,提出了一種基于數(shù)字圖文混排書籍以文標(biāo)圖方法,由混排版式識(shí)別預(yù)處理、領(lǐng)域圖像語義標(biāo)簽構(gòu)建和大標(biāo)簽空間以文標(biāo)圖算法3部分組成。首先,通過提出的混排版式識(shí)別離算法,提取數(shù)字圖文混排版式中圖像、標(biāo)題及描述文本等內(nèi)容。然后,基于數(shù)字服飾圖像語義標(biāo)簽,建立傳統(tǒng)文化領(lǐng)域詞庫(PatternNet),最后針對(duì)領(lǐng)域詞庫標(biāo)簽空間特點(diǎn),提出一種改進(jìn)大標(biāo)簽空間的以文標(biāo)圖算法,并在服飾類圖文混排書籍上進(jìn)行仿真實(shí)驗(yàn),通過對(duì)比其他數(shù)據(jù)集,驗(yàn)證了該算法的實(shí)效性。
以文標(biāo)圖;圖像標(biāo)注;圖文混排處理;領(lǐng)域關(guān)鍵詞提取
面向傳統(tǒng)文化數(shù)據(jù)的挖掘和分析研究中,急需對(duì)海量數(shù)字圖文資料進(jìn)行解讀與標(biāo)注,提升對(duì)優(yōu)秀傳統(tǒng)文化的傳承和創(chuàng)新應(yīng)用能力,大量對(duì)文化資源進(jìn)行合理組織與管理的方法被提出[1-3]。但相比自然場(chǎng)景中的花、草、樹、鳥、云、山、海等解讀對(duì)象而言,傳統(tǒng)文化數(shù)據(jù)中的研究對(duì)象除視覺特征和實(shí)體名稱外,更具有豐富的文化內(nèi)涵作為其高層語義。如何構(gòu)建一套規(guī)模較大且標(biāo)注較為專業(yè)的文化資源標(biāo)注詞庫成為急需解決的關(guān)鍵問題。
圖1是截取明代服飾中的一部分傳統(tǒng)紋樣圖,又名鸞鳳圖,其是一類代表吉祥、富貴寓意的服飾紋樣。大眾在解讀或標(biāo)注這張圖時(shí),多打上“鳥”、“鳳凰”等視覺表象、甚至錯(cuò)誤標(biāo)簽,更無法完成深層文化寓意的標(biāo)注,而通過領(lǐng)域?qū)<覟檫@些具有文化寓意的海量圖像進(jìn)行手工標(biāo)注不具可操作性。因此,從大量權(quán)威專家撰寫的文獻(xiàn)、書籍入手,選擇與實(shí)驗(yàn)室合作多年的領(lǐng)域?qū)<揖幹霭娴膱D文書籍,利用圖文處理和文化計(jì)算[1]等方法對(duì)數(shù)字文化資源進(jìn)行梳理、提煉和挖掘,構(gòu)建具有領(lǐng)域知識(shí)標(biāo)注的傳統(tǒng)文化圖案語義標(biāo)簽庫(PatternNet),不僅為大規(guī)模文化數(shù)據(jù)的分析、關(guān)聯(lián)模式發(fā)現(xiàn)提供基礎(chǔ)數(shù)據(jù),而且以不可替代的方式,讓人類感受到傳統(tǒng)文化的厚重。
文化資源數(shù)據(jù)是人類認(rèn)識(shí)世界和人類本身的重要源泉,具有極高審美和傳承價(jià)值。但由于標(biāo)注、解讀需要較高的專業(yè)門檻,目前在規(guī)范元數(shù)據(jù)基礎(chǔ)上,主要依賴人工標(biāo)注。但在一些非傳統(tǒng)文化領(lǐng)域的自然場(chǎng)景中,國(guó)內(nèi)外學(xué)者已經(jīng)在結(jié)合圖文混排信息的圖像標(biāo)注方法上做了大量的探索和研究工作[4],實(shí)驗(yàn)室團(tuán)隊(duì)也做了大量前期嘗試[5],其核心是如何融合圖像及其關(guān)聯(lián)文本等多模態(tài)信息。目前,圖文混排信息圖像標(biāo)注方法可以分為基于主題模型、矩陣模型、文本挖掘、深度學(xué)習(xí)等方法。其中基于主題模型方法是融合圖像和文本特征的常用方法,該方法將帶標(biāo)注的圖像視為特定主題組合的樣本,其中每個(gè)主題都是圖像特征和標(biāo)注詞的概率分布,典型算法包括LSA[6]、pLSA[7]、LDA[8]等。基于矩陣模型的方法,主要包括HOTELLING[9]提出的CCA模型,ANDREW等[10]提出的DCCA模型等,核心是構(gòu)建圖像語義特征與文本特征的融合一致空間。而基于文本挖掘的方法,具有代表性的是WANG等[11]提出依賴圖像不同權(quán)重的關(guān)聯(lián)文本進(jìn)行單詞提取的方法。表1是非文化資源標(biāo)注數(shù)據(jù)集。
圖1 鳳鸞紋樣圖(左鸞右鳳)
表1 不同數(shù)據(jù)集對(duì)比
為了有效地檢索、挖掘和利用國(guó)家文化大數(shù)據(jù)資源,本文提出一套基于領(lǐng)域?qū)<揖幹霭娴膱D文混排數(shù)據(jù)進(jìn)行圖像自動(dòng)標(biāo)注,不僅彌補(bǔ)了數(shù)字文化圖像元數(shù)據(jù)標(biāo)注存在的不足,而且提高了專業(yè)標(biāo)注數(shù)據(jù)監(jiān)督標(biāo)注精度,最重要的是構(gòu)建了一套面向文化資源的語義標(biāo)注體系和傳統(tǒng)文化圖案語義標(biāo)簽庫PatternNet,為領(lǐng)域知識(shí)自動(dòng)標(biāo)注提供了基礎(chǔ)數(shù)據(jù)基礎(chǔ)。
圖文混排領(lǐng)域書籍圖像標(biāo)注方法主要由圖文混排版式識(shí)別、領(lǐng)域圖像語義量化標(biāo)簽構(gòu)建和以文標(biāo)圖算法組成,結(jié)構(gòu)如圖2所示。圖文混排版式識(shí)別模塊負(fù)責(zé)對(duì)圖文混排數(shù)據(jù)中圖像、文字及其關(guān)聯(lián)文本進(jìn)行自動(dòng)檢測(cè)與提取,為以文標(biāo)圖算法提供基礎(chǔ)數(shù)據(jù);傳統(tǒng)文化圖案語義標(biāo)簽庫(PatternNet)模塊為文化領(lǐng)域圖像學(xué)習(xí)標(biāo)注提供語義元數(shù)據(jù)以及領(lǐng)域詞庫,為多模態(tài)以文標(biāo)圖算法匯聚并提供領(lǐng)域?qū)<抑R(shí)。多模態(tài)以文標(biāo)圖算法模塊充分利用圖多模態(tài)關(guān)聯(lián)信息、語義標(biāo)簽體系和領(lǐng)域知識(shí)完成圖像語義抽取與標(biāo)注。
圖2 圖文混排領(lǐng)域書籍以文標(biāo)圖算法結(jié)構(gòu)示意圖
本文將研究目標(biāo)聚焦于服飾、服裝以及服飾紋樣等類別的專業(yè)領(lǐng)域書籍。為方便對(duì)版面圖像進(jìn)行多模態(tài)以文標(biāo)圖,首先需要較為精準(zhǔn)地識(shí)別頁面中的圖像及其關(guān)聯(lián)文本等信息。在版式識(shí)別中解決圖文原真提取、標(biāo)題正文區(qū)分定位以及混合版式識(shí)別需要多次重定位版式等問題。本文分析對(duì)比了之前的工作[5],提出了一種根據(jù)位置權(quán)重的圖文混排版式識(shí)別算法,該算法細(xì)化位置和圖像尺度等級(jí),利用空間關(guān)系自動(dòng)識(shí)別領(lǐng)域書籍中圖像、位置標(biāo)題和正文描述等數(shù)據(jù)體。如圖3所示,紅色框代表圖像區(qū)域,綠色框代表描述文本區(qū)域,青色框代表標(biāo)題區(qū)域,其中圖像區(qū)域可通過直接裁剪后得到分離子圖;而標(biāo)題和描述文本區(qū)域的識(shí)別與提取,是通過引用SynthText[8]算法生成的含有中英文自然場(chǎng)景的數(shù)據(jù)集訓(xùn)練CRNN模型[12]實(shí)現(xiàn)。
圖3 圖像文本區(qū)域檢測(cè)效果圖
本文聚焦于傳統(tǒng)服飾文化圖文數(shù)據(jù),其是傳統(tǒng)文化圖案最具代表性,也具有普適的研究對(duì)象。
2.2.1 傳統(tǒng)服飾語義標(biāo)簽體系構(gòu)建(costume culture semantic element,CCSE)
傳統(tǒng)服飾圖像歷史悠久,紋樣形態(tài),寓意豐富,如何構(gòu)建一個(gè)科學(xué)、規(guī)范、符合文化特點(diǎn)的標(biāo)簽體系是一個(gè)科學(xué)問題。本文采用多層級(jí)深度挖掘服飾圖像本質(zhì)屬性,并通過調(diào)研博物館館藏信息指標(biāo)體系規(guī)范、DC元數(shù)據(jù)、COCO元數(shù)據(jù)等國(guó)內(nèi)外元數(shù)據(jù)指標(biāo)。構(gòu)建一套傳統(tǒng)服飾圖像語義標(biāo)簽體系,從視覺層、本體層和語義層,全面闡釋傳統(tǒng)服飾圖像內(nèi)涵。
TF-IDF:從相關(guān)文物保護(hù)、民俗文化傳承網(wǎng)站等基礎(chǔ)詞頻,挖掘傳統(tǒng)服飾相關(guān)屬性。
博物館館藏信息指標(biāo)體系規(guī)范:根據(jù)服飾文化特有屬性抽取共同的,必不可少的類目作為傳統(tǒng)服飾圖像元數(shù)據(jù)屬性,用于增強(qiáng)普適性。
DC元數(shù)據(jù):將DC元數(shù)據(jù)放入體系中,最大限度提高標(biāo)準(zhǔn)普適性。
傳統(tǒng)服飾圖像之間存儲(chǔ)潛在關(guān)系:龍袍上有龍,而龍的周圍有較大概率存在祥云。基于領(lǐng)域?qū)<抑R(shí),廣泛地發(fā)掘這種關(guān)聯(lián)聯(lián)系,使標(biāo)簽體系能夠充分體現(xiàn)服飾文化價(jià)值,傳統(tǒng)服飾圖像語義標(biāo)簽體系字段見表2。
表2 傳統(tǒng)服飾圖像標(biāo)簽體系字段
2.2.2 傳統(tǒng)服飾文化圖案語義標(biāo)簽庫(PatternNet)構(gòu)建
PatternNet首先是一個(gè)傳統(tǒng)文化語義標(biāo)簽,其次是在未來將成為文化語義層面圍繞概念、基因、知識(shí)等文化要素,建立其關(guān)聯(lián)關(guān)系的文化知識(shí)圖譜。PatternNet目的在于將眾多具有傳統(tǒng)文化傳承意義的文化資源鏈接起來,并分析其關(guān)聯(lián)性。故在大眾看來,PatternNet作為一個(gè)傳統(tǒng)文化圖案語義標(biāo)簽庫,未來不僅在同類文化資源數(shù)據(jù)量上占有優(yōu)勢(shì),而且不可忽視其數(shù)據(jù)背后的技術(shù)體系和復(fù)雜語義網(wǎng)絡(luò)。實(shí)事上,PatternNet不單純是一個(gè)機(jī)械性累積文化數(shù)據(jù)資源的機(jī)器,也不是一個(gè)將原生資源直接呈現(xiàn)的容器,而是通過挖掘數(shù)字資源關(guān)聯(lián)性,使文化數(shù)據(jù)可以轉(zhuǎn)化為文化知識(shí),從而生成文化知識(shí)圖譜,其數(shù)據(jù)模型如圖4所示。
圖4 服飾文化數(shù)據(jù)模型示意圖
如何提取領(lǐng)域詞匯是PatternNet構(gòu)建的關(guān)鍵。在圖文書籍中包含大量具有特殊文化含義的專業(yè)術(shù)語和詞匯,比如“龜茲服飾”、“卷草紋”、“莨苕圖案”、“渦卷紋”等,借助目前經(jīng)典分詞工具難以切分并提取較為準(zhǔn)確的文化領(lǐng)域?qū)I(yè)術(shù)語。因此,本文以領(lǐng)域?qū)<覙?biāo)注、歷史文獻(xiàn)、專業(yè)書籍等資料為數(shù)據(jù)源,數(shù)字化采集后,通過清洗、整理等操作后,得到圖文4 000余張。然后以傳統(tǒng)服飾圖像標(biāo)簽體系為指導(dǎo),分別對(duì)名稱、寓意、構(gòu)型、民族、年代、地域、色彩、工藝美術(shù)、其他字段進(jìn)行領(lǐng)域術(shù)語描述,構(gòu)建PatternNet。為了豐富領(lǐng)域詞匯表,首先擴(kuò)大人工收集整理書籍?dāng)?shù)量,同時(shí)引入Word2vec實(shí)現(xiàn)對(duì)初始領(lǐng)域詞匯表近義詞的擴(kuò)展,最后迭代優(yōu)化,構(gòu)建面向領(lǐng)域?qū)I(yè)的語義標(biāo)簽庫。PatternNet在構(gòu)建中,無需預(yù)先對(duì)信息進(jìn)行聚合重用,而是采用動(dòng)態(tài)更新模式,以適應(yīng)更多的使用情景。在一定程度上解決了自動(dòng)標(biāo)注需要大量圖文標(biāo)注樣本,同時(shí)為領(lǐng)域?qū)I(yè)語料庫構(gòu)建提供了基礎(chǔ)數(shù)據(jù)和技術(shù)路徑。隨著數(shù)據(jù)集的迭代優(yōu)化一個(gè)具有資源關(guān)聯(lián)、語義聯(lián)配的文化圖像語義標(biāo)簽庫可以實(shí)現(xiàn)。本文圍繞服飾、紋樣類型的圖文混排書籍展開論述,各類別部分關(guān)鍵詞見表3。
表3 領(lǐng)域詞庫部分關(guān)鍵詞
本文團(tuán)隊(duì)收藏了大量人文藝術(shù)書籍,尤其服飾紋樣書籍?dāng)?shù)量龐大,雖然歷經(jīng)7年多數(shù)字化整理(由于專業(yè)性不夠),最重要的是由于領(lǐng)域要求高,提取的詞匯難以全面覆蓋。因此本文提出一種改進(jìn)目標(biāo)策略的領(lǐng)域新詞發(fā)現(xiàn)算法,從數(shù)字人文藝術(shù)書籍的短文本中自動(dòng)發(fā)現(xiàn)領(lǐng)域新詞,并通過動(dòng)態(tài)更新擴(kuò)展領(lǐng)域詞庫,具體如下:
輸入:圖文混排書籍。書籍按文檔而標(biāo)識(shí);
輸出:書籍文檔的新詞。
1. 初始化圖文混排數(shù)據(jù)集。
2. 循環(huán):
(1)選擇第篇文檔;
(2)分詞:利用jieba分詞工具對(duì)OCR識(shí)別出的文本內(nèi)容進(jìn)行中文文本分詞,去除常見的停止詞(如“的”、“是”、“因?yàn)椤?、“所以”?;
(3)統(tǒng)計(jì)候選詞組:統(tǒng)計(jì)多元詞組出現(xiàn)在句中頻度,并引入n-gram模型,構(gòu)建行元詞組去除重復(fù)且低頻詞組;
(4)綜合優(yōu)化:由于去除部分停止詞,致使組合在一起的元詞組不一定保留原位置中,故降低新詞發(fā)現(xiàn)算法效率和新詞識(shí)別率,優(yōu)化過濾不存在文本段落詞組;
(6)如果完成所有文檔,則停止循環(huán)進(jìn)入下一步。
3. 更新書籍文檔,返回第2步。
由于人文藝術(shù)書籍范圍廣、領(lǐng)域詞匯專業(yè)強(qiáng)、領(lǐng)域詞匯覆蓋面寬,造成新詞發(fā)現(xiàn)的質(zhì)量不高,甚至一些錯(cuò)誤或垃圾詞組都被抽取,故本文提出一套經(jīng)領(lǐng)域?qū)<覍徍肆鞒?,?jīng)審核后才能添加到領(lǐng)域詞庫中,其優(yōu)化流程如圖5所示。
圖5 基于新詞發(fā)現(xiàn)的優(yōu)化流程示意圖
基于圖文書籍的新詞發(fā)現(xiàn)算法,構(gòu)建的PatternNet是一個(gè)標(biāo)簽豐富的大標(biāo)簽空間。為此,本文以大標(biāo)簽嵌入為核心,結(jié)合深度學(xué)習(xí),提出一種改進(jìn)大標(biāo)簽嵌入空間的傳統(tǒng)服飾圖像以文標(biāo)圖算法。算法模型包括標(biāo)簽網(wǎng)絡(luò)構(gòu)建、標(biāo)簽嵌入空間映射、樣本特征回歸以及解碼學(xué)習(xí)器的構(gòu)建,最終完成模型訓(xùn)練以及對(duì)未見樣本示例預(yù)測(cè)。
本文訓(xùn)練階段算法描述為:
輸出:模型參數(shù)。
測(cè)試階段算法描述為:
輸入:未見示例x。
本文算法考慮了PatternNet數(shù)據(jù)樣本正向樣本不平衡的問題,故在構(gòu)建標(biāo)簽網(wǎng)絡(luò)結(jié)構(gòu)考慮標(biāo)簽相關(guān)性,并對(duì)標(biāo)簽網(wǎng)絡(luò)權(quán)重進(jìn)行了修正。
本文實(shí)驗(yàn)所用的數(shù)據(jù)集為傳統(tǒng)文化圖案標(biāo)簽庫PatternNet(表4),其從數(shù)據(jù)源上保證了圖文資料的專業(yè)性與可靠性。本文通過“圖+數(shù)字”在全文搜索匹配,把匹配到的區(qū)域進(jìn)行檢測(cè)分離出3類信息(信息簇),分別是標(biāo)題、標(biāo)題對(duì)應(yīng)的圖片、圖片對(duì)應(yīng)的正文描述,最終獲得近4 000余張圖文信息簇,本文在領(lǐng)域?qū)<业闹笇?dǎo)下對(duì)這些圖文信息簇的圖像進(jìn)行人工標(biāo)注作為ground truth,以計(jì)算本文算法的性能指標(biāo)。
表4 PatternNet數(shù)據(jù)集
本文在不同數(shù)據(jù)集上利用經(jīng)典算法以及標(biāo)簽嵌入的相關(guān)算法與本文算法進(jìn)行比較實(shí)驗(yàn),參與實(shí)驗(yàn)的經(jīng)典算法[13]有ML-KNN,RAKEL和Rank-SVM。標(biāo)簽嵌入相關(guān)算法有LNEMLC,CLEMS。實(shí)驗(yàn)采用隨機(jī)取樣的交叉驗(yàn)證方法進(jìn)行評(píng)價(jià)指標(biāo)統(tǒng)計(jì)。One-error,Coverage,Ranking-loss以及Hamming-Los指標(biāo)值越小表明算法在其上的表現(xiàn)越好,Average-precision則是值越高表明算法在其上的表現(xiàn)越好越好。
在不同數(shù)據(jù)集上對(duì)比已有算法和本文所提算法,并采用隨機(jī)取樣的交叉驗(yàn)證方法進(jìn)行評(píng)價(jià)指標(biāo)統(tǒng)計(jì)。表5是本文算法在各數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,從中可以看出本文算法在Ranking-Los上僅次于Rank-SVM,在Coverage,Average Pre及Hamming-Los指標(biāo)上優(yōu)于其他算法。
其次,為了證實(shí)本文所提出關(guān)鍵詞算法,在考慮了信息簇的位置和語義情形下,更具優(yōu)勢(shì)。本文選擇沿用TF-IDF[14]和TextRank[15]算法作為算法對(duì)比,仿真結(jié)果見表6。
表5 本文算法在不同數(shù)據(jù)集上的對(duì)比
表6 圖像文本關(guān)鍵詞提取實(shí)驗(yàn)對(duì)比結(jié)果
對(duì)比文獻(xiàn)[5]可以看出,本文提出的基于語義和位置的關(guān)鍵詞提取具有較大的性能提升,分析其原因是PatternNet領(lǐng)域詞庫和新詞發(fā)現(xiàn)算法的優(yōu)化,使得更多領(lǐng)域詞匯被識(shí)別、提取出來。同樣可以看到增加關(guān)鍵詞抽取數(shù)量仍然能夠有效提升算法的召回率,但也會(huì)隨著數(shù)量的增加而引入“噪聲”詞語。
本文在所提算法的基礎(chǔ)上,搭建了人文藝術(shù)書籍標(biāo)注系統(tǒng),實(shí)現(xiàn)了對(duì)傳統(tǒng)文化研究應(yīng)用中圖文資料版式識(shí)別和圖像的標(biāo)注任務(wù)。圖6給出了本文圖文混排領(lǐng)域書籍以文標(biāo)圖算法結(jié)構(gòu)示意圖,圖7給出了人文藝術(shù)書籍以文標(biāo)圖系統(tǒng)工作界面,該系統(tǒng)的主要功能有混排版式識(shí)別、領(lǐng)域詞庫構(gòu)建和大標(biāo)簽空間圖像標(biāo)注。用戶通過上傳要待處理資料(圖7左),點(diǎn)擊“版式識(shí)別”按鈕即可對(duì)該頁面進(jìn)行圖文識(shí)別(圖7中),點(diǎn)擊“以文標(biāo)圖”按鈕可對(duì)當(dāng)前圖像利用本文提出的基于領(lǐng)域詞庫以文標(biāo)圖算法得到該圖像標(biāo)簽字段(圖7右)。
圖6 圖文混排領(lǐng)域書籍以文標(biāo)圖算法結(jié)構(gòu)示意圖
圖7 圖像文本區(qū)域檢測(cè)效果圖
現(xiàn)有圖文對(duì)自動(dòng)標(biāo)注算法,主要應(yīng)用于普通web網(wǎng)頁以及社交媒體網(wǎng)站上的圖文混排數(shù)據(jù),缺少能夠應(yīng)用于專業(yè)領(lǐng)域圖文混排書籍的以文標(biāo)圖算法。本文將研究?jī)?nèi)容聚焦于文化領(lǐng)域的圖文混排書籍標(biāo)注。隨著數(shù)字化進(jìn)程加速,各類圖文書籍的數(shù)字化數(shù)量劇增,但人工標(biāo)注或處理難度也在增加,如何提高數(shù)字圖文數(shù)據(jù)智能處理,尤其自動(dòng)標(biāo)注圖文內(nèi)容是極具挑戰(zhàn)的難題。本文提出一種書籍圖文混排版式識(shí)別算法,并通過構(gòu)建服飾語義標(biāo)簽體系,通過專業(yè)領(lǐng)域的新詞發(fā)現(xiàn)算法,對(duì)多模態(tài)數(shù)據(jù)實(shí)現(xiàn)以文標(biāo)圖,為數(shù)字圖文數(shù)據(jù)智能處理和標(biāo)注理解提供了算法支撐。但目前本文提出的面向圖文混排數(shù)據(jù)的以文標(biāo)圖算法還存在一些問題。首先,由于關(guān)聯(lián)文本中通常存在著大量圖文無關(guān)的冗余信息,難以準(zhǔn)確確定標(biāo)題、圖片以及正文描述的位置和權(quán)重,領(lǐng)域書籍寬泛,導(dǎo)致以文標(biāo)圖算法提取領(lǐng)域詞匯極為豐富,常見大標(biāo)簽空間算法難以有效解決圖像標(biāo)注問題。未來實(shí)驗(yàn)室的研究仍然圍繞自動(dòng)標(biāo)注和以文標(biāo)圖2個(gè)方向,但以文標(biāo)注主要聚焦領(lǐng)域詞匯的專業(yè)性和結(jié)構(gòu)化處理,而自動(dòng)標(biāo)注是圍繞PatternNet作為訓(xùn)練樣本的數(shù)據(jù)驅(qū)動(dòng)模型優(yōu)化等展開研究。
[1] 趙海英, 陳洪, 賈耕云,等. 基于字典學(xué)習(xí)的民族文化圖案語義標(biāo)注[J]. 中國(guó)科學(xué): 信息科學(xué), 2019, 49(2): 172-187.
ZHAO HY, CHEN H, JIA GY, et al. Semantic annotation of national cultural patterns based on dictionary learning[J]. Scientia Sinica: Informationis, 2019, 49(2): 172-187 (in Chinese).
[2] 銀宇堃, 趙海英. 民族服飾圖案語義標(biāo)簽體系構(gòu)建研究[J]. 圖學(xué)學(xué)報(bào), 2018, 39(5): 926-932.
YIN YK, ZHAO HY. Study on semantic-tag system constructing based on national costume pattern[J]. Journal of Graphics, 2018, 39(5): 926-932 (in Chinese).
[3] 趙海英, 鄭橋. 基于字典學(xué)習(xí)的傳統(tǒng)民族服飾多標(biāo)簽標(biāo)注算法[J]. 華中科技大學(xué)學(xué)報(bào): 自然科學(xué)版, 2021, 49(3): 18-23.
ZHAO HY, ZHENG Q. Multi-label annotation of traditional ethnic costume based on dictionary learning[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2021, 49(3): 18-23 (in Chinese).
[4] 劉偉權(quán), 王明會(huì), 鐘義信. 應(yīng)用兩種神經(jīng)網(wǎng)絡(luò)模型自動(dòng)標(biāo)注漢語詞類[J]. 北京郵電大學(xué)學(xué)報(bào), 1997, 20(2): 42-48.
LIU WQ, WANG MH, ZHONG YX. Automatic grammatical category disambiguation using two kinds of neural network models[J]. Journal of Beijing University of Posts and Telecommunications, 1997, 20(2): 42-48(in Chinese).
[5] 李寧. 面向圖文混排數(shù)據(jù)的多模態(tài)信息融合標(biāo)注系統(tǒng)研究與實(shí)現(xiàn)[D].北京: 北京郵電大學(xué),2020.
LI N. Research and implementation of multimodal information fusion annotation system for image-text mixed data[D]. Beijing: Beijing University of Posts and Telecommunications, 2020 (in Chinese).
[6] DUMAIS S T. LSA and information retrieval: getting back to basicsl[M]//Handbook of Latent Semantic Analysis. New York: Psychology Press, 2007: 293: 322.
[7] MONAY F, GATICA-PEREZ D. PLSA-based image auto-annotation: constraining the latent space[C]//The 12th Annual ACM International Conference on Multimedia - MULTIMEDIA '04. New York: ACM Press, 2004: 348–351.
[8] BLEI D M, JORDAN M I. Modeling annotated data[C]// The 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval. New York: IEEE Press, 2003: 127-134.
[9] HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3/4): 321-377.
[10] ANDREW G, ARORA R, BILMES J, et al. Deep canonical correlation analysis[EB/OL]. [2021-01-05]. https://www.researchgate.net/publication/255482849_Deep_Canonical_Correlation_Analysis.
[11] WANG X J, ZHANG L, LI X R, et al. Annotating images by mining image search results[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(11): 1919-1932.
[12] SHI B, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.
[13] SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513-523.
[14] ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.
[15] MIHALCEA R, TARAU P. Textrank: bringing order into text[C]//2004 Conference on Empirical Methods in Natural Language. Stroudsburg: Association for Computational Linguistics, 2004: 404-411.
A method of automatic image annotation for image-text mixed domain books
ZHAO Hai-ying1, GAO Zi-hui2, DENG Lian2, HOU Xiao-gang1, LI Ning1
(1. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2. School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing 100876, China)
Efficient interpretation and intelligent processing of massive text and text data is a very challenging and practical work, but the accuracy of automatic labeling is highly dependent on the quality and quantity of training samples. In this paper, an image annotation method of images and text data mixed information is proposed. The method consists of three parts: adaptive image and text separation preprocessing, domain image semantic label construction and text-based image annotation algorithm. Firstly, the proposed hybrid layout recognition algorithm is used to extract the image, title and description text in the hybrid layout of images and text data. Then, the Traditional Cultural Domain Lexicon (PatternNet) is established based on semantic tags of digital clothing image. Finally, according to the characteristics of domain lexicon's tag space, a text-based image annotation algorithm is proposed to improve the large tag space. The simulation experiment is carried out on the ethnic costumes books that images and text data hybrid layout, also compared with other data sets. The experimental results verify the effectiveness of the algorithm proposed in this paper.
annotation image with text; PatternNet; digital image-text processing; domain keyword extraction
TP 391
10.11996/JG.j.2095-302X.2021030398
A
2095-302X(2021)03-0398-08
2021-04-22;
2021-05-19
22 April,2021;
19 May,2021
北京郵電大學(xué)基本科研業(yè)務(wù)費(fèi)科研項(xiàng)目(2020RC26)
Basic Scientific Research Funds of Beijing University of Posts and Telecommunications (2020RC26)
趙海英(1972-),女,山東煙臺(tái)人,副教授,博士。主要研究方向?yàn)槲幕?jì)算與媒體數(shù)據(jù)挖掘。E-mail:zhaohaiying@bupt.edu.cn
ZHAO Hai-ying (1972-), female, associate professor, Ph.D. Her main research interests cover cultural computing and media data mining. E-mail: zhaohaiying@bupt.edu.cn
侯小剛(1984-),男,甘肅天水人,工程師,博士。主要研究方向?yàn)閳D像處理。E-mail:houxiaogang05@bupt.edu.cn
Hou Xiao-gang (1984-), male, researcher, Ph.D. His main research interest covers image processing. E-mail: houxiaogang05@bupt.edu.cn