張 帆,單 艷
(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心新疆分中心,新疆 烏魯木齊 830017)
檢索信息過(guò)程中,用戶輸入的檢索內(nèi)容通常是關(guān)鍵詞,十分短小,在信息對(duì)比方面,其檢索結(jié)果對(duì)用戶需求無(wú)法進(jìn)行滿足,往往會(huì)產(chǎn)生各種問(wèn)題,如不全面檢索、錯(cuò)查等。因此,為促進(jìn)查詢精準(zhǔn)度的提高,有必要加強(qiáng)研究多媒體信息檢索中查詢和反饋技術(shù)。
計(jì)算機(jī)多媒體信息檢索是檢索方法之一,各種媒體、語(yǔ)義環(huán)境是其重點(diǎn)檢索目標(biāo),比如,視頻中展示的場(chǎng)景、亮度、聲響等,圖像中色彩、紋理等。傳統(tǒng)檢索技術(shù)的基礎(chǔ)是文本,具有一定限制性,而內(nèi)容基礎(chǔ)的檢索有效彌補(bǔ)傳統(tǒng)檢索技術(shù)不足,通過(guò)對(duì)圖像、視頻、音頻的研究和分析,快速篩選出來(lái)特征及語(yǔ)義,借助篩選內(nèi)容建立檢索框架,實(shí)現(xiàn)檢索目的?;A(chǔ)檢索技術(shù)內(nèi)容廣泛,主要有鑒別模式、處置圖像、圖像理解等的方式,從而促進(jìn)多種技術(shù)的合成[1]。
2.1.1 分類圖像通常情況下,可以劃分圖像為三個(gè)層次,分別是像素層、紋理層、內(nèi)容層。其中最簡(jiǎn)單的是像素層,它只負(fù)責(zé)對(duì)比圖像的像素;進(jìn)一步提煉象素之間聯(lián)系,以像素塊表達(dá)內(nèi)涵為依據(jù)開展分類工作,稱之為紋理層;通過(guò)語(yǔ)義描繪圖像紋理之間聯(lián)系,能夠促進(jìn)內(nèi)容層的產(chǎn)生,借助內(nèi)容層描繪,可以將指定圖像從待查詢圖片中篩選出來(lái)。
2.1.2 分類圖像屬性
根據(jù)LAYNE分類模式,可以將屬性劃分為四種:第一,歷史屬性。簡(jiǎn)單說(shuō)就是歷史記錄,如創(chuàng)作圖像的人員、創(chuàng)作圖像時(shí)間等。第二,主體屬性。對(duì)圖像語(yǔ)義主題的描繪。第三,表現(xiàn)屬性。主要指圖像中展示出的信息內(nèi)容。第四,關(guān)系屬性。將圖像與圖像之間的重要關(guān)系展示出來(lái)。
2.1.3查詢圖像
提取圖像特點(diǎn)是查詢最重要的內(nèi)容,具體是底層特點(diǎn)與高層特點(diǎn)。以內(nèi)容為基礎(chǔ)的圖像檢索技術(shù),簡(jiǎn)稱為CBIR,它借助圖像特點(diǎn),將索引構(gòu)建出來(lái),促進(jìn)查詢語(yǔ)義的形成,進(jìn)而開展搜索匹配工作。部分CBIR系統(tǒng)以直方圖形式來(lái)對(duì)顏色進(jìn)行統(tǒng)計(jì)進(jìn)而實(shí)施查找操作,最突出的表現(xiàn)是以圖像中出現(xiàn)的顏色頻率為根據(jù),將圖畫歸納出來(lái)。
2.1.4 評(píng)估性能
應(yīng)用查到率與查準(zhǔn)率評(píng)估CBIR系統(tǒng)性能。研究人員為此提出兩個(gè)判別指標(biāo),分別是檢索優(yōu)良性、有效性。對(duì)于優(yōu)良性而言,主要指系統(tǒng)能夠滿足使用者多大程度的期望,以及對(duì)系統(tǒng)查詢構(gòu)建出來(lái)的主觀評(píng)價(jià)。評(píng)估人員認(rèn)為系統(tǒng)檢索信息的精準(zhǔn)性影響優(yōu)良性。
在音頻檢索技術(shù)上同樣可以應(yīng)用圖像定義的標(biāo)準(zhǔn)化、分類屬性、系統(tǒng)評(píng)估問(wèn)題等討論觀點(diǎn)。然而,不同于圖像的是音頻數(shù)據(jù)還具有自身獨(dú)特的特點(diǎn):第一,音頻數(shù)據(jù)以聽覺(jué)為基礎(chǔ),并不以視覺(jué)為基礎(chǔ)。第二,音頻數(shù)據(jù)需要依靠時(shí)間。接下來(lái)主要從以上兩個(gè)方面探討音頻數(shù)據(jù)的檢索技術(shù)。
2.2.1 音頻查詢
對(duì)于音頻查詢而言,想要實(shí)現(xiàn)匹配檢索,必須轉(zhuǎn)變聽覺(jué)查詢條件,使其形成數(shù)字格式。以Bainbridgeetall系統(tǒng)為例子,它通過(guò)對(duì)頻率分析法的應(yīng)用,轉(zhuǎn)變聽覺(jué)輸入,形成音樂(lè)樂(lè)譜形式,之后通過(guò)對(duì)兩個(gè)樂(lè)符之間距離的比較,獲得匹配情況。另有研究人員采取其他方式解決這個(gè)問(wèn)題,借助三個(gè)或五個(gè)字母表,轉(zhuǎn)變輸入,使行距輪廓線得以形成,行距輪廓線能夠?qū)⒏鱾€(gè)字符變化的間距表現(xiàn)出來(lái),但是想要將音頻信息表達(dá)出來(lái),還需要將表示節(jié)奏的比較時(shí)間輪廓線增加進(jìn)來(lái)。然而,如果出現(xiàn)遺漏錯(cuò)誤,還需要全面而深入的分析這些錯(cuò)誤,將錯(cuò)誤發(fā)生率研究清楚,增加匹配算法的容錯(cuò)度。除此之外,通過(guò)對(duì)容錯(cuò)抽象方法的使用,音頻檢索系統(tǒng)還能夠提高查詢效率。
2.2.2 播放音頻數(shù)據(jù)
相關(guān)研究主要是在音頻數(shù)據(jù)庫(kù)中開展瀏覽與導(dǎo)航工作。從內(nèi)在特點(diǎn)來(lái)看,音頻數(shù)據(jù)是一種依靠時(shí)間的聽覺(jué)數(shù)據(jù)流,并沒(méi)有標(biāo)準(zhǔn)化的結(jié)構(gòu)描繪存在于這些流的時(shí)間相關(guān)點(diǎn)中。其他研究者這樣進(jìn)行描繪:使用者對(duì)某個(gè)音頻文件進(jìn)行瀏覽時(shí),需要以音頻數(shù)據(jù)流當(dāng)前定位為基礎(chǔ),進(jìn)而實(shí)現(xiàn)超鏈接系統(tǒng),借助超鏈接,將有關(guān)資源篩選出來(lái),此導(dǎo)航系統(tǒng)以內(nèi)容為基礎(chǔ),可以將一個(gè)有價(jià)值的結(jié)構(gòu)提供給無(wú)結(jié)構(gòu)的音頻文件流。
對(duì)于視頻信息而言,從視覺(jué)角度看,它與圖像檢索具有很多相似之處,但是視頻信息也必須依靠時(shí)間,為此可以對(duì)音頻數(shù)據(jù)的處理方法進(jìn)行借鑒。
2.3.1 查詢視頻
研究人員利用VISON系統(tǒng)提出鏡頭分割法,具體是分離視頻數(shù)據(jù)流中鏡頭,進(jìn)而結(jié)合相鄰鏡頭,促進(jìn)某個(gè)場(chǎng)景的產(chǎn)生,這與圖像數(shù)據(jù)的分割比較相似。此技術(shù)的核心與關(guān)鍵是將鏡頭圖形之間的不同點(diǎn)找出來(lái),為此,可以充分利用顏色直方圖的顯著改變,進(jìn)而對(duì)鏡頭的改變進(jìn)行推理。這和以內(nèi)容為基礎(chǔ)的圖像檢索技術(shù)比較相似,另外,分割方法還可以利用抽取鏡頭運(yùn)動(dòng)特點(diǎn)法。
構(gòu)造一般場(chǎng)景主要有三個(gè)程序,分別是探測(cè)鏡頭邊界、提取鏡頭特點(diǎn)、匯聚鏡頭。這僅僅研究了鏡頭圖像。對(duì)于VISION系統(tǒng)而言,借助同步的音頻軌道,可將線索找出來(lái),進(jìn)而劃分場(chǎng)景,這樣在音頻信息輔助作用下,能夠?qū)⒁?guī)則提取描繪出來(lái)。比如,當(dāng)改變一個(gè)鏡頭時(shí),說(shuō)話者也相應(yīng)發(fā)生一定變化,這表明新的場(chǎng)景產(chǎn)生了。借助劃分這些相似的規(guī)則,VISION可以正確分割很多場(chǎng)景。VISION還有另外一個(gè)特點(diǎn),就是通過(guò)對(duì)字幕信息的利用,可以劃分視頻信息。通過(guò)對(duì)具有較強(qiáng)理解力文本處理技術(shù)的使用,可以將重點(diǎn)詞句提取出來(lái),這將準(zhǔn)確的原數(shù)據(jù)信息提供出來(lái),對(duì)分類十分有利。然而需要注意的是想要連續(xù)識(shí)別音頻流中的信息比較困難,因此,必須對(duì)音頻流中的重點(diǎn)詞語(yǔ)進(jìn)行選擇性的識(shí)別。為此提出了關(guān)鍵幀,主要為了解決鏡頭方法問(wèn)題,但是其分析也是以內(nèi)容為基礎(chǔ)。關(guān)鍵幀可以將一段流中的語(yǔ)義圖像表達(dá)出來(lái),與一個(gè)場(chǎng)景十分相似。在關(guān)鍵幀判斷方面,大部分視頻檢索系統(tǒng)應(yīng)用算法,可以判斷關(guān)鍵幀的是顏色特點(diǎn)與運(yùn)動(dòng)信息,抽取關(guān)鍵幀還可以對(duì)圖像檢索技術(shù)的特點(diǎn)描繪進(jìn)行參考與借鑒。
2.3.2 播放視頻
如果關(guān)鍵幀可以將視頻文件內(nèi)容全部反映出來(lái),通過(guò)對(duì)這些關(guān)鍵幀的充分利用,則可以將一個(gè)摘要為這個(gè)視頻文件作出來(lái)。VISION系統(tǒng)通過(guò)對(duì)這種時(shí)間模型的應(yīng)用,借助提供的關(guān)鍵幀縮略圖或者用戶選擇的縮略圖可以將視頻信息播放出來(lái)。
隨著網(wǎng)絡(luò)媒體的不斷進(jìn)步,有機(jī)結(jié)合多種不同路徑的音頻、圖文、視頻等,交錯(cuò)在一起的數(shù)據(jù),形成新型媒體展示方式,也就是跨媒體。對(duì)于跨媒體而言,使用者查找的信息是其環(huán)境媒體對(duì)象,檢索系統(tǒng)功能強(qiáng)大,一方面能夠返回同樣種類一致媒體對(duì)象,另一方面還可返回不同種類媒體對(duì)象,從而將完整多樣化信息目標(biāo)展現(xiàn)出來(lái)。以圖像的利用為例子,在此過(guò)程中,能夠?qū)⒂嘘P(guān)語(yǔ)義的音頻、視頻片段等尋找出來(lái)。想要實(shí)現(xiàn)跨媒體查詢,就要使不同媒體之間差異性不斷下降,最大程度挖掘出不同媒體的協(xié)同效應(yīng)和語(yǔ)義關(guān)聯(lián)性,使相似性度量和一致性表達(dá)得以建立,最終將跨媒體信息查詢和處理模型構(gòu)建出來(lái)[2]。
便捷、高效是交互式查詢技術(shù)的明顯優(yōu)勢(shì),它作為一種有效方法可以使用戶將檢索需求清晰表達(dá)出來(lái)。對(duì)于傳統(tǒng)多媒體檢索方式而言,主要進(jìn)行示例或者結(jié)合查詢框,但是,新型視頻檢索系統(tǒng)則有很大差異,可以實(shí)現(xiàn)用戶關(guān)鍵詞重新組合后的查詢目標(biāo),系統(tǒng)會(huì)展開自動(dòng)化推薦,將一些密切聯(lián)系查詢?cè)~的語(yǔ)義概念提供出來(lái)。
對(duì)于移動(dòng)設(shè)備而言,其查詢圖像具有的前景十分豐富,其背景極具復(fù)雜性,導(dǎo)致搜索系統(tǒng)在尋找信息時(shí)缺少針對(duì)性??紤]到存在的各種問(wèn)題,通過(guò)對(duì)智能設(shè)備自身交互便利性的充分利用,研究員將部分查詢方法研究出來(lái),用戶可以實(shí)現(xiàn)對(duì)示例的交互查詢目標(biāo),將檢索目標(biāo)確定下來(lái)。例如,部分研究者將交互式查詢方式設(shè)計(jì)出來(lái),運(yùn)用不同方式如裁剪、畫線、套索等,用戶可以將圖像中感興趣的目標(biāo)圈出,為查找目標(biāo)提供方便。另一方面,一些學(xué)者將基于數(shù)碼相機(jī)拍照的食品檢索系統(tǒng)研發(fā)出來(lái),另外一些研究人員在分析基于手機(jī)街拍的服裝檢索功能等[3]。
關(guān)鍵字查詢是一種使用廣泛的查詢方法,主要應(yīng)用視頻或者圖像開展實(shí)施檢索操作,檢索系統(tǒng)以使用者輸入重點(diǎn)詞句為依據(jù),開展查詢與索引工作,以相關(guān)性為依據(jù),排序并展示查詢結(jié)果。然而,用戶輸入關(guān)鍵詞往往不能將查詢意圖精準(zhǔn)表達(dá)出來(lái),究其原因,主要是:第一,關(guān)鍵詞數(shù)量較少,具有有限的信息表達(dá)能力;第二,有歧義、模糊問(wèn)題存在于查詢?cè)~中;第三,對(duì)于所要檢索的目標(biāo),用戶通常不能將精準(zhǔn)查詢?cè)~構(gòu)建出來(lái)。上述情況導(dǎo)致查詢系統(tǒng)對(duì)用戶意圖進(jìn)行了解時(shí)具有較低準(zhǔn)確性,因而搜索到的結(jié)果不能使用戶滿意[4]。
針對(duì)圖像或視頻傳統(tǒng)檢索系統(tǒng),需要對(duì)文本檢索推薦查詢技術(shù)進(jìn)行參考,充分利用各種數(shù)據(jù),將適合的分析模型設(shè)計(jì)出來(lái),對(duì)數(shù)據(jù)中重點(diǎn)詞語(yǔ)的語(yǔ)義聯(lián)系展開深度開發(fā),進(jìn)而形成備選查詢?cè)~語(yǔ),支持使用者快速篩選到自己需求的信息。首先,以文檔推薦為基礎(chǔ)的查詢技術(shù),借助統(tǒng)計(jì)模型對(duì)包含查詢?cè)~的文檔數(shù)據(jù)或人工編輯語(yǔ)料進(jìn)行挖掘,篩選出來(lái)有價(jià)值詞句,通過(guò)這些詞句,可以鎖定有價(jià)值的內(nèi)容。其次,以日志查詢?yōu)榛A(chǔ)的查詢技術(shù),有效運(yùn)用引擎搜索功能,研究查詢?nèi)罩?,將信息之間的關(guān)系挖掘出來(lái),從而構(gòu)建推薦的查詢內(nèi)容,例如關(guān)鍵詞查詢、搜索結(jié)果點(diǎn)擊等,查詢關(guān)聯(lián)性都包含在查詢?nèi)罩緝?nèi),借助分析不同查詢關(guān)系,計(jì)算查詢間關(guān)聯(lián)程度,對(duì)查詢推薦發(fā)揮指導(dǎo)作用[5]。
為了使檢索精準(zhǔn)度提高,可以在檢索程序中增加使用者反饋信息。當(dāng)輸入查詢信息之后,如果使用者仍然需要繼續(xù)檢索,可將當(dāng)前檢索內(nèi)容作為依據(jù),標(biāo)注出一些與檢索目的相關(guān)或不相關(guān)的樣本內(nèi)容,進(jìn)一步明確使用者需求,系統(tǒng)根據(jù)使用者反饋信息,對(duì)檢索模型進(jìn)行改變,最后使檢索結(jié)果得到更新。這樣能夠提高系統(tǒng)理解能力,使其對(duì)無(wú)關(guān)樣本的出現(xiàn)發(fā)揮抑制作用,增加檢索結(jié)果中相關(guān)樣本的響應(yīng)度,對(duì)用戶檢索需求進(jìn)行很好滿足[6]。
近幾年,相關(guān)工作人員將機(jī)器學(xué)習(xí)理論融入反饋技術(shù)中,增加檢索功能,實(shí)現(xiàn)監(jiān)督學(xué)習(xí)目的,同時(shí)建設(shè)出來(lái)機(jī)器學(xué)習(xí)模型,根據(jù)使用者樣本訓(xùn)練模型,發(fā)揮指導(dǎo)作用,產(chǎn)生全新檢索結(jié)果。一些研究者以支持向量機(jī)主動(dòng)學(xué)習(xí)模型為依據(jù),研究出來(lái)反饋計(jì)算方法,但是想要讓使用者接收到反饋標(biāo)志,還需要將與支持向量機(jī)分類邊界信息選擇出來(lái),從而大大減小模型解釋空間尺寸,通過(guò)對(duì)較少數(shù)量使用者反饋信息的利用,將最大化信息效益獲取到。另一些研究人員提出全新的主動(dòng)學(xué)習(xí)算法,它的依據(jù)是樣本分布結(jié)構(gòu),能夠描繪樣本局部幾何結(jié)構(gòu)和接近樣本語(yǔ)義的相似特點(diǎn),對(duì)樣本模型改變與優(yōu)化作用進(jìn)行估計(jì),并且對(duì)樣本相關(guān)度、多樣性等信息進(jìn)行充分考慮,將最佳待標(biāo)注樣本提供出來(lái),讓用戶開展相關(guān)標(biāo)注,這樣需要的用戶標(biāo)注很少,促進(jìn)模型性能大幅度提升[7]。
在反饋技術(shù)大力發(fā)展的帶動(dòng)下,極大提升多媒體檢索水平能力。然而,仍然有很大差距存在于人類高級(jí)別認(rèn)知語(yǔ)義及計(jì)算機(jī)低層次感知特點(diǎn)中,對(duì)多媒體分析數(shù)據(jù)解能力和檢索系統(tǒng)構(gòu)造準(zhǔn)確性產(chǎn)生巨大影響。想要將此方面差異逐漸減少,研究人員在對(duì)圖像視頻內(nèi)容進(jìn)行描述時(shí),選擇視覺(jué)屬性中層語(yǔ)義,這樣有利于奠定有利條件,實(shí)現(xiàn)結(jié)合高級(jí)別語(yǔ)義和低層次特點(diǎn)目的。視覺(jué)屬性是指存在于對(duì)象自身的一些特征,重點(diǎn)對(duì)構(gòu)成對(duì)象的狀態(tài)、外形等進(jìn)行描繪。視覺(jué)屬性比語(yǔ)義含義容易理解,同時(shí)利用起來(lái)比較簡(jiǎn)單,通過(guò)對(duì)低層次特點(diǎn)的運(yùn)用,就可以將模型構(gòu)造出來(lái)。因此,工作人員可以總結(jié)出來(lái)一些構(gòu)造模型方式,并且將屬性模型確定下來(lái),也就是基礎(chǔ)輸出,將圖像特點(diǎn)概括出來(lái),進(jìn)而表示出來(lái)中層語(yǔ)義,以便在分析和檢索中應(yīng)用。
此反饋技術(shù)可以促進(jìn)系統(tǒng)檢索性能的有效提升。用戶檢索歷史和交互行為是反饋的主要數(shù)據(jù)來(lái)源,通常包括停留頁(yè)面時(shí)間、網(wǎng)頁(yè)點(diǎn)擊、查詢輸入等,通過(guò)隱藏的用戶喜好,可以將了解用戶檢索目的的線索提供出來(lái)。當(dāng)前有大量噪聲存在于隱式反饋數(shù)據(jù)中,對(duì)比其他反饋數(shù)據(jù),精準(zhǔn)度較低,然而,實(shí)際應(yīng)用過(guò)程中,其對(duì)數(shù)據(jù)的反饋內(nèi)容更為豐富,有大量隱式反饋數(shù)據(jù)存在于檢索系統(tǒng)中可以應(yīng)用于多個(gè)場(chǎng)景。此外,隱式反饋對(duì)于用戶反饋檢索結(jié)果并無(wú)需求,這就使用戶操作負(fù)擔(dān)大大下降。
總而言之,對(duì)于計(jì)算機(jī)多媒體信息檢索而言,通過(guò)對(duì)檢索技術(shù)、反饋技術(shù)的高效應(yīng)用,可以實(shí)現(xiàn)聯(lián)系語(yǔ)義目的,這能夠?qū)τ脩魴z索需求進(jìn)行更好滿足?,F(xiàn)階段,計(jì)算機(jī)多媒體信息檢索中查詢技術(shù)和反饋技術(shù)極為有限,與此同時(shí),很多技術(shù)都處于研發(fā)初始狀態(tài),這就要求必須加大研發(fā)力度,使數(shù)據(jù)查詢準(zhǔn)確性和可靠性得以提高,從而將更好的信息服務(wù)提供給用戶。