張晨民
(鄭州金惠計算機系統(tǒng)工程有限公司,鄭州 450000)
以手機為載體的移動互聯(lián)網(wǎng)已經(jīng)開始步入高速發(fā)展的快車道,移動終端用戶對移動數(shù)據(jù)業(yè)務的需求日益強烈,運營商也希望能充分利用目前的設備提供更多的增值服務。但隨著人們對信息需求的日益豐富,簡單的文字、圖片信息不能滿足用戶的需求,擁有更真切、豐富的用戶體驗的多媒體應用,才是移動業(yè)務發(fā)展的必然趨勢。充分利用移動互聯(lián)網(wǎng)應用和多媒體技術,隨時隨地捕捉第一手資料,不僅豐富了移動互聯(lián)網(wǎng)的信息內容,更迎合了人們日增的新聞敏感性和社會責任感。但是當前移動互聯(lián)網(wǎng)上的圖像數(shù)量迅速增長,雖然大量用戶被移動互聯(lián)網(wǎng)中豐富的圖像信息所吸引,卻很難在海量數(shù)據(jù)環(huán)境下找到其真正需要的信息。另一方面,近年來移動互聯(lián)網(wǎng)上色情、暴力、反動等不良信息的傳播、泛濫,嚴重地敗壞了社會風氣,極大地影響了廣大青少年的健康成長,成為國家網(wǎng)絡安全的巨大隱患。如何加強信息監(jiān)督管理、保障信息安全,已經(jīng)成為世界各國共同面對的難題和挑戰(zhàn)。
可見,移動互聯(lián)網(wǎng)對網(wǎng)絡圖像搜索技術、不良圖像信息的發(fā)現(xiàn)技術需求迫切。從運營商運營管理的角度出發(fā),需要對網(wǎng)絡上傳輸?shù)膱D像內容進行審核,降低網(wǎng)內系統(tǒng)中存儲非法違規(guī)信息的風險、依法打擊淫穢色情及政治性內容。2010年中國移動制訂了《中國移動通信網(wǎng)絡不良信息監(jiān)測系統(tǒng)工程技術規(guī)范書》、《中國移動通信多媒體內容監(jiān)測系統(tǒng)設備規(guī)范》等系列規(guī)范,在其中明確了不良信息對圖像的初步發(fā)現(xiàn)和審核的技術要求和分類方式。從用戶的角度出發(fā),需要有準確高效的圖像搜索工具,將現(xiàn)實生活和虛擬世界更加緊密的聯(lián)系在一起,獲得更好的移動互聯(lián)網(wǎng)體驗。而這兩者都需要先進的圖像識別技術的支撐。
事實上,圖像內容帶給人的信息是多方面的,沒有人僅借助標號來回憶場景,對圖像信息的識別需要根據(jù)圖像所表達的內容來進行,因此,人們提出了基于內容的圖像識別技術。
如圖1所示,圖像識別技術的第一步是底層特征提取,包括各種層次的視覺特征、文本特征、元數(shù)據(jù)等;第二步是建立對應單特征的識別模型,建立模型的方法通常有神經(jīng)網(wǎng)絡、高斯混合模型、隱馬爾可夫模型、支持向量機等;第三步是信息融合,綜合各種特征、模態(tài),產(chǎn)生較為可靠的結果。
圖1 圖像識別通用框架
針對互聯(lián)網(wǎng)行業(yè)應用來說,圖像搜索技術和圖像過濾技術正是圖像識別技術的應用本質。換句話說,圖像識別技術是核心,圖像搜素和圖像過濾是基于該技術的高層應用。在傳統(tǒng)的搜索領域,搜索和過濾技術本質上是一家的。同理,在如今的移動互聯(lián)網(wǎng)中,圖像搜索和圖像過濾也可以理解為是一家的,都是圖像識別核心技術延伸的應用工具。
圖像搜索系統(tǒng)一般特征抽取模塊和瀏覽查詢模塊。兩大模塊除了需要解決圖像數(shù)據(jù)模型的設計與表示、圖像特征的提取與表達、查詢結果的表達以及系統(tǒng)性能的分析和比較之外,還應該著重解決相似性計算,高維索引技術。
國外,眾多大牌IT公司已經(jīng)有商用的移動互聯(lián)網(wǎng)搜索產(chǎn)品投向市場,最具代表性的是Google的“景物搜索”試驗性產(chǎn)品 Goggles,它可以對用戶上傳的圖片內容進行分析,可辨認書籍、音樂專輯封面、繪畫、地標、場所和企業(yè)商標圖案等。Amazon公司開發(fā)的Snaptell,Idée公司開發(fā)的TinEye,Nokia公司開發(fā)的Point&Find等都是此類應用。
國內方面,阿里巴巴集團投資的圖片搜索網(wǎng)站“淘淘搜”日前已經(jīng)上線,目前只是針對部分女裝類目進行搜索;百度的新產(chǎn)品“識圖搜索”(目前處于內測階段:shitu.baidu.com),也已經(jīng)上市。但在技術成熟度上與國外產(chǎn)品有較大差距,也沒有出現(xiàn)適合在智能手機上使用的版本。
圖像過濾,就是根據(jù)需要過濾的圖像,定義其特征,并用顏色分析、紋理識別、形狀檢測提取其多方面特征用于建模,產(chǎn)生合理的分類器,并用該分類器對新圖像進行檢驗分類,同時運用人工智能的自學能力方法或其它交互方式進一步完善分離器。
目前,國內外的一些公司與研究機構開發(fā)出了一些原型系統(tǒng)。如Exotrope公司的BAIR,該軟件根據(jù)肌膚色調和形狀特征利用神經(jīng)網(wǎng)絡技術實現(xiàn)色情圖像的過濾。Clearswift公司的圖像識別軟件PORNsweeper,該軟件先檢測圖像中肌膚色調的含量,在利用人臉識別技術來判斷是否為色情圖像。
近年來,國內有些單位也開展了圖像內容過濾的研究工作。清華大學、哈工大、上海交通大學、浙江大學都做出了一些這方面的科研成果,但是很多是原型系統(tǒng)。
在國內敏感圖像產(chǎn)品和系統(tǒng)應用方面,金惠科技的圖像過濾算法對圖像正確識別率達到90%以上,對視頻正確識別率達到85%以上,而兩者的誤判率均低于10%,具有國內外的領先水平。
上述一些在用和將上線的IT產(chǎn)品,不論是圖像搜索,還是圖像過濾,其核心都是要對圖像內容進行精確的描述,達到人對圖像進行自然理解的程度。為了克服語義鴻溝,處理大規(guī)模的圖像數(shù)據(jù),現(xiàn)在圖像識別技術的發(fā)展趨勢是建立在基于視覺詞典模型的基礎上。
視覺詞典的概念的思想是將文本檢索的方法用于目標識別。視覺詞典是一部詞典,通過對局部關鍵點描述子特征(例如K均值)進行聚類生成,它的每個單詞代表關鍵點的一類。圖像和詞典間的映射通過賦予每個關鍵點距離最近的視覺單詞來完成的。圖2描述了視覺詞典生成和用視覺詞典描述圖像的過程。首先提取關鍵點和它們的特征描述子。然后對描述子聚類生成視覺詞典,反過來用生成的視覺詞典頻次直方圖向量表示圖像。視覺詞典頻次直方圖向量的比較來度量圖像間的相似度。圖像的匹配可以用經(jīng)典的詞頻-逆文檔頻率(term frequency-inverse document frequency, tf-idf)文檔向量空間模型來實現(xiàn)。統(tǒng)計學上,圖像也可表示成基于視覺詞典的平滑概率分布。比較兩幅圖像可以轉換成基于視覺關鍵詞的向量或分布的比較,也可以依據(jù)此概率分布對特定圖像類型進行建模?;谶@樣的設計,圖像搜索和圖像過濾均能在視覺詞典模型上設計相應的算法。
圖2 視覺詞典生成過程以及圖像表示
雖然視覺詞典方法由于其突出性能而日益受到研究人員重視,但是它也存在一些開放性的問題。它存在的第一個問題是視覺單詞的同義性和歧義性問題。在視覺詞典生成階段,現(xiàn)行的做法主要是采用K-Means算法對關鍵點聚類而得到的。由于K-Means聚類存在聚類中心分布不均勻特性,即在數(shù)據(jù)點密集空間得到的聚類中心偏多,而在數(shù)據(jù)點稀疏區(qū)域得到聚類偏少,就會導致有多個視覺單詞描繪同一特征點的現(xiàn)象,即視覺詞匯的同義性。況且,出現(xiàn)頻繁的特征點就好比如文本中“的”、“是”、“了”等經(jīng)常出現(xiàn)的詞匯,往往信息量不大,如果分配較多的單詞來描繪這類特征點的話,顯然意義很小。此外,在K-Means聚類時,遠離聚類中心的數(shù)據(jù)點會使聚類中心產(chǎn)生偏移,導致視覺詞匯的歧義性,即同一個視覺詞匯描述的特征點之間存在很大差異的現(xiàn)象。第二個問題是算法時間復雜度較高。在視覺詞匯直方圖構建階段,現(xiàn)行方法一般采取硬比對方式將圖像幀的局部特征點量化到視覺詞典中與之最近的單詞上去。顯然,視覺詞匯直方圖構建的時間將隨著視覺詞典規(guī)模增大而線性增加,當詞典規(guī)模過大時,將很難實現(xiàn)實時的圖像識別。