胡剛+荊磊+朱磊
摘 要:隨著互聯(lián)網和移動互聯(lián)技術的迅速普及和發(fā)展,與網絡有關的版權和著作權糾紛呈現(xiàn)逐年遞增的態(tài)勢。隨著人們版權意識的逐漸提高,對版權歸屬、侵權后的確認等問題也提出了更高的要求,對于圖像的版權保護問題也成為了研究的熱點。圖像特征提取的卷積神經網絡主要用來識別圖像的特征,可以抵抗圖像的位移、縮放和其他形式扭曲不變形的變換。圖像特征提取的卷積神經網絡通過訓練數(shù)據(jù)進行學習,避免了顯式的特征提取,而是隱式的從訓練數(shù)據(jù)中進行學習?;跈C器學習的圖像特征提取技術,可以更好地適應當今海量數(shù)據(jù)爆發(fā)性增長的實際環(huán)境,可以為實際圖像的版權確認提供充分的依據(jù)。
關鍵詞:機器學習;圖像特征提取技術;圖像版權保護;應用
1 背景
互聯(lián)網技術的快速普及和發(fā)展給版權保護的傳統(tǒng)手段帶來了前所未有的沖擊和挑戰(zhàn)。版權作品在數(shù)字技術和網絡技術普及的大環(huán)境下,使用戶可以在任意媒介上進行復制,并不受任何限制,甚至在版權作品被侵權后都很難查清侵權作品的真正源頭。
隨著人們版權意識的逐漸提高,對版權歸屬、侵權后的確認等問題也提出了更高的要求,對于圖像的版權保護問題也成為了研究的熱點。由于圖像相比其他版權作品,具有更容易傳播、更難確認版權歸屬等方面的特點,所以,對圖像的版權保護技術研究是本領域的重要研究內容。當圖像的版權所有人需要證明圖像的版權歸屬問題時,也就是圖像作品的確權問題時,我們可以通過提取圖像的特征來明確版權的歸屬問題,以維護圖像版權作品的正當權益。
1.1 圖像特征的定義
圖像特征是計算機圖形學中的概念,它是指通過計算機編程實現(xiàn)特定的算法來獲取圖像中的某些關鍵信息,來決定每個圖像的點是否屬于一個圖像特征。圖像特征提取的結果是把一張圖像分為不同的部分或子集,這些不同的部分或子集可以使孤立的點、一段連續(xù)的曲線或者一片連續(xù)的區(qū)域。到今天為止,圖像特征也沒有一個通用和準確的定義。圖像特征的精確定義通常由應用的場景來決定。圖像特征是圖像數(shù)字化后的一個有趣的部分,它是計算機圖像分析算法的起點,圖像特征提取的一個最重要的特性就是可重復性,即在相同的應用場景下,圖像所提取的特征也應該是相同的。
要提取圖像的特征,必須明確以下數(shù)字圖像的相關定義:
1.1.1 圖像的邊緣。圖像的邊緣是圖像邊緣點的像素集合,圖像邊緣的形狀由不固定的像素組成,可以是任意形狀,甚至有的圖像邊緣是相交叉的。在計算機圖形學中一般被定義為圖像中擁有最大的梯度的像素點所組成的集合,可以把圖像邊緣看成是一對圖形結構。
1.1.2 圖像的角。圖像的角是圖像中的局部的二維結構,是圖像邊緣的突然轉向,現(xiàn)在也可以看成是圖像梯度中的高度曲率。
1.1.3 圖像區(qū)域。圖像的區(qū)域是一個圖像中的一個區(qū)域性的結構。這個結構的組成可以是僅由一個像素點來構成。因此圖像區(qū)域的檢測也可以來檢測圖像的角。
1.1.4 圖像的特征提取。圖像的特征被計算機編程實現(xiàn)的檢測算法偵測到后,它可以被計算機算法從圖像中提取出來,提取結果被稱為圖像特征描述。
1.2 圖像特征的分類
常用的圖像特征包括顏色特征、紋理特征和空間關系特征等。
1.2.1 顏色特征。圖像的顏色特征是基于圖像色彩的一種圖像全局特征,描述的是整幅圖像或圖像中的部分區(qū)域所對應的景物的一種表面特征。圖像的顏色特征也就是基于圖像的像素點的特征。由于顏色色彩對圖像或者圖像部分區(qū)域的方向和大小等變化十分不敏感,因此圖像的顏色特征并不能很直觀地描述出圖像中具體對象的局部特征。在實際應用場景中,基于圖像顏色特征進行查詢時,查詢的結果也不會很精確。顏色直方圖是常用的表達圖像顏色特征的方法和技術,顏色直方圖可以不受圖像的旋轉和平移等變化的影響,還不會受圖像尺度大小變化的影響,但是不能具體描述圖像顏色色彩的空間分布信息。
1.2.2 紋理特征。圖像的紋理特征也是圖像的一種全局特征。圖像的紋理特征是圖像的表面特性,不能完全反映圖像的本質屬性。圖像的紋理特征不是基于圖像像素點的特征,它是在包含多個圖像像素點的區(qū)域中進行統(tǒng)計計算以后得出的結果。圖像的紋理特征在圖像匹配過程中,不會由于圖像的局部偏差而出現(xiàn)無法匹配成功的情況。圖像紋理特征對旋轉和噪聲具有很強的魯棒性,但對于圖像分辨率的變化可能會出現(xiàn)較大的偏差。圖像紋理特征的常用提取方法是灰度共生矩陣的分析方法,它從圖像的能量譜函數(shù)提取圖像的紋理特征,提取出圖像的紋理的粗細度及方向性等圖像的特征參數(shù)。
1.2.3 空間關系特征。圖像空間關系是圖像中分割出來的多個目標之間的相互空間位置關系,這些關系可以是連接、重疊和包含關系等。圖像的空間關系特征可加強對圖像內容的描述區(qū)分能力。圖像的空間關系特征的特性決定了它對圖像的旋轉、尺度變化等攻擊的魯棒性較差。通過以上分析,為了圖像版權的準確識別需要的圖像特征提取,需要對圖像的多種特征進行綜合提取、分析。隨著互聯(lián)網技術的快速發(fā)展,這些提取與分析的計算數(shù)據(jù)量也面臨海量的增長,這也為圖像的版權保護提出了極大的挑戰(zhàn)。為了應對這種挑戰(zhàn),需要采用更先進的基于大數(shù)據(jù)的機器學習方法來快速準確地提取、分析圖像的特征,以明確圖像的版權。
1.3 大數(shù)據(jù)時代
信息技術的快速發(fā)展,使各個產業(yè)的數(shù)據(jù)量呈現(xiàn)爆炸式增長,數(shù)據(jù)以前所未有的速度進行積累。因此,“大數(shù)據(jù)”的概念也得到了越來越多的關注。隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)的相關技術已在很多行業(yè)被得到廣泛應用——無論是從大規(guī)模的數(shù)據(jù)中心到商業(yè)智能、數(shù)據(jù)挖掘的應用,還是搜索引擎、推薦系統(tǒng)、語音識別等都得到了快速的發(fā)展。大數(shù)據(jù)技術涉及到很多方面的內容,包括了大規(guī)模的并行計算、云技術等多個領域。如何利用先進的大數(shù)據(jù)技術為版權行業(yè)的快速有序的發(fā)展提供支撐也成為當前的熱點課題。目前,以圖像、音視頻為代表的內容產業(yè)得到了迅猛發(fā)展,圖像的版權問題也日趨得到關注,傳統(tǒng)的圖像版權保護技術已不能適應當前內容產業(yè)的高速發(fā)展,無論是圖像的版權確權的準確性還是及時性都不能提供足夠的保障,必須有能適應當前的大數(shù)據(jù)時代的新技術進行支撐。
1.4 機器學習
隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)領域的各種算法和技術也得到了快速的發(fā)展和應用。機器學習作為大數(shù)據(jù)技術的一個技術領域,將在今后的大數(shù)據(jù)處理與分析中發(fā)揮越來越重要的作用。在基于大數(shù)據(jù)的具體應用開發(fā)中,通過機器學習算法,從海量數(shù)據(jù)中挖掘出有意義的數(shù)據(jù)模式,從而達到發(fā)現(xiàn)數(shù)據(jù)價值的目的,實現(xiàn)數(shù)據(jù)變現(xiàn)。
機器學習的目的是從已有的數(shù)據(jù)中獲得數(shù)據(jù)模型,并通過獲得的模型對未來的數(shù)據(jù)進行預測,也可通過未來的數(shù)據(jù)對模型進行微調,從而更加適應應用的場景。
2 基于機器學習的圖像特征提取
2.1 卷積神經網絡
卷積神經網絡是近年來迅猛發(fā)展并引起廣泛重視的一種基于圖像特征的高效識別方法。卷積神經網絡避免了對圖像的復雜前期預處理過程,可以直接輸入原始圖像,并且可以避免耗時的誤差反向傳播,因而在圖像的版權保護領域可以得到更廣泛的應用。
2.1.1 卷積。卷積是數(shù)學分析中的一個重要運算。在圖像的版權保護中的特征領域,只需要對圖像用一個卷積核進行卷積運算,實際上也是圖像的一個濾波過程。
卷積的數(shù)學表示為:f(x,y)?莓w(x,y)=∑(s=-a)∧a∑(t=-b)∧b?主w(s,t)f(x-s,y-t)?著
其中I=f(x,y)代表一個圖像,f(x,y)是圖像I上x行y列上點的灰度值。而w(x,y)是卷積核,而a和b定義了卷積核即w(x,y)的大小。卷積提供了圖像的權重模板,而這個模板在圖像上滑動,將中心與圖像中的每一個像素對齊,然后對這個模板所覆蓋的像素進行加權,結果做為卷積核在圖像上的響應。卷積是一種數(shù)學的線性運算,卷積核的大小定義了圖像中任何一個像素點參與運算的域的大小,并且權重越大,其所貢獻的能力也就越大。
2.1.2 卷積神經網絡的分層。卷積神經網絡的基本結構包括兩層,包括特征提取層和特征映射層。(1)特征提取層。在卷積神經網絡中,每個神經元的輸入都與前一層的局部區(qū)域相連,通過提取該局部域的特征作為特征提取層。通過這種被提取的特征關系,可以將這種局部與特征間的位置關系確定下來。(2)特征映射層。卷積神經網絡中的每個計算層由多個特征映射組成,每個特征映射代表一個平面,每一個平面上所有的神經元的權值都是相同的。卷積神經網絡的特征映射具有位移不變性。卷積神經網絡中的每一個卷積層都緊跟著一個計算層,計算層用來求局部平均和二次提取結果。卷積神經網絡的這種特有的特征提取結構減少了所提取特征的分辨率。
2.2 局部感知
在圖像特征提取中,圖像被表示為像素的向量。在卷積神經網絡中,必須先減少參數(shù)從而加快提取和識別的速度。卷積神經網絡可以通過兩種方式來減少參數(shù)數(shù)目,局部感知是第一種。人們對世界的認知是從局部到全局的,機器學習的核心是模仿人類觀察和思考的過程。因此卷積神經網絡也可以通過這個從局部到全局的過程來實現(xiàn)減少參數(shù)。圖像的空間域的聯(lián)系呈現(xiàn)出局部區(qū)域的像素聯(lián)系更為緊密,而距離較遠的像素之間的相關性則更弱一些。因此卷積神經網絡的每個神經元沒有必要對全局圖像進行感知,只要通過對局部進行感知,然后再將各個局部的感知信息進行綜合就可以得到全局的信息。
2.3 參數(shù)共享
上文提到,為了加快圖像特征的提取和識別速度,卷積神經網絡可通過兩種方式來減少參數(shù)數(shù)目,第二級就是參數(shù)共享。在局部感知的過程中,可能仍然存在參數(shù)過多的情況,這就需要參數(shù)共享,也就是權值共享。卷積操作也就是圖像特征提取的方式,這種方式是具有位置無關性的,即圖像的一部分統(tǒng)計特性與其他部分是一樣的。當一個大分辨率的圖像通過隨機抽取的方式選取了一小塊圖像作為樣本,并從這個樣本中提取特征,可以將這個特征作為一個探測器應用到這個大分辨率圖像的任意地方中去,并將這個特征與大分辨率圖像作卷積,便可以在大分辨率圖像的任意一個位置獲取特征的激活值。
2.4 池化
當通過卷積運算獲得了圖像的特征以后,為了實現(xiàn)快速識別圖像,還需要對特征進行分類,可以用已經提取的特征去訓練已經建立的分類器模型。但是由于多卷積核的存在,特征分類計算的計算量會特別龐大,而且容易出現(xiàn)過擬合現(xiàn)象。上文提到,通過卷積后的特征具有圖像的位置無關性,也就是在某一個區(qū)域的圖像特征可能在另一個區(qū)域同樣適用。因此,可以通過對不同位置的特征進行聚合統(tǒng)計的方法來描述一個高分辨率的圖像。這種聚合的操作就是池化的過程。在卷積神經網絡中,由于不需要對圖像進行預處理,而在每次對圖像進行卷積以后,都可以通過一個下采樣的過程,來減少圖像的規(guī)模。
2.5 卷積神經網絡結構
圖像特征提取的卷積神經網絡是建立在多層神經網絡結構上的,每一層的所有節(jié)點按照連接線的權重向前計算,作為下一層節(jié)點的輸出。而每一層的每一條連接線都彼此不同,下一層的每一個節(jié)點的值與前一層的所有節(jié)點都相關。在圖像特征提取的卷積神經網絡中采用五層的卷積神經網絡結構,分為一個輸入層、一個輸出層、兩個特征提取層和一個包含全連接的隱藏層。輸入層:輸入層獲取特征向量作為輸入。一般的圖像經過人為的特征挑選,通過特征函數(shù)的計算來獲取特征向量,作為圖像特征提取的卷積神經網絡的輸入。在輸入層的所有節(jié)點向前沒有任何連接線。第一特征提取層:第一特征提取層由多個卷積模板輸入層的輸入圖像做卷積計算。在這一層中,我們計算偏置權重。第一特征提取層并不是所有的節(jié)點都與輸入層的所有節(jié)點相連接,而是只與鄰域的點進行連接。每一個連接對象有兩個成員,一個成員是權重的索引,另一個成員是上一層節(jié)點的索引。第二特征提取層:第二特征提取層由特征圖像組成。每個特征圖像的每一個點都由第一特征提取層的每一個卷積模板所對應的特征圖像的鄰域點在一起加權組成。隱藏層:隱藏層與一般的卷積神經網絡相似,在該層進行無監(jiān)督的特征學習。隱藏層的節(jié)點與上一層的所有節(jié)點相連接。輸入出層:輸出層的節(jié)點數(shù)量與特征的分類數(shù)目有關。輸出層的每一個輸出節(jié)點與隱藏層的所有節(jié)點相連接。
2.6 訓練與識別
卷積神經網絡的本質是一種輸入到輸出的映射,通過卷積神經網絡能夠學習大量的輸入與輸出之間的映射關系,而不需要任何的輸入與輸出之間的數(shù)學表達。只需要對已有的建立好的模型進行訓練,卷積神經網絡就可以獲得輸入與輸出之間的映射能力,進行圖像的特征提取。圖像特征提取的卷積神經網絡的權值更新策略與傳統(tǒng)的多層神經網絡相一致,訓練算法包括四步,四步分為正向傳播和逆向傳播兩個階段。
正向傳播階段:
(1)從樣本集獲取樣本,并輸入到卷積神經網絡中;
(2)計算相應的輸出。
在正向傳播階段,信息是從輸入層經過不同層的變換,最后通過輸出層輸出,這個階段是卷積神經網絡在完成訓練正常運行和執(zhí)行時的過程。
逆向傳播階段:
(1)計算實際輸出與理想值之間的差;
(2)按照極小誤差的方法反向調整權重矩陣。
隨著大量的訓練與學習,圖像特征提取的卷積神經網絡可以逐漸將獲得準確的圖像特征。
3 結束語
圖像特征提取的卷積神經網絡主要用來識別圖像的特征,可以抵抗圖像的位移、縮放和其他形式扭曲不變形的變換。圖像特征提取的卷積神經網絡通過訓練數(shù)據(jù)進行學習,避免了顯式的特征提取,而是隱式的從訓練數(shù)據(jù)中進行學習。另外,因為同一特征映射面上的神經元權值相同,所以圖像特征提取的卷積神經網絡可以進行各種學習來不停地完善提取特征的結果,使特征提取的結果更符合版權保護的實際需要。而且卷積神經網絡通過權值共享極大的降低了網絡的復雜性,權值共享的方式也避免了特征提取和分類過程中需要重建的數(shù)據(jù)復雜度。
通過卷積神經網絡進行圖像特征提取有以下的優(yōu)點:(1)輸入的圖像可以與卷積神經網絡更好的吻合;(2)特征的提取與特征的分類可以同時進行,并可以同時在訓練中產生;(3)采用權重共享可以減少卷積神經網絡的實際訓練參數(shù),使網絡結構更簡單,適應性更強。
基于機器學習的圖像特征提取技術可以更好地適應海量數(shù)據(jù)爆發(fā)性增長的當今實際環(huán)境,可以為實際圖像版權的版權確認提供充分的依據(jù)。將來更可通過對訓練模型的微調實現(xiàn)流式數(shù)據(jù)的支持,實現(xiàn)對流媒體(音視頻)的特征提取與分類,為音視頻的版權確認提供可選的技術手段。
參考文獻
[1]王力,王小華,王莉.神經網絡在車牌識別中的應用[J].微型機與應用,2011,03.
[2]黃成.基于決策樹分類的數(shù)字圖像數(shù)據(jù)挖掘探究[J].現(xiàn)代計算機(專業(yè)版),2010,11.
[3]王如杰.基于特征融合的醫(yī)學圖像檢索[D].南京理工大學,2013.
[4]王錦超.跨媒體檢索技術的研究[D].山東農業(yè)大學,2013.
[5]湯嘉立,左健民,黃陳蓉.基于SVM預分類學習的圖像超分辨率重建算法[J].計算機應用研究,2012,8.
科技創(chuàng)新與應用2016年31期