基于四元數(shù)的卷積核編碼方式研究

2017-12-11 14:43:00鮑毛毛茅廷陳宇珽方曉邱媛媛

電腦知識與技術(shù) 2017年31期

鮑毛毛　茅廷　陳宇珽　方曉　邱媛媛

摘要：近年來，隨著人工智能的飛速發(fā)展，深度學(xué)習(xí)領(lǐng)域也得到了極大關(guān)注。卷積神經(jīng)網(wǎng)路是深度學(xué)習(xí)研究領(lǐng)域中的一個重要方向。然而現(xiàn)有的卷積神經(jīng)網(wǎng)路模型在卷積核層面只能處理二維數(shù)據(jù)。鑒于此目的，該文提出四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型（Quaternions Convolutional Neural Network，QCNN），目的是在卷積核層面可以處理三維數(shù)據(jù)，充分挖掘圖像信息。該文首先介紹了四元數(shù)神經(jīng)元模型，然后提出了四元數(shù)感受野模型、四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的輸入和四元數(shù)特征圖生成模型，創(chuàng)建了四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)，并層次遞進的構(gòu)建了四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型的拓撲結(jié)構(gòu)，最后用四元數(shù)BP算法訓(xùn)練學(xué)習(xí)整個網(wǎng)絡(luò)。QCNN將CNN的數(shù)據(jù)處理從2維擴展到3維，并利用四元數(shù)的代數(shù)幾何理論，充分融合不同維度的特征信息。

關(guān)鍵詞：卷積神經(jīng)網(wǎng)路；四元數(shù)；四元數(shù)編碼

中圖分類號：TP393 文獻標識碼：A 文章編號：1009-3044（2017）31-0269-04

1 緒論

近年來，隨著人工智能的飛速發(fā)展，深度學(xué)習(xí)領(lǐng)域也得到了極大關(guān)注。深度學(xué)習(xí)是模式識別和機器學(xué)習(xí)研究領(lǐng)域中的一個新的方向。其中卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network ，CNN）通過對樣本的自動學(xué)習(xí)，根據(jù)系統(tǒng)需要解決問題的復(fù)雜度，抽取樣本的局部特征計算比較，從而推理形成一個自動學(xué)習(xí)特征的識別系統(tǒng)。Cire?an等利用multi-stage卷積神經(jīng)網(wǎng)絡(luò)識別分類[1]。這種方法僅僅以圖像為單位，沒有利用視頻中每一幀的關(guān)聯(lián)信息。Karpathy介紹了通過改變第一個卷積層的結(jié)構(gòu)，使它可以接受多個幀作為輸入，然后隱層融合特征[2]。但是這些都是基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，并沒有改變神經(jīng)元和特征圖的傳導(dǎo)方式，對于信息的融合并不是特別充分。

基于四元數(shù)對彩色圖像的識別技術(shù)已經(jīng)得到一定發(fā)展和實際應(yīng)用，最廣泛的做法是將彩色圖像的RGB通道編碼在四元數(shù)的三個虛軸上，從四元數(shù)理論上做數(shù)學(xué)分析。郎方年等和黎云漢等[3-4]將四元數(shù)主成分分析（Quaternion principal component analysis， QPCA）應(yīng)用于彩色人臉識別； Lu等[5]基于四元數(shù)理論提出了局部四元數(shù) Gabor二值模塊描述子的算法，并且在文中和文獻 [35]中的算法進行了對比； Ding 等[6]利用四元數(shù)K-L變化（Quaternion K-L Transform）和仿生模式識別方法（Biomimetic Pattern Recognition）進行人臉識別； Sun 等[7]基于QPCA提出了兩種彩色人臉識別的算法，分別是基于四元數(shù)的二維PCA （2D Principal component analysis， 2DPCA）和基于四元數(shù)的雙向PCA （Quaternion bidirectional PCA， QBDPCA）。另外，也有將四元數(shù)拓展到BP神經(jīng)網(wǎng)絡(luò)的研究和應(yīng)用[8]。而且，有一些研究者已經(jīng)基于克利福德（Clifford）代數(shù)提出克利福德神經(jīng)網(wǎng)絡(luò)（CliffordNeuralNetworks）。目的是為四元數(shù)以及四元數(shù)神經(jīng)網(wǎng)絡(luò)建立一個統(tǒng)一的理論基礎(chǔ)[9]。

鑒于以上背景，本文基于四元數(shù)理論框架和卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提出了四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型。

2 系統(tǒng)結(jié)構(gòu)

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)輸入只能是一個灰度圖，所以它的輸入和卷積核都是標量，只能是2維數(shù)據(jù)的輸入，這樣丟失了數(shù)據(jù)不同維度之間的相關(guān)性，損失了大量信息。在彩色圖像的各種表示方法中，目前四元數(shù)的表示方法頗為流行，可以將彩色圖像的RGB通道編碼在四元數(shù)的三個虛軸上。結(jié)合傳統(tǒng)CNN和四元數(shù)理論，本文提出了一種基于四元數(shù)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，主要思想是將輸入和卷積核都擴展為四元數(shù)，利用四元數(shù)的性質(zhì)進行前向和反饋，訓(xùn)練整個四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)。

四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型如圖1所示，本文會將網(wǎng)絡(luò)模型分為四元數(shù)神經(jīng)元模型，四元數(shù)感受野模型、四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的輸入、四元數(shù)特征圖生成模型、四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的下采樣和全連接介紹，并相應(yīng)闡述它的拓撲結(jié)構(gòu)，最后介紹四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。

2.1 四元數(shù)代數(shù)和幾何理論

四元數(shù)代數(shù)和幾何理論是四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)，本小節(jié)先介紹四元數(shù)的代數(shù)定義，再介紹四元數(shù)三維空間的幾何理論。

四元數(shù)是復(fù)數(shù)的推廣，將復(fù)數(shù)的一個虛部擴展為三個虛部，其定義如下：

[q=qr+qii+qjj+qkk]，[q∈K4] （1）

其中，[qr]為[q]的實部，記為[Req=qr]，[qii+qjj+qkk]為[q]的虛部，記作[Imq=qii+qjj+qkk]，[K4]表示四元數(shù)集合。

三個虛部滿足如下法則：

[i2=j2=k2=-1] （2）

[ij=-ji=k；jk=-kj=i；ki=-ik=j] （3）

四元數(shù)共軛的定義位為

[q*r=qr，-w=qr-qii-qjj-qkk] （4）

四元數(shù)的基本性質(zhì)與實復(fù)數(shù)稍有些區(qū)別。

1. 純四元數(shù)定義為，四元數(shù)[q]的實部[qr]為0，[q∈I]，[I]表示純四元數(shù)集合。

2. 四元數(shù)相等定義為：兩個四元數(shù)有相等的實部和虛部。

3. 兩個四元數(shù)的和差定義為其系數(shù)做代數(shù)相加減：

[q1±q2=qr1±qr2，v±w]

[=qr1±qr2，qi1±qi2，qj1±qj2，qk1±qk2] （5）

4. 實數(shù)與一個四元數(shù)的乘積等于系數(shù)相乘。

[K*q=K*qr+K*qii+K*qjj+K*qkk] （6）

5. 兩個四元數(shù)的乘法定義為：

[q1?q2=qr1qr2-v?w，qr1w+qr2v+v×w] （7）

其中[?和×]分別代表向量的點乘和叉乘。

6. 四元數(shù)點乘類似于復(fù)數(shù)的點乘，定義如下：

[q1☉q2=qr1qr2， qi1qi2，qj1qj2，qk1qk2] （8）

7. 四元數(shù)模定義為：

[q=q2r+q2i+q2j+q2k] （9）

利用四元數(shù)理論可以很好的描述3D空間的幾何變換。3D空間的幾何變換共有三種形式：平移，膨脹和旋轉(zhuǎn)。

（1）平移：坐標x和y為兩個純虛四元數(shù)，三個虛軸可以編碼到3D空間的三維向量。那么x、y的和：[x+y]，即是坐標x在3D空間通過坐標y的偏移，類似于2D空間的向量相加方式。

（2）膨脹：膨脹操作也類似于2D空間中的方法：[bx]代表向量x通過實數(shù)b縮放。

（3）旋轉(zhuǎn)：旋轉(zhuǎn)方法[g]被定義為：

[g=w?v?w*] （10）

其中[w]滿足模為1的四元數(shù)（[x=1]），[v]是一個模為1的純虛四元數(shù)（[v=1]）。四元數(shù)[w]被定義為：

[w=cosα+sinαu] （11）

這其中[α]是一個滿足[α≤π]的角度，[u]是一個滿足[u=1]純虛四元數(shù)。公式總可以用[u]和[v]表示，無論[u]和[v]是否正交。所以對于旋轉(zhuǎn)[g]的表示，公式可以重寫為：

[g=cos2αv+sin2αu×v] （12）

這個公式體現(xiàn)出向量[v]可以通過向量[u]旋轉(zhuǎn)2[α]角度得到。如圖2所示。

如果[u]和[v]非正交，則公式可以重寫為：

[ g=w?v1+v2?w*]

=[w?v1?w*+w?v2?w*]

=[v1+sin2αu×v2+cos2αv2]，（13）

其中[v1]和[v2]是向量[v]的兩個向量分量，滿足[v1]∥[u]，[v1]⊥[u]。公式也體現(xiàn)出向量[v]可以通過向量[u]旋轉(zhuǎn)2[α]角度得到

2.2 四元數(shù)神經(jīng)元模型

相比較于傳統(tǒng)的神經(jīng)元模型，四元數(shù)神經(jīng)元將每個點擴展為四元數(shù)，如圖3所示。對于一個輸入四元數(shù)數(shù)據(jù)[x=pii+pjj+pkk]，[x∈I]，其中實部[pr]為0，[I]表示純虛四元數(shù)集合。四元數(shù)神經(jīng)元的權(quán)值[w=qr+qii+qjj+qkk]，[w?K4]，[K4]表示四元數(shù)集合，對應(yīng)此四元數(shù)神經(jīng)元的輸出[y]：

[y=fs] （14）

其中[s]表示為：

[s=w?x?w*w±b=1q2r+q2i+q2j+q2kq2rpi+q2ipi-q2jpi-q2kpi+2qrqjpk+2qiqjpj+2qiqkpk-2qrqkpji+q2rpj-q2ipj+q2jpj-q2kpj+2qrqkpi+2qiqjpi+2qjqkpk-2qrqipkj+q2rpk-q2ipk-q2jpk+q2kpk+2qrqipj+2qiqkpi+2qjqkpj-2qrqjpik±b] （15）

從公式中可以反映出輸入的三維信息[x]通過四元數(shù)的乘法規(guī)則，在不同的虛軸上進行了充分的融合。輸出神經(jīng)元y需要激活函數(shù)產(chǎn)生一個非線性狀態(tài)，該文使用的激活函數(shù)為Sigmoid函數(shù)：

[fs=fsii+fsjj+fskk]，

[fx=11+e-x]。（16）

2.3 四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的感受野模型

四元數(shù)感受野（以下簡稱感受野）模型如圖4所示，輸入矩陣A的每個點都是一個純虛四元數(shù)，圖中用[I]表示，大小為4*4，感受野即為四元數(shù)卷積核，圖中樣例的感受野大小是3*3，每個點是四元數(shù)，用[K4]表示。圖4中表示矩陣A中左上角的3*3矩陣和感受野做運算，生成B中的第一個四元數(shù)像素點。運算方法如下，由于圖像卷積中會將模板旋轉(zhuǎn)180度，因此這里先將感受野旋轉(zhuǎn)180度，將旋轉(zhuǎn)后的感受野矩陣和輸入A中虛線框矩陣的對應(yīng)點做公式（15）運算，矩陣大小為3*3，所以對公式（15）一共做了9次運算，得到9個純虛四元數(shù)：q1、q2、…、q9，然后求這9個純虛四元數(shù)的和，再做一個參數(shù)為[b]的四元數(shù)平移運算，即可得到輸出信號[s]。公式（17）表達了上述過程。

[s=w?x?w*|w|+b] （17）

其中[w]為感受野中的每個四元數(shù)，[x]為輸入A虛線框矩陣中的每個像素點，[s]是輸出信號矩陣[S]中的一個像素點。為了最大程度提取圖像的低尺度全局信息，我們不會對邊界處理，即類似于數(shù)字圖像處理中的內(nèi)卷積操作，所以輸出矩陣大小應(yīng)該為[n-k+12]，其中[n]為輸入矩陣大小，[k]表示感受野矩陣大小。對應(yīng)圖4中，輸入圖像矩陣[n=4]，感受野矩陣[k=3]，所以輸出矩陣大小為[2*2]，每個輸出信號矩陣相比于輸入矩陣A在橫向和縱向各減少兩個像素點。最后對矩陣[S]中的每個純虛四元數(shù)像素點做非線性變換，如公式（18）所示。

[Y]=[ FS] （18）

其中函數(shù)[F]表示對于矩陣[S]中每個純虛四元數(shù)像素點做公式（16）運算，輸出[Y]即是特征矩陣B。

2.4 四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的輸入

四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的輸入如圖5所示。輸入是一個純虛四元數(shù)矩陣，由A表示，通過2.2節(jié)感受野模型中計算特征矩陣B的方式，將感受野在輸入四元數(shù)矩陣上滑動，由n個四元數(shù)卷積核[G1G2…Gn]，生成n個輸出信號矩陣[S1S2…Sn]，再對每個輸出信號矩陣做非線性變換，得到特征矩陣[B1B2…Bn]。通過這個模型，我們可以由一個輸入得到任意多張四元數(shù)特征圖用于QCNN隱層的訓(xùn)練學(xué)習(xí)。

2.5 四元數(shù)特征圖生成模型

四元數(shù)隱層的卷積層輸入包含多個特征矩陣，生成一張?zhí)卣骶仃嚨倪^程如圖6所示。對于每一個輸入矩陣[An]，都有一個四元數(shù)卷積核[Gn]，并用3.2四元數(shù)感受野模型中計算輸出信號矩陣的方法得到[Sn]矩陣，[Sn]矩陣中每個點都是應(yīng)用公式（17）將四元數(shù)卷積核在輸入特征矩陣中滑動計算得到。所以輸入有n個矩陣，則將生成n個輸出信號矩陣：[S1、S2、…、Sn]。將這n個輸出信號矩陣相加得到矩陣[S]，對矩陣[S]中的每個純虛四元數(shù)像素點做非線性變換，如公式（19）所示：

[Y=FS1+S2+…+Sn]=[ FS] （19）

如果我們通過n張輸入特征圖生成m張輸出特征圖，則可對生成一張四元數(shù)特征圖的過程重復(fù)m次運算，四元數(shù)卷積核的數(shù)量為n*m。生成特征圖的過程，其實是特征提取的過程，我們稱之為四元數(shù)卷積層。

2.6 四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)下采樣和全連接

傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)為了變換不變性、模擬視皮層的類似側(cè)抑制效應(yīng)和減少參數(shù)防止過擬合而加入下采樣層，據(jù)此，我們提出四元數(shù)下采樣，具體做法是將四元數(shù)卷積層后得到的四元數(shù)特征圖，分別提取三個虛軸矩陣，即得到三個標量矩陣，然后對各個標量矩陣做傳統(tǒng)的下采樣操作。這個過程我們稱之為四元數(shù)下采樣層。

將多個四元數(shù)卷積層和四元數(shù)下采樣層組合即可組成四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型。最后是四元數(shù)全連接層，將最末下采樣層得到的特征矩陣變換為1*kn的特征向量，n為特征矩陣純虛四元數(shù)像素點的個數(shù)，k為四元數(shù)特征圖的數(shù)量。例如最后下采樣層有3張?zhí)卣鲌DB1、B2，B3，每個特征圖大小為3*3，每個特征圖中的每個點均為純虛四元數(shù)，則將每個特征矩陣按行排列變成1*9的向量，三個特征圖拼接，則為1*27的向量，特征向量的每個點為純虛四元數(shù)，用[xi]表示，i為對應(yīng)列。如果是2分類，則輸出應(yīng)有兩個神經(jīng)元，用[sj]表示，j為對應(yīng)輸出神經(jīng)元序號。權(quán)值[wji]大小為27*2的矩陣，矩陣的每個點為四元數(shù)。如圖7所示。

圖7 四元數(shù)全連接示意圖

圖中[xi]即表示最后的特征向量，[wji]是第j個輸出神經(jīng)元和第i個輸入神經(jīng)元的權(quán)值，[yj]表示輸出標簽。整個過程用公式表達為：

[sj=iwji?xi?wji*|wji|±b]，

[yj=fsj]，

[fs=fsii+fsjj+fskk]，

[fx=11+e-x]，（20）

得到輸出表示第j個神經(jīng)元的輸出四元數(shù)標簽，輸出四元數(shù)標簽也為純虛四元數(shù)。

2.7 四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

我們采用四元數(shù)BP反向傳播算法來訓(xùn)練我們的網(wǎng)絡(luò)，定義E是網(wǎng)絡(luò)輸出值和目標標簽值的誤差，計算公式為：

[E=12ndn-yn2=12nv∈i，j，kdvn-yvn2] （21）

其中[dvn]表示當(dāng)前樣本n個類別的實際標簽，[yvn]表示通過公式（20）計算的網(wǎng)絡(luò)輸出值。參數(shù)p的更新方式為通過誤差E相對p的梯度：

[pnew=pold+ Δp]

[Δp=-η.?E?p] （22）

此處p是QCNN的各個網(wǎng)絡(luò)層的參數(shù)w和b。則輸出層的更新方式為：

[ΔbL=yn-dn⊙f'sL]

[ΔwL=1|wL|ΔbLwL?yL-1?w*L|wL|2wL-2bL?wL?y*L-1] （23）

此處[wL，bL，yL，sL]表示輸出層的權(quán)值、偏置、輸出值和輸入信號。[yL-1]表示輸出層上一層的輸出值即最后一個下采樣層的輸出。其中：

[f's??fsi?sii+ ?fsj?sjj+ ?fsk?skk] （24）

隱層的權(quán)值更新公式：

[Δbl=l+1w*l+1?Δbl+1?wl+1|wl+1|⊙f'sl]

[Δwl=1|wl|Δblwl?yl-1?w*l|wl|2wl-2bl?wl?y*l-1] （25）

此處[wl，bl，yl，sl]表示第[l]層的權(quán)值、偏置、輸出值和輸入信號。

3 結(jié)論

本文提出了四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型，首先介紹了四元數(shù)的代數(shù)和幾何理論，然后從四元數(shù)神經(jīng)元、四元數(shù)感受野、四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的輸入、四元數(shù)特征圖生成模型、四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的下采樣層和全連接，層次遞進地介紹了QCNN模型的拓撲結(jié)構(gòu)，最后介紹了QCNN的學(xué)習(xí)算法。四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)可以處理三維數(shù)據(jù)，并利用四元數(shù)原理，很好的融合了不同維度的相關(guān)性。

參考文獻：

[1] Cire?an D， Meier U， Masci J， et al. Multi-column deep neural network for traffic sign classification[J]. Neural Networks， 2012， 32： 333-338.

[2] Karpathy A， Toderici G， Shetty S， et al. Large-scale video classification with convolutional neural networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014： 1725-1732.

[3] Yunhan L， Shanan Z， Lei Z. Quaternion principal component analysis algorithm for face recognition[J]. Signal Processing， 2007， 23（2）：214-216.

[4] Lang F N， Zhou J L， Yan B， et al. Obtain method of quaternion matrix orthogonal eigenvector set and its application in color face recognition[J]. Acta AutomaticaSinica， 2008， 34（2）：121-129.

[5] Lu W， Xu Y， Yang X K， Song L. Local quaternionic Gabor binary patterns for color face recognition. In： Proceedings of the 2008 IEEE International Conference on Acoustics， Speech， and Signal Processing. Piscataway， USA： IEEE， 2008. 741?744.

[6] Ding L J， Feng H. Quaternion K-L transform and biomimetic pattern recognition approaches for color-face recognition. In： Proceedings of the 2009 IEEE International Conference on Intelligent Computing and Intelligent. Piscataway， USA： IEEE， 2009. 165?169

[7] Sun Y F， Chen S Y， Yin B C. Color face recognition Based on quaternion matrix representation. Pattern Recognition Letters， 2011，32（4）：597?605

[8] P. Arena， R. Caponetto， L. Fortuna， G. Muscato and M.G. Xibilia， Quaternionic Multilayer Perceptrons for Chaotic Time Series Prediction， IEICE Transaction on Fundamentals of Electronics， Communications and Computer Sciences E79A（10）（1996）， 1682-1688.

[9] S. Buchholz and G. Sommer， Introduction to neural computation in clifford algebra， and clifford algebra multilayer perceptrons， in： Geometric Computing with Clifford Algebras， G. Sommer， ed.， ch. 12 and 13， Springer， 2001， pp. 291-314 and 315-334.

電腦知識與技術(shù)2017年31期

電腦知識與技術(shù)的其它文章: 動物園管理系統(tǒng)的設(shè)計與分析; 基于統(tǒng)一編碼的企業(yè)主數(shù)據(jù)管理; 計算機數(shù)據(jù)庫安全管理及實現(xiàn)方式研究; 基于陶瓷電商生態(tài)眾創(chuàng)空間的電子商務(wù)專業(yè)發(fā)展現(xiàn)狀及對策研究; 基于國家中心城市鄭州物聯(lián)網(wǎng)的發(fā)展建議; 論“互聯(lián)網(wǎng)+政務(wù)”背景下的網(wǎng)絡(luò)安全

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于四元數(shù)的卷積核編碼方式研究