張偉華,王海英
(鄭州商學(xué)院 信息與機(jī)電工程學(xué)院, 河南 鞏義 451200)
異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)存在多元性與分布式傳播等特性,因此降低質(zhì)量較差數(shù)據(jù)干擾屬于數(shù)據(jù)知識工程急需解決的問題,對數(shù)據(jù)傳播時的數(shù)據(jù)知識庫重建關(guān)注度越來越高。數(shù)據(jù)知識擴(kuò)充數(shù)據(jù)解決該問題的有效途徑。李直旭等人通過屬性與屬性值的共現(xiàn)關(guān)系實(shí)現(xiàn)數(shù)據(jù)知識擴(kuò)充,應(yīng)堅超等人以集合論內(nèi)互逆/對稱關(guān)系為核心思想,提出關(guān)系統(tǒng)計的知識擴(kuò)展方法,上述2種方法均可有效實(shí)現(xiàn)知識擴(kuò)充,但擴(kuò)充效果并不理想,原因是這2種方法無法剔除無效數(shù)據(jù),導(dǎo)致擴(kuò)充效率較低。雙線性卷積神經(jīng)網(wǎng)絡(luò)(bilinear convolution neural networks,B-CNN)通過兩路VGGNet組建而成,可增強(qiáng)特征表達(dá)效果,完成端到端訓(xùn)練的預(yù)測分類,具備較優(yōu)的分類效果;為此研究基于B-CNN模型的異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)知識擴(kuò)充算法,利用B-CNN模型提取有效三元組,剔除無效數(shù)據(jù),降低質(zhì)量低下數(shù)據(jù)的干擾,提升知識擴(kuò)充效果。
在B-CNN各個特征通道內(nèi)引進(jìn)比例因子,結(jié)合正則化激活方式構(gòu)建稀疏層,實(shí)現(xiàn)通道篩選,根據(jù)比例因子的大小衡量特征通道的重要性,裁剪掉重要程度較低的通道,實(shí)現(xiàn)B-CNN模型的改進(jìn),避免網(wǎng)絡(luò)過分?jǐn)M合,增強(qiáng)提取特征的顯著性;利用改進(jìn)B-CNN構(gòu)建異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)知識表示模型,在三元組矩陣內(nèi),通過維度變換方式增加卷積滑動窗口的滑動步數(shù),在不同維度中,提高該矩陣中實(shí)體與關(guān)系的信息共享作用,獲取不同維度中三元組的全部信息=(,,),其中,異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)實(shí)體集是,知識描繪對象是,內(nèi)全部元素的知識屬性集是;利用可變粒度策略處理(,,),實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)知識擴(kuò)充。
..BCNN模型
B-CNN的輸入是,利用2個特征提取網(wǎng)絡(luò)與,依據(jù)卷積核展開卷積操作獲取特征提取函數(shù)與,利用外積方式匯聚與,再通過求和池化獲取雙線性特征,傳輸至內(nèi)積層展開預(yù)測。與內(nèi)各個卷積層均會設(shè)置Relu激活函數(shù),公式如下:
()=max(0,)
(1)
B-CNN的主要部分通過三元組=(,,)組成,與屬于一種函數(shù)映射∶×→×,輸入的的位置信息是,維度是×;池化函數(shù)是;將與映射為×維的特征×,經(jīng)由外積方式匯聚與的輸出特征,獲取雙線性特征,公式如下:
(,,,)=(,)(,)
(2)
其中,∈,∈。
的作用為將全部位置的特征融合為一個總特征,公式如下:
(3)
令與提取的特征維度分別是×與×,因此輸出的矩陣為×。
(4)
通過引進(jìn)稀疏懲罰項,調(diào)整的稀疏程度,引進(jìn)位置為訓(xùn)練目標(biāo)函數(shù),的表達(dá)公式如下:
(5)
其中,訓(xùn)練權(quán)重是;輸入數(shù)據(jù)實(shí)體集與真實(shí)標(biāo)簽是(,);調(diào)整稀疏程度的參數(shù)是;正則化操作是(·);交叉熵?fù)p失函數(shù)是,表達(dá)公式如下:
(6)
其中,的精度值是();的預(yù)測值是()。
通道稀疏處理后,改進(jìn)B-CNN網(wǎng)絡(luò)內(nèi)存在很多與零接近的,裁剪掉這些完成通道的修剪,在修剪時設(shè)置一個閾值,避免出現(xiàn)過擬合現(xiàn)象;改進(jìn)B-CNN整體是有向非循環(huán)圖,僅需求解特征提取網(wǎng)絡(luò)梯度便能實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練。
利用改進(jìn)B-CNN構(gòu)建異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)知識表示模型,該模型的作用是利用改進(jìn)B-CNN學(xué)習(xí)、訓(xùn)練并輸出各個三元組(,,)的科學(xué)性的打分函數(shù)′(,,),科學(xué)的(,,)知識得分不得低于不科學(xué)的(,,)知識得分。令改進(jìn)B-CNN構(gòu)成的有向非循環(huán)知識圖譜為=(,),關(guān)系集是;知識表示模型將與描繪為維向量空間內(nèi)的向量,各個三元組下向量為(,,),將(,,)融合為一個三列矩陣=[,,]∈×3,利用知識表示模型以維度變換方式變更,獲取=×,其中×=×3,知識表示模型將輸入改進(jìn)B-CNN的與網(wǎng)絡(luò)內(nèi)卷積層,利用卷積操作,再經(jīng)由外積方式與求和池化操作,提取(,,)的雙線性特征。令的集合是,的數(shù)量是=||,令獲取的特征矩陣維度是×。利用知識表示模型向量化處理×,獲取向量∈×1。乘上權(quán)重矩陣×,并映射至維向量空間內(nèi),再和權(quán)重向量∈×1內(nèi)積獲取(,,)的打分。知識表示模型的′(,,)表達(dá)公式如下:
′(,,)=((*))×·
(7)
其中,卷積操作是“*”;內(nèi)積操作是“·”;向量化操作是;非線性函數(shù)是;通過式(7)獲取有效三元組。
Adam優(yōu)化器最小化損失函數(shù),實(shí)現(xiàn)知識表示模型內(nèi)參數(shù)的訓(xùn)練,的計算公式如下:
(8)
其中,(,,)是常數(shù),取值為1或-1;有效與無效三元組集合為、′,當(dāng)(,,)∈時,(,,)=1,當(dāng)(,,)∈′時,(,,)=-1;利用內(nèi)各個(,,)的頭實(shí)體或尾實(shí)體任意更改成其余實(shí)體獲取′。
利用可變粒度策略對21小節(jié)獲取的有效三元組=(,,)展開知識擴(kuò)充。令?∈,?∈,線性關(guān)系屬性映射為:→,內(nèi)隨機(jī)一個元素的知識屬性映射關(guān)系為。令粗糙權(quán)重是;多粒度粗糙知識工程為;則粗糙的知識工程是=(,∩(),∪)。
(9)
針對,基于可變粒度設(shè)計知識的參數(shù)與屬性,表達(dá)公式如下:
(10)
可變粒度更換方程如下:
=(×sin+×cos)(,,)
(11)
其中,可變粒度是;的多維向量空間水平交叉弧度是;在空間降維時形成的垂直交叉弧度是。
和知識工程的迭代關(guān)系如下:
(12)
(13)
為驗(yàn)證本文算法的有效性,通過15臺計算機(jī)構(gòu)建一個實(shí)驗(yàn)集群,每臺計算機(jī)的內(nèi)存是16 GB,硬盤存儲空間是2 T。異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)知識庫空間配置如下:
利用nginx安裝1個中心節(jié)點(diǎn)與14個處理節(jié)點(diǎn),通過處理節(jié)點(diǎn)完成差異化服務(wù),該數(shù)據(jù)知識空間屬于內(nèi)部局域網(wǎng),通過Oracle Load Test軟件仿真大量并發(fā)請求,將JetBrains WenStorm/VS Code當(dāng)成開發(fā)環(huán)境,操作系統(tǒng)是CentOS 7.3,各節(jié)點(diǎn)的聯(lián)絡(luò)方式是千兆以太網(wǎng),令數(shù)據(jù)知識發(fā)送請求的時間是70 s。建立兩路VGGNet,通過維度變換增加進(jìn)行卷積操作提取特征函數(shù)進(jìn)行計算,獲取不同維度中三元組矩陣的信息,經(jīng)由求和池化操作,實(shí)現(xiàn)B-CNN模型的應(yīng)用。圖1為B-CNN模型網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
圖1 B-CNN模型網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 B-CNN Model network structure
將平均排名(Mean Rank,MR)與前8名存在預(yù)測準(zhǔn)確三元組的比例(Hits@8)作為評價本文算法中知識表示模型有效性的指標(biāo),MR指三元組集合的平均排名;MR低或Hits@8高說明本文算法的知識表示效果較優(yōu)。調(diào)整稀疏程度參數(shù)過大或過小均會影響知識表示模型的效果,當(dāng)過大時,會導(dǎo)致大量知識特征被抑制,造成獲取有效三元組的精度較低;當(dāng)過小時,會導(dǎo)致比例因子失去意義,無法篩選特征通道;一般情況下的取值為10≤≤10;利用本文算法獲取異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)庫內(nèi)的有效三元組,完成數(shù)據(jù)知識表示,測試本文算法在不同的取值時的MR與Hits@8,測試結(jié)果如圖2與圖3所示。
圖2 MR測試結(jié)果曲線Fig.2 Mr test results
圖3 Hits@8測試結(jié)果曲線Fig.3 Hits@8 test result
根據(jù)圖2與圖3可知,隨著訓(xùn)練周期的不斷增加,在不同取值時本文算法的MR逐漸下降,Hits@8逐漸提升;當(dāng)=10時,MR的收斂速度最快,在訓(xùn)練周期為20時趨于平穩(wěn),最終的MR值也顯著低于其余2種取值;=10時的收斂速度雖快于=10,在訓(xùn)練周期為30時趨于平穩(wěn),但最終MR值卻高于=10時的MR值;當(dāng)λ=10時,Hits@8的收斂速度依舊最快,在訓(xùn)練周期為20時趨于平穩(wěn);=10與=10時的收斂速度較慢,分別在訓(xùn)練周期為40、50時趨于平穩(wěn),且最終Hits@8值顯著低于=10時最終Hits@8值;綜合分析可知,當(dāng)=10時,MR值最低且Hits@8值最高,因此,此時本文算法的知識表示效果較優(yōu)。
表1 NMI與ARI測試結(jié)果曲線Table 1 NMI and Ari test results
根據(jù)表1可知,在不同數(shù)據(jù)集中,本文算法的NMI與ARI隨著細(xì)粒度閾值提升出現(xiàn)先提升后下降的趨勢,且在擴(kuò)充不同數(shù)據(jù)集時,本文算法的NMI值與ARI值均較高,與1較為接近,說明本文算法具備較優(yōu)的知識擴(kuò)充效果;綜合分析細(xì)粒度閾值為0.4時,本文算法在擴(kuò)充不同數(shù)據(jù)集知識時的NMI與ARI值最高。實(shí)驗(yàn)證明:本文算法具備較優(yōu)的知識擴(kuò)充效果,且細(xì)粒度閾值為0.4時,知識擴(kuò)充效果最佳。
測試本文算法在擴(kuò)充上述3個數(shù)據(jù)集知識時,隨著處理節(jié)點(diǎn)增加,該算法完成知識擴(kuò)充所需的迭代次數(shù),驗(yàn)證本文算法的收斂效果,測試結(jié)果如圖4所示。
圖4 收斂效果Fig.4 Convergence effect
根據(jù)圖4可知,在擴(kuò)充不同數(shù)據(jù)集的知識時,隨著處理節(jié)點(diǎn)數(shù)量的提升,本文算法的迭代次數(shù)逐漸上升,在節(jié)點(diǎn)數(shù)達(dá)到6個以上的時候,迭代基本維持在5次以下,并且不再有上升趨勢,原因是本文算法通過粒度可變調(diào)度處理粗粒度數(shù)據(jù),并展開降維處理,確定不確定性的線性描繪,去掉不確定性的數(shù)據(jù),降低知識獲取迭代次數(shù),提升知識獲取效率,迅速完成數(shù)據(jù)知識擴(kuò)充。
1) 利用B-CNN構(gòu)建知識表示模型,獲取異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的有效三元組,通過可變粒度策略對有效三元組展開知識擴(kuò)充。
2) 所提出算法可增強(qiáng)知識擴(kuò)充效果,提升知識獲取效率。