董學(xué)文,石宇強(qiáng),田永政
(西南科技大學(xué) 制造科學(xué)與工程學(xué)院,四川 綿陽(yáng) 621010)
在制造業(yè)呈現(xiàn)服務(wù)化轉(zhuǎn)型發(fā)展的背景下,云制造作為一種新型制造模式,可以有效推進(jìn)制造企業(yè)的服務(wù)化轉(zhuǎn)型升級(jí)[1]。在云制造模式下,制造企業(yè)可以依據(jù)自身情況,將閑置的制造服務(wù)資源進(jìn)行整合與封裝,然后發(fā)布至云制造服務(wù)平臺(tái)上。平臺(tái)會(huì)對(duì)這些海量的、分散的制造資源進(jìn)行管理或組合,并提供給有制造服務(wù)需求的企業(yè)用戶,以達(dá)到制造資源的充分利用,從而提高企業(yè)的資源配置效率與企業(yè)競(jìng)爭(zhēng)力[2-3]。
但是,伴隨著制造業(yè)規(guī)模的不斷擴(kuò)大,云制造服務(wù)平臺(tái)上海量的制造服務(wù)數(shù)據(jù)給制造服務(wù)的需求方帶來(lái)嚴(yán)重的信息過(guò)載問(wèn)題,增加了決策復(fù)雜度[4]。因此,針對(duì)制造服務(wù)推薦系統(tǒng)的研究得到了廣泛關(guān)注。在各類互聯(lián)網(wǎng)平臺(tái)上,推薦系統(tǒng)是應(yīng)對(duì)信息過(guò)載問(wèn)題最常用的手段之一,其能主動(dòng)地向制造服務(wù)需求方提供合適的制造服務(wù)資源[5],有助于緩解云制造服務(wù)系統(tǒng)出現(xiàn)的嚴(yán)重信息過(guò)載問(wèn)題,從而提高云制造平臺(tái)的服務(wù)效率。
目前,利用個(gè)性化推薦系統(tǒng)進(jìn)行制造服務(wù)資源推薦的研究主要從用戶偏好、資源組合推薦以及用戶聚類等角度展開。禹春霞等[6]利用不同用戶對(duì)制造服務(wù)各項(xiàng)指標(biāo)的偏好來(lái)構(gòu)建服務(wù)推薦模型,向用戶推薦可能滿意的服務(wù)資源。Zhang 等[7]利用客戶的交易數(shù)據(jù),獲取用戶與制造服務(wù)資源之間的交互關(guān)系,使用協(xié)同過(guò)濾算法實(shí)現(xiàn)對(duì)用戶的制造服務(wù)推薦。Fan 等[5]利用聚類算法對(duì)有不同制造服務(wù)需求的用戶進(jìn)行聚類分析,以此進(jìn)行制造服務(wù)資源的推薦研究。魯城華等[8]在進(jìn)行用戶聚類分析的基礎(chǔ)上,結(jié)合大數(shù)據(jù)技術(shù),提出基于大數(shù)據(jù)分析與處理技術(shù)的制造服務(wù)推薦方法,獲得較好的推薦效果。萬(wàn)年紅等[9]從算法的敏捷性、智能性以及平穩(wěn)性等角度提出一種多目標(biāo)事務(wù)模糊關(guān)聯(lián)聚類的云制造服務(wù)組合推薦算法,且具有一定的應(yīng)用價(jià)值。然而,傳統(tǒng)的推薦算法無(wú)法有效利用資源之間的隱藏特征,只能從用戶與服務(wù)之間過(guò)去的交互中學(xué)習(xí)低維和線性特征,當(dāng)數(shù)據(jù)規(guī)模增大時(shí)會(huì)帶來(lái)較高的計(jì)算成本,從而導(dǎo)致不理想的推薦效果[10]。針對(duì)此問(wèn)題,Simeone 等[11]將深度學(xué)習(xí)算法引入到制造服務(wù)的推薦過(guò)程中,以提升推薦的準(zhǔn)確度與效率。
綜上所述,現(xiàn)有研究從用戶聚類或者基于用戶的協(xié)同過(guò)濾推薦等角度出發(fā),忽略云制造服務(wù)平臺(tái)上制造服務(wù)資源之間的關(guān)聯(lián)性與相似性。針對(duì)上述問(wèn)題,本文構(gòu)建基于制造服務(wù)供應(yīng)商相似性的圖數(shù)據(jù)集,在此基礎(chǔ)上提出一種基于圖神經(jīng)網(wǎng)絡(luò)算法的云制造服務(wù)推薦方法,并且取得了較好的鏈接預(yù)測(cè)效果。該方法有效克服了傳統(tǒng)推薦算法無(wú)法利用數(shù)據(jù)高維特征的局限性,有利于提升云制造服務(wù)推薦系統(tǒng)的性能,提高用戶的決策效率。
MFG.com 是最目前世界上具潛力的云制造公司之一,為了更真實(shí)地反映制造服務(wù)資源的特點(diǎn),在該平臺(tái)上采集了3 000 條制造服務(wù)資源信息。每一條制造服務(wù)數(shù)據(jù)的背后都是一個(gè)真實(shí)存在的制造企業(yè),這些制造企業(yè)所提供的制造服務(wù)涵蓋了鑄造、3D 打印、裝配以及注塑等30 余種類型。為反映制造服務(wù)資源的制造能力信息,將選取的3 000個(gè)制造服務(wù)供應(yīng)商所涉及的34 種制造服務(wù)作為制造服務(wù)供應(yīng)商的特征集合,故每個(gè)集合共包含34 個(gè)特征。每個(gè)制造服務(wù)供應(yīng)商均對(duì)應(yīng)一個(gè)特征集合,表示為Mn(n=1,2,3,···,3 000) ,制造服務(wù)供應(yīng)商的特征表示為fi(i=1,2,3,···,34) 。因此,每個(gè)制造服務(wù)供應(yīng)商表示為Mn={f1,f2,f3,···,f34} ,進(jìn)一步將其表示為多維向量Mn=(f1,f2,f3,···,f34) 。
對(duì)于集合里的每一個(gè)特征,即每一種制造服務(wù),如果制造服務(wù)供應(yīng)商具備該特征,則令fi= 1,反之,則fi= 0。根據(jù)上述方法,得到一個(gè)規(guī)模為3 000×34 的二元特征矩陣Af。然后,以制造服務(wù)供應(yīng)商的特征向量計(jì)算各個(gè)供應(yīng)商之間的相似程度,并在此基礎(chǔ)上構(gòu)建對(duì)應(yīng)的鄰接矩陣,鄰接矩陣存儲(chǔ)著圖的具體信息。在本文中,圖表示為G(V,E),其中,V表示節(jié)點(diǎn)集合且V∈Rn×di;R表示集合所滿足的關(guān)系;n代表節(jié)點(diǎn)的數(shù)量;di 表示特征的維度;E表示邊的集合且E∈Rn×n。圖中的節(jié)點(diǎn)表示制造服務(wù)供應(yīng)商,邊表示對(duì)應(yīng)兩個(gè)供應(yīng)商之間的相似程度,且該圖是一個(gè)無(wú)向圖。
為研究資源之間相似性度量方法對(duì)圖的結(jié)構(gòu)信息的影響,本文采用歐幾里得相似度、余弦相似度、皮爾遜相關(guān)系數(shù)以及杰卡德相關(guān)系數(shù)4 種常用的相似性度量方法進(jìn)行計(jì)算。
歐幾里得相似度衡量的是空間中任意兩個(gè)點(diǎn)的真實(shí)距離,距離越小相似度越大[12]。余弦相似度是通過(guò)計(jì)算兩個(gè)向量夾角的余弦值來(lái)判斷向量的相似程度,值越接近于1,表明兩個(gè)向量越相似[13]。皮爾遜相關(guān)系數(shù)等于向量之間的協(xié)方差與它們各自標(biāo)準(zhǔn)差的乘積的比值。計(jì)算所得的值趨近于0 時(shí),則表示兩個(gè)向量的相關(guān)性越弱;而值越接近1 或-1時(shí),則表示兩個(gè)向量具備較高的關(guān)聯(lián)性[14]。杰卡德相關(guān)系數(shù)常被應(yīng)用于計(jì)算兩個(gè)集合的相關(guān)性,也可以用于度量?jī)蓚€(gè)二元多維向量的相似程度,通過(guò)計(jì)算兩個(gè)向量中對(duì)應(yīng)位置元素相同的個(gè)數(shù)占所有元素的比例來(lái)進(jìn)行衡量[15]。4 種相似度的計(jì)算方法依次如下。
歐幾里得相似度 (Euclidean) 為
余弦相似度 (Cosine) 為
皮爾遜相關(guān)系數(shù) (Pearson) 為
杰卡德相關(guān)系數(shù) (Jaccard) 為
其中,sim (a,b) 表示向量a與向量b的相似度或相關(guān)系數(shù),在本文中,代表不同制造服務(wù)資源向量Mn之間的相似度。式 (4) 中,M11表示兩個(gè)向量對(duì)應(yīng)位置均是1 的維度個(gè)數(shù);M01表示向量a中某個(gè)維度位置為0,同時(shí)向量b對(duì)應(yīng)位置是1 的維度個(gè)數(shù);M10則表示向量a中某個(gè)維度位置為1,同時(shí)向量b對(duì)應(yīng)位置是0 的維度個(gè)數(shù)。在后續(xù)的研究中,為了便于進(jìn)行統(tǒng)一度量,將4 種相似度計(jì)算方法所得到的具體數(shù)值進(jìn)行歸一化處理。
將數(shù)據(jù)處理得到的制造服務(wù)供應(yīng)商特征矩陣Af帶入4 種相似度計(jì)算方法中,經(jīng)數(shù)據(jù)歸一化處理后得到4 個(gè)鄰接矩陣,即4 個(gè)圖網(wǎng)絡(luò)數(shù)據(jù)集。為降低后續(xù)工作的計(jì)算復(fù)雜度,設(shè)置節(jié)點(diǎn)的連接閾值為0.5,即當(dāng)節(jié)點(diǎn)之間的相似度值低于0.5 時(shí)令相似度值為0,此時(shí)兩個(gè)節(jié)點(diǎn)之間不存在連接。通過(guò)4 種計(jì)算方法得到圖的結(jié)構(gòu)信息,結(jié)果如表1 所示。本部分構(gòu)建了基于不同相似度值的鄰接矩陣,接下來(lái)將討論各種相似度計(jì)算方法對(duì)鏈接預(yù)測(cè)模型的影響效果。
表1 制造服務(wù)資源圖的結(jié)構(gòu)信息Table 1 Structure information of graphs for manufacturing services
本文采用鄰居采樣圖神經(jīng)網(wǎng)絡(luò)模型 (graph sample and aggregate, GraphSAGE) 學(xué)習(xí)圖的節(jié)點(diǎn)特征表示。該模型采用歸納式的節(jié)點(diǎn)學(xué)習(xí)方法,通過(guò)節(jié)點(diǎn)鄰居采樣的方式有效解決傳統(tǒng)圖卷積算法內(nèi)存占用較大的問(wèn)題,并且避免了節(jié)點(diǎn)的特征每次需要重訓(xùn)的情況,非常適合規(guī)模較大的圖[16]。此外,最為關(guān)鍵的是其可以有效提升鏈接預(yù)測(cè)模型的準(zhǔn)確度。
圖1 為基于GraphSAGE 模型的制造服務(wù)推薦流程。該網(wǎng)絡(luò)模型通過(guò)學(xué)習(xí)一個(gè)聚合函數(shù)來(lái)產(chǎn)生核心節(jié)點(diǎn)的特征表示。文獻(xiàn)[16]證明長(zhǎng)短時(shí)記憶 (long short-term memory, LSTM) 聚合器與池化 (Pool) 聚合器的性能更優(yōu),且在運(yùn)行效率上Pool 聚合器效果更好,故本文采用Pool 聚合的方法進(jìn)行節(jié)點(diǎn)表示。如式 (5) 和式 (6) 所示,首先對(duì)核心結(jié)點(diǎn)的鄰居節(jié)點(diǎn)表示向量進(jìn)行非線性轉(zhuǎn)換,其次對(duì)轉(zhuǎn)換后的特征表示向量進(jìn)行池化操作。在此基礎(chǔ)上,將池化后的結(jié)果和核心節(jié)點(diǎn)的特征表示各自進(jìn)行非線性轉(zhuǎn)化,最后,表示將兩者轉(zhuǎn)換后的結(jié)果進(jìn)行疊加或者重組,以此來(lái)獲得核心結(jié)點(diǎn)在這一層的特征表示。
圖1 基于GraphSAGE 模型的制造服務(wù)推薦流程Figure 1 Recommendation processes for manufacturing services based on GraphSAGE model
例如,如圖1 所示,通過(guò)節(jié)點(diǎn)之間的鏈接預(yù)測(cè)得出節(jié)點(diǎn)⑤、節(jié)點(diǎn)⑥會(huì)與源節(jié)點(diǎn)產(chǎn)生連接,故將會(huì)向制造服需求商推薦節(jié)點(diǎn)⑤、⑥所對(duì)應(yīng)的制造服務(wù)資源。
神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練可以被視為在評(píng)估模型的輸出值與真實(shí)值的差異后,通過(guò)損失函數(shù)來(lái)達(dá)到模型優(yōu)化的過(guò)程。在這個(gè)過(guò)程中,激活函數(shù)、損失函數(shù)以及反向傳播優(yōu)化器的選擇均會(huì)對(duì)最后的鏈接預(yù)測(cè)模型帶來(lái)顯著的影響。本節(jié)主要討論激活函數(shù)、損失函數(shù)以及反向傳播優(yōu)化器的選擇。
激活函數(shù)選擇:在神經(jīng)網(wǎng)絡(luò)中加入激活函數(shù)可以向神經(jīng)元中注入非線性因素,使得網(wǎng)絡(luò)向任意非線性函數(shù)逼近[18]。文獻(xiàn)[18]研究發(fā)現(xiàn),線性整流激活函數(shù) (rectified linear unit, ReLu) 可以加速模型的收斂,且能有效解決S 型激活函數(shù) (sigmoid function)的梯度消失問(wèn)題。ReLu 函數(shù)表達(dá)式見(jiàn)式(8),其中,x表示來(lái)自上一層神經(jīng)網(wǎng)絡(luò)的輸入向量。
損失函數(shù)選擇:目前推薦系統(tǒng)中應(yīng)用較為廣泛的損失函數(shù)分為單點(diǎn)法 (pointwise) 與配對(duì)法 (pairwise)[19]兩種類型。Pointwise 類損失函數(shù)將推薦問(wèn)題轉(zhuǎn)化為多分類問(wèn)題或回歸問(wèn)題,Pairwise 類損失函數(shù)將推薦問(wèn)題轉(zhuǎn)化為二元分類問(wèn)題。由于本文將鏈接預(yù)測(cè)任務(wù)作為二元分類問(wèn)題解決,所以Pointwise類損失函數(shù)將不再適用。為了提高訓(xùn)練過(guò)程中模型的收斂速度,本文采用二元交叉熵?fù)p失函數(shù),定義如下。
其中,y?u~v=f(hu,hv) 代 表在 模 型中 兩 節(jié)點(diǎn) 之間存在連接的概率;1 -y? 則表示連接不存在的概率。此外,由于自適應(yīng)矩估計(jì) (adaptive moment estimation,Adam) 優(yōu)化器具有計(jì)算高效、方便實(shí)現(xiàn)、內(nèi)存使用少、可解釋性強(qiáng)等優(yōu)點(diǎn)[20],因此采用Adam 作為模型訓(xùn)練的反向傳播優(yōu)化器。
為了評(píng)價(jià)所提出的基于圖神經(jīng)網(wǎng)絡(luò)的鏈接預(yù)測(cè)模型性能,以及證明模型的有效性,本文還對(duì)比了其他3 種鏈接預(yù)測(cè)算法。張健沛等[21]指出在諸多鏈接預(yù)測(cè)算法中,基于節(jié)點(diǎn)相似性的算法具有較低的時(shí)間復(fù)雜度,通過(guò)實(shí)驗(yàn)證明,共同鄰居 (common neighbors, CN) 、Adamic-adar (AA) 與 資 源 分 配(resource allocation, RA) 算法具有較好的鏈接預(yù)測(cè)效果。3 種鏈接預(yù)測(cè)算法計(jì)算公式如下。
CN 算法:
其中, Γ (a) 表 示節(jié)點(diǎn)a的鄰居節(jié)點(diǎn)集合;Γ(b)表示節(jié)點(diǎn)b的鄰居節(jié)點(diǎn)集合; s im(a,b) 表示節(jié)點(diǎn)a和節(jié)點(diǎn)b的相似性;z表示節(jié)點(diǎn)a和節(jié)點(diǎn)b的共同鄰居節(jié)點(diǎn)集合中的一個(gè)元素; Γ (z) 表示節(jié)點(diǎn)z的鄰居集合。
本文采用AUC (area under the curve) 指標(biāo)和精準(zhǔn)度 (Precision) 指標(biāo)來(lái)評(píng)估鏈接預(yù)測(cè)模型的準(zhǔn)確性[22-23]。其中,AUC 指標(biāo)是指在測(cè)試集中隨機(jī)選擇時(shí),存在邊所獲得的分?jǐn)?shù)值比不存在邊所獲得的分?jǐn)?shù)值更高的概率。AUC 值定義如下。
其中,n表示所進(jìn)行的實(shí)驗(yàn)次數(shù);n′表示存在邊比不存在的邊擁有更高分?jǐn)?shù)的次數(shù);n′′表示兩個(gè)分?jǐn)?shù)值相等的次數(shù)。Precision 指標(biāo)是指在網(wǎng)絡(luò)的鏈接預(yù)測(cè)中,得分最高的前L條鏈接中預(yù)測(cè)正確的鏈接數(shù)m所占的比例。Precision 值定義為
AUC 值和Precision 值的大小反映了鏈接預(yù)測(cè)模型的準(zhǔn)確性,其值越大說(shuō)明預(yù)測(cè)模型的準(zhǔn)確度越高。
首先,研究了不同相似度計(jì)算方法的鏈接預(yù)測(cè)模型對(duì)訓(xùn)練效果的影響,實(shí)驗(yàn)選取的節(jié)點(diǎn)數(shù)量為3 000,實(shí)驗(yàn)結(jié)果如圖2 所示。其中,橫坐標(biāo)epoch代表訓(xùn)練的次數(shù);縱坐標(biāo)代表不同的性能評(píng)價(jià)指標(biāo),GraphSAGE-P、GraphSAGE-C、GraphSAGE-E和GraphSAGE-J 表示該鏈接預(yù)測(cè)模型是分別基于皮爾遜相關(guān)系數(shù)、余弦相似度、歐幾里得相似度和杰卡德相關(guān)系數(shù)所構(gòu)成的圖網(wǎng)絡(luò)上進(jìn)行的。由圖2可知,隨著訓(xùn)練次數(shù)的增加,模型的AUC 值均呈現(xiàn)上升趨勢(shì),而Precision 值盡管出現(xiàn)了一定的波動(dòng),最終也逐漸收斂于較高水平,這表明模型取得了較好的準(zhǔn)確度。與此同時(shí),模型的損失值也隨著訓(xùn)練次數(shù)的增加而快速降低且收斂,這表明模型獲得了較高的預(yù)測(cè)性能。實(shí)驗(yàn)證明,基于GraphSAGE節(jié)點(diǎn)表示方法的鏈接預(yù)測(cè)模型在不同的相似度計(jì)算方法下均體現(xiàn)出較為優(yōu)異的性能。
圖2 不同相似度計(jì)算方法對(duì)應(yīng)的鏈接預(yù)測(cè)模型性能Figure 2 Performance of the link prediction model using different similarity calculation methods
此外,還進(jìn)一步研究了不同節(jié)點(diǎn)規(guī)模對(duì)模型的鏈接預(yù)測(cè)性能的影響,實(shí)驗(yàn)過(guò)程中模型的訓(xùn)練次數(shù)均為1 000 次,實(shí)驗(yàn)結(jié)果如圖3 所示。結(jié)果表明,隨著圖的節(jié)點(diǎn)規(guī)模逐漸增大,模型預(yù)測(cè)性能出現(xiàn)一定程度上的波動(dòng),但從預(yù)測(cè)的Precision 值上可以發(fā)現(xiàn),基于歐幾里得相似度與杰卡德相關(guān)系數(shù)的鏈接預(yù)測(cè)模型表現(xiàn)較好,且能保持穩(wěn)定。需要說(shuō)明的是,由于損失曲線是為體現(xiàn)模型性能在固定節(jié)點(diǎn)規(guī)模下隨訓(xùn)練次數(shù)的動(dòng)態(tài)變化趨勢(shì),故此部分不探討節(jié)點(diǎn)規(guī)模對(duì)模型的損失值的影響。
圖3 不同的節(jié)點(diǎn)規(guī)模所對(duì)應(yīng)的鏈接預(yù)測(cè)模型性能Figure 3 Performance of the link prediction model with to different number of nodes
在此基礎(chǔ)上,為了評(píng)價(jià)所提出的鏈接預(yù)測(cè)方法的優(yōu)劣,還將其與CN、AA、RA 3 種鏈接預(yù)測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)中模型的訓(xùn)練次數(shù)為1 000次,實(shí)驗(yàn)結(jié)果如圖4 與圖5 所示。結(jié)果表明,本文所提出的鏈接預(yù)測(cè)方法均優(yōu)于其他3 種鏈接預(yù)測(cè)算法。
圖4 不同鏈接預(yù)測(cè)模型的AUC 值Figure 4 AUCs of different link prediction algorithms
圖5 不同鏈接預(yù)測(cè)模型的Precision 值Figure 5 Precision of different link prediction algorithms
結(jié)合圖4 與圖5 可知,無(wú)論是采用傳統(tǒng)鏈接預(yù)測(cè)方法還是基于圖神經(jīng)網(wǎng)絡(luò)模型的鏈接預(yù)測(cè)方法,在基于歐幾里得相似度與杰卡德相關(guān)系數(shù)所構(gòu)建的圖上進(jìn)行的鏈接預(yù)測(cè),其性能優(yōu)于另外兩種相似度計(jì)算方法,且鏈接預(yù)測(cè)算法的AUC 值與Precision值在一定程度上均能維持穩(wěn)定。對(duì)比表1 中不同相似度計(jì)算方法的圖結(jié)構(gòu)信息,發(fā)現(xiàn)基于歐幾里得相似度與杰卡德相關(guān)系數(shù)的圖網(wǎng)絡(luò)具有較低的度與密度,這表明網(wǎng)絡(luò)比較稀疏。這是由于本文設(shè)置了節(jié)點(diǎn)之間的鏈接閾值,若通過(guò)計(jì)算得出的相似度值低于閾值,則會(huì)被去除,從而保留下了相似度較高的鏈接。
本文認(rèn)為,因?yàn)榛贕raphSAGE 的節(jié)點(diǎn)表示方法是通過(guò)鄰居節(jié)點(diǎn)聚合的思路進(jìn)行,且每次聚合的鄰居節(jié)點(diǎn)數(shù)為固定數(shù)值,所以當(dāng)GraphSAGE 用于由歐幾里得相似度與杰卡德相關(guān)系數(shù)所得到的圖網(wǎng)絡(luò)時(shí),其聚合到的鄰居節(jié)點(diǎn)與中心節(jié)點(diǎn)均具有較高的相似度,節(jié)點(diǎn)之間的鏈接關(guān)系較強(qiáng)。此外,相較于同一鏈接閾值下的其他相似度計(jì)算方法,避免部分弱相關(guān)性鄰居節(jié)點(diǎn)帶來(lái)的不利影響,去除冗余且弱相關(guān)性的鏈接,使得最終的鏈接預(yù)測(cè)模型獲得較好的預(yù)測(cè)效果。
為了驗(yàn)證所提出的結(jié)論,在4 種相似度計(jì)算方法下進(jìn)行不同鏈接閾值下模型鏈接預(yù)測(cè)效果的對(duì)比實(shí)驗(yàn)。如表2 所示,Ti表示不同的鏈接閾值設(shè)置。但是,由于本文節(jié)點(diǎn)的特征向量為01 向量,從而導(dǎo)致基于歐幾里得相似度的計(jì)算方法所得到的相似度值,其值的大小不會(huì)出現(xiàn)在大于0.5 而小于1 的范圍內(nèi)。因此,從表2 中的數(shù)據(jù)可以發(fā)現(xiàn),當(dāng)閾值大于0.5 時(shí),基于歐幾里得算法的圖的結(jié)構(gòu)信息是不變的。為了更好地進(jìn)行對(duì)比實(shí)驗(yàn),本文針對(duì)歐幾里得相似度添加閾值T0,T0等于0.2,此閾值下圖的平均度為2 884.7,圖密度為0.9。實(shí)驗(yàn)結(jié)果如圖6與圖7 所示。
圖6 不同的鏈接閾值下鏈接預(yù)測(cè)模型的AUC 值Figure 6 AUCs of the link prediction model with different link thresholds
圖7 不同的鏈接閾值下鏈接預(yù)測(cè)模型的Precision 值Figure 7 Precision of the link prediction model with different link thresholds
表2 不同鏈接閾值下的圖結(jié)構(gòu)信息Table 2 Graph structure information with different link thresholds
結(jié)果表明,在4 種相似度計(jì)算方法下,隨著鏈接閾值的提高,鏈接預(yù)測(cè)模型的AUC 值與Precision值在整體上也呈現(xiàn)上升趨勢(shì),從而驗(yàn)證了上述結(jié)論。因此,可以在構(gòu)建制造服務(wù)資源圖數(shù)據(jù)集時(shí),通過(guò)提高節(jié)點(diǎn)之間的鏈接閾值而提升鏈接預(yù)測(cè)模型的預(yù)測(cè)性能。具體而言,鏈接閾值的選擇應(yīng)位于大于0.5 而小于1 的范圍內(nèi),從而使得鏈接預(yù)測(cè)模型取得較好的預(yù)測(cè)效果。
對(duì)云制造服務(wù)平臺(tái)上的海量制造服務(wù)信息所帶來(lái)的信息過(guò)載問(wèn)題,提出一種基于圖神經(jīng)網(wǎng)絡(luò)算法的云制造服務(wù)推薦方法。首先,該方法將云制造服務(wù)平臺(tái)上的制造服務(wù)資源依據(jù)不同的相似度計(jì)算方法構(gòu)建為圖數(shù)據(jù)集。然后,利用GraphSAGE 進(jìn)行資源節(jié)點(diǎn)的特征表示學(xué)習(xí)。最后,基于鏈接預(yù)測(cè)模型,預(yù)測(cè)出制造服務(wù)資源之間可能出現(xiàn)的鏈接情況,依據(jù)預(yù)測(cè)結(jié)果向用戶推薦對(duì)應(yīng)的制造服務(wù)。結(jié)果表明,在4 種不同相似度計(jì)算方法所構(gòu)建的圖數(shù)據(jù)基礎(chǔ)上,基于圖神經(jīng)網(wǎng)絡(luò)的鏈接預(yù)測(cè)模型均取得較好的鏈接預(yù)測(cè)效果,且預(yù)測(cè)性能優(yōu)于所對(duì)比的CN、AA 以及RA 鏈接預(yù)測(cè)算法。此外,通過(guò)對(duì)模型的AUC 值與Precision 值進(jìn)行分析,發(fā)現(xiàn)基于歐幾里得相似度與杰卡德相關(guān)系數(shù)的鏈接預(yù)測(cè)模型性能要優(yōu)于其他相似度計(jì)算方法下的模型。在此基礎(chǔ)上進(jìn)一步研究發(fā)現(xiàn),在一定程度上,保留網(wǎng)絡(luò)中相似度較高的鏈接可以顯著提升模型的預(yù)測(cè)性能。
本研究尚存在一定的不足。例如,本文所推薦的制造服務(wù)類型相對(duì)比較獨(dú)立,而在現(xiàn)實(shí)情況中,用戶的制造服務(wù)需求可能是多樣且復(fù)雜的。如何對(duì)復(fù)雜多樣的制造服務(wù)需求進(jìn)行制造服務(wù)的組合推薦,無(wú)疑是未來(lái)的一個(gè)重點(diǎn)研究工作。