曲朝陽,周 寧,曲 楠,王 蕾,劉耀偉
(1.東北電力大學(xué)信息工程學(xué)院,吉林 吉林 132012; 2.吉林省電力大數(shù)據(jù)智能信息處理工程技術(shù)研究中心,吉林 吉林 132012; 3.國家電網(wǎng)江蘇省電力有限公司檢修分公司,江蘇 南京 210024; 4.國家電網(wǎng)吉林省電力有限公司,吉林 長春 130021)
在智能電網(wǎng)深入推進(jìn)的形勢下,電力系統(tǒng)的數(shù)字化、信息化、智能化不斷發(fā)展,帶來了更多的數(shù)據(jù)源,電力系統(tǒng)運(yùn)行時產(chǎn)生的數(shù)據(jù)數(shù)量龐大、增長快速、類型豐富,是典型的大數(shù)據(jù).[1]如何根據(jù)用戶的信息需求從海量數(shù)據(jù)中實(shí)時、快速、準(zhǔn)確地向用戶執(zhí)行個性化的信息推薦,使其更好地為決策者服務(wù),對電力系統(tǒng)提出了新的挑戰(zhàn).
推薦系統(tǒng)是信息檢索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域的研究熱點(diǎn)[2],個性化推薦技術(shù)對電力大數(shù)據(jù)個性化推薦的實(shí)現(xiàn)提供了有效支撐,因此電力大數(shù)據(jù)個性化推薦系統(tǒng)得到了廣泛的關(guān)注,比如南方電網(wǎng)公司構(gòu)建的電網(wǎng)情報(bào)智能個性化推薦系統(tǒng),該系統(tǒng)通過檢索日志對網(wǎng)絡(luò)用戶的信息需求與信息查尋行為進(jìn)行分析和研究,在海量數(shù)據(jù)源中通過個性化推送的方式向用戶執(zhí)行信息推薦,從而保證信息推送的實(shí)時性和有效性.[3]
目前傳統(tǒng)的推薦系統(tǒng)使用的推薦算法有基于內(nèi)容的推薦、基于圖結(jié)構(gòu)的推薦、協(xié)同過濾推薦和混合推薦.[4]在眾多的推薦算法中,協(xié)同過濾技術(shù)因具有較好的普適性、良好的推薦精度、共享他人經(jīng)驗(yàn)的特點(diǎn),在企業(yè)、政府等部門得到了廣泛應(yīng)用.傳統(tǒng)的協(xié)同過濾推薦方法通過計(jì)算用戶或物品的相似性來向用戶進(jìn)行推薦,推薦結(jié)果能夠較好地反映目標(biāo)之間的相似性,但相似的目標(biāo)之間不一定具有關(guān)聯(lián)性或關(guān)聯(lián)程度比較低,不相似或相似度較小的目標(biāo)之間也有可能具有關(guān)聯(lián)性.協(xié)同過濾算法在向用戶執(zhí)行推薦的過程中,與目標(biāo)相似的物品能夠獲得比較高的排名,但與目標(biāo)相關(guān)聯(lián)的物品有可能被忽略或排名比較低,因此針對這一問題本文采用基于關(guān)聯(lián)規(guī)則挖掘和協(xié)同過濾的聯(lián)合算法AR-Item CF,將目標(biāo)物品之間的關(guān)聯(lián)度作為影響推薦排名的因素之一,使得推薦結(jié)果的物品能夠獲得比較高的排名,從而實(shí)現(xiàn)向用戶推薦既存在相似性,又具有關(guān)聯(lián)性的推薦結(jié)果.
本文通過將電網(wǎng)領(lǐng)域知識組織成知識樹,應(yīng)用AR-Item CF對用戶行為數(shù)據(jù)的Web日志挖掘,通過計(jì)算用戶推薦列表得到最終推薦結(jié)果.實(shí)現(xiàn)不同知識項(xiàng)之間深層次的知識推薦,能夠有效地解決上述問題并提升推薦質(zhì)量和準(zhǔn)確率.
在電網(wǎng)領(lǐng)域,知識可概括為靜態(tài)和動態(tài)2種.靜態(tài)知識包括設(shè)備類知識、電力規(guī)程類知識[5]、電力故障診斷及決策知識[6]等;動態(tài)知識包括電網(wǎng)運(yùn)行產(chǎn)生的實(shí)時數(shù)據(jù)和信息以及預(yù)測型知識,即由歷史的或當(dāng)前的數(shù)據(jù)推測未來的數(shù)據(jù)和狀態(tài),也可以認(rèn)為是以時間為關(guān)鍵屬性的知識.[7]不同知識之間沒有明顯的聯(lián)系,用戶理解困難,不能向用戶提供有價值的推薦.對知識的查詢往往涉及多張表,增加了查詢的負(fù)擔(dān).
選擇良好的知識表示方法不僅可以建立良好的知識結(jié)構(gòu),提高問題求解能力,而且有利于提高對知識的存儲和檢索效率,對減少關(guān)聯(lián)規(guī)則的挖掘時間、提高挖掘效率有著重要的影響.將電網(wǎng)領(lǐng)域知識分解成不同粒度的知識項(xiàng),使用知識樹的結(jié)構(gòu)將它們組織起來,有利于建立知識體系中的關(guān)聯(lián)和推理機(jī)制,有利于知識的組織、管理和可視化,能夠滿足大多數(shù)知識表示的需求.
本文通過將電網(wǎng)數(shù)據(jù)按照知識點(diǎn)為單元進(jìn)行分解形成知識項(xiàng),在知識項(xiàng)之間建立聯(lián)系,通過對知識點(diǎn)屬性KP及關(guān)系KR進(jìn)行描述,構(gòu)建知識樹模型KT{KP,KR}.
對知識點(diǎn)屬性KP的描述采用五元組{KID,KN,KW,KI,KP}表示,具體說明如下:
KID:知識點(diǎn)編號,知識點(diǎn)唯一表示;
KN:知識點(diǎn)名稱;
KW:知識點(diǎn)關(guān)鍵字;
KI:知識點(diǎn)重要程度;
KP:知識點(diǎn)對應(yīng)資源路徑.
知識點(diǎn)重要程度與被其他知識點(diǎn)引用到的次數(shù)有關(guān),被引用的次數(shù)越多知識點(diǎn)越重要.設(shè)x為某知識點(diǎn)后繼知識點(diǎn)的數(shù)量(x≥0),則其重要程度的隸屬函數(shù)可表示為:
知識點(diǎn)之間的關(guān)系可以形式化定義為KR=(RN,KPN,Relation,Degree),其中:
RN:關(guān)系編號.
KPN:包括主知識點(diǎn)編號和關(guān)聯(lián)知識點(diǎn)編號.
Relation:相關(guān)知識點(diǎn)與主知識點(diǎn)關(guān)系類型,Relation=(Compose,Dependence,Mutuality),其中:
Compose:組成關(guān)系,表示了元知識項(xiàng)和復(fù)合知識項(xiàng)之間的聚合關(guān)系;
Dependence:依賴關(guān)系,即前驅(qū)關(guān)系;
Mutuality:相關(guān)關(guān)系.
Degree:相關(guān)知識點(diǎn)與主知識點(diǎn)關(guān)系程度,Degree=(CP,DP,MP),其中:
CP:組成關(guān)系中,子知識點(diǎn)在構(gòu)成父知識點(diǎn)中所占的比重;
DP:依賴關(guān)系中,知識點(diǎn)依賴知識點(diǎn)的程度;
MP:相關(guān)關(guān)系中,知識點(diǎn)相關(guān)的程度.
協(xié)同過濾算法分為基于用戶的協(xié)同過濾推薦User CF[8]和基于物品的協(xié)同過濾推薦Item CF[9].User CF對于物品的數(shù)量是海量的,同時也是更新頻繁;User CF的計(jì)算復(fù)雜度遠(yuǎn)遠(yuǎn)小于Item CF,User CF 加上社會網(wǎng)絡(luò)信息,可以增加用戶對推薦解釋的信服程度.對于用戶的數(shù)量大大超過物品的數(shù)量,同時物品的數(shù)據(jù)相對穩(wěn)定的推薦系統(tǒng),Item CF的計(jì)算復(fù)雜度遠(yuǎn)遠(yuǎn)小于User CF,同時 Item CF 便于為推薦做出解釋[10].針對電力系統(tǒng)中領(lǐng)域知識相對穩(wěn)定,用戶數(shù)據(jù)多變的特點(diǎn),本文采用協(xié)同過濾推薦算法AR-Item CF算法.
在系統(tǒng)日志中發(fā)掘用戶對知識樹中知識項(xiàng)產(chǎn)生的行為,包括用戶瀏覽、收藏、關(guān)注、評分等,將不同行為劃分權(quán)重,計(jì)算得到用戶對某一個知識項(xiàng)的評分,形成用戶-知識評分矩陣(見表1).
表1 用戶-知識評分矩陣
(1) 選取評分矩陣中前3/4知識數(shù)據(jù)項(xiàng)集作為訓(xùn)練集,將剩下的1/4作為測試集,在訓(xùn)練集上建立用戶興趣模型,在測試集上進(jìn)行預(yù)測.
(2) 計(jì)算知識項(xiàng)相似性.本文采用余弦相似性方法計(jì)算知識項(xiàng)之間的相似度.知識項(xiàng)i和知識項(xiàng)j之間的相似性為
(3) 形成知識項(xiàng)余弦相似度矩陣ASK(見表2).
表2 知識項(xiàng)余弦相似度矩陣
知識項(xiàng)之間的關(guān)系是以知識項(xiàng)為中心,知識項(xiàng)與周邊最近鄰知識節(jié)點(diǎn)之間形成的關(guān)系,這是一種顯性關(guān)系.而知識項(xiàng)與非最近鄰知識項(xiàng)、多個知識項(xiàng)的組合與其他知識項(xiàng)之間也有可能存在關(guān)系,如不同知識點(diǎn)的組合會派生出新的知識點(diǎn),這些關(guān)系屬于隱性關(guān)系,需要進(jìn)一步分析和挖掘,知識項(xiàng)關(guān)聯(lián)程度用置信度表示.用Apriori算法[11]作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,在計(jì)算關(guān)聯(lián)支持度和置信度方面有較好的優(yōu)勢,因此本文采用Apriori算法來計(jì)算知識項(xiàng)之間的關(guān)聯(lián)度,形成知識項(xiàng)關(guān)聯(lián)矩陣ARK,算法過程如下:
(1) 將知識樹中的知識項(xiàng)作為算法輸入;
(2) 單遍掃描數(shù)據(jù)集,確定每個項(xiàng)的支持度,得到頻繁1-項(xiàng)集;
(3) 算法掃描數(shù)據(jù)集,使用子集函數(shù)計(jì)算所有候選2-項(xiàng)集的支持度計(jì)數(shù);
(4) 將支持度計(jì)數(shù)小于minsup的所有候選項(xiàng)集的置信度置為0,從而避免高相似性、低置信度的結(jié)果出現(xiàn);
(5) 計(jì)算候選2-項(xiàng)集的置信度conf,形成知識項(xiàng)關(guān)聯(lián)矩陣ARK(見表3).
表3 知識項(xiàng)關(guān)聯(lián)矩陣
(1) 對知識項(xiàng)相似度矩陣ASK與知識項(xiàng)關(guān)聯(lián)矩陣ARK求和,得到最終用于計(jì)算用戶對知識項(xiàng)興趣度的矩陣ASRK,即ASRK=ASK+ARK.
(2) 根據(jù)用戶目標(biāo)知識項(xiàng),在ASRK中查找與目標(biāo)知識項(xiàng)相關(guān)的前K個知識項(xiàng).
(3) 計(jì)算用戶對知識項(xiàng)的興趣度公式為
其中:N(u)是用戶喜歡的知識項(xiàng)的集合;ASRK(j,K)是和知識項(xiàng)j相似度和關(guān)聯(lián)度之和較高的K個知識項(xiàng)的集合;Wji是知識項(xiàng)j和i在ASRK中對應(yīng)的值;Rui是用戶u對知識項(xiàng)i的興趣.該公式的含義是和用戶歷史上感興趣的知識項(xiàng)越相似且關(guān)聯(lián)度越高的知識項(xiàng),越有可能在用戶的推薦列表中獲得比較高的排名.
本文對評價精度的度量采用平均絕對偏差MAE(mean absolute error),MAE通過計(jì)算預(yù)測用戶評分與實(shí)際用戶評分之間的偏差度量預(yù)測的準(zhǔn)確性,MAE越小推薦質(zhì)量越高.設(shè)預(yù)測的用戶評分集合表示為{p1,p2,…,pN},對應(yīng)的實(shí)際用戶評分集合為{q1,q2,…,qN},則平均絕對偏差MAE定義為
項(xiàng)目推薦率(IRR)在項(xiàng)目推薦時,設(shè)一個用戶的待推薦項(xiàng)目集為W={w1,w2,…,wN},其中wi(i=1,…,N)為待推薦項(xiàng)目,N為待推薦項(xiàng)目數(shù),由于該用戶的所有最近鄰居中沒有發(fā)現(xiàn)關(guān)于wk(wk∈W)的實(shí)際評估記錄,而導(dǎo)致wk無法被推薦,不能被推薦的項(xiàng)目總數(shù)為M(M≤N),則稱比值(N-M)/N為關(guān)于該用戶的項(xiàng)目推薦率.項(xiàng)目推薦率主要用于衡量最近鄰居查找的效率,也能從側(cè)面反映出用戶評分?jǐn)?shù)據(jù)庫的離散度.在相同的MAE下,IRR的值越高說明算法的推薦效率越高.
本文從電力安全規(guī)程系統(tǒng)的資源庫中選擇1 000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,其中包含300個用戶和700條知識,將實(shí)驗(yàn)數(shù)據(jù)集中的3 /4作為訓(xùn)練集進(jìn)行挖掘以生成推薦的關(guān)聯(lián)度,其余的1 /4作為測試集進(jìn)行測試,與傳統(tǒng)的Item CF進(jìn)行對比得到在不同最近鄰居下兩種算法的MAE及項(xiàng)目推薦率IRR,實(shí)驗(yàn)結(jié)果如圖1和2所示.
圖1 MAE的實(shí)驗(yàn)結(jié)果 圖2 IRR的實(shí)驗(yàn)結(jié)果
隨著最近鄰居數(shù)的增加,算法的項(xiàng)目推薦率IRR隨之增加,與傳統(tǒng)的協(xié)同過濾推薦算法相比,本文提出的AR-Item CF推薦算法具有最小的 MAE,較高的IRR,由此可知,本文提出的AR-Item CF推薦算法可以顯著地提高推薦系統(tǒng)的推薦質(zhì)量和推薦效率.
本文提出的AR-Item CF推薦算法與傳統(tǒng)的Item CF的最大不同在于計(jì)算用戶對知識項(xiàng)興趣度的過程中,將知識項(xiàng)之間的關(guān)聯(lián)程度作為影響推薦結(jié)果排名的因素之一,采用關(guān)聯(lián)規(guī)則挖掘和協(xié)同過濾推薦聯(lián)合算法來向用戶推薦相似度與關(guān)聯(lián)度比較高的結(jié)果.實(shí)驗(yàn)結(jié)果證明相對于傳統(tǒng)的協(xié)同過濾推薦,本文提出的AR-Item CF推薦算法不僅能夠向用戶執(zhí)行高質(zhì)量的推薦,對于推薦執(zhí)行效率也有一定的提高.然而在最近鄰居數(shù)較少的情況下,算法的項(xiàng)目推薦率IRR比較低,如何提高項(xiàng)目推薦率IRR也是下一步工作需要解決的問題,從而進(jìn)一步完善該算法.
[參考文獻(xiàn)]
[1]彭小圣,鄧迪元,程時杰,等.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J].中國電機(jī)工程學(xué)報(bào),2015,35(3):503-511.
[2]孟祥武,胡勛,王立才,等.移動推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.
[3]周育忠,周宏龍,吳江.電網(wǎng)情報(bào)智能個性化推薦系統(tǒng)構(gòu)建[J].圖書情報(bào)知識,2014(4):50-56.
[4]楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,34(3):337-350.
[5]趙峰,天恩,孫宏斌.電網(wǎng)安全運(yùn)行知識的表達(dá)與演變[J].中國電機(jī)工程學(xué)報(bào),2015,35(20):5117-5123.
[6]曲朝陽,陳帥,楊帆,等.基于雙層次分析的智能變電站數(shù)據(jù)分類方法[J].東北電力大學(xué)學(xué)報(bào),2014,34(2):61-65.
[7]曲朝陽,陳帥,楊帆,等.基于云計(jì)算技術(shù)的電力大數(shù)據(jù)預(yù)處理屬性約減方法[J].電力系統(tǒng)自動化,2014,38(8):67-71.
[8]WANG WEI,ZHANG GUANGQUAN,LU JIE.Collaborative filtering with entropy-driven user similarity in recommender systems[J].Int J Intell Syst,2015,30(8):854-870.
[9]GAO MIN,F(xiàn)U YUNQING,CHEN YIXIONG,et al.User-weight model for item-based recommendation systems[J].Journal of Software,2012,7(9):2133-2140.
[10]HU LIANG,SONG GUOHANG,XIE ZHENZHEN,et al.Personalized recommendation algorithm based on preference features[J].Tsinghua Science and Technology,2014,19(3):293-299.
[11]苗苗苗,王玉英.基于矩陣壓縮的Apriori算法改進(jìn)的研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(1):159-162.