王 昭
(中國(guó)人壽保險(xiǎn)股份有限公司河北省分公司,河北石家莊 050000)
隨著近年來(lái)網(wǎng)絡(luò)的普及和應(yīng)用,電子政務(wù)已經(jīng)被越來(lái)越多的企事業(yè)單位、政府機(jī)構(gòu)所應(yīng)用。然而海量的信息使得用戶難以快速找到需要的信息,因此如何根據(jù)用戶的訪問(wèn)興趣來(lái)進(jìn)行個(gè)性化推薦,更加有針對(duì)性的滿足用戶的需求,從而提供個(gè)性化服務(wù)變得非常重要。數(shù)據(jù)挖掘(Data Mining,DM)是從大量模糊的、不確定的、不完全的數(shù)據(jù)中揭示隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析用戶數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的、有意義的模式。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中比較重要的一種算法。它通過(guò)挖掘數(shù)據(jù)項(xiàng)集之間的潛在關(guān)系,從在大量數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí),這些知識(shí)對(duì)于用戶分析、知識(shí)分類、個(gè)性推薦等決策的制定起到了很大的作用。本文針對(duì)電子政務(wù)系統(tǒng)的個(gè)性化推薦服務(wù)的弊端,提出利用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則及其改進(jìn)算法實(shí)現(xiàn)個(gè)性化推薦,以提高電子政務(wù)應(yīng)用效率。
關(guān)聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)項(xiàng)中發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。設(shè)I={i1,i2,…,im}是項(xiàng)的集合,其中的元素稱為項(xiàng)(item)。記D為交易T的集合,這里交易T是項(xiàng)的集合,并且T?I。對(duì)應(yīng)每一個(gè)交易有唯一的標(biāo)識(shí),如交易號(hào)(TID)。設(shè)X是一個(gè)I中項(xiàng)的一個(gè)集合,如果X?T,那么稱交易T包含X。
一個(gè)關(guān)聯(lián)規(guī)則是形如X?Y的蘊(yùn)涵式,這里X?I,Y?I,并且X∩Y=Φ。規(guī)則X?Y在事物數(shù)據(jù)庫(kù)D中的支持度(support)是事物集中包含X和Y的事物數(shù)與所有事物數(shù)之比,記為support(X?Y),即
規(guī)則X?Y在事物集中的可信度(confidence)是指包含X和Y的事務(wù)數(shù)與包含X的事物數(shù)之比,記為confidence(X?Y),即:
用戶使用電子政務(wù)系統(tǒng)都會(huì)有相對(duì)固定的瀏覽路徑。每個(gè)瀏覽路徑都代表了一個(gè)完整的用戶行為,從用戶角度看,這些瀏覽路徑滿足了用戶這次的辦公或查詢需求,而從政府管理部門(mén)的角度看,這些瀏覽路徑有可能被再一次同時(shí)點(diǎn)擊。當(dāng)然僅僅通過(guò)一個(gè)用戶行為所反映出來(lái)的信息關(guān)聯(lián)不具有普遍性,但是通過(guò)大量的用戶行為分析,就可以整理出那些隱藏在大量數(shù)據(jù)中令人感興趣的聯(lián)系,從而展開(kāi)各種個(gè)性推薦。
所謂關(guān)聯(lián),可以理解為用戶行為中出現(xiàn)的所有點(diǎn)擊路徑,因?yàn)檫@些點(diǎn)擊路徑出現(xiàn)在同一個(gè)用戶行為中,我們就可以認(rèn)為這些點(diǎn)擊中具有某種聯(lián)系。關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)的聯(lián)系,可以用規(guī)則A→B(S,C)的形式表示,也就是說(shuō),用戶一旦點(diǎn)擊了A功能或信息,他極有可能會(huì)點(diǎn)擊B功能或路徑。支持度和置信度就是衡量指標(biāo),是用來(lái)描述規(guī)則強(qiáng)度的,支持度代表事件發(fā)生的頻率,支持度很低也就是意味著這種事件只是偶爾發(fā)生,是個(gè)小概率事件,因此,對(duì)于關(guān)聯(lián)分析的第一步,就是用支持度過(guò)濾掉那些偶然事件。置信度代表著利用這個(gè)規(guī)則進(jìn)行推理的可信程度。置信度越大,表示可能被關(guān)聯(lián)點(diǎn)擊的程度越高。
說(shuō)的簡(jiǎn)單一點(diǎn),關(guān)聯(lián)規(guī)則就是在給定的事務(wù)集中,挖掘出支持度(support)和置信度(confidence)分別大于用戶給定的最小支持度(minsupp)和最小置信度(minconf)的規(guī)則。
本文以某電子政務(wù)網(wǎng)站為例,利用關(guān)聯(lián)規(guī)則算法進(jìn)行分析。因?yàn)橄到y(tǒng)數(shù)據(jù)庫(kù)數(shù)量比較大,本文只選取其中的一部分?jǐn)?shù)據(jù)進(jìn)行分析。用戶行為路徑數(shù)據(jù)如表1所示,其中ABCDEF分別代表不同信息的路徑,設(shè) minsup=0.5,minconf=0.5。關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段:第一階段利用支持度尋找頻繁項(xiàng)目集,第二階段再由這些頻繁項(xiàng)目集產(chǎn)生關(guān)聯(lián)規(guī)則。
首先對(duì)表1中的相關(guān)數(shù)據(jù)進(jìn)行挖掘,得到候選1項(xiàng)集如表2所示。
其中第一條記錄A的支持度為0.75,這是因?yàn)樵诒?中共有3條記錄包含A,表1中共有4條事件記錄,所以A的支持度為3/4=0.75,大于預(yù)設(shè)的最小支持度0.5,所以保留A作為頻繁1項(xiàng)集中的一條記錄。表2中的其它記錄也可以類似得到。對(duì)候選1項(xiàng)集C1的篩選,可得頻繁1項(xiàng)集L1。
對(duì)頻繁1項(xiàng)集分析很簡(jiǎn)單,卻提供了很多有價(jià)值的信息,可以對(duì)那些初次到訪的用戶提供熱門(mén)的內(nèi)容推薦。除了提供熱門(mén)信息列表,頻繁1項(xiàng)集分析根據(jù)支持度過(guò)濾掉了非熱門(mén)信息,減少了做對(duì)頻繁2項(xiàng)集分析的運(yùn)算量。
頻繁1項(xiàng)集L1經(jīng)過(guò)“連接”和“剪枝”,得到候選2項(xiàng)集C2。如表4所示。
因?yàn)樽钚≈С侄仁?.5,所以舍棄所有支持度小于0.5的項(xiàng)集,只剩下了A->C,并且所有出現(xiàn)了A的三個(gè)訂單中,同時(shí)出現(xiàn)C的有兩個(gè),因此置信度是2/3=0.67。
表1 用戶行為路徑數(shù)據(jù)表
表2 候選1項(xiàng)集C1
表3 頻繁1項(xiàng)集L1
表4 候選2項(xiàng)集C2
A->C的支持度等于0.5,也就是說(shuō)在所有的用戶行為信息中,至少有50%的行為信息出現(xiàn)了A和C被同時(shí)點(diǎn)擊。而Confidence=0.67則說(shuō)明在所有點(diǎn)擊A的行為信息中,至少有67%的行為會(huì)同時(shí)點(diǎn)擊C。因此,今后若有某用戶點(diǎn)擊了A,電子政務(wù)系統(tǒng)將同時(shí)推薦C。因?yàn)闅v史交易數(shù)據(jù)告訴我們,大部份點(diǎn)擊A的用戶行為中,會(huì)同時(shí)點(diǎn)擊C。
本文利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則算法對(duì)用戶訪問(wèn)信息進(jìn)行挖掘,有效的實(shí)現(xiàn)了電子政務(wù)的個(gè)性化推薦,達(dá)到了預(yù)期的效果。
[1]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[C]∥In Proc.1993 ACM - SIGMOD Int.conf.Management of Data(SIGMOD’93).Washington,DC:[s.n.],1993:207-216.
[2]劉晶.基于數(shù)據(jù)倉(cāng)庫(kù)的高校圖書(shū)館管理的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書(shū)情報(bào)工作,2009.15(53).126-128.
[3]劉晶,朱清香,梅群,張蕾.一種基于單處理機(jī)的并行關(guān)聯(lián)規(guī)則算法及其在數(shù)字圖書(shū)館中的應(yīng)用[J].圖書(shū)情報(bào)工作,2011,7(55):114-117.
[4]劉晶,楊萬(wàn)成.基于簡(jiǎn)易聚合技術(shù)對(duì)電子商務(wù)個(gè)性檢索的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008.29(1):173-174.