国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進(jìn)的協(xié)同過濾算法在中小企業(yè)服務(wù)平臺(tái)的研究與應(yīng)用

2019-04-15 07:46:14喻金平巫光福曾憲文
關(guān)鍵詞:項(xiàng)集矩陣數(shù)據(jù)庫

喻金平 劉 娟 巫光福 曾憲文

1(江西理工大學(xué)工程研究院 江西 贛州 341000) 2(江西理工大學(xué)信息工程學(xué)院 江西 贛州 341000)

0 引 言

個(gè)性化推薦被廣泛應(yīng)用在社會(huì)生活的各個(gè)方面,但其在中小企業(yè)服務(wù)平臺(tái)的應(yīng)用尚不成熟。在大多數(shù)情況下,該平臺(tái)的商品就是服務(wù),機(jī)構(gòu)提供的服務(wù)并非有形的物品。在該平臺(tái),雖然不同的用戶在每個(gè)階段所需的服務(wù)各有不同,但是相同類型的用戶在特定的進(jìn)程中的需求是有規(guī)律的。比如對(duì)于一些初創(chuàng)企業(yè)普遍有公司注冊(cè)、代理記賬、知識(shí)產(chǎn)權(quán)、社保人事、辦公資源、人力資源等方面的需求。

針對(duì)這些問題,Li等[1]提出加權(quán)調(diào)整余弦相似度法計(jì)算用戶—項(xiàng)目相似度,并利用量子運(yùn)動(dòng)方程,根據(jù)量子蛙群的共同演化,尋找最優(yōu)位置;Zarzour等[2]提出一種基于降維和聚類技術(shù)的協(xié)同過濾推薦算法來提高協(xié)同過濾在電子商務(wù)平臺(tái)的推薦效果;項(xiàng)目興趣度特征向量被孫光明等[3]引入并提出基于項(xiàng)目興趣度的協(xié)同過濾新算法;文獻(xiàn)[4]提出一種基于可靠性的相似度計(jì)算方法,首先利用用戶對(duì)常用項(xiàng)的打分來獲得用戶之間打分的可信度,然后將可信度引入調(diào)整后的余弦相似度中,在調(diào)整之后再利用將懲罰函數(shù)減輕常用項(xiàng)對(duì)相似度計(jì)算的影響,最后綜合測(cè)量。

但是,以上各種研究中均未考慮到在中小企業(yè)平臺(tái)中服務(wù)分類對(duì)推薦系統(tǒng)的影響。本文根據(jù)平臺(tái)的數(shù)據(jù)特征,應(yīng)用層次分析法計(jì)算屬性權(quán)重,建立用戶-屬性模型、服務(wù)-屬性模型。通過關(guān)聯(lián)性分析,找出同類別的其他項(xiàng)目。最后改進(jìn)CFRA,實(shí)現(xiàn)對(duì)用戶的推薦。結(jié)果表明,本文方法提高推薦算法的準(zhǔn)確性,更適用于中小企業(yè)服務(wù)平臺(tái),對(duì)于支持廣大創(chuàng)業(yè)者創(chuàng)業(yè)和推動(dòng)全國(guó)雙創(chuàng)工作的發(fā)展具有重要的現(xiàn)實(shí)意義。

1 數(shù)據(jù)預(yù)處理

筑夢(mèng)園的數(shù)據(jù)類型具有以下特點(diǎn):首先,提供的服務(wù)是一種無形的商品,這種商品由于沒有客觀標(biāo)準(zhǔn)來衡量就更加注重以消費(fèi)者為中心,為其提供合意的服務(wù)為宗旨。其次,作為一個(gè)公益性平臺(tái),要保證被提供服務(wù)方有切實(shí)的需求,就要對(duì)中小企業(yè)的真實(shí)性進(jìn)行考察。最后,提供服務(wù)的服務(wù)機(jī)構(gòu)或個(gè)人的性質(zhì)要與服務(wù)的性質(zhì)相同。也就是說,假設(shè)企業(yè)需要財(cái)務(wù)方面的服務(wù),而系統(tǒng)提供的服務(wù)機(jī)構(gòu)或個(gè)人卻是人力資源方面的,這就會(huì)降低推薦的準(zhǔn)確性。

針對(duì)上述特點(diǎn)本文將提出以下解決方式:

應(yīng)用AHP分析企業(yè)和服務(wù)機(jī)構(gòu)并建立模型。AHP是一種系統(tǒng)分析的方法[5],旨在解決結(jié)構(gòu)復(fù)雜、決策標(biāo)準(zhǔn)無法度量的問題,在20世紀(jì)70 年代末由美國(guó)運(yùn)籌學(xué)家 T.L.Saaty 提出。與其他的算法,如德爾菲法[7]、數(shù)據(jù)包絡(luò)分析DEA[8]、模糊綜合評(píng)價(jià)法[9]、人工神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)法[10]、灰色綜合評(píng)價(jià)法[11]等相比,它具有思維簡(jiǎn)單、易于量化同時(shí)可以結(jié)合主觀判斷和客觀推理的特點(diǎn)。并且可以避免在結(jié)構(gòu)復(fù)雜的多屬性綜合邏輯推理中出現(xiàn)的錯(cuò)誤,因此得到廣大專家學(xué)者的廣泛應(yīng)用與研究。

AHP的基本內(nèi)容是:

(1) 根據(jù)評(píng)價(jià)目標(biāo)的組成及屬性,對(duì)總目標(biāo)進(jìn)行分層分析:需要評(píng)價(jià)的總目標(biāo)為目標(biāo)層;目標(biāo)的基本屬性為準(zhǔn)則層,準(zhǔn)則層的評(píng)級(jí)之和即目標(biāo)層的評(píng)級(jí);實(shí)現(xiàn)目標(biāo)的方法、措施為措施層。

(2) 將目標(biāo)層-準(zhǔn)則層-措施層按照上下級(jí)關(guān)系,將層次之間有直接聯(lián)系的因素連接起來,即構(gòu)造出該目標(biāo)的層次結(jié)構(gòu)圖。層次結(jié)構(gòu)圖的構(gòu)建是層次分析過程的基礎(chǔ),它直接影響每個(gè)層次的索引權(quán)重。

(3) 按級(jí)別分解一般目標(biāo),并通過成對(duì)比較來比較同一級(jí)別的因子,以確定因子相對(duì)于優(yōu)勢(shì)因子的權(quán)重系數(shù)。通過迭代計(jì)算,直到得出所有因素對(duì)總目標(biāo)的權(quán)重序列。

其中企業(yè)的基本屬性為信息完善度、企業(yè)的真實(shí)性考察、企業(yè)文化,目標(biāo)層是此企業(yè)在平臺(tái)的綜合評(píng)分;服務(wù)機(jī)構(gòu)或個(gè)人的基本屬性是其所能提供的服務(wù)范圍、企業(yè)對(duì)其提供服務(wù)的評(píng)價(jià)等,目標(biāo)層是服務(wù)機(jī)構(gòu)在平臺(tái)的綜合評(píng)分。

對(duì)服務(wù)機(jī)構(gòu)和個(gè)人的性質(zhì)和服務(wù)的性質(zhì)進(jìn)行分類:技術(shù)、管理、人才、政策和信息五個(gè)大類。其中技術(shù)類包括:技術(shù)創(chuàng)新、節(jié)能減排、安全技術(shù)、信息技術(shù)、工業(yè)設(shè)計(jì)、礦業(yè)設(shè)計(jì)。管理類包括:工程咨詢、工程管理、管理咨詢、金融服務(wù)、財(cái)稅法務(wù)、資產(chǎn)管理、企劃廣告、生產(chǎn)服務(wù)。人才類包括:人力資源、健康咨詢、福利保險(xiǎn)。政策類包括:認(rèn)定咨詢、政策咨詢。信息類包括:資訊服務(wù)、報(bào)關(guān)服務(wù)、物流倉儲(chǔ)。服務(wù)機(jī)構(gòu)或個(gè)人可根據(jù)以上分類判斷所屬類別(根據(jù)實(shí)際情況,一個(gè)服務(wù)機(jī)構(gòu)或服務(wù)可同時(shí)屬于多個(gè)分類)。建立服務(wù)-屬性矩陣,如表1所示。

表1 服務(wù)-屬性矩陣

表1中,A是屬性,即分類,I是服務(wù),R是服務(wù)I是否屬于屬性A,其數(shù)值用0或1表示,其中0為不屬于,1為屬于。同理可以建立服務(wù)機(jī)構(gòu)-屬性矩陣。

2 算法設(shè)計(jì)

2.1 關(guān)聯(lián)分析

關(guān)聯(lián)分析就是要在數(shù)據(jù)集中尋找數(shù)據(jù)之間的關(guān)系,而這些數(shù)據(jù)集往往是大規(guī)模的。這些關(guān)系可以有兩種形式:頻繁的項(xiàng)目集或者關(guān)聯(lián)規(guī)則。頻繁項(xiàng)集是總事務(wù)中存在一些頻頻出現(xiàn)在一起的項(xiàng)目。關(guān)聯(lián)規(guī)則暗意兩個(gè)或幾個(gè)項(xiàng)目可能存在強(qiáng)聯(lián)系。具體定義為:若I={i1,i2,…,im}為項(xiàng)目的總集合,其中i為項(xiàng)目。且B={i1,i2,…,in},m≥n,BI;而事體T為一項(xiàng)目子集,并且每個(gè)事體有且只有一個(gè)標(biāo)識(shí),即Tid。項(xiàng)集B是事體T子集,即B?T;D表示事體數(shù)據(jù)庫,即B?T?D。支持度是比率,即第n級(jí)項(xiàng)目集B的出現(xiàn)次數(shù)與總對(duì)象數(shù)據(jù)庫T的比率。如果該比率大于預(yù)設(shè)閾值,則B是頻繁項(xiàng)目集合。

對(duì)于兩個(gè)可能存在強(qiáng)關(guān)系的項(xiàng)目或項(xiàng)目集,則用關(guān)聯(lián)規(guī)則來描述其邏輯關(guān)系,即X→Y。由于這些關(guān)系是可能存在的,所以提出兩個(gè)標(biāo)準(zhǔn)——支持度、置信度來量化關(guān)聯(lián)分析是否成功。支持度是指關(guān)聯(lián)規(guī)則中呈現(xiàn)的某個(gè)項(xiàng)集的頻率,即某項(xiàng)集出現(xiàn)的次數(shù)與總事體次數(shù)的比值,可以用概率P(XY)來表示:

support(XY)=P(XY)

(1)

置信度是針對(duì)一條規(guī)則定義的,指包含的占有強(qiáng)度,也就是說事體數(shù)據(jù)庫D中有概率為P的項(xiàng)目不但包括X項(xiàng)而且也囊括XY的事體,即:

confidence(X→Y)=P(Y/X)=P(XY)/P(X)

(2)

2.2 Partition算法

在實(shí)際應(yīng)用場(chǎng)景中數(shù)據(jù)庫通常是巨大的,針對(duì)這一現(xiàn)實(shí)情況,Partition算法對(duì)Apriori提出改進(jìn)。其主要措施就是加入對(duì)數(shù)據(jù)庫的劃分,那么掃描整個(gè)數(shù)據(jù)庫就僅僅需要兩次。第一次是在劃分?jǐn)?shù)據(jù)庫之時(shí),第二次則是在結(jié)合局部頻繁項(xiàng)集的時(shí)候。這樣避免了頻繁查詢整個(gè)數(shù)據(jù)庫,這意味著減少算法運(yùn)行時(shí)間。

Apriori算法若要找繁項(xiàng)n項(xiàng)集則要查詢n次數(shù)據(jù)庫,假設(shè)這個(gè)數(shù)據(jù)庫無比龐大,則執(zhí)行該算法使用的時(shí)間是非常長(zhǎng)的。為了縮短算法查詢時(shí)間,Partition算法將總事件數(shù)據(jù)庫劃分為幾個(gè)不相交的子數(shù)據(jù)庫;然后針對(duì)每個(gè)子數(shù)據(jù)庫,采用經(jīng)典Apriori求解局部頻繁項(xiàng)集,合并大項(xiàng)集以生成候選集;最后以支持度為衡量標(biāo)準(zhǔn)獲取總事體數(shù)據(jù)庫中的頻繁大項(xiàng)集。Partition算法流程圖如圖1所示。

圖1中,D為數(shù)據(jù)庫;D1,D2,…,Dm為分區(qū)數(shù)據(jù)庫;L1,L2,…,Lm為局部大項(xiàng)集;C為全局候選集;F為全局大項(xiàng)集。

2.3 協(xié)同過濾推薦算法

協(xié)同過濾推薦算法是一種被電子商務(wù)平臺(tái)廣泛使用的用戶喜好預(yù)測(cè)算法。它假定相似的用戶有類似的喜好,那么相似用戶對(duì)事物的評(píng)價(jià)是相互借用的,據(jù)此發(fā)掘用戶或項(xiàng)目之間的聯(lián)系。該算法以使用的主體為劃分標(biāo)準(zhǔn),可以被分為基于用戶的(User-Based)和基于項(xiàng)目的(Item-Based)兩種。本文算法在基于用戶的基礎(chǔ)上加以改進(jìn)。

協(xié)同過濾算法中的重要數(shù)據(jù)來源是用戶評(píng)分矩陣。如表2所示。

表2 用戶評(píng)分矩陣

用戶項(xiàng)目評(píng)分矩陣是用戶的評(píng)估矩陣。其中U表示用戶,I是項(xiàng)目,G是評(píng)價(jià),Gij是用戶i對(duì)項(xiàng)目j評(píng)價(jià)。

相似性度量是用于基于用戶的評(píng)分矩陣來量化用戶相似性的方法,如余弦相似度、相關(guān)相似度和修正的余弦相似度[14]。相關(guān)相似性又稱為皮爾森(Pearson)相關(guān)性,是上述方法中最常用的相似度計(jì)算方法。計(jì)算方式如下:

(3)

尋找最高相似鄰居集:通過式(3)計(jì)算出待推測(cè)用戶與已有用戶之間的相似性,給定閾值,閾值范圍內(nèi)的用戶組成最高相似鄰居集。

基于用戶的協(xié)同過濾算法步驟為:

(1) 數(shù)據(jù)表示:用戶對(duì)項(xiàng)目的評(píng)價(jià)表示為如表2的矩陣形式,其中Gij是用戶i對(duì)項(xiàng)目j進(jìn)行評(píng)分,分?jǐn)?shù)由數(shù)字1~10之間的整數(shù)表示,并且該值越高表示用戶i對(duì)項(xiàng)目j更滿意。

(2) 相似鄰居集查找:基于式(1)中的數(shù)據(jù),用式(3)計(jì)算用戶之間的相似性。設(shè)定用戶鄰居閾值t,依據(jù)各個(gè)用戶之間相似度從大到小排序。與目標(biāo)用戶類似的前t個(gè)用戶是用戶的類似鄰居集。這一步是該推薦算法的核心。

(3) 產(chǎn)生推薦:使用式(4),基于在步驟(2)中收集的相似鄰居集來預(yù)測(cè)要推薦的用戶對(duì)未評(píng)級(jí)項(xiàng)目的評(píng)估。

(4)

2.4 基于Partition算法改進(jìn)的協(xié)同過濾推薦算法

在中小企業(yè)服務(wù)平臺(tái)中,由于用戶在不同時(shí)期的關(guān)注點(diǎn)不同,而不同服務(wù)的目標(biāo)用戶也不同,因此在大多數(shù)應(yīng)用場(chǎng)景下,服務(wù)的目標(biāo)用戶是存在顯著差別的。在現(xiàn)實(shí)生活中由于企業(yè)在不同時(shí)期的需求的往往是在幾個(gè)可數(shù)的類別中,那么如果我們的推薦在這類需求當(dāng)中實(shí)現(xiàn),那么推薦的準(zhǔn)確性就會(huì)大大提高。服務(wù)項(xiàng)目分類標(biāo)準(zhǔn)如表3所示。

表3 服務(wù)項(xiàng)目分類標(biāo)準(zhǔn)圖

這就要求先對(duì)項(xiàng)目進(jìn)行關(guān)聯(lián)分析,然后找到與預(yù)測(cè)項(xiàng)目類似的其他項(xiàng)目,形成具有一定相關(guān)性的集合。 然后在該集合中尋找該項(xiàng)目的近鄰。

算法設(shè)計(jì)流程如下:

(1) 劃分事務(wù)集合。按照表3中的分類標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)庫分割,在此基礎(chǔ)上進(jìn)行協(xié)同過濾可以減少運(yùn)行時(shí)間增大推薦準(zhǔn)確性。

(2) 找出全局頻繁項(xiàng)集。在步驟1中生成的數(shù)據(jù)集D由服務(wù)項(xiàng)的分類標(biāo)準(zhǔn)細(xì)分。根據(jù)經(jīng)驗(yàn),設(shè)置支持閾值在每個(gè)類別下找到頻繁項(xiàng)集(局部頻繁項(xiàng)集),組合上述結(jié)果獲得全局大項(xiàng)頻繁集。

(3) 計(jì)算推薦值。以步驟2為依據(jù),對(duì)待推薦用戶產(chǎn)生推薦。① 遍歷上一步中形成的結(jié)果,查詢包含項(xiàng)j的所有頻繁項(xiàng)集,并找到聯(lián)合以形成相關(guān)項(xiàng)U類;② 根據(jù)用戶-項(xiàng)目評(píng)分矩陣采用person相似度計(jì)算公式計(jì)算用戶相似度。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)估標(biāo)準(zhǔn)

為了驗(yàn)證CFBP算法的預(yù)測(cè)效果,本文采用企服城科技有限公司提供的贛州市中小企業(yè)服務(wù)平臺(tái)上的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。該數(shù)據(jù)集包括988個(gè)用戶,1 673個(gè)服務(wù),并且得分集為{1,2,3,4,5,6,7,8,9,10},其中值越大,用戶對(duì)項(xiàng)目的偏好越高。該數(shù)據(jù)集有近100 000個(gè)記錄。

有許多方法可以被用來評(píng)估推薦系統(tǒng)的性能。本文中的評(píng)估標(biāo)準(zhǔn)使用平均絕對(duì)誤差(MAE),均方根誤差(RMSE)和推薦覆蓋率(Coverage)。 MAE是目前使用廣泛的準(zhǔn)確性衡量標(biāo)準(zhǔn),其值越小推薦越準(zhǔn)確。RMSE是NetFlix Prize的標(biāo)準(zhǔn)度量指標(biāo),RMSE值越低預(yù)測(cè)能力越高。 Coverage描述了推薦系統(tǒng)向用戶推薦的項(xiàng)目集合覆蓋范圍,用于評(píng)估推薦系統(tǒng)的推薦是否全面的常用指標(biāo),該值越大系統(tǒng)覆蓋能力越強(qiáng)。公式如下:

(5)

(6)

(7)

3.2 實(shí)驗(yàn)內(nèi)容與結(jié)果

3.2.1 實(shí)驗(yàn)一

通過實(shí)驗(yàn)比較本文算法(CFBP)、Enrique等[15]提出的關(guān)聯(lián)規(guī)則算法(En)和Huang等[16]提出的關(guān)聯(lián)規(guī)則算法(Huang)的平均絕對(duì)誤差(MAE)。結(jié)果如圖2所示。

圖2 三種算法的MAE比較

從圖2易得出,在支持度和可信度一定的條件下CFBP算法的MAE值總小于Enrique等提出的關(guān)聯(lián)規(guī)則算法和Huang等提出的關(guān)聯(lián)規(guī)則算法,且在MinSup=0.2,MinConf=0.4時(shí),本文算法的MAE值達(dá)到最小,即該算法的預(yù)測(cè)值最準(zhǔn)確。

3.2.2 實(shí)驗(yàn)二

在給定MinSup=0.2,MinConf=0.4的條件下,通過實(shí)驗(yàn)對(duì)CFBP算法、IBCF算法、SRP-CCF算法[17]和IBCF-IDT 算法[18]的平均絕對(duì)誤差(MAE)值進(jìn)行比對(duì),結(jié)果如圖3所示。

圖3 四種算法在不同鄰居數(shù)下的MAE比較

圖3顯示當(dāng)最近鄰居的數(shù)量一定時(shí),CFBP算法的MAE值小于其他算法。 且在MinSup=0.2,MinConf=0.4,最近鄰數(shù)目為50時(shí),本文算法的MAE值達(dá)到最小值,即算法的預(yù)測(cè)值最準(zhǔn)確。

3.2.3 實(shí)驗(yàn)三

通過實(shí)驗(yàn)比較本文算法(CFBP)、KNN-100[19]和IRP-CF[20]的MAE、RMSE和Coverage值,如圖4所示。

圖4 性能測(cè)試對(duì)比

從圖4易得出,KNN-100、IRP-CF與CFBP三種算法的MAE和RMSE值依次降低,Coverage值則上升。在三種算法中CFBP算法的MAE和RMSE值最低,即該算法的預(yù)測(cè)精度最準(zhǔn)確;Coverage值最高,即該算法在平臺(tái)上的覆蓋能力最強(qiáng)。

4 結(jié) 語

本文根據(jù)中小企業(yè)服務(wù)平臺(tái)的數(shù)據(jù)特征和分類標(biāo)準(zhǔn),用AHP建立服務(wù)屬性模型,通過該模型,增加服務(wù)機(jī)構(gòu)的曝光率,鼓勵(lì)公益事業(yè)的發(fā)展。以平臺(tái)的服務(wù)分類為標(biāo)準(zhǔn)劃分?jǐn)?shù)據(jù)庫,通過Partition算法快速地找出同類別的其他項(xiàng)目,再用協(xié)同過濾找到推薦值。實(shí)驗(yàn)表明,對(duì)于中小企業(yè)服務(wù)平臺(tái)而言,該算法有較高的推薦準(zhǔn)確性和推薦覆蓋性。下一步工作是進(jìn)一步解決數(shù)據(jù)的冷啟動(dòng)性對(duì)本文算法的挑戰(zhàn),同時(shí)減低算法的空間復(fù)雜度。

猜你喜歡
項(xiàng)集矩陣數(shù)據(jù)庫
數(shù)據(jù)庫
初等行變換與初等列變換并用求逆矩陣
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
矩陣
南都周刊(2015年1期)2015-09-10 07:22:44
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
奈曼旗| 通榆县| 田东县| 邓州市| 五寨县| 静宁县| 衡山县| 延边| 北碚区| 五大连池市| 密山市| 密云县| 唐河县| 台江县| 北票市| 安义县| 铅山县| 凭祥市| 安丘市| 得荣县| 北碚区| 巴东县| 璧山县| 安仁县| 北宁市| 宝坻区| 德江县| 龙山县| 抚顺县| 县级市| 广丰县| 棋牌| 鱼台县| 黔西| 水城县| 神池县| 林州市| 南溪县| 民权县| 东台市| 盱眙县|