国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)雜網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)挖掘用戶興趣的方法

2016-02-23 12:12:00張興蘭
關(guān)鍵詞:日志聚類神經(jīng)網(wǎng)絡(luò)

張興蘭,劉 煬

(北京工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100124)

基于復(fù)雜網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)挖掘用戶興趣的方法

張興蘭,劉 煬

(北京工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100124)

按照用戶的興趣提供個(gè)性化服務(wù)是提高企業(yè)商業(yè)價(jià)值最有效的方案。針對(duì)目前從用戶行為中挖掘用戶興趣方法的不足,提出一種依據(jù)用戶使用軟件的時(shí)間序列構(gòu)建復(fù)雜網(wǎng)絡(luò)及依據(jù)神經(jīng)網(wǎng)絡(luò)聚類挖掘用戶興趣軟件的方法。在計(jì)算用戶對(duì)于軟件的興趣度時(shí),綜合考慮用戶使用軟件的時(shí)長以及復(fù)雜網(wǎng)絡(luò)中相鄰節(jié)點(diǎn)的貢獻(xiàn)度,包括節(jié)點(diǎn)的度、節(jié)點(diǎn)介數(shù)、聚集系數(shù)來判斷節(jié)點(diǎn)的重要性,挖掘用戶對(duì)于軟件的興趣度,形成軟件興趣社區(qū)。再利用神經(jīng)網(wǎng)絡(luò)算法對(duì)用戶興趣社區(qū)中的軟件進(jìn)行聚類,形成用戶的興趣軟件集。實(shí)驗(yàn)結(jié)果表明,該方法能夠較準(zhǔn)確地挖掘用戶感興趣的軟件集,并且在精確率和召回率上較其他方法有一定的提高。

用戶行為;興趣挖掘;復(fù)雜網(wǎng)絡(luò);word2vec

0 引 言

近年來,機(jī)器學(xué)習(xí)領(lǐng)域吸引了越來越多的關(guān)注和研究。隨著信息科技的進(jìn)步、人類行為學(xué)的發(fā)展,國內(nèi)外的研究學(xué)者已經(jīng)將用戶行為分析挖掘的理論進(jìn)行了實(shí)踐研究,并逐步轉(zhuǎn)入商業(yè)應(yīng)用的階段,取得了良好成效。大量的研究表明,根據(jù)用戶行為日志挖掘用戶興趣具有一定的研究意義和應(yīng)用價(jià)值。其中,F(xiàn)ord等[1]采用AprioriAll序列規(guī)則挖掘算法對(duì)用戶訪問站點(diǎn)的日志進(jìn)行研究分析,獲取用戶的訪問興趣,并根據(jù)用戶的興趣設(shè)置廣告投放,提高了網(wǎng)站的商業(yè)價(jià)值,但是AprioriAll算法只適用于挖掘用戶感興趣的關(guān)聯(lián)序列,不適用于挖掘用戶興趣的排列順序。李建廷等[2]提出了基于用戶瀏覽動(dòng)作分析用戶興趣度的計(jì)算方法,充分考慮了用戶訪問次數(shù)、訪問動(dòng)作、訪問速度三種訪問模式下的用戶興趣度的計(jì)算方式,并利用BP神經(jīng)網(wǎng)絡(luò)將這三種模式下的用戶興趣度進(jìn)行融合,取得了良好的實(shí)驗(yàn)效果。這對(duì)用神經(jīng)網(wǎng)絡(luò)算法研究用戶興趣度的融合以及聚類提供了幫助,但是BP神經(jīng)網(wǎng)絡(luò)對(duì)于網(wǎng)絡(luò)的初始權(quán)重十分敏感,不同的初始化值往往會(huì)造成不同的訓(xùn)練結(jié)果,這很容易造成偏差。王微微等[3]提出了一種基于用戶行為日志挖掘用戶興趣的模型,結(jié)合用戶的瀏覽內(nèi)容和行為模式建立用戶興趣向量,再根據(jù)期望最大化的計(jì)算方法實(shí)現(xiàn)用戶聚類,建立最終的用戶興趣模型。該模型雖然可以識(shí)別用戶的購買興趣,卻沒有充分考慮用戶行為之間的順序,即行為的時(shí)間序列關(guān)系。王梓等[4]提出了一種基于復(fù)合關(guān)鍵詞向量空間的方法,最大限度地將用戶感興趣的關(guān)鍵詞建立關(guān)聯(lián)關(guān)系,但其選用的關(guān)鍵詞是基于產(chǎn)品屬性的,其方法不具有普遍適用性。

復(fù)雜網(wǎng)絡(luò)技術(shù)是大數(shù)據(jù)處理技術(shù)的一種,是從復(fù)雜性科學(xué)角度出發(fā),探索隱藏在大數(shù)據(jù)中真正的數(shù)據(jù)價(jià)值。復(fù)雜網(wǎng)絡(luò)主要是依靠一切事務(wù)都具有相互作用的表現(xiàn)(例如WWW中網(wǎng)頁之間的鏈接關(guān)系、文章之間的引用關(guān)系和超市中啤酒尿布的關(guān)聯(lián)關(guān)系),利用網(wǎng)絡(luò)的視角建立數(shù)據(jù)模型,挖掘數(shù)據(jù)規(guī)則,并通過復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,形成網(wǎng)絡(luò)節(jié)點(diǎn)的重要性序列。聚類是數(shù)據(jù)挖掘中的一個(gè)重要組成部分,是通過度量樣本間的相似性,發(fā)現(xiàn)隱藏在底層的關(guān)聯(lián)性數(shù)據(jù)的又一種常見方法。

為了從用戶使用軟件的行為日志中獲取用戶感興趣的軟件,應(yīng)用復(fù)雜網(wǎng)絡(luò)中的理論知識(shí)以及神經(jīng)網(wǎng)絡(luò)聚類的方法,先形成用戶的興趣軟件集,然后再應(yīng)用神經(jīng)網(wǎng)絡(luò)算法對(duì)興趣軟件集中的軟件進(jìn)行聚類,計(jì)算用戶的興趣軟件集。

1 用戶行為日志預(yù)處理

現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整、不一致的臟數(shù)據(jù),無法直接將數(shù)據(jù)應(yīng)用到系統(tǒng)統(tǒng)計(jì)中,或者應(yīng)用效果差強(qiáng)人意。文中的用戶行為日志亦是如此,在用戶行為日志的采集、打包、發(fā)送的過程中,可能會(huì)發(fā)生結(jié)構(gòu)異常的現(xiàn)象甚至是數(shù)據(jù)丟失的情況。為了提高數(shù)據(jù)質(zhì)量,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。文中行為日志的預(yù)處理主要是清洗噪聲數(shù)據(jù),包括兩方面的工作:

(1)刪除異常行為:在用戶行為日志中,存在某些行為數(shù)據(jù)結(jié)構(gòu)異常,如數(shù)據(jù)中沒有用戶的ID或者沒有軟件名稱,此類數(shù)據(jù)不具有分析價(jià)值,在清洗過程中進(jìn)行刪除。

(2)補(bǔ)全缺失行為:在用戶行為日志中,某些用戶行為日志的數(shù)據(jù)并不完善甚至是行為不匹配,如只有軟件打開的行為沒有軟件關(guān)閉的行為,或者沒有用戶的開關(guān)機(jī)行為卻存在軟件使用的行為。因此首先需要對(duì)缺失行為進(jìn)行補(bǔ)全,行為的缺失類型主要包括無頭無尾型、有頭無尾型、無頭有尾型。

無頭無尾的缺失存在于沒有用戶開關(guān)機(jī)行為卻存在該用戶軟件使用行為的數(shù)據(jù)中。對(duì)于此類數(shù)據(jù),將該用戶的開機(jī)行為用該用戶最早的軟件使用行為補(bǔ)全,關(guān)機(jī)行為用該用戶當(dāng)日最后一個(gè)軟件關(guān)閉行為補(bǔ)全,將所有行為確定為在同一個(gè)開關(guān)機(jī)會(huì)話中發(fā)生的。有頭無尾、無頭有尾的缺失存在于連續(xù)收集到用戶兩次開機(jī)的行為而沒有關(guān)機(jī)行為的數(shù)據(jù)中。這種缺失類型使用補(bǔ)中間值的方法,用兩頭數(shù)據(jù)的中間值進(jìn)行補(bǔ)全,誤差較小。若兩頭無數(shù)據(jù)時(shí),使用相關(guān)的整數(shù)值進(jìn)行補(bǔ)全。噪聲數(shù)據(jù)的處理流程如圖1所示。

圖1 噪聲數(shù)據(jù)的處理流程

2 構(gòu)建復(fù)雜網(wǎng)絡(luò)模型

(1)

weight(vi,vj)=Ti*strength(vi,vj)

(2)

其中,strength(vi,vj)(i,j為整數(shù)且0≤i的權(quán)重;Ti表示軟件節(jié)點(diǎn)vi的使用時(shí)長。

3 節(jié)點(diǎn)重要性統(tǒng)計(jì)特性

在該方法的用戶行為日志中,用戶使用軟件的時(shí)長在一定程度上能夠反映軟件的重要性,只需要將復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性進(jìn)行修正即可。根據(jù)傳播動(dòng)力學(xué)的知識(shí)衡量網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,將網(wǎng)絡(luò)中的節(jié)點(diǎn)作為傳播源,通過計(jì)算目標(biāo)節(jié)點(diǎn)的傳播范圍來衡量節(jié)點(diǎn)在傳播過程中的影響力以及號(hào)召力。在一個(gè)網(wǎng)絡(luò)中,節(jié)點(diǎn)刪除前后網(wǎng)絡(luò)圖聯(lián)通性的變化能夠充分說明該節(jié)點(diǎn)是否有足夠的能力破壞網(wǎng)絡(luò),體現(xiàn)節(jié)點(diǎn)的重要性。所以綜合考慮復(fù)雜網(wǎng)絡(luò)特性[6]、實(shí)用性以及行為數(shù)據(jù)本身的概率特性,選取節(jié)點(diǎn)聚集系數(shù)[7]、節(jié)點(diǎn)介數(shù)[8]和節(jié)點(diǎn)度數(shù)[9]作為評(píng)價(jià)節(jié)點(diǎn)重要性[10]的指標(biāo)特性。

3.1 節(jié)點(diǎn)聚集系數(shù)

節(jié)點(diǎn)Vi的聚集系數(shù)是與該節(jié)點(diǎn)相鄰的節(jié)點(diǎn)之間的連接數(shù)和它們之間所有可能存在的連接數(shù)的比值,表示所有相鄰節(jié)點(diǎn)形成一個(gè)小團(tuán)簇的緊密程度。節(jié)點(diǎn)的聚集系數(shù)為:

(3)

3.2 節(jié)點(diǎn)介數(shù)

節(jié)點(diǎn)Vi的介數(shù)是任意兩個(gè)節(jié)點(diǎn)的最短路徑中經(jīng)過節(jié)點(diǎn)Vi的路徑數(shù)與最短路徑的總數(shù)形成的比值,反映該節(jié)點(diǎn)在網(wǎng)絡(luò)中的影響力,計(jì)算公式為:

(4)

其中,nd(ij)表示Vi和Vj間最短路徑的數(shù)目;nd(ijk)表示Vi和Vj經(jīng)過Vk的最短路徑的數(shù)目。

3.3 節(jié)點(diǎn)度數(shù)

節(jié)點(diǎn)的度數(shù)表示與該節(jié)點(diǎn)相連接的邊的個(gè)數(shù),度的大小直接反映了該節(jié)點(diǎn)對(duì)于復(fù)雜網(wǎng)絡(luò)中其他節(jié)點(diǎn)的影響力,計(jì)算公式為:

(5)

(6)

gi=clu(vi)+bet(vi)+gre(vi)

(7)

其中,gi表示復(fù)雜網(wǎng)絡(luò)G中節(jié)點(diǎn)vi的重要性系數(shù)的綜合值;clu(vi)表示節(jié)點(diǎn)vi的聚集系數(shù);bet(vi)表示節(jié)點(diǎn)vi的介數(shù);gre(vi)表示節(jié)點(diǎn)vi的度;Ti表示節(jié)點(diǎn)vi的使用時(shí)長;β表示指標(biāo)調(diào)參(經(jīng)過實(shí)驗(yàn),β取0.6效果較好)。

綜上所述,式(7)是綜合軟件的時(shí)長特性和節(jié)點(diǎn)在復(fù)雜網(wǎng)絡(luò)中的重要性的綜合性指標(biāo),是多個(gè)判定指標(biāo)標(biāo)準(zhǔn)化處理后再合并的結(jié)果,成為評(píng)判軟件重要性的綜合指標(biāo)。

4 神經(jīng)網(wǎng)絡(luò)聚類

CBOW和Skip-gram模型是基于問答模式計(jì)算詞向量的,一個(gè)問題出現(xiàn)某種答案的現(xiàn)象,也能夠表示成一個(gè)問題與某種答案構(gòu)成共現(xiàn)關(guān)系的現(xiàn)象。該方法使用word2vec工具[11-13]融合CBOW模型和Skip-gram模型,將軟件看成詞項(xiàng),基于前期工作中網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的共現(xiàn)關(guān)系、日志中軟件的使用順序構(gòu)成的序列上下文形式,計(jì)算各個(gè)軟件的詞向量,然后根據(jù)向量余弦距離計(jì)算軟件相似性,在該方法中取距離最近的軟件形成聚類。其中,余弦距離公式為:

(8)

5 實(shí)驗(yàn)分析

為了驗(yàn)證該方法對(duì)用戶興趣軟件的挖掘效果,收集了1 000名測(cè)試用戶在15天之內(nèi)(2015年8月5日-2015年8月19日)使用電腦軟件的行為日志,并人工采集用戶選定的興趣軟件與最終的實(shí)驗(yàn)結(jié)果進(jìn)行比對(duì)。采用精確度P、召回率R、F1值對(duì)結(jié)果進(jìn)行評(píng)測(cè),其中精確度表明算法挖掘的準(zhǔn)確性,召回率表明算法挖掘的覆蓋性,F(xiàn)1值是對(duì)精確度和召回率兩個(gè)指標(biāo)的綜合評(píng)估率的說明,計(jì)算公式為:

(9)

(10)

(11)

其中,Nminingright表示算法挖掘出用戶興趣中正確興趣的數(shù)量;Nmining表示算法挖掘用戶興趣的總數(shù);Nsample表示用戶標(biāo)注的興趣總數(shù)。

將該方法與基于關(guān)鍵詞提取用戶興趣模型的算法[14](TextRank)進(jìn)行比對(duì),結(jié)果表明該方法在精確度、召回率、F1值上都有所提高。算法平均值結(jié)果對(duì)比如表1所示。

表1 算法平均值結(jié)果對(duì)比

6 結(jié)束語

文中利用復(fù)雜網(wǎng)絡(luò)對(duì)用戶使用電腦軟件的行為日志進(jìn)行分析建模,并依據(jù)復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)的統(tǒng)計(jì)特性計(jì)算軟件對(duì)于用戶的重要性,獲取用戶感興趣的軟件,再利用神經(jīng)網(wǎng)絡(luò)聚類對(duì)獲取的用戶興趣軟件進(jìn)行聚類,形成最終的用戶興趣軟件集。文中是復(fù)雜網(wǎng)絡(luò)建模與神經(jīng)網(wǎng)絡(luò)聚類相結(jié)合獲取用戶興趣的方法,與其他算法相比,在準(zhǔn)確率和召回率上都有一定程度的提高。但是在計(jì)算用戶興趣軟件時(shí),是根據(jù)用戶使用軟件的時(shí)間序列信息形成的軟件詞向量,并依據(jù)向量的距離形成聚類,沒有考慮軟件類型之間的聯(lián)系,而軟件的類型往往也是判斷軟件相似性的一方面,這是文中方法的不足之處。同時(shí)如何根據(jù)軟件使用的時(shí)間序列信息以及軟件的類型形成軟件聚類,也將是下一步的研究工作。

[1]GaolFL.Exploringthepatternofhabitsofusersusingweblogsquentialpattern[C]//2010secondinternationalconferenceonadvancesincomputing,control,andtelecommunicationtechnologies.[s.l.]:IEEEComputerSociety,2010:161-163.

[2] 李建廷,郭 曄,湯志軍.基于用戶瀏覽行為分析的用戶興趣度計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(3):968-972.

[3] 王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.

[4] 王 梓,高金萍,陳 釗.基于復(fù)合關(guān)鍵詞向量空間的林產(chǎn)品貿(mào)易網(wǎng)站用戶興趣模型[J].計(jì)算機(jī)工程與科學(xué),2013,35(5):154-160.

[5]FerrerICR,SoléRV.Thesmallworldofhumanlanguage[J].ProceedingsoftheRoyalSocietyBBiologicalSciences,2001,268(1482):2261-2266.

[6] 陳彥萍,張冠男.基于復(fù)雜網(wǎng)絡(luò)的軟件方法重要性評(píng)估指標(biāo)[J].計(jì)算機(jī)應(yīng)用研究,2016,33(5):1395-1398.

[7] 張 睿.基于點(diǎn)聚集系數(shù)和邊聚集系數(shù)的社區(qū)發(fā)現(xiàn)算法[D].昆明:云南大學(xué),2013.

[8] 熊金石,李建華,沈 迪,等.基于邊介數(shù)的信息系統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)重要性評(píng)估方法[J].科技導(dǎo)報(bào),2013,31(14):53-55.

[9] 任卓明,邵 鳳,劉建國,等.基于度與集聚系數(shù)的網(wǎng)絡(luò)節(jié)點(diǎn)重要性度量方法研究[J].物理學(xué)報(bào),2013(12):522-526.

[10] 劉 通.基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J].計(jì)算機(jī)應(yīng)用研究,2016,33(2):365-369.

[11]MikolovT,SutskeverI,ChenK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[J].AdvancesinNeuralInformationProcessingSystems,2013,26:3111-3119.

[12]GoldbergY,LevyO.word2vecExplained:derivingMikolovetal.'snegative-samplingword-embeddingmethod[DB/OL].2014.arXivpreprintarXiv:1402.3722,2014.

[13]XinRong.Word2vecparameterlearningexplained[DB/OL].2014.arXivpreprintarXiv:1411.2738,2014.

[14] 段 準(zhǔn),劉功申.基于TextRank的用戶模板構(gòu)建方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(10):1-6.

Method of Mining User Interest Based on Complex Network and Neural Network

ZHANG Xing-lan,LIU Yang

(College of Computer Science,Beijing University of Technology,Beijing 100124,China)

Providing personalized service according to the user’s interest is the most effective solution to improve the commercial value.Aiming at the problem of mining user’s interest method from user behavior,a method of constructing complex network based on time series and neural network clustering is proposed,which is based on the user’s software.In the calculation of user interest in software,the using time and adjacent nodes are considered including node degree,betweenness and clustering coefficient to determine the node importance for mining user for the degree of interest for the software,forming of interest community.Then the neural network is used to cluster the software in the user interest community.The experiments show that this method can be more accurate than other methods to mine the user’s interest,and the accuracy rate and recall rate of the algorithm is improved.

user behavior;interest mining;complex network;word2vec

2016-02-04

2016-05-11

時(shí)間:2016-11-22

北京市教育科研項(xiàng)目(PXM2015_014204_500251)

張興蘭(1970-),女,教授,研究方向?yàn)槊艽a協(xié)議形式化方法和可信計(jì)算;劉 煬(1990-),女,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘、信息安全。

http://www.cnki.net/kcms/detail/61.1450.TP.20161122.1227.004.html

TP31

A

1673-629X(2016)12-0022-04

10.3969/j.issn.1673-629X.2016.12.005

猜你喜歡
日志聚類神經(jīng)網(wǎng)絡(luò)
一名老黨員的工作日志
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于DBSACN聚類算法的XML文檔聚類
游學(xué)日志
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
基于改進(jìn)的遺傳算法的模糊聚類算法
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
深水埗区| 赞皇县| 泰州市| 星座| 南康市| 陈巴尔虎旗| 当阳市| 鹿邑县| 喀喇沁旗| 合山市| 丹东市| 湘阴县| 罗定市| 札达县| 邵武市| 青海省| 凌源市| 横峰县| 竹山县| 綦江县| 江川县| 临泽县| 北海市| 永嘉县| 朝阳区| 西充县| 娱乐| 新乡县| 文安县| 阳江市| 虹口区| 汉阴县| 原阳县| 葵青区| 金寨县| 纳雍县| 岑溪市| 梧州市| 威信县| 平凉市| 平乐县|