国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法的用戶興趣挖掘

2016-10-28 16:09李珊邵蘭潔孫麗云
計(jì)算機(jī)時(shí)代 2016年9期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則置信度數(shù)據(jù)挖掘

李珊+邵蘭潔+孫麗云

DOI:10.16644/j.cnki.cn33-1094/tp.2016.09.020

摘 要: 研究發(fā)現(xiàn),傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法在用戶興趣挖掘的應(yīng)用中,摒棄置信度這個(gè)度量值。究其原因,在于網(wǎng)站結(jié)構(gòu)中置信度不能準(zhǔn)確度量用戶興趣。提出了一個(gè)可以替代傳統(tǒng)置信度的、在網(wǎng)站環(huán)境下能正確反映用戶興趣的確定性的度量值,并結(jié)合用戶的瀏覽速率進(jìn)行用戶興趣挖掘。對(duì)比實(shí)驗(yàn)結(jié)果表明,此方法挖掘用戶興趣的效果明顯。

關(guān)鍵詞: 關(guān)聯(lián)規(guī)則; 置信度; 數(shù)據(jù)挖掘; 用戶興趣挖掘

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2016)09-70-03

User interest mining with improved association rule mining algorithm

Li Shan, Shao Lanjie, Sun Liyun

(College of Information Science and Technology, Yanching Institute of Technology, Langfang, Hebei 065201, China)

Abstract: The study found that the traditional association rule mining algorithm in the application of user interest mining, gives up the metric of confidence. The reason lies in the confidence cannot accurately measure the user interest because of the structure of the website. This paper proposed a metric that can replace traditional confidence and can correctly reflect user interest in the website environment, and mining the user interest according to the user's browsing speed. The results of contrast experiment show that this method is effective in mining user interest.

Key words: association rules; confidence; data mining; user interest mining

0 引言

在“互聯(lián)網(wǎng)+”時(shí)代,驅(qū)動(dòng)社會(huì)變革的不僅是無(wú)所不在的網(wǎng)絡(luò),還有無(wú)所不在的計(jì)算、無(wú)所不在的數(shù)據(jù)和無(wú)所不在的知識(shí)。這些數(shù)據(jù)中蘊(yùn)含數(shù)據(jù)生產(chǎn)者真實(shí)意圖和喜好,是非傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù)。從中“提純”出有用的信息,對(duì)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)處理能力而言是巨大的挑戰(zhàn)。

關(guān)聯(lián)規(guī)則是一種重要的數(shù)據(jù)挖掘技術(shù),其中著名的Apriori算法是1994年由Agrawal等人提出的,至今仍然作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法被廣泛討論,并廣泛應(yīng)用于Web使用挖掘。但由于網(wǎng)站結(jié)構(gòu)的特殊性,用戶在瀏覽頁(yè)面時(shí),都是通過當(dāng)前頁(yè)面上的超鏈接來選擇下一頁(yè),因此,Apriori算法中的置信度不能準(zhǔn)確反映用戶的興趣。

本文針對(duì)置信度的不確定性和用戶瀏覽行為所包含的信息,提出選擇興趣度的定義和結(jié)合用戶的瀏覽速率進(jìn)行用戶興趣挖掘的方法。

1 傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法

關(guān)聯(lián)規(guī)則的挖掘應(yīng)用在事務(wù)數(shù)據(jù)庫(kù)D上,該數(shù)據(jù)庫(kù)中每個(gè)事務(wù)包含一組數(shù)據(jù)項(xiàng)。其挖掘目的是發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)和相關(guān)性,即事務(wù)中一組數(shù)據(jù)項(xiàng)的出現(xiàn)(在一定程度上)預(yù)示著其他數(shù)據(jù)項(xiàng)的出現(xiàn)[1]。在Web日志挖掘中,事務(wù)是用戶在一次對(duì)Web站點(diǎn)的訪問中所瀏覽的一組頁(yè)面的URL集合,相應(yīng)地,關(guān)聯(lián)規(guī)則的挖掘是為了發(fā)現(xiàn)用戶所訪問的Web頁(yè)面之間的相關(guān)性。

關(guān)聯(lián)規(guī)則挖掘算法-Apriori中的置信度是一個(gè)條件概率,表示D中事務(wù)已經(jīng)包含X的情況下,包含Y的百分比,也稱為可靠度,或置信水平、置信系數(shù)。在抽樣對(duì)總體參數(shù)做出估計(jì)時(shí),由于樣本的隨機(jī)性,其結(jié)論總是不確定的。由于網(wǎng)站結(jié)構(gòu)的特殊性,置信度不能準(zhǔn)確挖掘出用戶興趣。

ICV比IL更能準(zhǔn)確的體現(xiàn)用戶興趣,與用戶的實(shí)際評(píng)價(jià)基本相符。由此可知,用戶的興趣與用戶的行為密切相關(guān),單純考慮日志記錄不能準(zhǔn)確表示用戶的真實(shí)興趣。

5 結(jié)論

針對(duì)關(guān)聯(lián)規(guī)則挖掘算法的研究大多是針對(duì)算法效率和規(guī)則的應(yīng)用,本文提出了對(duì)生成關(guān)聯(lián)規(guī)則所用參數(shù)的質(zhì)疑,并通過實(shí)驗(yàn)證明選擇興趣度能準(zhǔn)確的捕捉到用戶的興趣。Web日志中的數(shù)據(jù)雖然能表現(xiàn)用戶的興趣,但不夠準(zhǔn)確。用戶的行為從一定程度上更能體現(xiàn)用戶興趣,因此通過實(shí)驗(yàn)證明兩者結(jié)合挖掘用戶興趣,效果明顯。進(jìn)一步研究數(shù)據(jù)的收集機(jī)制與技術(shù)開發(fā),既能有效進(jìn)行用戶識(shí)別,又能保護(hù)用戶個(gè)人隱私。把心理學(xué)對(duì)興趣的研究成果引入到Web數(shù)據(jù)挖掘中,與網(wǎng)頁(yè)的內(nèi)容信息、結(jié)構(gòu)信息相結(jié)合。

參考文獻(xiàn)(References):

[1] 王平水.關(guān)聯(lián)規(guī)則挖掘算法研究[J].計(jì)算機(jī)工程與應(yīng)用,

2010.30:119-120

[2] 曾麗芳,朱征宇,陳燁.基于Web日志和網(wǎng)頁(yè)特征內(nèi)容的用戶

興趣度計(jì)算[J].微處理機(jī),2010.31(4):86-90

[3] 單蓉.一種基于用戶瀏覽行為更新的興趣模型[J].電子設(shè)計(jì)

工程,2010.18(4):61-62

[4] 李珊,云彩霞,白彥霞,張秋菊,李麗芬.應(yīng)用模糊集理論的多

因素興趣度評(píng)價(jià)[J].計(jì)算機(jī)工程與應(yīng)用,2009.8:136-138

[5] 李建廷,郭曄,湯志軍.基于用戶瀏覽行為分析的用戶興趣度

計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2012.33(3):968-972

[6] 許波,張結(jié)魁,周軍.基于行為分析的用戶興趣建模[J].情報(bào)學(xué)

報(bào),2009.18(5):166-169

[7] 周智.基于瀏覽行為量化計(jì)算的用戶興趣網(wǎng)頁(yè)分析[D].重慶

大學(xué)碩士學(xué)位論文,2009.

猜你喜歡
關(guān)聯(lián)規(guī)則置信度數(shù)據(jù)挖掘
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
置信度條件下軸承壽命的可靠度分析
基于GPGPU的離散數(shù)據(jù)挖掘研究
多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
堆龙德庆县| 麦盖提县| 德惠市| 西宁市| 香港| 姚安县| 扶绥县| 姜堰市| 昭平县| 柏乡县| 宣恩县| 白银市| 青冈县| 旺苍县| 永宁县| 新和县| 山丹县| 永胜县| 萨嘎县| 西和县| 武定县| 小金县| 合山市| 龙岩市| 枣庄市| 荃湾区| 蒲江县| 双鸭山市| 迁西县| 桃江县| 嘉义市| 内黄县| 林州市| 咸阳市| 清水河县| 延安市| 中西区| 黄骅市| 平罗县| 西充县| 洛扎县|