国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館個性化信息推薦系統(tǒng)

2013-09-23 01:27:42
圖書館學(xué)刊 2013年4期
關(guān)鍵詞:項集數(shù)據(jù)挖掘關(guān)聯(lián)

付 兵

(湛江師范學(xué)院基礎(chǔ)教育學(xué)院圖書館,廣東 湛江 524037)

數(shù)字圖書館就是數(shù)字化的信息資源庫[1],其主要功能是為用戶提供信息服務(wù)。隨著Internet技術(shù)及信息技術(shù)的快速發(fā)展,信息資源內(nèi)容豐富、形式多樣,但質(zhì)量卻良莠不齊,信息的“爆炸”式增長使得信息的利用率反而降低,出現(xiàn)“信息超載”現(xiàn)象。如何從浩如煙海的信息海洋中快速找到自己所需的優(yōu)質(zhì)信息資源,是廣大信息用戶面臨的主要難題。隨著Lib2.0技術(shù)的出現(xiàn)和應(yīng)用,個性化信息推薦服務(wù)逐漸成為數(shù)字圖書館新型服務(wù)模式的主流,其改變了傳統(tǒng)圖書館的被動服務(wù)方式,能根據(jù)用戶的興趣愛好主動為其推薦信息,從而提高了數(shù)字圖書館信息服務(wù)的質(zhì)量。個性化推薦系統(tǒng)的主要算法有基于內(nèi)容的推薦、基于協(xié)同過濾的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于用戶統(tǒng)計信息的推薦、基于知識的推薦等[2],個性化推薦在圖書館的研究應(yīng)用主要是針對圖書的推薦,因此筆者設(shè)計了一個基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書館個性化信息推薦系統(tǒng)。

1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術(shù)之一[3]。所謂關(guān)聯(lián)規(guī)則,就是尋找描述數(shù)據(jù)庫中數(shù)據(jù)項(屬性、變量)之間存在或潛在的相關(guān)性。利用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),可以找出大量數(shù)據(jù)之間未知的相互依賴關(guān)系[4]。由于關(guān)聯(lián)規(guī)則形式簡潔、易于解釋和理解并能有效捕捉數(shù)據(jù)間的重要關(guān)系,因此從大型數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則已成為近年來數(shù)據(jù)挖掘領(lǐng)域的一個熱點。目前關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于電子商務(wù)、人工智能、信息檢索、統(tǒng)計學(xué)、數(shù)據(jù)庫等眾多領(lǐng)域,并取得了一定的研究成果。

1.1 關(guān)聯(lián)規(guī)則的有關(guān)概念[5]

設(shè)I={i1,i2,…,im}是事務(wù)數(shù)據(jù)庫D中數(shù)據(jù)項的集合,則I稱為項集。含有k個數(shù)據(jù)項的項集稱為k-項集。事務(wù)T是項集I中的一些元素組成的集合,即T?I,在關(guān)系數(shù)據(jù)庫中相當(dāng)于記錄。事務(wù)數(shù)據(jù)庫D是所有事務(wù)T的集合。關(guān)聯(lián)規(guī)則是形如 A?B 的蘊含式,其中,A?I,B?I,并且 A∩B=?。若規(guī)則A?B在事務(wù)集D中成立,則具有支持度(support)s和置信度(confidence)c,其中s是D中事務(wù)包含A∪B(即A和B二者)的百分比,c是D中包含A的事務(wù)同時也包含B的百分比。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強規(guī)則,這些閾值可以由用戶或者專家設(shè)定。項集的出現(xiàn)頻率是包含項集的事務(wù)數(shù),如果項集的出現(xiàn)頻率大于或等于min_sup與D中事務(wù)總數(shù)的乘積,則稱項集滿足最小支持度min_sup。如果項集滿足最小支持度,則稱它為頻繁項集。頻繁k-項集的集合通常記作Lk。

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘可分為兩個步驟:第一步,找出數(shù)據(jù)庫中支持度大于最小支持閾值的所有頻繁項集;第二步,由這些頻繁項集中產(chǎn)生滿足最小置信度的強關(guān)聯(lián)規(guī)則。從兩個步驟中尋找所有頻繁項集是關(guān)鍵問題,它決定著關(guān)聯(lián)規(guī)則的整體性能。尋找頻繁項集的算法很多,下面我們介紹由Agrawa和Srikant提出的Apriori算法。

1.2 Apriori算法

Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項集的算法,它的主要思想是利用逐層搜索的迭代方法,來尋找數(shù)據(jù)庫中的頻繁項集。算法描述如下:

算法 1(Apriori)[5]:使用逐層迭代找出頻繁項集

輸入:事務(wù)數(shù)據(jù)庫D;最小支持閾值min_sup。

輸出:D中的頻繁項集L。

方法:

①L1=find_frequent_1_itemsets(D);//找出頻繁 1-項集的集合L1;

②for(k=2;Lk-1≠?;k++){;

③Ck=apriori-gen(Lk-1,min_sup);//用 Lk-1產(chǎn)生候選 Ck;

④for each transition t∈D{//找出事務(wù)中是候選的所有子集,并對每個這樣的候選累加計數(shù);

⑤Ct=Subset(Ck,t);

⑥for each candidate c∈Ct;

⑦c.count++;

⑧};

⑨Lk={c∈Ck|c.count>=min_sup};

⑩};

?return L={所有的 Lk}。

2 個性化信息推薦系統(tǒng)設(shè)計

2.1 設(shè)計思路

數(shù)字圖書館個性化信息推薦系統(tǒng)構(gòu)建的最終目的是能夠在實際中得以應(yīng)用,因此在設(shè)計時應(yīng)當(dāng)遵循易操作性、完整性、可更新性、可擴展性以及針對性的原則[6]。

首先,對數(shù)字圖書館中的各種信息資源數(shù)據(jù)庫進行分析,統(tǒng)計出信息資源的使用情況。同時,不同用戶群具有不同的特點和喜好,因此可以通過對信息資源的聚類分析,找到不同用戶群所需的信息資源,為個性化信息推薦提供參考。

其次,對用戶進行聚類分析。在數(shù)字圖書館的用戶中,由于專業(yè)背景、從事行業(yè)、興趣愛好等的不同,所需信息也不盡相同。因此,可以把具有相似專業(yè)背景、工作行業(yè)、興趣愛好等特點的用戶聚在一起,為同一類用戶推薦相似的信息。通過對用戶的聚類分析,可以了解用戶對數(shù)字圖書館信息資源的使用程度,為不同的用戶提供針對性的服務(wù)。

最后,分析信息資源之間的關(guān)聯(lián)性。例如,大多數(shù)對資源A感興趣的用戶對資源B也感興趣,當(dāng)用戶在使用資源A的時候,可以將資源B推薦給他。也可以根據(jù)用戶的信息資源使用情況,將相關(guān)的資源推薦給用戶。

2.2 系統(tǒng)結(jié)構(gòu)

個性化信息推薦系統(tǒng)主要包含3個層次,即數(shù)據(jù)存儲層、數(shù)據(jù)挖掘?qū)雍陀脩艚缑鎸?,如圖1。

圖1 個性化信息推薦系統(tǒng)結(jié)構(gòu)

2.2.1 數(shù)據(jù)存儲層

數(shù)據(jù)庫是數(shù)據(jù)挖掘的基礎(chǔ),數(shù)據(jù)存儲層就是數(shù)字圖書館的各種數(shù)據(jù)庫,包括資源數(shù)據(jù)庫(館藏書目數(shù)據(jù)庫、電子資源數(shù)據(jù)庫)、用戶數(shù)據(jù)庫等。

2.2.2 數(shù)據(jù)挖掘?qū)?/p>

數(shù)據(jù)挖掘?qū)邮莻€性化信息推薦系統(tǒng)的核心,主要是對數(shù)據(jù)進行處理,利用數(shù)據(jù)挖掘技術(shù)對信息資源和用戶信息進行采集和挖掘,對挖掘結(jié)果歸納分析后,針對不同用戶推薦其感興趣的信息。該層的主要功能模塊包括數(shù)據(jù)采集模塊、數(shù)據(jù)挖掘模塊以及信息推薦模塊。

2.2.3 用戶界面層

用戶界面層主要提供系統(tǒng)和用戶之間交流的平臺界面,是個性化信息推薦系統(tǒng)的輸入輸出層。用戶可通過該界面進行注冊、登錄,輸入各種個人信息、個性化信息要求、評價反饋信息等;系統(tǒng)可通過此界面展示數(shù)字圖書館信息資源,向用戶輸出個性化信息推薦結(jié)果。

2.3 系統(tǒng)功能模塊

2.3.1 數(shù)據(jù)采集模塊

該模塊包含信息資源采集模塊和用戶信息采集模塊。信息資源采集模塊從數(shù)字圖書館信息資源數(shù)據(jù)庫中獲取資源數(shù)據(jù),為用戶提供各種信息資源的詳細信息(如資源的題名、作者、來源等)。用戶信息采集模塊收集用戶個人注冊以及興趣愛好等信息,并將用戶的歷史使用行為記錄、評價反饋等錄入用戶信息數(shù)據(jù)庫。

2.3.2 數(shù)據(jù)挖掘模塊

此模塊對信息資源和用戶信息進行挖掘,找出強關(guān)聯(lián)規(guī)則,建立規(guī)則庫,并對用戶進行聚類分析(可根據(jù)用戶所學(xué)專業(yè)、從事職業(yè)等聚類),找到各類用戶群。由于需要處理的數(shù)據(jù)量很大,非常耗時,所以該模塊主要是采用離線處理的工作模式。離線處理不會影響推薦結(jié)果,因為強關(guān)聯(lián)規(guī)則結(jié)果是通過對大量的用戶歷史記錄進行挖掘的結(jié)果,在一定的時間段內(nèi)新增的數(shù)據(jù)量相對較少,對挖掘結(jié)果的影響是很小的,等達到了一定的時間,并積累了一定量的新記錄后,再重新加入數(shù)據(jù)進行挖掘計算,定時更新,所以關(guān)聯(lián)規(guī)則的離線發(fā)現(xiàn)是科學(xué)合理的。離線數(shù)據(jù)挖掘的工作流程是:首先把挖掘所需的所有存儲在數(shù)據(jù)庫中的用戶歷史使用行為記錄導(dǎo)出;其次把導(dǎo)出的原始數(shù)據(jù)按照挖掘規(guī)則刪除各種噪聲數(shù)據(jù)、空值數(shù)據(jù)以及不需要的數(shù)據(jù),合并同類數(shù)據(jù);最后將清理過的數(shù)據(jù)進行聚類和關(guān)聯(lián)規(guī)則挖掘,將挖掘結(jié)果進行結(jié)構(gòu)化存儲,寫入規(guī)則數(shù)據(jù)庫,以供推薦使用。

2.3.3 信息推薦模塊

通過用戶登錄獲取其專業(yè)背景、興趣愛好、歷史使用行為以及正在瀏覽的信息,將這些信息與規(guī)則數(shù)據(jù)庫中的規(guī)則進行匹配,最終得到針對性很強的推薦結(jié)果,并將結(jié)果推薦給用戶。

3 個性化信息推薦過程

3.1 獲取信息

系統(tǒng)通過顯式和隱式兩種方式獲取用戶信息。對用戶的基本信息,如性別、年齡、學(xué)歷、專業(yè)、職業(yè)、興趣愛好等,采用顯式方式獲取,在用戶注冊時,要求用戶填寫。用戶的歷史瀏覽、借閱、下載、評價反饋等信息,系統(tǒng)隱式地記錄下來。系統(tǒng)將對獲取的用戶信息進行加工處理,提取用戶個體特征描述詞,動態(tài)地更新到用戶信息數(shù)據(jù)庫中。用戶信息的準(zhǔn)確性和完整性將直接影響到信息推薦結(jié)果的質(zhì)量。

3.2 匹配信息

用戶登錄系統(tǒng)后,系統(tǒng)將描述用戶的特征詞與規(guī)則數(shù)據(jù)庫中的規(guī)則進行匹配,將符合用戶個性化信息需求的信息資源檢索出來,并按照匹配度降序排列,將“TOP-N”個資源作為推薦結(jié)果。

3.3 推薦信息

系統(tǒng)可以通過網(wǎng)上實時推薦、電子郵件或手機短信等友好的方式,將推薦結(jié)果主動推送給用戶。用戶可以對推薦結(jié)果提出評價意見,系統(tǒng)根據(jù)用戶反饋的意見調(diào)整推薦結(jié)果,以更好地滿足用戶的個性化信息需求。

4 結(jié)語

個性化信息推薦系統(tǒng)涉及數(shù)據(jù)獲取、數(shù)據(jù)處理、算法選擇、參數(shù)優(yōu)化、反饋信息收集、效果測試和改進等,不僅僅是一個或幾個推薦服務(wù)新的功能開發(fā),還需要長期維護和改進,需要專業(yè)的團隊和持續(xù)的投入才能完成[7]。筆者采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),對數(shù)字圖書館的信息資源和用戶數(shù)據(jù)進行挖掘,并以此設(shè)計了個性化信息推薦系統(tǒng)。圖書館利用此系統(tǒng),可以有效獲取用戶的個性化信息需求,變被動服務(wù)為主動推送服務(wù),最大限度地提高信息資源的利用率。另外,數(shù)據(jù)挖掘結(jié)果還可為圖書館建立科學(xué)、合理的館藏資源結(jié)構(gòu)提供重要的參考依據(jù)。

[1] 徐文伯.關(guān)于數(shù)字圖書館的幾點認識[J].情報資料工作,2001(3):16-17.

[2]劉飛飛.基于多目標(biāo)優(yōu)化雙聚類的數(shù)字圖書館協(xié)同過濾推薦系統(tǒng)[J].圖書情報工作,2011(7):111-113.

[3]Mehmed Kantardzic;閃四清,等譯.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003.

[4] 蔡會霞,朱潔,蔡瑞英.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在高校圖書館系統(tǒng)中的應(yīng)用[J].南京工業(yè)大學(xué)學(xué)報,2005(1):85-88.

[5]JiaweiHan,Micheline Kamber;范明,等譯.數(shù)據(jù)挖掘——概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.

[6] 楊靜.電子商務(wù)中個性化推薦模型的研究[D].天津:天津師范大學(xué),2006.

[7] gary.推薦系統(tǒng)五大問題[EB/OL].[2012-10-26].http://www.resyschina.com/2010/03/five_problems_of_resys.html.

猜你喜歡
項集數(shù)據(jù)挖掘關(guān)聯(lián)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
“一帶一路”遞進,關(guān)聯(lián)民生更緊
奇趣搭配
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
基于GPGPU的離散數(shù)據(jù)挖掘研究
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
景宁| 盐山县| 安顺市| 晋江市| 白河县| 乳山市| 南平市| 确山县| 桦甸市| 伊宁县| 张家界市| 太湖县| 塔河县| 家居| 永安市| 巫溪县| 万州区| 银川市| 万年县| 大渡口区| 荆门市| 大埔县| 榕江县| 鹤山市| 库车县| 峨边| 准格尔旗| 融水| 宁强县| 道孚县| 应城市| 东台市| 临西县| 台南市| 永丰县| 延吉市| 长春市| 驻马店市| 巴东县| 吴川市| 永福县|