国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談如何做好建設(shè)工程檔案編研工作

2016-05-30 09:58:40李娜
卷宗 2016年4期
關(guān)鍵詞:Apriori算法關(guān)聯(lián)分析數(shù)據(jù)挖掘

李娜

摘 要:介紹了關(guān)聯(lián)規(guī)則,應(yīng)用Apriori算法對圖書館讀者借閱記錄進(jìn)行分析,發(fā)掘存在其中的關(guān)聯(lián)規(guī)則,在圖書館提供的個性化服務(wù)中具有很大的價值。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;Apriori算法

緊跟著教育體制的不斷改革深化的步伐,高等院校辦學(xué)的規(guī)模也隨之?dāng)U大,相應(yīng)的圖書館藏書也日益豐富起來。不斷擴(kuò)充的藏書容量在提供大量知識的同時,人們查找自己所需信息的難度也在逐漸增大,在信息時代迅猛發(fā)展的今天如何給讀者提供方便快捷的搜索方式也已擺在管理者眼前。鑒于高校圖書館目前廣泛采用了信息化的管理系統(tǒng),會產(chǎn)生大量借閱數(shù)據(jù)資源,如果發(fā)掘這些海量數(shù)據(jù)資源中的關(guān)系和規(guī)則,尋找出背后隱藏的借閱信息,進(jìn)而可對不同的讀者提供具有針對性的個性化服務(wù)。數(shù)據(jù)挖掘經(jīng)過近些年的逐步發(fā)展,在提供關(guān)聯(lián)分析等方面能夠便于發(fā)現(xiàn)隱藏在大量數(shù)據(jù)后的有用資源,可為讀者提供更為主動地服務(wù),提高知識的利用效率。

1 關(guān)聯(lián)規(guī)則的相關(guān)概念

1.1 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則(association rule)是是數(shù)據(jù)挖掘的主要技術(shù)之一,它對數(shù)據(jù)庫中的數(shù)據(jù)項的依存性和關(guān)聯(lián)性進(jìn)行描述,從而在已知項的基礎(chǔ)上對未知項進(jìn)行預(yù)測,是形如X→ Y的表達(dá)式,其中X和Y是不相交的項集,即X ∩ Y= Ф。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用它的支持度(support)和置信度(confidence) 來度量。支持度代表該規(guī)則所代表的事例(元組)占全部事例(元組)的百分比;而置信度代表該規(guī)則所代例占滿足前提條件事例的百分比。即:

使用支持度和置信度是由于一方面支持度是一種重要度量,低支持度概率的規(guī)則可能僅為偶然出現(xiàn),多數(shù)是無意義的,通常可將其刪去。另一方面,置信度度量通過規(guī)則進(jìn)行推理具有可靠性。對于給定的規(guī)則X Y,置信度越高,Y在包含X的事務(wù)中出現(xiàn)的可能性就越大。但由關(guān)聯(lián)規(guī)則做出的推論只表示規(guī)則前件和后件中的項明顯地同時出現(xiàn),而不能說明其必然蘊(yùn)涵因果關(guān)系。

關(guān)聯(lián)規(guī)則發(fā)現(xiàn):給定事務(wù)的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于minsup并且置信度大于等于minconf的所有規(guī)則,其中minsup和minconf是對應(yīng)的支持度和置信度閾值。

挖掘關(guān)聯(lián)規(guī)則的一種原始方法是:把每個可能存在的規(guī)則的支持度和置信度都計算出來。但是這種方法將會花費(fèi)相當(dāng)大的代價,從包含d項的數(shù)據(jù)集提取的規(guī)則的數(shù)目可以達(dá)指數(shù)級3395988.png ,但最終大部分規(guī)則將被丟棄。因此,對規(guī)則事先進(jìn)行剪枝并拆分其支持度和置信度要求可免于將它們計算出來。例如,涉及同一個項集的{甲,乙,丙}的規(guī)則:{甲,乙} {丙},{甲,丙} {乙},{乙,丙} {甲},{甲} {乙,丙},{丙} {甲,乙},{乙} {甲,丙}。如果能夠判斷出項集{甲,乙,丙}是非頻繁的,則可以將這6個候選規(guī)則給剪掉,從而能夠有效地減少算法開銷。因此,通常釆用將挖掘任務(wù)分解為如下兩個主要的過程的挖掘算法:

(1)頻繁項集產(chǎn)生:尋找滿足最小支持度閾值的所有項集作為頻繁項集(frequent itemset)。

(2)規(guī)則的產(chǎn)生:從上一步發(fā)現(xiàn)的頻繁項集中提取所有高置信度的規(guī)則作為強(qiáng)規(guī)則(strong rule)。

1.2 Apriori算法

Apriori算法采用通過候選項集產(chǎn)生頻繁項集的基礎(chǔ)上再由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則的方法,來達(dá)到系統(tǒng)地控制候選項集指數(shù)增長的目的。首先掃描事務(wù)數(shù)據(jù)庫,從中尋找出頻繁項集1的集合L1,然后用L1尋找頻繁二項集2的集合L2,再用L2找出L3,直到不能再找到頻繁項集K為止,來完成了頻繁項集的挖掘,其中連接和剪枝是兩個最關(guān)鍵的步驟。

1.2.1連接(join)

合并篩選后的候選k-項集與L k-1,產(chǎn)生下一個項集支持度。即為尋找L k,通過L k-1與自己合并候選k-項集的集合。

1.2.2剪枝(prune)

由于C k是L k的超集,可能有些元素不是頻繁的。C k很大是會帶來巨大的計算量,為減少C k的規(guī)模,Apriori遵從下列性質(zhì):任何非頻繁的(k-1)項集必定不是頻繁k-項集的子集。所以,當(dāng)候選k-項集的某個(k-1)子集不是L k-1中的成員時,則該候選項集不可能是頻繁的,可以從L k-1中移去。

2 Apriori算法在圖書館推薦服務(wù)中的應(yīng)用

2.1 數(shù)據(jù)預(yù)處理

對于大量的借閱數(shù)據(jù)來說,借閱次數(shù)較少的讀者產(chǎn)生的借閱記錄對于關(guān)聯(lián)分析分析沒有太大的參考價值,因此在錄入數(shù)據(jù)庫時要剔除借閱量少于十本的讀者記錄,而僅將活躍讀者的借閱數(shù)據(jù)信息錄入到數(shù)據(jù)庫中;將在架圖書按標(biāo)準(zhǔn)的中圖法進(jìn)行編號歸類,分為基于類型的多個借閱記錄來避免出現(xiàn)一個較大的數(shù)據(jù)庫,減少一次數(shù)據(jù)庫掃描的容量;在借閱記錄中出現(xiàn)借閱兩本完全相同的概率很小,關(guān)聯(lián)中只考慮到類別的書籍,而推薦出在此類別中借閱記錄最高的一本來處理。設(shè)置最小支持度0.0255和最小置信度0.85。

以下是部分經(jīng)提取后的讀者借閱信息:

將獲得到的數(shù)據(jù)進(jìn)行變換和分類,得出每個讀者的借閱記錄

2.2 對處理的數(shù)據(jù)通過Apriori算法的處理,可得到以下規(guī)則

2.3 對規(guī)則作出分析

查閱書號從關(guān)聯(lián)規(guī)則中可知,有2.58%的人同時借閱了O182(數(shù)學(xué)建模、控制論、分析基礎(chǔ)類的書籍,而且在這些人中借閱了數(shù)學(xué)建模、控制論后有86.5%的人同時借閱了分析基礎(chǔ)類的書籍;有2.55%的人同時借閱了工程力學(xué)和機(jī)械原理類的書籍,而且在這些人中借閱了機(jī)械原理后有88.2%的人同時借閱了工程力學(xué)類的書籍;有2.59%的人同時借閱了考古學(xué)和世界史類的書籍,而且在這些人中借閱了考古學(xué)后有89.1%的人同時借閱了世界史類的書籍……通過對算法處理結(jié)果進(jìn)行分析,我們可以很直觀地發(fā)現(xiàn)讀者借閱信息中存在的某些信息,讀者會傾向于在選擇某類書籍的同時捎帶上另一類或幾類需要的書籍。因此,我們可以建立一種數(shù)字化圖書館的推送業(yè)務(wù),對借閱了數(shù)學(xué)建模、控制論后的讀者推送分析基礎(chǔ);對借閱了機(jī)械原理的讀者推送工程力學(xué);對借閱了考古學(xué)后的讀者推送世界史等等,這樣雖然可能不適用于小部分群體,但方便了大部分讀者,為他們創(chuàng)造了方便。同時,我們還可以嘗試調(diào)整這些書籍的放置位置,將具有關(guān)聯(lián)性質(zhì)的書籍放置在互相靠近的地方,使讀者能夠一次性借閱到自己所需要的書籍,從而減少去各個不同類型的書籍場館借閱所帶來的不便,更好的發(fā)揮出這些數(shù)據(jù)的潛在價值。

3 總結(jié)

為找出存在于讀者中的譜遍性閱讀習(xí)慣,本文對圖書館的讀者借閱記錄采用Apriori算法分析了其中可能存在的關(guān)聯(lián)規(guī)則,為圖書館的讀者借閱提供方便的圖書推送業(yè)務(wù)和圖書關(guān)聯(lián)放置模式;同時,也要發(fā)現(xiàn)存在的某些不足:由于存在讀者幫別人借閱書籍的情況,會使相互關(guān)聯(lián)性存在誤差,影響到對個體行為的分析以及總體的關(guān)聯(lián)情況,導(dǎo)致降低了數(shù)據(jù)分析的普適性,因此,需要在數(shù)據(jù)的錄入階段需要對這種讀者的節(jié)借閱波動性建立濾波矩陣,予以濾除這種“噪聲”的干擾,以便更加精準(zhǔn)的分析可能存在的關(guān)聯(lián)規(guī)則。后續(xù)的研究中還可對不同的年級的學(xué)生、教員建立單獨(dú)的借閱數(shù)據(jù)庫,以便能夠發(fā)現(xiàn)關(guān)聯(lián)性更強(qiáng)的準(zhǔn)則,做出更加精準(zhǔn)的預(yù)測,為廣大讀者提供針對性更強(qiáng)的服務(wù)。

參考文獻(xiàn)

[1] Mehmed Kantardzic 數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,陳茵,程 雁,等譯.北京:清華大學(xué)出版社,2003

[2]李愛鳳.基于數(shù)據(jù)挖掘技術(shù)的課程相關(guān)性模式研究與實現(xiàn)[D].華南師范大學(xué),2006

[3]許成香.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生信息系統(tǒng)開發(fā)[J].硅谷,2009,16:57

[4]Han Jiawei,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008:150-167endprint

猜你喜歡
Apriori算法關(guān)聯(lián)分析數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動力學(xué)關(guān)聯(lián)分析模型
基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
關(guān)聯(lián)分析技術(shù)在學(xué)生成績分析中的應(yīng)用
基于云平臺MapReduce的Apriori算法研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
中國市場(2016年36期)2016-10-19 04:10:44
基于關(guān)聯(lián)分析的學(xué)生活動參與度與高校社團(tuán)管理實證研究
科技視界(2016年15期)2016-06-30 12:43:00
不同的數(shù)據(jù)挖掘方法分類對比研究
昌宁县| 延寿县| 观塘区| 东源县| 故城县| 通辽市| 冀州市| 宁陵县| 米林县| 肥西县| 克拉玛依市| 电白县| 通渭县| 陵川县| 钟祥市| 石嘴山市| 大名县| 抚远县| 南和县| 玉门市| 罗山县| 扎鲁特旗| 松溪县| 鹤庆县| 德安县| 西乌| 铜梁县| 武邑县| 富民县| 山东省| 洛浦县| 七台河市| 开封县| 遂溪县| 固安县| 庆城县| 同德县| 库尔勒市| 苍南县| 洞头县| 南安市|