国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向XBRL的DC-Apriori挖掘算法研究

2015-09-27 02:35曾志勇閆亞麗
現(xiàn)代計(jì)算機(jī) 2015年26期
關(guān)鍵詞:項(xiàng)集事務(wù)文檔

曾志勇,閆亞麗

(1.云南財(cái)經(jīng)大學(xué)信息管理中心,昆明 650221;2.云南財(cái)經(jīng)大學(xué)信息學(xué)院,昆明 650221)

面向XBRL的DC-Apriori挖掘算法研究

曾志勇1,閆亞麗2

(1.云南財(cái)經(jīng)大學(xué)信息管理中心,昆明650221;2.云南財(cái)經(jīng)大學(xué)信息學(xué)院,昆明650221)

0 引言

XBRL是一種網(wǎng)絡(luò)報(bào)告語言,全稱為eXtensible Business Reporting Language,它融合了計(jì)算機(jī)技術(shù)與企業(yè)財(cái)務(wù)會計(jì)準(zhǔn)則,該語言是在XML語言基礎(chǔ)上擴(kuò)展而來。XBRL有自己的技術(shù)規(guī)范和分類標(biāo)準(zhǔn)來定義文檔的語法格式,數(shù)據(jù)之間的關(guān)系,運(yùn)算方法等,并根據(jù)技術(shù)規(guī)范和分類標(biāo)準(zhǔn)生成實(shí)例文檔將數(shù)據(jù)展示出來,形成可閱讀的文件形式,供用戶分析使用。它可以降低用戶的使用成本,提高數(shù)據(jù)的使用率,提高客戶的服務(wù)準(zhǔn)確率,也可以跨平臺使用,不受任何應(yīng)用程序的限制。XBRL提供了靜態(tài)數(shù)據(jù)轉(zhuǎn)變?yōu)閯?dòng)態(tài)數(shù)據(jù)的途徑,不僅使數(shù)據(jù)搜集更加流暢,而且讓信息搜尋人員的搜索、分析更加快速準(zhǔn)確,在財(cái)政,金融等社會領(lǐng)域和企業(yè)內(nèi)部有著廣泛的應(yīng)用。

由于XBRL獨(dú)特的網(wǎng)絡(luò)語言報(bào)告形式,XBRL語言特定的表示方法,并且它的使用不受任何應(yīng)用程序的限制,并且有統(tǒng)一的標(biāo)準(zhǔn)格式,這些特點(diǎn)方便了數(shù)據(jù)挖掘技術(shù)的應(yīng)用,提高了數(shù)據(jù)挖掘的共享度以及精確度,完成了數(shù)據(jù)在計(jì)算機(jī)程序之間的集成,極大地方便了用戶的使用,進(jìn)一步提高了數(shù)據(jù)挖掘的效率。而關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一個(gè)比較重要的分類,它在一個(gè)比較大的數(shù)據(jù)庫中發(fā)掘不同項(xiàng)目之間的一些相關(guān)關(guān)系,也就是說把那些頻繁出現(xiàn)的項(xiàng)集從數(shù)據(jù)庫中發(fā)掘出來。自從在上個(gè)世紀(jì)90年代,Agrawal和他的同事在處理市場上購物籃的問題時(shí)提出了關(guān)聯(lián)規(guī)則算法Apriori后,世界上有非常多的科研人員就該算法提出了改進(jìn),但在XBRL數(shù)據(jù)格式上的研究還不多。

本文首先在XBRL數(shù)據(jù)集上實(shí)現(xiàn)Apriori算法,并通過實(shí)驗(yàn)來驗(yàn)證其不足,然后再實(shí)現(xiàn)DC-Apriori算法,并對這兩種算法在頻繁項(xiàng)集的生成效果上通過實(shí)驗(yàn)進(jìn)行驗(yàn)證。

1 傳統(tǒng)Apriori算法

Apriori算法的主要思想是:給定一個(gè)交易數(shù)據(jù)集合,根據(jù)指定的最小支持度和最小可信度,挖掘數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。一般來說,Apriori算法的挖掘過程分為兩個(gè)內(nèi)容:

(1)挖掘出事務(wù)數(shù)據(jù)庫中所有的頻繁項(xiàng)集,也就是說,在事務(wù)數(shù)據(jù)庫中,所有支持度大于最小支持度的項(xiàng)集都要能夠挖掘出來。

(2)在生成頻繁集的基礎(chǔ)上,生成所有的關(guān)聯(lián)規(guī)則。也就是說,利用第一步生成的頻繁集,挖掘出可信度大于等于用戶指定的最小可信度的規(guī)則,找出不同項(xiàng)之間的關(guān)聯(lián)規(guī)則。

作為一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,Apriori算法使用逐層搜索的迭代方法,通過K-頻繁項(xiàng)集來搜索(k+l)-頻繁項(xiàng)集。Apriori算法首先找出頻繁1-項(xiàng)集的集合,用于產(chǎn)生頻繁2-項(xiàng)集集合,然后再使用頻繁集合來產(chǎn)生頻繁集合,如此下去,一直到不能夠再找到頻繁k-項(xiàng)集為止。

對于XBRL數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘,由于其半結(jié)構(gòu)化的特點(diǎn),所以難以直接使用傳統(tǒng)的高級語言實(shí)現(xiàn),而XQuery以其簡單支持多種表達(dá)式和構(gòu)造函數(shù)等特點(diǎn),得到了很多人的應(yīng)用,因此本文將其作為XBRL數(shù)據(jù)挖掘算法的實(shí)現(xiàn)工具。

2 DC-Apriori算法

由于需要掃描整個(gè)數(shù)據(jù)庫,支持度大于最小支持度的候選頻繁k項(xiàng)集才可以入選頻繁項(xiàng)集k,所以Apriori算法的計(jì)算時(shí)間很大一部分都是用在計(jì)算頻繁項(xiàng)集的支持度上。在頻繁項(xiàng)集中的每一個(gè)項(xiàng)都需要計(jì)算支持度,而且每次都需要讀取數(shù)據(jù)庫。因此通過降低對整個(gè)數(shù)據(jù)庫的掃描次數(shù)以及掃描數(shù)據(jù)庫時(shí)對每個(gè)數(shù)據(jù)項(xiàng)所做的比較次數(shù)就可以獲得一個(gè)運(yùn)行效率比較高的算法。

鑒于此,可以在算法中通過加入刪除計(jì)數(shù)(Delete Counter)的方式來減少掃描數(shù)據(jù)庫的次數(shù)以及掃描數(shù)據(jù)庫時(shí)對每個(gè)數(shù)據(jù)項(xiàng)所做的比較次數(shù),我們稱該種算法為DC-Apriori。在該算法中,對每一個(gè)候選項(xiàng)集,只需對數(shù)據(jù)庫進(jìn)行一次掃描就可以了。然后通過刪除那些不能生成頻繁項(xiàng)集的項(xiàng)的方式來去除數(shù)據(jù)的冗余,從而提高運(yùn)行效率。

在改進(jìn)的刪除計(jì)數(shù)DC-Apriori算法中,尋找頻繁項(xiàng)集的思想是:通過第一次數(shù)據(jù)庫掃描,統(tǒng)計(jì)出所有只包含一個(gè)元素項(xiàng)集出現(xiàn)的概率,然后找出概率大于等于最小支持度的項(xiàng)集,由兩部分項(xiàng)集組成頻繁項(xiàng)集 。從第二次數(shù)據(jù)庫掃描開始,對頻繁項(xiàng)集的項(xiàng)進(jìn)行循環(huán)計(jì)算,直至最高維數(shù)項(xiàng)集生成為止。

在循環(huán)計(jì)算頻繁項(xiàng)集的過程中,第k步時(shí),在上一層生成的頻繁K-1項(xiàng)集基礎(chǔ)上生成候選K項(xiàng)集。在頻繁K-1項(xiàng)集的生成過程中,要對所有該候選集中的項(xiàng)進(jìn)行統(tǒng)計(jì),得到每一個(gè)項(xiàng)所出現(xiàn)的次數(shù)。對于其他項(xiàng),如果它的計(jì)數(shù)小于K-1則表明包含項(xiàng)的項(xiàng)集已經(jīng)對生成的頻繁項(xiàng)集不再有任何作用,刪除該項(xiàng),從而減少了由該項(xiàng)參與生成的項(xiàng)集組合。然后再對新生成的K維頻繁項(xiàng)集進(jìn)行檢測,查看所有的K-1維頻繁項(xiàng)是否都已經(jīng)在K-1維頻繁項(xiàng)集中。如果有頻繁項(xiàng)沒有被包含,就要?jiǎng)h除該頻繁項(xiàng),從而得到一個(gè)只包含K維頻繁項(xiàng)集的候選頻繁項(xiàng)集。

得到k維候選頻繁項(xiàng)集后,掃描事務(wù)數(shù)據(jù)庫D的每一個(gè)事務(wù),如果該事務(wù)中包含有候選頻繁項(xiàng)集中的項(xiàng),則保留該項(xiàng)事務(wù),否則刪除該事務(wù)。在每生成一次高緯度的頻繁項(xiàng)集時(shí),都會刪除一些事務(wù)和頻繁項(xiàng)集,從而減少下一維度的事務(wù)掃描I/O的開銷,直至生成最高維度的項(xiàng)集,則數(shù)據(jù)庫中的事務(wù)記錄量降至最少,由此可以提高算法的計(jì)算效率。

帶有刪除計(jì)數(shù)的DC-Apriori算法的偽代碼可以描述如下:

輸入:事務(wù)數(shù)據(jù)庫D;最小支持度$minsupport。

輸出:D中的頻繁項(xiàng)集L。

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)的硬軟件環(huán)境如下所示:①硬件配置:酷睿i5 2.5G雙核CPU,4G內(nèi)存。②操作系統(tǒng):Win2000。③數(shù)據(jù)庫:X-Hive6.0/DB。④編譯環(huán)境:JDK 1.6.7。

為了測試對XBRL實(shí)例文檔的數(shù)據(jù)挖掘的支持以及驗(yàn)證改進(jìn)后的Apriori算法通過XQuery實(shí)現(xiàn)后的數(shù)據(jù)挖掘效率,我們采用了互聯(lián)網(wǎng)上上市公司披露XBRL實(shí)例文檔組成的數(shù)據(jù)庫做為數(shù)據(jù)集,分別進(jìn)行了以下兩組實(shí)驗(yàn):

(1)針對包含有不同事務(wù)數(shù)量的數(shù)據(jù)庫,在最小支持度、最小信任度一樣的情況下,測試兩種算法的運(yùn)行時(shí)間。

表1 不同事務(wù)數(shù)的運(yùn)行時(shí)間

圖1 有不同事務(wù)數(shù)目數(shù)據(jù)集的挖掘效率

通過圖1可知,兩種算法的運(yùn)行時(shí)間上,針對同數(shù)量的事務(wù)數(shù)據(jù)庫,在數(shù)據(jù)量大于15000條時(shí),DC-Apriori算法的運(yùn)行時(shí)間要比Apriori算法減少了一半左右。由此可知,DC-Apriori算法針對大規(guī)模的數(shù)據(jù)庫處理時(shí)有著較好的優(yōu)勢。

(2)針對包含有不同最小支持度,在同一數(shù)據(jù)庫的條件下,測試兩種算法的運(yùn)行時(shí)間。

表2 不同支持度的算法運(yùn)行時(shí)間

通過圖2可知,總體上來講,針對不同的支持度,Apriori算法的運(yùn)行時(shí)間都要比DC-Apriori算法要長,而且DC-Apriori在不同的支持度下的運(yùn)行效率比較穩(wěn)定,沒有隨著支持度不同而在運(yùn)行時(shí)間上出現(xiàn)大幅度的變化。Apriori算法在支持度比較低的情況下,運(yùn)行時(shí)間比較長,隨著支持度的增加,運(yùn)行時(shí)間會出現(xiàn)一些比較大的變化,算法不太穩(wěn)定。

4 結(jié)語

從上節(jié)的實(shí)驗(yàn)數(shù)據(jù)結(jié)果來看,通過XQuery實(shí)現(xiàn)DC-Apriori算法對XBRL文檔進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是可行的。針對時(shí)間方面的對比來看,改進(jìn)后的算法運(yùn)行時(shí)間有了明顯提高,該算法在對XBRL文檔挖掘中運(yùn)行時(shí)間有了明顯的改善。

圖2 相同事務(wù)數(shù)目不同支持度的挖掘效率

[1]Amnon Meisels,Michael Orlov and Tal Maor.Discovery Associations in XML Data[C].Proceedings of the Third International Conference on Web Information Systems Engineering(Workshops),Singapore,2002.

[2]許淵.面向xbrl的數(shù)據(jù)挖掘[J].中國管理信息化(綜合版),2005(10):45-46.

[3]姚靠華,洪昀.XBRL層次結(jié)構(gòu)與財(cái)務(wù)信息數(shù)據(jù)挖掘[J].會計(jì)之友,2009,1:60-62.

[4]亓文娟,晏杰.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則Apriori算法.計(jì)算機(jī)系統(tǒng)應(yīng)用[J],2013,04:121-124.

XBRL;Association Rules;DC-Apriori Algorithm

Research on DC-Apriori Algorithm Facing XBRL

ZENG Zhi-yong1,YAN Ya-li2

(1.The Information Management Center,Yunnan University of Finance and Economics,Kunming 650221;2.The Information Department,Yunnan University of Finance and Economics,Kunming 650221)

1007-1423(2015)26-0027-04

10.3969/j.issn.1007-1423.2015.26.007

2015-07-28

2015-08-15

XBRL作為一種基于XML的可擴(kuò)展性商業(yè)報(bào)告語言,目前已廣泛應(yīng)用于財(cái)務(wù)系統(tǒng)中。因企業(yè)財(cái)務(wù)數(shù)據(jù)越來越多,利用數(shù)據(jù)挖掘方法挖掘出我們需要的信息顯得極為重要。實(shí)現(xiàn)一種面向XBRL的DC-Apriori挖掘算法,實(shí)驗(yàn)表明:在X-Hive數(shù)據(jù)庫中采用DC-Apriori算法進(jìn)行XBRL關(guān)聯(lián)規(guī)則挖的方法是行之有效的,并且挖掘效率高于傳統(tǒng)Apriori算法的效率。

XBRL;關(guān)聯(lián)規(guī)則;DC-Apriori算法

教育部人文社會科學(xué)研究青年基金(No.10YJCZH004)、云南財(cái)經(jīng)大學(xué)??蒲谢鹬攸c(diǎn)項(xiàng)目(No.YC10A003)

曾志勇,男(漢族),貴州貞豐人,教授,博士,研究方向?yàn)閿?shù)據(jù)挖掘

閆亞麗,女(漢族),山東菏澤人,碩士,研究方向?yàn)閿?shù)據(jù)挖掘

XBRL is a kind of extensible business reporting language which based on XML,it has been widely used in the financial system.More and more enterprise financial data bring us to use the method of data mining to dig out the important information we need.Puts forward a DCApriori algorithm facing XBRL,the experiment shows that using DC-Apriori algorithm in X-Hive to excavate XBRL data is feasible and effective,and the efficiency of DC-Apriori algorithm is higher than Apriori algorithm.

猜你喜歡
項(xiàng)集事務(wù)文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
河湖事務(wù)
基于矩陣相乘的Apriori改進(jìn)算法
不確定數(shù)據(jù)的約束頻繁閉項(xiàng)集挖掘算法
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于優(yōu)先級的多版本兩階段鎖并發(fā)控制協(xié)議
移動(dòng)實(shí)時(shí)環(huán)境下的數(shù)據(jù)一致性研究
常用關(guān)系數(shù)據(jù)庫并發(fā)控制的比較研究