摘" 要: 在大數(shù)據(jù)中,不同類別之間可能存在數(shù)據(jù)分布不均衡的情況,即某些類別的數(shù)據(jù)樣本數(shù)量遠(yuǎn)遠(yuǎn)少于其他類別。這種情況下,傳統(tǒng)的采樣方法無(wú)法正確反映所有類別的特征和差異。為提升大數(shù)據(jù)信息的應(yīng)用性,文中研究海量大數(shù)據(jù)定向采樣有差別挖掘算法。以網(wǎng)站統(tǒng)一資源定位器(URL)初始化為基礎(chǔ),在網(wǎng)絡(luò)上抓取網(wǎng)頁(yè),采集網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言(HTML)數(shù)據(jù),提取定向數(shù)據(jù)的相關(guān)鏈接,并將其導(dǎo)入U(xiǎn)RL隊(duì)列。根據(jù)網(wǎng)絡(luò)搜索策略,實(shí)施相關(guān)的數(shù)據(jù)搜索和處理。完成數(shù)據(jù)搜索后,將自動(dòng)進(jìn)行下一網(wǎng)頁(yè)的URL,繼續(xù)進(jìn)行海量大數(shù)據(jù)定向采樣。結(jié)合模糊特征匹配與檢測(cè)濾波方法實(shí)現(xiàn)大數(shù)據(jù)定向采樣過(guò)程中的抗干擾處理。采用粗糙集算法實(shí)施挖掘,利用擴(kuò)展差別矩陣對(duì)大數(shù)據(jù)決策表內(nèi)的值實(shí)施約簡(jiǎn),實(shí)現(xiàn)海量大數(shù)據(jù)的模式分類。實(shí)驗(yàn)結(jié)果顯示,該算法數(shù)據(jù)采集過(guò)程中的丟包率基本控制在0.2%以下,具有較高的魯棒性。
關(guān)鍵詞: 海量大數(shù)據(jù); 網(wǎng)頁(yè)抓?。?定向采樣; 濾波處理; 去冗余; 粗糙集; 擴(kuò)展差別矩陣; 決策規(guī)則
中圖分類號(hào): TN919?34; TP311"""""""""""""""""""""" 文獻(xiàn)標(biāo)識(shí)碼: A""""""""""""""""" 文章編號(hào): 1004?373X(2024)09?0164?05
0" 引" 言
海量大數(shù)據(jù)已經(jīng)成為現(xiàn)代社會(huì)的重要資源[1]。其中蘊(yùn)含著巨大的潛力和價(jià)值,但同時(shí)也面臨著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、處理難度高等問(wèn)題。面對(duì)海量數(shù)據(jù),提取其中有價(jià)值的信息成為了至關(guān)重要的任務(wù)。然而,由于數(shù)據(jù)量巨大且難以直接處理,傳統(tǒng)的數(shù)據(jù)處理和分析方法面臨諸多困難。因此,如何從海量數(shù)據(jù)中提取有價(jià)值的信息[2],成為了一個(gè)亟待解決的問(wèn)題。
文獻(xiàn)[3]在數(shù)據(jù)挖掘過(guò)程中引入最大均值差異算法,構(gòu)建以遷移學(xué)習(xí)為基礎(chǔ)的數(shù)據(jù)挖掘模型。該算法對(duì)數(shù)據(jù)質(zhì)量與分布具有較高要求,可能會(huì)影響挖掘結(jié)果。文獻(xiàn)[4]通過(guò)Spark基于內(nèi)存計(jì)算的抽象對(duì)象存儲(chǔ)頻繁項(xiàng)集,在此基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)挖掘目的。該算法對(duì)數(shù)據(jù)類型較為敏感,實(shí)際運(yùn)行過(guò)程中需對(duì)數(shù)據(jù)實(shí)施離散化處理,降低挖掘效率。文獻(xiàn)[5]以數(shù)據(jù)維度設(shè)計(jì)的失效相關(guān)性為基礎(chǔ)進(jìn)行數(shù)據(jù)挖掘,該算法數(shù)據(jù)挖掘精度較差。文獻(xiàn)[6]提出基于隨機(jī)森林序列建模的數(shù)據(jù)挖掘算法,該算法序列建模中,各序列均為獨(dú)立的,這使得并行化變得不那么有效,并且可能導(dǎo)致模型的不穩(wěn)定性和過(guò)擬合。
因此,本文提出一種海量大數(shù)據(jù)定向采樣有差別挖掘算法,實(shí)驗(yàn)結(jié)果表明,該算法能夠快速準(zhǔn)確地從海量數(shù)據(jù)中提取有價(jià)值的信息,提高數(shù)據(jù)處理和分析的效率,并為各行業(yè)的決策提供有力支持。
1" 海量大數(shù)據(jù)定向采樣有差別挖掘算法
1.1" 海量大數(shù)據(jù)定向采樣
海量大數(shù)據(jù)帶來(lái)了巨大的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)處理和分析方法無(wú)法處理這么大量的數(shù)據(jù)。為提高數(shù)據(jù)處理和分析效率,海量大數(shù)據(jù)定向采樣成為一種重要方法,從海量數(shù)據(jù)中提取有價(jià)值的信息并減少冗余與無(wú)效數(shù)據(jù)的處理。在海量大數(shù)據(jù)定向采樣過(guò)程中,需要進(jìn)行網(wǎng)頁(yè)抓取處理來(lái)采集網(wǎng)頁(yè)的HTML(Hypertext Markup Language)數(shù)據(jù)。該過(guò)程需要注重并發(fā)線程控制,同時(shí)以網(wǎng)站URL(Uniform Resource Locator)初始化為基礎(chǔ)進(jìn)行操作[7]。首先,在網(wǎng)頁(yè)內(nèi)針對(duì)海量大數(shù)據(jù)進(jìn)行定向采集,提取定向數(shù)據(jù)的相關(guān)鏈接,并將其導(dǎo)入U(xiǎn)RL隊(duì)列;其次,根據(jù)預(yù)設(shè)的網(wǎng)絡(luò)搜索策略,實(shí)施有關(guān)的數(shù)據(jù)搜索處理。完成大數(shù)據(jù)搜索后,自動(dòng)獲取下一個(gè)網(wǎng)頁(yè)的URL,繼續(xù)進(jìn)行海量大數(shù)據(jù)的定向采樣。
考慮網(wǎng)絡(luò)數(shù)據(jù)具有實(shí)時(shí)性特征,在網(wǎng)絡(luò)內(nèi)的信息持續(xù)更新過(guò)程中,網(wǎng)頁(yè)抓取采集過(guò)程重復(fù)進(jìn)行,直至海量大數(shù)據(jù)定向采集結(jié)束為止。海量大數(shù)據(jù)定向采樣流程如圖1所示。
通過(guò)上述過(guò)程能夠初步達(dá)到海量大數(shù)據(jù)定向采樣的目的。由于定向采集的海量大數(shù)據(jù)內(nèi)包含一定的干擾信息,因此在對(duì)其進(jìn)行有差別挖掘分析前,需選取模糊特征匹配與檢測(cè)濾波法對(duì)其實(shí)施濾波處理[8],具體過(guò)程如下:
經(jīng)過(guò)初步的定向采樣,獲得了包含一定干擾信息的數(shù)據(jù)。為了進(jìn)一步分析,采用模糊特征匹配與檢測(cè)濾波法對(duì)這些數(shù)據(jù)進(jìn)行處理。首先,通過(guò)機(jī)器學(xué)習(xí)算法生成大數(shù)據(jù)的模糊加權(quán)聚類模型[ET],公式描述如下:
[ET=τik-lU,ci=1cv+i-v-i] (1)
式中:[τik]和[lU,c]分別表示加權(quán)系數(shù)與通過(guò)模糊特征匹配與檢測(cè)濾波進(jìn)行抗干擾的處理結(jié)果[9];[v+i]和[v-i]分別表示定向采集的大數(shù)據(jù)正向信號(hào)與負(fù)向信號(hào)。
利用式(2)得到海量大數(shù)據(jù)定向采樣的模糊決策代價(jià)函數(shù)[Ht]:
[Ht=ETi=1cuik-τikJU,V] (2)
式中:[uik]和[JU,V]分別表示海量大數(shù)據(jù)定向采樣的信道增益和海量大數(shù)據(jù)定向采樣的信道均衡控制模型。
通過(guò)梯度信息特征分解過(guò)程獲取海量大數(shù)據(jù)噪聲信息的特征匹配濾波輸出[Pvi],公式描述如下:
[Pvi=Ht-v+i-v-iG] (3)
式中[G]表示海量大數(shù)據(jù)再生信息分布的隨機(jī)概率密度函數(shù)。
基于以上過(guò)程生成海量大數(shù)據(jù)噪聲信息的濾波模型,由此獲取大量大數(shù)據(jù)線性濾波輸出[Wt],公式描述如下:
[Wt=Pv+i-Pv-iN-M] (4)
式中:[N]和[M]分別表示海量大數(shù)據(jù)定向采樣節(jié)點(diǎn)數(shù)量和定向采集過(guò)程中的分支任務(wù)數(shù)量;[Pv+i]和[Pv-i]分別表示正向與負(fù)向時(shí)數(shù)據(jù)的濾波輸出。
為了進(jìn)一步優(yōu)化數(shù)據(jù)處理,通過(guò)空間匹配與線性均衡算法構(gòu)建海量大數(shù)據(jù)噪聲信息的去冗余模型[10],獲取海量大數(shù)據(jù)去冗余濾波函數(shù)[Xij],公式描述如下:
[Xij=Wt-j=1mXjN-M] (5)
式中[Xj]表示第[j]個(gè)大數(shù)據(jù)的Hash融合向量。
基于以上所構(gòu)建的海量大數(shù)據(jù)濾波檢測(cè)模型能夠?qū)崿F(xiàn)定向采集的海量大數(shù)據(jù)噪聲信息濾除。濾除噪聲后的海量大數(shù)據(jù)將存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi),用于后續(xù)的有差別挖掘分析。數(shù)據(jù)庫(kù)構(gòu)建過(guò)程中以邏輯概念為核心,包含若干具有分布式存儲(chǔ)結(jié)構(gòu)的數(shù)據(jù)庫(kù)表,確保海量大數(shù)據(jù)的存儲(chǔ)效率。海量大數(shù)據(jù)定向信息數(shù)據(jù)庫(kù)表如表1所示,其中包含定向采集的海量大數(shù)據(jù)編號(hào)、位置、長(zhǎng)度與類別等信息。
1.2" 基于粗糙集的挖掘算法
在經(jīng)過(guò)濾波處理后,海量大數(shù)據(jù)已經(jīng)去除了大部分噪聲信息,因此需要對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行有差別的挖掘分析?;诖植诩碚?,提出了一種擴(kuò)展差別矩陣的方法,這種算法的優(yōu)勢(shì)在于,利用了差別矩陣的特點(diǎn),將原本需要處理多張信息表的復(fù)雜問(wèn)題簡(jiǎn)化為一整個(gè)差別矩陣的處理,大大提高了處理效率。差別矩陣的主要優(yōu)勢(shì)為其將粗糙集對(duì)于信息表所要求的全部信息匯總在一個(gè)差別矩陣內(nèi)[11],其中第[i]行第[j]列元素構(gòu)建過(guò)程如下:
[mij=a∈C:f(xi,a)≠f(xj,a)?:f(xi,a)=f(xj,a)] (6)
式中:[a]和[C]分別表示大數(shù)據(jù)屬性與條件屬性集;[xi]和[xj]分別表示第[i]個(gè)和第[j]個(gè)大數(shù)據(jù)。
利用式(7)可描述差別矩陣內(nèi)的不同元素:
[mij=β1,β2,…,βm,""" a?C≤α∞,""" a?Cgt;α] (7)
式中:[α]表示兩個(gè)大數(shù)據(jù)對(duì)象之間的差異閾值;[βk=1," f(xi,ak)≠f(xj,ak)0," f(xi,ak)=f(xj,ak)],[ak∈C,k=1,2,…,m],優(yōu)化后的差別矩陣即可定義為擴(kuò)展差別矩陣。
利用擴(kuò)展差別矩陣即可實(shí)現(xiàn)粗糙集挖掘算法內(nèi)約簡(jiǎn),基于粗糙集的挖掘算法利用上述差別矩陣對(duì)決策表內(nèi)的值實(shí)施約簡(jiǎn)處理,實(shí)現(xiàn)海量大數(shù)據(jù)的模式分類[12?13]。
利用擴(kuò)展差別矩陣對(duì)濾波處理后的海量大數(shù)據(jù)實(shí)施屬性約簡(jiǎn)的具體過(guò)程描述如下:設(shè)定輸入與輸出分別為依照海量大數(shù)據(jù)構(gòu)建擴(kuò)展差別矩陣[M]下的三角形部分與海量大數(shù)據(jù)的簡(jiǎn)約屬性集[Q]。
1) 令[Q]不為空集;
2) 掃描[M]的下三角形內(nèi)不同元素[mij],若任意元素僅有一位為1,那么此位對(duì)應(yīng)的屬性即為海量大數(shù)據(jù)的核屬性,加入至[Q]內(nèi),并清除[M]內(nèi)全部對(duì)應(yīng)位為1的元素;
3) 若[M]內(nèi)還包含元素,則將最關(guān)鍵的位對(duì)應(yīng)的屬性定義為海量大數(shù)據(jù)核屬性,將其引入[Q]內(nèi),并清除[M]內(nèi)全部對(duì)應(yīng)位為1的元素;
4) 若[M]內(nèi)包含關(guān)鍵度一致的數(shù)據(jù)屬性,則分別引入至[Q]內(nèi),獲取多個(gè)數(shù)據(jù)屬性約簡(jiǎn)集,并清除[M]內(nèi)全部對(duì)應(yīng)位為1的元素;
5) 循環(huán)步驟2)~步驟4)過(guò)程,直至[M]內(nèi)部不存在任何元素;
6) 輸出[Q]即為所采集海量大數(shù)據(jù)的屬性約簡(jiǎn)集。
2" 實(shí)驗(yàn)結(jié)果
為驗(yàn)證所提的差別挖掘算法在實(shí)際應(yīng)用過(guò)程中的效果,選取某高校圖書(shū)館網(wǎng)頁(yè)為研究對(duì)象。實(shí)驗(yàn)環(huán)境為:使用一臺(tái)具備較高計(jì)算能力和大容量存儲(chǔ)空間的服務(wù)器,并設(shè)置10個(gè)并發(fā)線程來(lái)控制數(shù)據(jù)采集的速率和效率。網(wǎng)絡(luò)搜索策略采用寬度優(yōu)先搜索確保按層級(jí)遞歸進(jìn)行數(shù)據(jù)采集。選取該高校圖書(shū)館網(wǎng)站,設(shè)定采集的網(wǎng)頁(yè)數(shù)量為1 000,每個(gè)網(wǎng)頁(yè)的HTML數(shù)據(jù)將作為采樣數(shù)據(jù),用于后續(xù)差別挖掘算法的分析和結(jié)果驗(yàn)證。
2.1" 海量大數(shù)據(jù)定向采集性能分析
采用所提算法對(duì)研究對(duì)象進(jìn)行海量大數(shù)據(jù)定向采樣,在不同字節(jié)數(shù)據(jù)包條件下,以丟包率作為分析所提算法大數(shù)據(jù)定向采樣性能的主要指標(biāo),結(jié)果如表2所示。
表2" 海量大數(shù)據(jù)定向采集性能分析結(jié)果
[數(shù)據(jù)包字節(jié)數(shù)量/個(gè)"""" 成功數(shù)據(jù)包/個(gè)""""" 丟包率/%"""""" 20""" 2 109""""" 0.01 2 098""""" 0.12 2 108""""" 0.02 2 099""""" 0.11 2 107"""""" 0.03 30""" 2 109""""" 0.01 2 090""""" 0.20 2 089""""" 0.20 2 096""""" 0.14 2 100""""" 0.10 ]
分析表2可知,所提算法在研究對(duì)象定向數(shù)據(jù)采樣過(guò)程中,在不同數(shù)據(jù)包字節(jié)數(shù)量條件下,采集成功數(shù)據(jù)包的數(shù)量較多,丟包率基本控制在0.2%以下,由此說(shuō)明所提算法能夠?qū)崿F(xiàn)高質(zhì)量的定向數(shù)據(jù)采樣。
2.2" 挖掘結(jié)果仿真
將定向采樣所得數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi),大數(shù)據(jù)屬性決策表如表3所示,其中包括論域和多個(gè)屬性。采用所提算法基于表3構(gòu)造擴(kuò)展差別矩陣,對(duì)海量大數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),實(shí)驗(yàn)結(jié)果如表4所示。
分析表4數(shù)據(jù),可以得出以下結(jié)論:在約簡(jiǎn)過(guò)程中,論域[x7]被剔除,是由于該論域的屬性值對(duì)決策結(jié)果影響較??;其次,屬性a、屬性b和屬性d在約簡(jiǎn)后的數(shù)據(jù)中仍然保留了所有原始論域的數(shù)據(jù),說(shuō)明它們對(duì)于決策結(jié)果具有較大的影響力;最后,約簡(jiǎn)處理后的數(shù)據(jù)仍然保持了原始數(shù)據(jù)的分布和差異性。通過(guò)對(duì)大數(shù)據(jù)屬性決策表的約簡(jiǎn)處理,成功減少了屬性的數(shù)量,并保留了對(duì)決策結(jié)果具有重要影響的屬性。
為驗(yàn)證所提算法的數(shù)據(jù)去噪性能,實(shí)驗(yàn)分析不同噪聲方差下,利用所提算法和文獻(xiàn)[3]中基于遷移學(xué)習(xí)算法和文獻(xiàn)[4]中基于改進(jìn)Apriori算法分別對(duì)比所采集海量大數(shù)據(jù)去噪后的信噪比情況,實(shí)驗(yàn)結(jié)果如圖2所示。
從圖2中可以看出,相對(duì)于其他兩種算法,所提算法去噪后數(shù)據(jù)始終具有較高的信噪比,算法魯棒性更高。由此說(shuō)明,所提算法在不同噪聲方差下仍然能夠保持較高的信噪比,這證明了其對(duì)不同噪聲強(qiáng)度具有更好的適應(yīng)能力。
分析所提算法挖掘不同數(shù)量數(shù)據(jù)時(shí),在不同關(guān)鍵度情況下,挖掘時(shí)間的變化情況,結(jié)果如圖3所示。
分析圖3能夠看出,如果挖掘的大數(shù)據(jù)規(guī)模不變,則隨著關(guān)鍵度的逐漸增加,挖掘時(shí)間呈現(xiàn)逐漸降低的趨勢(shì);而當(dāng)關(guān)鍵度不變的情況下,隨著大數(shù)據(jù)量的不斷增加,挖掘時(shí)間也不斷提升。因此,在實(shí)際數(shù)據(jù)挖掘過(guò)程中,應(yīng)分析數(shù)據(jù)挖掘時(shí)間同關(guān)鍵度的關(guān)系,對(duì)數(shù)據(jù)量以及關(guān)鍵度進(jìn)行合理設(shè)置,才能獲取理想的挖掘結(jié)果。
采用平均絕對(duì)誤差作為評(píng)價(jià)所提算法挖掘性能的指標(biāo),得到不同數(shù)據(jù)特征數(shù)量情況下,隨著數(shù)據(jù)擴(kuò)充比例的不斷提升,所提算法的挖掘平均絕對(duì)誤差情況,設(shè)定期望標(biāo)準(zhǔn)為0.21,結(jié)果如圖4所示。
分析圖4可得,采用所提算法挖掘海量大數(shù)據(jù)時(shí),在不同數(shù)據(jù)特征數(shù)量下,以及數(shù)據(jù)擴(kuò)充比例情況下,所提算法挖掘數(shù)據(jù)的平均絕對(duì)誤差始終低于0.21,所提算法具有較高的挖掘準(zhǔn)確度。
3" 結(jié)" 語(yǔ)
本文研究海量大數(shù)據(jù)定向采樣有差別挖掘算法,所提算法研究的主要內(nèi)容包括:針對(duì)以往數(shù)據(jù)采集精度較低的問(wèn)題,通過(guò)定向采樣提升數(shù)據(jù)采集精度;針對(duì)所采集數(shù)據(jù)以粗糙集挖掘算法為基礎(chǔ),引入擴(kuò)展差別矩陣對(duì)數(shù)據(jù)屬性對(duì)應(yīng)的決策進(jìn)行約簡(jiǎn),由此提升數(shù)據(jù)挖掘效率。
參考文獻(xiàn)
[1] 楊河山,張世明,曹小朋,等.基于Hadoop分布式文件系統(tǒng)的地震勘探大數(shù)據(jù)樣本采集及存儲(chǔ)優(yōu)化[J].油氣地質(zhì)與采收率,2022,29(1):121?127.
[2] 王延,周凱,沈守楓.基于熵權(quán)法的教務(wù)大數(shù)據(jù)的挖掘和聚類分析[J].浙江工業(yè)大學(xué)學(xué)報(bào),2023,51(1):84?87.
[3] 易庚,何琳,劉錦明,等.基于遷移學(xué)習(xí)算法的電力數(shù)據(jù)挖掘模型[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2023,45(5):510?515.
[4] 徐強(qiáng),王仕佐.基于改進(jìn)Apriori算法的大數(shù)據(jù)AR挖掘仿真[J].計(jì)算機(jī)仿真,2023,40(7):509?513.
[5] 田海江,黃江華.基于大數(shù)據(jù)的中文學(xué)術(shù)期刊傳播對(duì)象數(shù)據(jù)精準(zhǔn)挖掘邏輯優(yōu)化[J].中國(guó)科技期刊研究,2023,34(3):341?347.
[6] KIM E, AN J, CHO H C, et al. A sensor data mining process for identifying root causes associated with low yield in semiconductor manufacturing [J]. Data technologies and applications, 2023, 57(3): 397?417.
[7] 丁際文,孔曉旺,張巖峰,等.一種面向大數(shù)據(jù)的水塘采樣分布式算法[J].控制工程,2022,29(2):356?361.
[8] 李冬毅,覃方君,黃春福,等.基于自尋優(yōu)小波降噪算法的海洋重力數(shù)據(jù)濾波[J].中國(guó)慣性技術(shù)學(xué)報(bào),2023,31(9):883?889.
[9] 宋蕊,吳琛.基于改進(jìn)DBSCAN和雙邊濾波算法的點(diǎn)云去噪[J].電子器件,2023,46(4):1083?1088.
[10] 商俊燕,丁輝,胡學(xué)龍.基于XGBoost的無(wú)線傳感器網(wǎng)絡(luò)冗余數(shù)據(jù)檢測(cè)算法[J].傳感技術(shù)學(xué)報(bào),2022,35(11):1568?1572.
[11] 楊佳瑋,李歡康,林雨霏,等.新疆兩種亞麻籽轉(zhuǎn)錄組分析及籽油香氣差異基因挖掘[J].食品科學(xué),2022,43(2):70?76.
[12] 左芝翠,莫智文.基于決策分類的分塊差別矩陣增量式求核算法[J].模糊系統(tǒng)與數(shù)學(xué),2022,36(5):166?174.
[13] 吳靜,傅優(yōu)杰,程朋根.基于粗糙集的局部同位模式挖掘算法[J].測(cè)繪通報(bào),2022(10):80?85.
Simulation of differential mining algorithm for directional
sampling of massive big data
NING Tao
(School of Computer Engineering, Guilin University of Electronic Technology, Beihai 536000, China)
Abstract: In the big data, there may be imbalanced data distribution between different categories, where the number of data samples in certain categories is much smaller than that in others. In this case, the traditional sampling methods fail to accurately reflect the characteristics and differences of all categories. Therefore, the differential mining algorithm is studied for directional sampling of massive big data to broaden the application of big data information. On the basis of the initialization of the uniform resource locator (URL) on the website, web pages are crawled on the network, and hypertext markup language (HTML) data is collected from the web pages. The relevant connections of the directional data are extracted and imported into the URL queue. Relevant data search and processing are implemented according to network search strategies. After completing the data search, the URL of the next webpage will be automatically processed to continue with the directional sampling of massive big data. In combination with the fuzzy feature matching and detection filtering methods, the anti?interference processing in the directional sampling process of big data is achieved. Rough set algorithm is used for mining, and the extended difference matrix is used to reduce values in big data decision tables, so as to achieve the pattern classification of massive big data. The experimental results show that the packet loss rate of the algorithm during data collection is kept basically below 0.2%, and its robustness is strong.
Keywords: massive big data; web page crawling; directional sampling; filtering processing; redundancy removal; rough set; extended difference matrix; decision rule
DOI:10.16652/j.issn.1004?373x.2024.09.029
引用格式:寧滔.海量大數(shù)據(jù)定向采樣有差別挖掘算法仿真[J].現(xiàn)代電子技術(shù),2024,47(9):164?168.
收稿日期:2024?01?22"""""""""" 修回日期:2024?02?19
基金項(xiàng)目:(2021—2024)廣西職業(yè)教育教學(xué)改革重點(diǎn)項(xiàng)目
(GXGZJG2021A035)
寧" 滔:海量大數(shù)據(jù)定向采樣有差別挖掘算法仿真
寧" 滔:海量大數(shù)據(jù)定向采樣有差別挖掘算法仿真
作者簡(jiǎn)介:寧" 滔(1978—),男,廣西北流人,碩士,高級(jí)工程師,研究方向?yàn)樵朴?jì)算及大數(shù)據(jù)、數(shù)據(jù)挖掘、信息可視化和網(wǎng)絡(luò)安全等。