摘要:現(xiàn)有的消除方法在消除數(shù)據(jù)流冗余數(shù)據(jù)時(shí),空間縮減比例過低,導(dǎo)致消除效果不理想。針對(duì)這一問題,文章引入決策樹算法,設(shè)計(jì)了新的電子通信網(wǎng)絡(luò)數(shù)據(jù)流冗余消除方法。在對(duì)電子通信網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行集成處理后,文章利用決策樹算法,對(duì)電子通信網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行分類。然后,結(jié)合相同類別數(shù)據(jù)的相似度計(jì)算結(jié)果,文章對(duì)數(shù)據(jù)流中的冗余數(shù)據(jù)進(jìn)行了迭代消除。實(shí)驗(yàn)表明:應(yīng)用新方法后,電子通信網(wǎng)絡(luò)數(shù)據(jù)流空間縮減比例顯著提升,說明新方法的消除效果更理想。
關(guān)鍵詞:決策樹算法;冗余消除;數(shù)據(jù)流;電子通信
中圖分類號(hào):TP536.5 文獻(xiàn)標(biāo)志碼:A
0 引言
當(dāng)前,電子通信網(wǎng)絡(luò)中的數(shù)據(jù)流量呈爆炸性增長。在這一背景下,數(shù)據(jù)流的冗余問題越發(fā)凸顯,它不僅占據(jù)了大量的存儲(chǔ)空間和傳輸帶寬,還增加了數(shù)據(jù)處理的復(fù)雜性和成本。因此,有效地消除電子通信網(wǎng)絡(luò)中的數(shù)據(jù)流冗余,成了當(dāng)前研究的重要課題。
余錦河等[1]利用人工神經(jīng)網(wǎng)絡(luò)算法,對(duì)用電信息傳輸冗余量消除進(jìn)行了仿真。該方法在一定程度上能夠減少數(shù)據(jù)冗余,提高數(shù)據(jù)傳輸和處理的效率。然而,該方法基于固定算法模型,難以適應(yīng)復(fù)雜多變的電子通信網(wǎng)絡(luò)環(huán)境。特別是在面對(duì)海量的、多樣化的數(shù)據(jù)時(shí),難以準(zhǔn)確地識(shí)別和處理數(shù)據(jù)流中的冗余數(shù)據(jù)。張淑清等[2]基于哈希計(jì)算,提出了一種大數(shù)據(jù)冗余消除算法。該方法雖然能有效消除冗余數(shù)據(jù)并提高數(shù)據(jù)可用性,但哈希計(jì)算對(duì)噪聲和缺失數(shù)據(jù)非常敏感,這可能導(dǎo)致在客戶終端數(shù)據(jù)預(yù)處理階段出現(xiàn)不穩(wěn)定的情況。
決策樹算法作為一種典型的分類方法,具有直觀易懂、易于實(shí)現(xiàn)和擴(kuò)展性強(qiáng)的特點(diǎn)。決策樹算法可以自動(dòng)地學(xué)習(xí)數(shù)據(jù)中的特征和規(guī)律,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)流中冗余數(shù)據(jù)的準(zhǔn)確識(shí)別和處理。因此,為了解決上述問題,筆者提出了一種基于決策樹算法的電子通信網(wǎng)絡(luò)數(shù)據(jù)流冗余消除方法。
1 電子通信網(wǎng)絡(luò)數(shù)據(jù)集成與預(yù)處理
為便于后續(xù)的統(tǒng)一管理和分析,筆者針對(duì)電子通信網(wǎng)絡(luò)數(shù)據(jù)開展集成處理。在這一過程中,筆者采用數(shù)據(jù)倉庫法來高效地集成這些數(shù)據(jù)[3]。筆者通過“Extract”功能從電子通信網(wǎng)絡(luò)中抽取數(shù)據(jù),之后,通過“Transform”功能對(duì)抽取出的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換和清洗,確保數(shù)據(jù)的一致性和準(zhǔn)確性,再通過“Load”功能將數(shù)據(jù)加載到數(shù)據(jù)倉庫中[4]。
為減少隨后的多余數(shù)據(jù)尋找和排除的困難,對(duì)集成后的電子通信網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理顯得尤為重要。預(yù)處理一般可分為特征類別與數(shù)值類別2種。
(1)字符類數(shù)據(jù)通常包括文本、標(biāo)簽、描述等,須要對(duì)這些數(shù)據(jù)進(jìn)行清mX7PW+wa59e0EhlpI/teXg==洗、去重、標(biāo)準(zhǔn)化等操作[5]。筆者使用正則表達(dá)式去除文本中的無關(guān)字符或特殊符號(hào)后,將文本轉(zhuǎn)換為統(tǒng)一的格式。
(2)在數(shù)值類數(shù)據(jù)的預(yù)處理階段,筆者對(duì)這些數(shù)據(jù)進(jìn)行缺失值填充、異常值檢測與處理、數(shù)據(jù)標(biāo)準(zhǔn)化等操作。對(duì)于缺失值,可以使用均值、中位數(shù)或插值法進(jìn)行填充;對(duì)于異常值,可以使用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)算法進(jìn)行檢測和處理[6];數(shù)據(jù)標(biāo)準(zhǔn)化則可以通過公式將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一尺度,便于后續(xù)分析。
對(duì)于缺失值的填補(bǔ),其計(jì)算公式如式(1)所示。
ai=(a1+a2+…+an)/n(1)
其中,ai表示缺失數(shù)據(jù);a1、a2、…、an表示序列中除缺失值以外的所有值;n表示缺失值所在序列長度。經(jīng)過標(biāo)準(zhǔn)化處理后,使得不同特征之間的比較更加公平和有效。
2 基于決策樹算法的電子通信網(wǎng)絡(luò)數(shù)據(jù)流分類
在處理電子通信網(wǎng)絡(luò)數(shù)據(jù)流分類和冗余消除時(shí),直接計(jì)算所有數(shù)據(jù)之間的相似度往往會(huì)導(dǎo)致巨大的計(jì)算量和較低的工作效率。為了優(yōu)化這一過程,筆者采用決策樹方法對(duì)來自電信網(wǎng)絡(luò)的海量數(shù)據(jù)進(jìn)行分類,以減少后續(xù)去冗工作的復(fù)雜性與困難。
筆者選取了ID3決策樹算法進(jìn)行聚類分析。ID3算法會(huì)遍歷數(shù)據(jù)集中的所有屬性,計(jì)算每個(gè)屬性作為分裂點(diǎn)時(shí)的信息增益[7]。信息增益反映了按照某個(gè)屬性進(jìn)行分裂后,數(shù)據(jù)集純度提升的程度[8],其計(jì)算公式如式(2)所示。
G(S,A)=En(S)-∑VValues(A)|Sv||S|En(Sv)(2)
其中,G(S,A)表示信息增益;S表示待分裂的數(shù)據(jù)集;A表示候選分裂屬性;Values(A)表示A屬性的所有可能取值;Sv表示數(shù)據(jù)集S中屬性A取值為v的樣本子集;En(S)表示數(shù)據(jù)集S的熵。在公式中,En(S)用于度量數(shù)據(jù)集的不純度,計(jì)算公式如式(3)所示。
En(S)=-∑mi=1pilog2pi(3)
其中,m表示數(shù)據(jù)集中類別數(shù)量;pi表示第i個(gè)類別在數(shù)據(jù)集中出現(xiàn)的概率。通過計(jì)算信息增益,ID3決策樹算法能夠選擇出最佳分裂屬性,據(jù)此構(gòu)建決策樹的分裂規(guī)則[9]。以此,可以先將數(shù)據(jù)流中的數(shù)據(jù)按照這些規(guī)則進(jìn)行分類,然后在分類后的數(shù)據(jù)集中進(jìn)行冗余消除,從而大大提高工作效率和準(zhǔn)確性。
結(jié)合上述ID3算法,建立決策樹,具體步驟為:
第1步,設(shè)定初始信息增益閾值ε;
第2步,假設(shè)有m個(gè)訓(xùn)練樣本,每個(gè)樣本包含n個(gè)屬性(特征)和1個(gè)類別標(biāo)簽;
第3步,初始化一個(gè)節(jié)點(diǎn)作為根節(jié)點(diǎn),準(zhǔn)備開始構(gòu)建決策樹;
第4步,如果根節(jié)點(diǎn)下的所有樣本都屬于同一類別C,算法運(yùn)算結(jié)束后,把根節(jié)點(diǎn)標(biāo)記成葉子,然后把它的分類設(shè)定為C;
第5步,遍歷樣本的n個(gè)屬性,對(duì)于每個(gè)屬性A,根據(jù)公式(2),計(jì)算其信息增益G(S,A),將信息增益最大的屬性選為當(dāng)前節(jié)點(diǎn)的拆分屬性,其中,S是樣本集;
第6步,如果當(dāng)前節(jié)點(diǎn)是根節(jié)點(diǎn)且選定的分裂屬性的信息增益小于閾值ε,則返回第3步。否則,繼續(xù)下一步;
第7步,對(duì)所選分割屬性的每一個(gè)可能的取值v,從當(dāng)前節(jié)點(diǎn)延伸出相應(yīng)的分支。將當(dāng)前節(jié)點(diǎn)下的樣本按照分裂屬性的取值劃分到不同的分支中;
第8步,對(duì)于每個(gè)非樹葉節(jié)點(diǎn),重復(fù)第3步至第7步,遞歸地構(gòu)建其子樹。當(dāng)所有節(jié)點(diǎn)都被標(biāo)記為樹葉節(jié)點(diǎn)或達(dá)到其他停止條件時(shí),算法終止,得到一棵完整的決策樹[10]。
第19期2024年10月無線互聯(lián)科技·電子通信 No.19October,2024
第19期2024年10月無線互聯(lián)科技·電子通信 No.19October,2024
利用構(gòu)建的決策樹,完成對(duì)電子通信網(wǎng)絡(luò)數(shù)據(jù)流的分類處理。
3 數(shù)據(jù)流冗余數(shù)據(jù)迭代消除
結(jié)合決策樹分類結(jié)果,計(jì)算相同類別中數(shù)據(jù)的相似度,根據(jù)計(jì)算結(jié)果實(shí)現(xiàn)對(duì)冗余數(shù)據(jù)的迭代消除。類間相似度的計(jì)算公式為:
S(i,j)=φ∑mi,j=1log2(Yki-Ykj)(4)
其中,S(i,j)表示數(shù)據(jù)i和數(shù)據(jù)j之間的相似度;φ表示計(jì)算因子;Yki、Ykj表示在k類樣本中數(shù)據(jù)i、j的哈希值。將得到的計(jì)算結(jié)果S(i,j)與判別閾值W進(jìn)行對(duì)比,判斷數(shù)據(jù)流中的數(shù)據(jù)是否為冗余數(shù)據(jù):若S(i,j)>W,則認(rèn)為該數(shù)據(jù)為冗余數(shù)據(jù),將其消除;反之,若S(i,j)≤W,則認(rèn)為該數(shù)據(jù)不是冗余數(shù)據(jù)。
4 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證上述方法的實(shí)際應(yīng)用效果,筆者設(shè)計(jì)了如下實(shí)驗(yàn)。
將余錦河等[1]方法設(shè)置為對(duì)照A組,將張淑清等[2]方法設(shè)置為對(duì)照B組,將文章上述基于決策樹算法的方法設(shè)置為實(shí)驗(yàn)組,利用3種消除方法,在相同實(shí)驗(yàn)環(huán)境中對(duì)電子通信網(wǎng)絡(luò)數(shù)據(jù)流的冗余進(jìn)行消除。通過對(duì)比消除效果,實(shí)現(xiàn)對(duì)3種方法應(yīng)用性能的對(duì)比。按照表1所示,設(shè)置5組實(shí)驗(yàn)樣本。
從表1中的內(nèi)容可以看出,5組樣本數(shù)據(jù)量相同,均為100個(gè),屬性和冗余度均不相同。在利用3種方法完成冗余消除后,將空間縮減比例作為評(píng)價(jià)冗余消除效果的量化指標(biāo),空間縮減比例的計(jì)算如式(5)所示。
L=e/E(5)
其中,L表示空間縮減比例;e表示刪除的冗余部分?jǐn)?shù)據(jù)量;E表示樣本的數(shù)據(jù)總量。空間縮減比例越高,說明冗余消除的效果越好,即消除的冗余數(shù)據(jù)越多,節(jié)省的存儲(chǔ)空間或數(shù)據(jù)體積越大。
3種方法的空間縮減比例如表2所示。
在對(duì)比的5組數(shù)據(jù)樣本中,實(shí)驗(yàn)組方法展現(xiàn)出了顯著的優(yōu)勢,其空間縮減比例在每組數(shù)據(jù)中都達(dá)到了最高水平,這一表現(xiàn)不僅證明了該方法的有效性,更凸顯了其在處理電子通信網(wǎng)絡(luò)數(shù)據(jù)流冗余方面的優(yōu)越性。實(shí)驗(yàn)組的空間縮減比例的具體取值穩(wěn)定地落在 24.0%至36.0%的范圍內(nèi)。這一區(qū)間不僅體現(xiàn)了該方法在冗余消除上的穩(wěn)定性能,也顯示了其對(duì)于不同類型或規(guī)模的數(shù)據(jù)流都能保持較高的處理效率。而對(duì)照A組和對(duì)照B組的空間縮減比例均位于10.0%至23.0%的范圍內(nèi),明顯低于實(shí)驗(yàn)組。這一對(duì)比結(jié)果不僅進(jìn)一步強(qiáng)調(diào)了實(shí)驗(yàn)組方法的優(yōu)勢,也反映出其他2種對(duì)照方法在冗余消除效果上的局限性。
5 結(jié)語
筆者提出的基于決策樹算法的電子通信網(wǎng)絡(luò)數(shù)據(jù)流冗余消除方法,為電子通信網(wǎng)絡(luò)中的數(shù)據(jù)流冗余問題提供了新的解決方案。該方法不僅能夠準(zhǔn)確地識(shí)別和處理數(shù)據(jù)流中的冗余數(shù)據(jù),還能夠適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和數(shù)據(jù)類型,具有廣闊的應(yīng)用前景。
隨著電子通信網(wǎng)絡(luò)的不斷發(fā)展和數(shù)據(jù)量的不斷增長,數(shù)據(jù)流冗余消除將面臨更加復(fù)雜和嚴(yán)峻的挑戰(zhàn)。因此,須要進(jìn)一步研究和探索更加高效、準(zhǔn)確和智能的數(shù)據(jù)流冗余消除方法,為電子通信網(wǎng)絡(luò)的發(fā)展提供有力的支持。同時(shí),也須要關(guān)注數(shù)據(jù)流冗余消除技術(shù)的安全性和隱私保護(hù)問題,確保數(shù)據(jù)流在傳輸和處理過程中的安全性和隱私性。
參考文獻(xiàn)
[1]余錦河,劉虎,張才俊.基于人工神經(jīng)網(wǎng)絡(luò)算法的用電信息傳輸冗余量消除仿真[J].電子設(shè)計(jì)工程,2023(23):54-57,62.
[2]張淑清.基于哈希計(jì)算的大數(shù)據(jù)冗余消除算法設(shè)計(jì)[J].微型電腦應(yīng)用,2021(12):68-70.
[3]張莉,丁毛毛,李瑋,等.基于決策樹算法的客服終端冗余數(shù)據(jù)迭代消除方法[J].計(jì)算技術(shù)與自動(dòng)化,2022(4):118-122.
[4]張翼英,王德龍,渠慧穎,等.面向不平衡數(shù)據(jù)和特征冗余的網(wǎng)絡(luò)入侵檢測[J].天津科技大學(xué)學(xué)報(bào),2023(5):57-63.
[5]郭勤,曾輝,李慧玲.基于數(shù)據(jù)驅(qū)動(dòng)的光纖網(wǎng)絡(luò)冗余節(jié)點(diǎn)狀態(tài)調(diào)度方法[J].激光雜志,2023(10):162-166.
[6]謝絨娜,范曉楠,李蘇浙,等.基于標(biāo)簽的數(shù)據(jù)流轉(zhuǎn)控制策略冗余與沖突檢測方法[J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2023(5):21-32.
[7]張霖,張媛媛,劉星.一種最小化網(wǎng)絡(luò)能耗的冗余消除路由策略[J].首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023(5):37-40.
[8]陳潤星,劉杰,李龍杰,等.基于HWD32F429的主從冗余數(shù)據(jù)記錄系統(tǒng)的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2024(2):43-46.
[9]高文昀,戴勝,涂麗萍,等.基于冗余數(shù)據(jù)消除的不平衡樣本加權(quán)支持向量機(jī)方法研究[J].長江信息通信,2022(1):46-50.
[10]俞立平,舒光美.一種期刊評(píng)價(jià)指標(biāo)數(shù)據(jù)冗余消除法:獨(dú)立信息測度[J].現(xiàn)代情報(bào),2023(5):114-122,167.
(編輯 王永超)
Electronic communication network based on decision tree algorithm
SONG Jian
(Fuzhou Polytechnic, Fuzhou 350108, China)
Abstract: The existing elimination methods have a low spatial reduction ratio when eliminating redundant data in data streams, resulting in unsatisfactory elimination effects. In response to this issue, the author introduces the decision tree algorithm and designs a new method for eliminating data stream redundancy in electronic communication networks. After integrating and processing electronic communication network data, the author uses decision tree algorithm to classify the electronic communication network data flow. Then, based on the similarity calculation results of data in the same category, the author iteratively eliminates redundant data in the data stream. The experiment shows that after applying the new method, the reduction ratio of data flow space in electronic communication networks is significantly improved, indicating that the elimination effect of the new method is more ideal.
Key words: decision tree algorithm; redundancy elimination; data flow; electronic communication