摘" 要:由于煙草物流行業(yè)在運(yùn)營過程中涉及的數(shù)據(jù)來源極其廣泛且多樣,數(shù)據(jù)不僅格式各異、結(jié)構(gòu)復(fù)雜,而且往往分散存儲在不同的信息系統(tǒng)中,導(dǎo)致物流數(shù)據(jù)在集成的過程中,出現(xiàn)數(shù)據(jù)吞吐量較低的現(xiàn)象。針對上述現(xiàn)象,提出基于K-medoids聚類的異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集成方法。通過欠采樣平衡類別分布,利用數(shù)據(jù)相關(guān)性和閾值清洗剔除冗余信息,提高異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)質(zhì)量,設(shè)計基于K-medoids聚類的煙草物流數(shù)據(jù)集成框架,使用遷移學(xué)習(xí)動態(tài)調(diào)整源域權(quán)重以優(yōu)化目標(biāo)域聚類性能,引入帶有相似性約束的新數(shù)據(jù)點作為初始聚類中心,實現(xiàn)異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)的有效集成。實驗結(jié)果表明,設(shè)計方法通過聚類算法能夠?qū)碜圆煌瑪?shù)據(jù)源的數(shù)據(jù)進(jìn)行有效分組和整合,降低數(shù)據(jù)處理的復(fù)雜性,提高數(shù)據(jù)集成的吞吐量。
關(guān)鍵詞:K-medoids聚類;異構(gòu)環(huán)境;多源數(shù)據(jù);煙草物流數(shù)據(jù);數(shù)據(jù)集成方法
中圖分類號:TP311.1" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2024)35-0039-05
Abstract: Due to the extremely wide and diverse data sources involved in the operation process of the tobacco logistics industry, the data not only has different formats and complex structures, but is also often scattered and stored in different information systems, resulting in data throughput during the integration process of logistics data Low phenomenon. Aiming at the above phenomena, a multi-source tobacco logistics data integration method based on K-medoids clustering in heterogeneous environments is proposed. By undersampling to balance category distribution, using data correlation and threshold cleaning to eliminate redundant information, we improve the quality of multi-source tobacco logistics data in heterogeneous environments. A tobacco logistics data integration framework based on K-medoids clustering is designed, and transfer learning is used to dynamically adjust source domain weights to optimize target domain clustering performance. New data points with similarity constraints are introduced as the initial clustering center to achieve effective integration of multi-source tobacco logistics data in heterogeneous environments. Experimental results show that the design method can effectively group and integrate data from different data sources through clustering algorithm, reducing the complexity of data processing and improving the throughput of data integration.
Keywords: K-medoids clustering; heterogeneous environment; multi-source data; tobacco logistics data; data integration methods
在當(dāng)今日益復(fù)雜的商業(yè)環(huán)境中,多源數(shù)據(jù)集成已成為提升業(yè)務(wù)效率和決策質(zhì)量的關(guān)鍵技術(shù)之一。特別是在煙草物流領(lǐng)域,由于涉及多個環(huán)節(jié)、多個參與方以及多種數(shù)據(jù)類型,數(shù)據(jù)集成顯得尤為重要。然而,傳統(tǒng)的數(shù)據(jù)集成方法在面對異構(gòu)環(huán)境時往往顯得力不從心,無法有效處理來自不同系統(tǒng)、不同格式、不同質(zhì)量的數(shù)據(jù)。
文獻(xiàn)[1]提出基于云計算的建筑測繪數(shù)據(jù)集成管理方法,利用云計算的彈性伸縮和分布式處理能力,對建筑測繪產(chǎn)生的海量數(shù)據(jù)進(jìn)行有效管理和集成。通過云計算平臺,實現(xiàn)對數(shù)據(jù)的集中存儲、統(tǒng)一管理和高效查詢。文獻(xiàn)[2]提出基于隨機(jī)森林的多源小樣本數(shù)據(jù)快速集成方法,從多個數(shù)據(jù)源中收集小樣本數(shù)據(jù),使用經(jīng)過預(yù)處理的數(shù)據(jù)集構(gòu)建隨機(jī)森林模型,利用模型對多源小樣本數(shù)據(jù)進(jìn)行分類和預(yù)測。模型根據(jù)輸入數(shù)據(jù)的特征將其劃分為不同的類別,根據(jù)分類或預(yù)測結(jié)果,對多源小樣本數(shù)據(jù)進(jìn)行集成。
盡管文獻(xiàn)[1]和文獻(xiàn)[2]分別從不同角度對數(shù)據(jù)集成方法進(jìn)行了探索,但它們在處理異構(gòu)環(huán)境多源數(shù)據(jù)時,對異構(gòu)數(shù)據(jù)的處理能力有限,無法有效處理來自不同系統(tǒng)、不同格式的數(shù)據(jù)。因此,本文提出基于K-medoids聚類的異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集成方法,旨在實現(xiàn)煙草物流領(lǐng)域異構(gòu)環(huán)境多源數(shù)據(jù)的有效集成,為煙草物流的決策分析和業(yè)務(wù)優(yōu)化提供有力支持。
1" 異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)預(yù)處理
在煙草物流行業(yè)中,數(shù)據(jù)往往來自多個不同的系統(tǒng)、格式和結(jié)構(gòu),這些異構(gòu)數(shù)據(jù)可能包含錯誤、重復(fù)、缺失或不一致的信息。因此,本文首先對異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)進(jìn)行預(yù)處理。在煙草物流數(shù)據(jù)中,由于數(shù)據(jù)采集偏差、業(yè)務(wù)特性等,可能會出現(xiàn)某些類別的數(shù)據(jù)樣本遠(yuǎn)多于其他類別的情況,導(dǎo)致后續(xù)在集成訓(xùn)練時偏向于多數(shù)類,而忽略少數(shù)類[3]。為了處理異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)中類別不平衡的問題,本文采用欠采樣方法,通過減少多數(shù)類樣本的數(shù)量來平衡不同類別之間的樣本分布。
假設(shè)原始數(shù)據(jù)集中多數(shù)類樣本的數(shù)量為Nd,少數(shù)類樣本的數(shù)量為Ns,通過欠采樣技術(shù)使得多數(shù)類樣本的數(shù)量減少到Ny的過程可以用式(1)進(jìn)行表示
Ny=Nd·Ns , (1)
式中:Ns表示異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)的欠采樣率。
利用隨機(jī)抽樣算法從Nd個多數(shù)類樣本中隨機(jī)抽取Ny個樣本進(jìn)行保留,將保留的多數(shù)類樣本和原有的少數(shù)類樣本組合起來,形成新的數(shù)據(jù)集。新的數(shù)據(jù)集包含Ny個多數(shù)類樣本和Ns個少數(shù)類樣本,其中Ny+Ns=N。
將不同類別的樣本均衡分布后,樣本中的數(shù)據(jù)不僅格式各異,而且可能存在大量的重復(fù)或無效信息。因此,對異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)進(jìn)行冗余處理,識別并剔除重復(fù)和無效的數(shù)據(jù),在不損害數(shù)據(jù)原始性和真實性的前提下,降低數(shù)據(jù)處理和傳輸?shù)膹?fù)雜度。針對煙草物流數(shù)據(jù)的異構(gòu)特性,本文采用一種基于數(shù)據(jù)相關(guān)性的冗余處理方法。假設(shè)N個樣本中,有來自n個不同數(shù)據(jù)源的煙草物流數(shù)據(jù),表示為X1,X2,K,Xn。對數(shù)據(jù)進(jìn)行清洗,設(shè)置一個閾值范圍[T1,T2],若某個數(shù)據(jù)點的值不在此范圍內(nèi),則視為無效數(shù)據(jù)。清洗后的數(shù)據(jù)可以表示為
Xq= {x∈Xi│T1≤x≤T2} 。 (2)
將清洗后的數(shù)據(jù)融合成一個統(tǒng)一的數(shù)據(jù)流,如式(3)所示
Yi=f(Xq) , (3)
式中:f表示映射函數(shù),將每個數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一的度量空間。
為了識別和剔除冗余數(shù)據(jù),使用皮爾遜相關(guān)系數(shù)度量2個數(shù)據(jù)集之間的相關(guān)性。對于數(shù)據(jù)集Yi和Yj,其皮爾遜相關(guān)系數(shù)rij可以表示為
式中:Y表示數(shù)據(jù)集Yi和Yj中的第k個數(shù)據(jù)點;j表示它們的平均值;m表示數(shù)據(jù)點的數(shù)量。如果rij接近1,則表示2個數(shù)據(jù)集高度相關(guān),可能存在冗余,根據(jù)數(shù)據(jù)特點,選擇保留其中一個數(shù)據(jù)集。
經(jīng)過上述的數(shù)據(jù)預(yù)處理步驟,處理了異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)中類別不平衡問題,并識別及剔除了數(shù)據(jù)中的重復(fù)和無效信息,提高了數(shù)據(jù)的質(zhì)量,為后續(xù)的數(shù)據(jù)集成奠定了堅實的基礎(chǔ)[4]。
2" 基于K-medoids聚類設(shè)計煙草物流數(shù)據(jù)集成框架
本文提出一種基于K-medoids聚類的集成算法框架,在異構(gòu)煙草物流數(shù)據(jù)環(huán)境中構(gòu)建準(zhǔn)確聚類模型時,充分利用多源域數(shù)據(jù),通過遷移學(xué)習(xí)來探索不同數(shù)據(jù)源之間的關(guān)聯(lián)性和互補(bǔ)性,從而優(yōu)化目標(biāo)域上的聚類性能。
假設(shè)存在一個包含多個源域和目標(biāo)域的數(shù)據(jù)空間K,其中,源域A中包含大量帶有特征標(biāo)記的樣本,目標(biāo)域B中可能包含較少或沒有標(biāo)記的樣本[5]。源域數(shù)據(jù)集中存在M個中心點,這些中心點代表M個不同的簇。利用K-medoids聚類算法在源域A上構(gòu)建初始聚類模型,也就是K-medoids算法通過迭代的方式尋找源域A中的M個中心點。對于源域數(shù)據(jù)集A中的每個數(shù)據(jù)點Ai,被分配給離它最近的medoids所代表的簇Cm,其中m=1,2,K,M。此時的目標(biāo)函數(shù)是最小化所有點到其所屬簇的medoids的距離之和,可以用式(5)進(jìn)行表示
minimize, (5)
式中:d表示數(shù)據(jù)點Ai與其所屬簇C的medoids之間的距離。
在構(gòu)建面向目標(biāo)域的聚類模型時,為目標(biāo)域和多個源域的初始樣本分配權(quán)重值。將目標(biāo)域樣本權(quán)重初始化為co′={co1,co′2,K,co′n},co′i是第i目標(biāo)域樣本的權(quán)重,將源域樣本權(quán)重初始化為w={w1,w2,K,wm},wj是第j個源域樣本的權(quán)重。通過多次迭代學(xué)習(xí),根據(jù)梯度下降優(yōu)化算法更新權(quán)重值,如式(6)所示
cj,t+1=wj,t-" , (6)
式中:t表示迭代次數(shù);a表示學(xué)習(xí)率;L表示損失函數(shù)。
隨著迭代過程的進(jìn)行,本文根據(jù)多源域與目標(biāo)域之間的損失值來評估不同源域?qū)δ繕?biāo)域聚類任務(wù)的貢獻(xiàn)度[6]。通過計算多源損失,篩選出與目標(biāo)域貢獻(xiàn)度最大的源域,將其視為目標(biāo)源類[7]。這一過程可以用式(7)進(jìn)行表示
Ls=Lm+wL,j,tLj , (7)
式中:Lm表示目標(biāo)域的損失;Lj表示第j個源域的損失;g表示源域的數(shù)量;wL,j,t表示第j個源域損失的權(quán)重。
不僅要考慮源域當(dāng)前的損失值,還要考慮其在連續(xù)迭代中的變化趨勢。如果源域的損失在連續(xù)迭代中持續(xù)下降,那么認(rèn)為這個源域?qū)δ繕?biāo)域聚類任務(wù)的貢獻(xiàn)在增加,因此應(yīng)該增加其權(quán)重[8]。相反,如果源域的損失在連續(xù)迭代中保持不變或上升,那么認(rèn)為這個源域?qū)δ繕?biāo)域聚類任務(wù)的貢獻(xiàn)在減少或不再顯著,因此應(yīng)該減少其權(quán)重?;谏鲜隹紤],對式(7)進(jìn)行改進(jìn),得到以下公式
wL,j,t=wL,j,t·exp-λ· , (8)
式中:λ表示衰減率參數(shù):1表示指示函數(shù),當(dāng)Lj,tlt;γ時取值為1,否則取值為0,確保只有當(dāng)源域的損失小于閾值γ時,其權(quán)重才會被更新。
通過這種方式,可以更加精確地控制源域權(quán)重的更新,使得對目標(biāo)域聚類任務(wù)有顯著貢獻(xiàn)的源域能夠獲得更高的權(quán)重,而貢獻(xiàn)較小的源域則會被逐漸淘汰,有助于構(gòu)建一個更加高效和準(zhǔn)確的聚類模型,以適應(yīng)復(fù)雜多變的異構(gòu)煙草物流數(shù)據(jù)環(huán)境。
3" 選取聚類中心初始值集成煙草物流數(shù)據(jù)
由于傳統(tǒng)的K-medoids聚類算法隨機(jī)選擇初始的medoids,這種做法可能會導(dǎo)致選擇的medoids過于接近,從而增加算法收斂到穩(wěn)定解所需的迭代次數(shù)。為了改進(jìn)K-medoids聚類算法中聚類中心點初始值的選擇過程,本文提出一種基于約束條件的medoids初始化方法。向已知的異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集中引入V個新的數(shù)據(jù)點,并為這些新數(shù)據(jù)點制定2個關(guān)鍵約束條件。
第一,新加入的數(shù)據(jù)點必須與異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集中的已有數(shù)據(jù)保持一定的相似性,確保算法更快地定位到可能的最優(yōu)聚類中心[9]。
第二,新加入的V個數(shù)據(jù)點之間必須保持較低的相似性,確保初始的medoids在異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)空間中分布得更加均勻,減少算法在迭代過程中需要大幅度調(diào)整medoids位置的可能性。
基于上述2個約束條件,本文煙草物流數(shù)據(jù)集成過程示意圖如圖1所示。
選擇出V個符合要求的新數(shù)據(jù)點,并將它們作為K-medoids聚類算法的初始medoids,運(yùn)行K-medoids聚類算法將異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集中的數(shù)據(jù)點分配給不同的聚類。在每次迭代中,根據(jù)每個數(shù)據(jù)點與當(dāng)前medoids之間的距離,將數(shù)據(jù)點分配給距離最近的medoids所代表的聚類,通過替換當(dāng)前的medoids為同一聚類中的其他數(shù)據(jù)點來優(yōu)化聚類結(jié)果[10]。如果在連續(xù)多次迭代中,medoids的選擇沒有發(fā)生變化,代表算法已經(jīng)收斂到穩(wěn)定解,則停止迭代,此時的煙草物流數(shù)據(jù)聚類結(jié)果即為煙草物流數(shù)據(jù)的集成。由此,完成了基于K-medoids聚類的異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集成設(shè)計。
4" 實驗
4.1" 實驗準(zhǔn)備
為了全面驗證本文提出的集成方法的可行性,設(shè)計一系列實驗。通過集成多個不同來源、不同格式、不同結(jié)構(gòu)的煙草物流數(shù)據(jù),旨在實現(xiàn)數(shù)據(jù)的高效整合、無縫共享和充分利用,為煙草物流管理和決策提供有力支持。
首先進(jìn)行實驗環(huán)境設(shè)置,在硬件設(shè)備方面,采用型號為Dell PowerEdge R740的服務(wù)器,配備Intel Xeon Gold 6248R處理器和128 GB DDR4 ECC REG RAM內(nèi)存,保證多源煙草物流數(shù)據(jù)處理的高效性和穩(wěn)定性。在網(wǎng)絡(luò)設(shè)備方面,選擇型號為Cisco Catalyst 3850的交換機(jī),構(gòu)建實驗網(wǎng)絡(luò),利用Cisco ASR 1000路由器將網(wǎng)絡(luò)間的路由進(jìn)行轉(zhuǎn)發(fā)和流量控制。在軟件環(huán)境方面,配置以MySQL 8.0為數(shù)據(jù)庫管理系統(tǒng)來存儲和管理多源煙草物流數(shù)據(jù),借助Talend Open Studio作為ETL工具實現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,利用Apache NiFi 1.15.0進(jìn)行實時數(shù)據(jù)集成,并通過Python 3.9及其數(shù)據(jù)處理庫對數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和分析。具體的實驗環(huán)境參數(shù)設(shè)置見表1。
在實驗環(huán)境搭建完成的基礎(chǔ)上,進(jìn)行數(shù)據(jù)準(zhǔn)備。模擬多源煙草物流數(shù)據(jù),包括來自不同供應(yīng)商、不同物流環(huán)節(jié)、不同系統(tǒng)平臺的數(shù)據(jù)見表2。
在進(jìn)行煙草物流數(shù)據(jù)的集成工作時,由于數(shù)據(jù)來源于多個異構(gòu)系統(tǒng),要充分了解每個數(shù)據(jù)源的特點,包括數(shù)據(jù)格式、字段定義等,之后對模擬的數(shù)據(jù)進(jìn)行清洗和預(yù)處理,去除重復(fù)數(shù)據(jù)、錯誤數(shù)據(jù)、無效數(shù)據(jù)等,確保數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。將不同來源、不同格式、不同結(jié)構(gòu)的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和標(biāo)準(zhǔn),啟動數(shù)據(jù)集成工具,執(zhí)行數(shù)據(jù)集成操作,將多源煙草物流數(shù)據(jù)集成到目標(biāo)數(shù)據(jù)庫中。在數(shù)據(jù)集成的過程中,可能會出現(xiàn)各種錯誤和異常情況,因此,要建立完善的錯誤處理和日志記錄機(jī)制,及時發(fā)現(xiàn)、記錄并解決問題。
4.2" 實驗結(jié)果及分析
為了驗證本文方法在異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)集成方面的優(yōu)越性,將本文方法與文獻(xiàn)[1]和文獻(xiàn)[2]中提出的類似方法進(jìn)行對比分析。對比3種方法在數(shù)據(jù)集成過程中的數(shù)據(jù)吞吐量,得到如圖2所示的對比實驗結(jié)果。
根據(jù)圖2可以看出,本文方法在數(shù)據(jù)集成過程中的數(shù)據(jù)吞吐量表現(xiàn)優(yōu)于文獻(xiàn)[1]和文獻(xiàn)[2]中的方法。從各個時間段的數(shù)據(jù)吞吐量來看,本文方法在每個時間段內(nèi)的吞吐量都高于文獻(xiàn)[1]和文獻(xiàn)[2]中的方法。特別是在20~30 s的時間段內(nèi),本文方法的數(shù)據(jù)吞吐量達(dá)到了140 MB/s,明顯高于其他2種方法,表明本文方法在數(shù)據(jù)集成過程中具有更高的處理效率和性能。從平均數(shù)據(jù)吞吐量來看,本文方法的平均吞吐量為133 MB/s,文獻(xiàn)[1]和文獻(xiàn)[2]中的方法平均吞吐量分別為109 MB/s和97.8 MB/s,進(jìn)一步驗證了本文方法在數(shù)據(jù)集成方面的優(yōu)越性,不僅體現(xiàn)在瞬時處理速度上,更在長時間的穩(wěn)定運(yùn)行中保持了高效的數(shù)據(jù)處理能力。綜上所述,可以得出結(jié)論:本文提出的數(shù)據(jù)集成方法在數(shù)據(jù)吞吐量方面具有明顯的優(yōu)勢,可以滿足異構(gòu)環(huán)境多源煙草物流數(shù)據(jù)需要高效處理大量數(shù)據(jù)的需求。
5" 結(jié)論
本文通過K-medoids聚類算法,成功地將來自不同系統(tǒng)、不同格式、不同質(zhì)量的煙草物流數(shù)據(jù)進(jìn)行了有效集成,為后續(xù)的決策分析和業(yè)務(wù)優(yōu)化提供了有力支持。在未來的研究工作中,我們將繼續(xù)深化對K-medoids聚類算法的研究,探索其在處理更加復(fù)雜和異構(gòu)數(shù)據(jù)時的性能表現(xiàn)。同時,我們將結(jié)合煙草物流的實際業(yè)務(wù)需求,開展更多關(guān)于數(shù)據(jù)集成后的應(yīng)用研究,如基于集成數(shù)據(jù)的物流路徑優(yōu)化、庫存管理等。此外,隨著人工智能和大數(shù)據(jù)技術(shù)的不斷發(fā)展,我們也將積極探索將更多先進(jìn)的技術(shù)手段引入煙草物流數(shù)據(jù)集成中,以提升數(shù)據(jù)處理的效率和準(zhǔn)確性。
參考文獻(xiàn):
[1] 王延堂.基于云計算的建筑測繪數(shù)據(jù)集成管理方法[J].信息與電腦(理論版),2024,36(2):156-158.
[2] 何昀,張川,張繼夫,等.基于隨機(jī)森林的多源小樣本數(shù)據(jù)快速集成方法[J].信息與電腦(理論版),2024,36(1):52-54.
[3] 張海彬,羅玉林,區(qū)云帆,等.基于中鐵貴州智慧社區(qū)管理的多源異構(gòu)數(shù)據(jù)集成方法[J].建筑技術(shù),2023,54(22):2808-2813.
[4] 沈川.基于K-Means算法的建筑工程進(jìn)度數(shù)據(jù)集成方法[J].信息與電腦(理論版),2023,35(22):66-68.
[5] 陳超,胡才亮,崔鈺,等.基于時空聚類的多源異構(gòu)時序數(shù)據(jù)集成方法[J].電子設(shè)計工程,2023,31(20):168-171,176.
[6] 范洪斌.基于關(guān)聯(lián)規(guī)則算法的工業(yè)生產(chǎn)數(shù)據(jù)智能集成方法[J].數(shù)字通信世界,2023(6):57-59.
[7] 祝鵬,郭艷光.基于K-medoids聚類算法的多源信息數(shù)據(jù)集成算法[J].吉林大學(xué)學(xué)報(理學(xué)版),2023,61(3):665-670.
[8] 楊航,盧偉開,黃海英,等.基于深度學(xué)習(xí)的IT服務(wù)綜合監(jiān)控系統(tǒng)異構(gòu)數(shù)據(jù)集成方法[J].微型電腦應(yīng)用,2023,39(3):68-70.
[9] 李躍先,殷傳濤,魏億鋼.基于本體與中間件的科技資源數(shù)據(jù)集成方法[J].標(biāo)準(zhǔn)科學(xué),2021(5):21-28.
[10] 盛靜文,于艷麗,江開忠.基于K-medoids聚類的貝葉斯集成算法[J].智能計算機(jī)與應(yīng)用,2021,11(2):84-87.