黃 鏗,陳易平,李慶珍
(1.廣州南洋理工職業(yè)學(xué)院 經(jīng)濟(jì)管理學(xué)院,廣東 廣州 510900;2.廣州理工學(xué)院 計算機科學(xué)與工程學(xué)院,廣東 廣州 510540;3.中國政法大學(xué) 數(shù)據(jù)法治研究院,北京 102249)
大數(shù)據(jù)在多個行業(yè)的深入應(yīng)用,以及各種大模型為海量數(shù)據(jù)的精細(xì)化深度分析提供的算力支持,為企業(yè)數(shù)據(jù)的集群化挖掘及分析提供了技術(shù)保證。不論是制造企業(yè)的工序分析,還是金融領(lǐng)域的大數(shù)據(jù)信用識別,電商領(lǐng)域的精準(zhǔn)用戶畫像,電力行業(yè)的用電行為分析等,無時無刻不體現(xiàn)大數(shù)據(jù)應(yīng)用的身影,數(shù)據(jù)分析的價值正逐漸為企業(yè)的發(fā)展提供新的機會。在企業(yè)數(shù)據(jù)的管理研究中,由于其他種類差異,其數(shù)據(jù)分析的要求及難度差別較大,[1]而且由于企業(yè)數(shù)據(jù)管理受到整個市場的影響,其數(shù)據(jù)分析不應(yīng)當(dāng)完全是獨立企業(yè)內(nèi)部數(shù)據(jù)的孤立分析,而是要結(jié)合所在行業(yè)數(shù)據(jù)以及與該企業(yè)相關(guān)行業(yè)的上下游產(chǎn)業(yè)鏈所有數(shù)據(jù),因此企業(yè)數(shù)據(jù)分析的準(zhǔn)確度需要大量算力支持。聚類算法作為開放大規(guī)模數(shù)據(jù)分析的常用手段,其不受企業(yè)行業(yè)特點的限制,而且在應(yīng)對大規(guī)模數(shù)據(jù)分析時,仍能保持較高分析效率。
當(dāng)前,聚類算法在企業(yè)數(shù)據(jù)管理應(yīng)用中的研究較多。劉超等[2]通過軟子空間聚類算法來判別銀行用戶信用類別,并提前對低信用用戶進(jìn)行篩選并納入監(jiān)管,以降低銀行經(jīng)營風(fēng)險。吳花平等[3]對各行業(yè)的碳排放進(jìn)行聚類管理,根據(jù)企業(yè)的經(jīng)驗和能源使用數(shù)據(jù)進(jìn)行碳排放分類,以便實現(xiàn)碳排放不合格企業(yè)的提前預(yù)警,增強碳排放管理的智能性。李春生等[4]采用均值聚類對企業(yè)人員進(jìn)行類別分析,根據(jù)行為類別進(jìn)行績效評價,有效提高了績效評價的過程性和科學(xué)性,這都是聚類算法在企業(yè)數(shù)據(jù)管理中的有效應(yīng)用。
本文采用密度峰值聚類算法用于企業(yè)數(shù)據(jù)管理應(yīng)用,通過QWOA的優(yōu)化,有效提高了DPC聚類算法在大數(shù)據(jù)分析應(yīng)用中的適用性,且QWOA-DPC算法在多個行業(yè)的企業(yè)數(shù)據(jù)分析中均表現(xiàn)出較強的聚類性能。
密度峰值聚類(DPC)在聚類時除了考慮節(jié)點間的距離值,還需考慮節(jié)點的屬性密度,將距離和密度兩者相結(jié)合,篩選聚類中心。
設(shè)包含N個樣本點的集合X被劃分為C={C1,C2,…,Ck},共k個類別,且X=C1∪C2…∪Ck,Ci∩Cj=φ(i≠j)。
設(shè)樣本點xi和xj的距離rij為:
(1)
其中樣本總維度為n。
xi在所有節(jié)點中的密度ρi計算方法[5]:
ρi=∑jχ(rij-rc)
(2)
其中rc為距離閾值,χ(x)滿足條件[6]:
(3)
由于χ(x)非可導(dǎo),將其換為可導(dǎo)的高斯函數(shù),公式(2)修改為[7]:
(4)
點xi的最小距離δi計算公式為[8]:
(5)
計算所有節(jié)點的ρi和δi,并對所有點的ρi和δi作乘積運算:
γi=ρi·δi
(6)
然后對比N個樣本點的ρi、δi和γi,選擇三者均較大的點作為聚類中心,然后根據(jù)距離進(jìn)行其他節(jié)點的類別劃分。
鯨魚在捕食過程中的位置變化比較復(fù)雜,這類位置變化可以遷移到最優(yōu)解的尋找過程。WOA正是將可能解賦予鯨群個體,通過個體的獵物搜索及捕食來完成解的尋優(yōu)。
WOA個體的隨機位置變化方式為[9]:
(7)
(8)
(9)
(10)
螺旋攻擊方式[11]:
(11)
其中b為常數(shù),l為[-1,1]的隨機數(shù)。
鯨魚發(fā)現(xiàn)食物后,根據(jù)概率p選擇運動方式,一種是包圍捕食,另一種是螺旋攻擊:[12]
(12)
不斷執(zhí)行式(12)進(jìn)行捕食運動,迭代直至獲取最優(yōu)個體。
量子常用表示為[13]:
|φ〉=α|0〉+β|1〉
(13)
變換(13)式表示方法:
|φ〉=[α,β]T
(14)
令α=cos(θ),β=sin(θ),則式(13)為:
|φ〉=cos(θ)|0〉+sin(θ)|1〉=[cos(θ),sin(θ)]T
(15)
將鯨群所有個體位置進(jìn)行重新編碼:
(16)
其中θij=2π·Rand(),Rand()∈(0,1),i∈{1,2,…,n},j∈{1,2,…,m},n和m分別為鯨魚規(guī)模和位置維度,則式(16)可寫為[13]:
(17)
按照式(17)對所有鯨魚個體位置進(jìn)行編碼,然后再執(zhí)行WOA優(yōu)化求解操作。
在DPC計算中,節(jié)點密度值與距離閾值rc強相關(guān),而該值設(shè)定對聚類中心的選擇影響明顯,最終影響聚類結(jié)果。因此,在DPC應(yīng)用時,應(yīng)選擇合理的距離閾值,隨機設(shè)置容易造成不合理的情況,因此采用WOA算法對該值進(jìn)行優(yōu)化,以篩選出更合理的DPC聚類中心。將若干rc隨機值構(gòu)建鯨群,選擇聚類準(zhǔn)確度為WOA適應(yīng)度函數(shù),并將WOA鯨魚個體位置進(jìn)行量子化,擴(kuò)展搜索方向和細(xì)化搜索精度,通過WOA的捕食運動過程來求解最優(yōu)rc,最后采用最優(yōu)rc進(jìn)行DPC的聚類中心選擇。
圖1 基于QWOA-DPC的聚類流程
為了驗證QWOA-DPC算法在企業(yè)數(shù)據(jù)管理中的應(yīng)用性能,分別從不同角度對三類企業(yè)進(jìn)行數(shù)據(jù)管理應(yīng)用分析,并進(jìn)行實例仿真。其中WOA主要參數(shù)為:鯨群最大規(guī)模為500,b=1。
采用QWOA-DPC算法對六個省份的供電企業(yè)2021年度電網(wǎng)數(shù)據(jù)進(jìn)行聚類分析,分別從企業(yè)的發(fā)展前景、資產(chǎn)質(zhì)量、輸配電服務(wù)和收入業(yè)績[14]4個維度進(jìn)行聚類,其主要數(shù)據(jù)集如表1所示。
表1 電網(wǎng)數(shù)據(jù)集
采用QWOA進(jìn)行距離閾值優(yōu)化后,對于六個不同省份供電企業(yè)在四個維度得到的簇中心數(shù)目、簇內(nèi)節(jié)點至簇中心的距離的標(biāo)準(zhǔn)誤差之和、QWOA-DPC的迭代次數(shù)統(tǒng)計結(jié)果分別如表2所示。
表2 電力企業(yè)的聚類類別
表3 電力企業(yè)的聚類標(biāo)準(zhǔn)誤差
表4 電力企業(yè)聚類的迭代次數(shù)
從表2可知,對于四個聚類維度,采用QWOA-DPC自適應(yīng)得到的聚類類別數(shù)和表1的實際類別數(shù)均相同。在發(fā)展前景方面,只有E省電力企業(yè)有一個類別,其他省電力企業(yè)均分成了二類,六省電力公司的資產(chǎn)質(zhì)量均分為了三類;輸配電服務(wù)質(zhì)量方面,B省和D省供電服務(wù)質(zhì)量均處于較高的水平,其他四省服務(wù)質(zhì)量有一定參差;在收入業(yè)績方面,相比于其他三個維度,QWOA-DPC得到的聚類結(jié)果類別更稀疏,這可能是因為六個省份由于區(qū)域用電差距明顯,而造成的不同區(qū)域收入業(yè)績分散度高。
從表3可知,根據(jù)QWOA-DPC對四個維度的自適應(yīng)聚類類別,在該類別下的樣本點至簇中心的距離與實際樣本點至簇中心距離的標(biāo)準(zhǔn)誤差均較小。其中企業(yè)F的發(fā)展前景和收入業(yè)績聚類效果最佳,企業(yè)B的資產(chǎn)質(zhì)量聚類準(zhǔn)確度最高,企業(yè)D的輸配電服務(wù)聚類質(zhì)量最高。
從表4可知,6個電力企業(yè)完成4個維度QWOA-DPC聚類的迭代次數(shù)較接近,這說明QWOA-DPC在不同電力樣本的聚類效率方面表現(xiàn)較穩(wěn)定。
采用QWOA-DPC算法對國內(nèi)五家主流電商企業(yè)的用戶數(shù)據(jù)進(jìn)行聚類分析,對用戶進(jìn)行類別劃分,以篩選出對企業(yè)發(fā)展有幫助的用戶[15]。其數(shù)據(jù)集如表5所示。
表5 電商用戶數(shù)據(jù)
分別采用QWOA-DPC算法對5個電商平臺的用戶進(jìn)行聚類分析,結(jié)合聚類結(jié)果標(biāo)簽,統(tǒng)計聚類純度(P)、標(biāo)準(zhǔn)互信息(NMI)和F值(F)。
表6 QWOA-DPC的聚類性能
從表6可知,對于五家電商企業(yè),其QWOA-DPC的聚類純度均在0.86以上,其中電商企業(yè)4的聚類純度最高,達(dá)到了0.9062;NMI性能基本保持0.77以上,電商企業(yè)5的NMI值最高,達(dá)到了0.8012;6家電商企業(yè)的F值均達(dá)到0.85以上,電商企業(yè)4的F值最高為0.8970。橫向?qū)Ρ劝l(fā)現(xiàn),相比于其他4家企業(yè),QWOA-DPC在電商企業(yè)4的聚類適應(yīng)度最高。下面對測試樣本進(jìn)行QWOA-DPC聚類仿真,根據(jù)樣本的原有類別實際值,統(tǒng)計測試樣本的聚類性能。
表7 聚類準(zhǔn)確率及時間
從表7可知,5家電商企業(yè)的聚類準(zhǔn)確率均高于0.9,聚類時間基本在22s左右。根據(jù)表6和表7可得到電商企業(yè)的用戶分類情況,根據(jù)用戶類別制定維持優(yōu)質(zhì)用戶的策略方案、挖掘潛在用戶的營銷價值,并分析影響用戶消費的關(guān)鍵因素,為不同用戶提供個性化服務(wù),增強用戶黏度,從而為電商企業(yè)的管理提供有效建議。
采用QWOA-DPC算法對某在線學(xué)習(xí)企業(yè)的資源數(shù)據(jù)進(jìn)行聚類分析,該在線平臺為開放式資源分享平臺,用戶既作為使用者又作為資源貢獻(xiàn)者,在學(xué)習(xí)資源管理時,既要為用戶提供個性化資源,又要對上傳的資源數(shù)據(jù)進(jìn)行類別劃分,僅靠人力分類效率低下,自適應(yīng)算法是企業(yè)數(shù)據(jù)管理的重要手段。[16]下面對表8中的五個專業(yè)類別資源進(jìn)行聚類分析。
表8 在線學(xué)習(xí)數(shù)據(jù)集
對表8中的五類數(shù)據(jù)集進(jìn)行QWOA-DPC性能仿真,五類資源集的詞特征數(shù)量多。在聚類時,分別選擇不同詞特征數(shù)量參與聚類,結(jié)果如圖2所示。
圖2 不同詞特征數(shù)量的QWOA-DPC聚類準(zhǔn)確率
從圖2可知,詞特征量對QWOA-DPC的聚類準(zhǔn)確率影響明顯。在詞特征量為5時,QWOA-DPC的聚類準(zhǔn)確率均在0.7以下,這主要是參與聚類的特征過少,造成聚類準(zhǔn)確度受到較大影響;在詞特征量為10時,5類樣本集的聚類準(zhǔn)確率上升明顯,均超過了0.9;而詞特征量為15和20時,其準(zhǔn)確率曲線基本重合。這說明在詞特征數(shù)為15時,QWOA-DPC的聚類準(zhǔn)確率基本達(dá)到穩(wěn)定,再增加詞特征參與聚類,對準(zhǔn)確率上升幫助不大,但可能會增加QWOA-DPC聚類的復(fù)雜度。
表9 不同詞特征數(shù)量的QWOA-DPC聚類召回率和F1值
從表9可知,在詞特征量為5時,QWOA-DPC的聚類召回率和F1值均較低;而詞特征量為15和20時,兩者性能基本達(dá)到穩(wěn)定。聚類穩(wěn)定時,5類數(shù)據(jù)集性能差距并不大,這說明QWOA-DPC對在線學(xué)習(xí)資源的聚類穩(wěn)定性較強。這表明在對用戶上傳資源進(jìn)行歸檔時可以有效借助QWOA-DPC模型來實現(xiàn)自動歸類,為在線學(xué)習(xí)平臺數(shù)據(jù)管理提供有效幫助。
本文采用DPC算法用于企業(yè)大數(shù)據(jù)聚類,并結(jié)合QWOA算法對DPC關(guān)鍵參數(shù)進(jìn)行優(yōu)化求解,有效提高了DPC聚類算法應(yīng)對多屬性多維度企業(yè)數(shù)據(jù)分析的適應(yīng)度。實驗證明,QWOA-DPC算法在電力、電商、教育三個行業(yè)的企業(yè)數(shù)據(jù)聚類中均表現(xiàn)出較高的聚類性能。