【關(guān)鍵詞】灰色關(guān)聯(lián)規(guī)則算法;電力營銷;營銷信息;多標簽分類;分類方法
大數(shù)據(jù)時代的來臨,使得我國電力企業(yè)的營銷信息呈現(xiàn)出爆炸式增長態(tài)勢。多標簽分類是處理具有多個標簽的樣本數(shù)據(jù)的重要技術(shù),可以對電力營銷信息進行更細致、更全面的分析,為電力企業(yè)的市場策略制定和優(yōu)化提供有力支持。近年來,隨著人工智能和機器學習技術(shù)的不斷發(fā)展,越來越多研究者開始關(guān)注如何將這些先進技術(shù)應(yīng)用于多標簽分類領(lǐng)域。楊峰等(2023)提出了一種基于量子競爭決策算法的電力營銷信息多標簽分類方法,旨在提高分類的穩(wěn)定性和效率,但是該方法涉及量子計算和深度學習的技術(shù),需要專業(yè)的知識和經(jīng)驗。[1]任彥凝等(2024)對一種融合標簽信息的多標簽文本分類方法進行研究,但是在處理多個標簽之間的關(guān)系和語義信息時,該方法的計算復雜度相對較高。[2]這可能導致在處理大規(guī)模文本數(shù)據(jù)集時,訓練和預測的速度較慢,需要更多的計算資源和時間。因此,本文設(shè)計了一種基于灰色關(guān)聯(lián)規(guī)則算法的電力營銷信息多標簽分類方法,期望能夠解決傳統(tǒng)分類方法在處理高維度、非線性的電力營銷信息時存在的問題,促進電力行業(yè)的可持續(xù)發(fā)展。
實際采集過程中,電力營銷數(shù)據(jù)的質(zhì)量往往難以得到完全保障。本文首要任務(wù)就是對電力營銷信息文本數(shù)據(jù)進行預處理[3]。首先,為消除原始電力營銷信息文本數(shù)據(jù)中的噪聲,本文引入詞頻—逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法對數(shù)據(jù)進行清洗處理。該算法先通過計算每個詞在文檔中的出現(xiàn)頻率以及在整個語料庫中的稀有程度,來衡量一個詞在文檔中的重要性,如式(1)所示。
式中,P0(Ci)表示電力營銷信息文檔C中第i個詞的TF-IDF值,P1(Ci)表示電力營銷信息文檔C中第i個詞的詞頻,P2(C)表示電力營銷信息文檔C的逆文檔頻率,iCn表示電力營銷信息文檔C中第i個詞出現(xiàn)的次數(shù),NC表示電力營銷信息文檔C中詞的數(shù)量,M表示語料庫中電力營銷信息文檔的數(shù)量,iCm表示語料庫中包含詞i的電力營銷信息文檔數(shù)量。技術(shù)人員根據(jù)電力營銷信息文本數(shù)據(jù)的實際情況,設(shè)定一個合理閾值對式(1)所求TF-IDF值進行過濾,將低于閾值的詞(噪聲詞)去除,以此提高電力營銷信息文本數(shù)據(jù)的純凈度。
此外,由于我國電力企業(yè)的營銷數(shù)據(jù)可能來源于多個系統(tǒng)或部門,如客戶管理系統(tǒng)、交易記錄系統(tǒng)、服務(wù)反饋系統(tǒng)等,這些數(shù)據(jù)在格式、單位和量綱上存在一定差異,所以還需要對原始不同源頭的電力營銷信息文本數(shù)據(jù)進行集成處理[4]。本文先通過數(shù)據(jù)映射來建立各數(shù)據(jù)源之間的連接關(guān)系,映射時主要采用XSLT語言編寫數(shù)據(jù)源代碼,并利用XML文檔翻譯代碼,然后按照上述映射關(guān)系進行不同來源數(shù)據(jù)的連接整合,形成一個統(tǒng)一的數(shù)據(jù)集??傊?,通過數(shù)據(jù)清洗與數(shù)據(jù)集成,電力營銷信息文本數(shù)據(jù)的質(zhì)量得到顯著提升,為后續(xù)多標簽分類提供堅實的數(shù)據(jù)基礎(chǔ)。
灰色關(guān)聯(lián)規(guī)則算法作為一種基于灰色系統(tǒng)理論的數(shù)據(jù)分析方法,在電力營銷中,引入該算法可以識別并提取出與電力營銷信息最為相關(guān)的特征[5],有助于從海量文本信息數(shù)據(jù)中篩選出對分類結(jié)果更具決定性影響的特征。
首先,技術(shù)人員需要確定電力營銷信息數(shù)據(jù)的參考序列和比較序列。其中,參考序列通常是反映系統(tǒng)行為特征的數(shù)據(jù)序列,所以本文將電力營銷文本信息的標簽當作參考序列,設(shè)為(){}001,2,XxttT==???,其中t為時刻,T為序列個數(shù);比較序列則是影響系統(tǒng)行為的因素序列,所以本文將電力營銷文本信息的關(guān)鍵特征當作比較序列,設(shè)為(){}1,2,iiXxttT==???。
然后,技術(shù)人員需要進行參考與比較序列之間關(guān)聯(lián)度的計算,主要用于衡量二者之間的關(guān)聯(lián)程度。本文采用灰色關(guān)聯(lián)規(guī)則算法中的鄧氏關(guān)聯(lián)度計算方法,如式(4)所示。
式中,η(t)表示電力營銷文本信息數(shù)據(jù)特征和電力營銷文本信息標簽之間的灰色關(guān)聯(lián)系數(shù);μ表示分辨系數(shù),一般取值為0.5。在根據(jù)式(4)計算出每一個比較序列與參考序列在各個時刻點的關(guān)聯(lián)度之后,按從大到小順序排序,即可得到電力營銷信息的灰色關(guān)聯(lián)序列,再根據(jù)以下相應(yīng)決策規(guī)則確定關(guān)鍵特征:提取的關(guān)鍵特征而具有最大灰色關(guān)聯(lián)度的規(guī)則;提取的關(guān)鍵特征需和其他特征的灰色關(guān)聯(lián)度差值大于設(shè)定閾值的規(guī)則。因此,根據(jù)實際情況選擇合適閾值,基于上述規(guī)則進行電力營銷信息文本數(shù)據(jù)關(guān)鍵特征的判定與提取,作為后續(xù)多標簽分類模型的輸入。
在根據(jù)上述步驟提取出電力營銷信息文本數(shù)據(jù)的關(guān)鍵特征后,技術(shù)人員即可根據(jù)該特征進行信息的多標簽分類[6]。綜合考慮電力營銷信息的特點,本文構(gòu)建了一個結(jié)合Transformer模型與生成式主題模型(Latent Dirichlet Allocation,LDA)主題模型的TRM-LDA多標簽分類模型[7]。首先,技術(shù)人員把提取的關(guān)鍵特征輸入TRM-LDA模型,LDA模塊會通過分析文本中詞的共現(xiàn)關(guān)系,發(fā)現(xiàn)潛在的主題結(jié)構(gòu),以此生成待匹配標簽,如式(5)所示:
(一)實驗數(shù)據(jù)
為了對本文提出的電力營銷信息多標簽分類方法進行有效性驗證,以下引入楊峰等(2023)和任彥凝等(2024)的兩種方法,展開仿真對比實驗。本次仿真對比實驗中以某電力企業(yè)在2020年期間的電力營銷信息為實驗數(shù)據(jù),部分樣本如表1所示。
以表1中的1000組電力營銷信息為實驗數(shù)據(jù)樣本,分別采用本文方法、楊峰等(2023)方法和任彥凝等(2024)方法對實驗數(shù)據(jù)樣本進行多標簽分類,對比不同方法所得的分類結(jié)果。
(二)仿真結(jié)果
在完成三種方法的多標簽分類任務(wù)后,為評估各方法在分類中的性能,本文引入宏平均1γ與微平均2γ作為實驗指標,其計算公式如式(7)所示:
式中,F(xiàn)1(i)表示電力營銷信息標簽i分類結(jié)果的F1值,I表示電力營銷信息的整體標簽集合,α表示電力營銷信息多標簽分類結(jié)果的準確率,β表示電力營銷信息多標簽分類結(jié)果的召回率。在多標簽分類任務(wù)中,宏平均和微平均是度量分類性能的關(guān)鍵指標,其值越大,則分類性能越優(yōu)良。為了避免實驗結(jié)果的偶然性,實驗從表1所示的樣本集中,隨機抽取不同百分比的數(shù)據(jù)進行多標簽分類。在經(jīng)過計算和統(tǒng)計之后,各方法下的分類結(jié)果如圖1所示:
本文提出了一種基于灰色關(guān)聯(lián)規(guī)則算法的電力營銷信息多標簽分類方法,文中通過灰色關(guān)聯(lián)算法提取了預處理后的電力營銷信息文本數(shù)據(jù)的關(guān)鍵特征,并利用TRM-LDA模型實現(xiàn)了對電力營銷信息的有效分類。未來的研究可進一步完善和優(yōu)化本文提出的分類方法,為電力企業(yè)的營銷決策提供更有力的支持。