基于灰色關(guān)聯(lián)規(guī)則算法的電力營銷信息多標簽分類方法研究

2024-02-09 00:00:00趙琪鄭欣桐

消費電子 2024年11期

關(guān)鍵詞：電力營銷

【關(guān)鍵詞】灰色關(guān)聯(lián)規(guī)則算法；電力營銷；營銷信息；多標簽分類；分類方法

引言

大數(shù)據(jù)時代的來臨，使得我國電力企業(yè)的營銷信息呈現(xiàn)出爆炸式增長態(tài)勢。多標簽分類是處理具有多個標簽的樣本數(shù)據(jù)的重要技術(shù)，可以對電力營銷信息進行更細致、更全面的分析，為電力企業(yè)的市場策略制定和優(yōu)化提供有力支持。近年來，隨著人工智能和機器學習技術(shù)的不斷發(fā)展，越來越多研究者開始關(guān)注如何將這些先進技術(shù)應(yīng)用于多標簽分類領(lǐng)域。楊峰等（2023）提出了一種基于量子競爭決策算法的電力營銷信息多標簽分類方法，旨在提高分類的穩(wěn)定性和效率，但是該方法涉及量子計算和深度學習的技術(shù)，需要專業(yè)的知識和經(jīng)驗。[1]任彥凝等（2024）對一種融合標簽信息的多標簽文本分類方法進行研究，但是在處理多個標簽之間的關(guān)系和語義信息時，該方法的計算復雜度相對較高。[2]這可能導致在處理大規(guī)模文本數(shù)據(jù)集時，訓練和預測的速度較慢，需要更多的計算資源和時間。因此，本文設(shè)計了一種基于灰色關(guān)聯(lián)規(guī)則算法的電力營銷信息多標簽分類方法，期望能夠解決傳統(tǒng)分類方法在處理高維度、非線性的電力營銷信息時存在的問題，促進電力行業(yè)的可持續(xù)發(fā)展。

一、電力營銷信息文本數(shù)據(jù)預處理

實際采集過程中，電力營銷數(shù)據(jù)的質(zhì)量往往難以得到完全保障。本文首要任務(wù)就是對電力營銷信息文本數(shù)據(jù)進行預處理[3]。首先，為消除原始電力營銷信息文本數(shù)據(jù)中的噪聲，本文引入詞頻—逆文檔頻率（Term Frequency-Inverse Document Frequency，TF-IDF）算法對數(shù)據(jù)進行清洗處理。該算法先通過計算每個詞在文檔中的出現(xiàn)頻率以及在整個語料庫中的稀有程度，來衡量一個詞在文檔中的重要性，如式（1）所示。

式中，P0（Ci）表示電力營銷信息文檔C中第i個詞的TF-IDF值，P1（Ci）表示電力營銷信息文檔C中第i個詞的詞頻，P2（C）表示電力營銷信息文檔C的逆文檔頻率，iCn表示電力營銷信息文檔C中第i個詞出現(xiàn)的次數(shù)，NC表示電力營銷信息文檔C中詞的數(shù)量，M表示語料庫中電力營銷信息文檔的數(shù)量，iCm表示語料庫中包含詞i的電力營銷信息文檔數(shù)量。技術(shù)人員根據(jù)電力營銷信息文本數(shù)據(jù)的實際情況，設(shè)定一個合理閾值對式（1）所求TF-IDF值進行過濾，將低于閾值的詞（噪聲詞）去除，以此提高電力營銷信息文本數(shù)據(jù)的純凈度。

此外，由于我國電力企業(yè)的營銷數(shù)據(jù)可能來源于多個系統(tǒng)或部門，如客戶管理系統(tǒng)、交易記錄系統(tǒng)、服務(wù)反饋系統(tǒng)等，這些數(shù)據(jù)在格式、單位和量綱上存在一定差異，所以還需要對原始不同源頭的電力營銷信息文本數(shù)據(jù)進行集成處理[4]。本文先通過數(shù)據(jù)映射來建立各數(shù)據(jù)源之間的連接關(guān)系，映射時主要采用XSLT語言編寫數(shù)據(jù)源代碼，并利用XML文檔翻譯代碼，然后按照上述映射關(guān)系進行不同來源數(shù)據(jù)的連接整合，形成一個統(tǒng)一的數(shù)據(jù)集?？傊?，通過數(shù)據(jù)清洗與數(shù)據(jù)集成，電力營銷信息文本數(shù)據(jù)的質(zhì)量得到顯著提升，為后續(xù)多標簽分類提供堅實的數(shù)據(jù)基礎(chǔ)。

二、通過灰色關(guān)聯(lián)規(guī)則算法提取數(shù)據(jù)關(guān)鍵特征

灰色關(guān)聯(lián)規(guī)則算法作為一種基于灰色系統(tǒng)理論的數(shù)據(jù)分析方法，在電力營銷中，引入該算法可以識別并提取出與電力營銷信息最為相關(guān)的特征[5]，有助于從海量文本信息數(shù)據(jù)中篩選出對分類結(jié)果更具決定性影響的特征。

首先，技術(shù)人員需要確定電力營銷信息數(shù)據(jù)的參考序列和比較序列。其中，參考序列通常是反映系統(tǒng)行為特征的數(shù)據(jù)序列，所以本文將電力營銷文本信息的標簽當作參考序列，設(shè)為（）{}001，2，XxttT==???，其中t為時刻，T為序列個數(shù)；比較序列則是影響系統(tǒng)行為的因素序列，所以本文將電力營銷文本信息的關(guān)鍵特征當作比較序列，設(shè)為（）{}1，2，iiXxttT==???。

然后，技術(shù)人員需要進行參考與比較序列之間關(guān)聯(lián)度的計算，主要用于衡量二者之間的關(guān)聯(lián)程度。本文采用灰色關(guān)聯(lián)規(guī)則算法中的鄧氏關(guān)聯(lián)度計算方法，如式（4）所示。

式中，η（t）表示電力營銷文本信息數(shù)據(jù)特征和電力營銷文本信息標簽之間的灰色關(guān)聯(lián)系數(shù)；μ表示分辨系數(shù)，一般取值為0.5。在根據(jù)式（4）計算出每一個比較序列與參考序列在各個時刻點的關(guān)聯(lián)度之后，按從大到小順序排序，即可得到電力營銷信息的灰色關(guān)聯(lián)序列，再根據(jù)以下相應(yīng)決策規(guī)則確定關(guān)鍵特征：提取的關(guān)鍵特征而具有最大灰色關(guān)聯(lián)度的規(guī)則；提取的關(guān)鍵特征需和其他特征的灰色關(guān)聯(lián)度差值大于設(shè)定閾值的規(guī)則。因此，根據(jù)實際情況選擇合適閾值，基于上述規(guī)則進行電力營銷信息文本數(shù)據(jù)關(guān)鍵特征的判定與提取，作為后續(xù)多標簽分類模型的輸入。

三、基于關(guān)鍵特征的信息多標簽分類

在根據(jù)上述步驟提取出電力營銷信息文本數(shù)據(jù)的關(guān)鍵特征后，技術(shù)人員即可根據(jù)該特征進行信息的多標簽分類[6]。綜合考慮電力營銷信息的特點，本文構(gòu)建了一個結(jié)合Transformer模型與生成式主題模型（Latent Dirichlet Allocation，LDA）主題模型的TRM-LDA多標簽分類模型[7]。首先，技術(shù)人員把提取的關(guān)鍵特征輸入TRM-LDA模型，LDA模塊會通過分析文本中詞的共現(xiàn)關(guān)系，發(fā)現(xiàn)潛在的主題結(jié)構(gòu)，以此生成待匹配標簽，如式（5）所示：

四、仿真實驗

（一）實驗數(shù)據(jù)

為了對本文提出的電力營銷信息多標簽分類方法進行有效性驗證，以下引入楊峰等（2023）和任彥凝等（2024）的兩種方法，展開仿真對比實驗。本次仿真對比實驗中以某電力企業(yè)在2020年期間的電力營銷信息為實驗數(shù)據(jù)，部分樣本如表1所示。

以表1中的1000組電力營銷信息為實驗數(shù)據(jù)樣本，分別采用本文方法、楊峰等（2023）方法和任彥凝等（2024）方法對實驗數(shù)據(jù)樣本進行多標簽分類，對比不同方法所得的分類結(jié)果。

（二）仿真結(jié)果

在完成三種方法的多標簽分類任務(wù)后，為評估各方法在分類中的性能，本文引入宏平均1γ與微平均2γ作為實驗指標，其計算公式如式（7）所示：

式中，F(xiàn)1（i）表示電力營銷信息標簽i分類結(jié)果的F1值，I表示電力營銷信息的整體標簽集合，α表示電力營銷信息多標簽分類結(jié)果的準確率，β表示電力營銷信息多標簽分類結(jié)果的召回率。在多標簽分類任務(wù)中，宏平均和微平均是度量分類性能的關(guān)鍵指標，其值越大，則分類性能越優(yōu)良。為了避免實驗結(jié)果的偶然性，實驗從表1所示的樣本集中，隨機抽取不同百分比的數(shù)據(jù)進行多標簽分類。在經(jīng)過計算和統(tǒng)計之后，各方法下的分類結(jié)果如圖1所示：

結(jié)語

本文提出了一種基于灰色關(guān)聯(lián)規(guī)則算法的電力營銷信息多標簽分類方法，文中通過灰色關(guān)聯(lián)算法提取了預處理后的電力營銷信息文本數(shù)據(jù)的關(guān)鍵特征，并利用TRM-LDA模型實現(xiàn)了對電力營銷信息的有效分類。未來的研究可進一步完善和優(yōu)化本文提出的分類方法，為電力企業(yè)的營銷決策提供更有力的支持。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡