李 磊
(國(guó)網(wǎng)江蘇省電力有限公司技能培訓(xùn)中心,江蘇蘇州 215004)
數(shù)據(jù)關(guān)聯(lián)分析是數(shù)據(jù)挖掘領(lǐng)域的一種常用技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)集中的潛在關(guān)聯(lián)規(guī)則和關(guān)系。通過(guò)數(shù)據(jù)關(guān)聯(lián)分析,可以從大量數(shù)據(jù)中挖掘出有價(jià)值的信息,從而為決策提供支持[1]。關(guān)聯(lián)分析方法主要包括Apriori 算法、FP-growth 算法等,這些方法可以在高維數(shù)據(jù)中找出頻繁項(xiàng)集,并據(jù)此生成關(guān)聯(lián)規(guī)則。
相似度度量是指量化不同對(duì)象之間相似程度的方法。在本研究中,將采用以下幾種常用的相似度度量方法。
1.2.1 余弦相似度
余弦相似度是一種衡量?jī)蓚€(gè)向量夾角余弦值的相似度度量方法。計(jì)算公式如下:
Cosine_similarity(A, B) = (A·B) / (||A||×||B||)
其中,A 和B 是兩個(gè)向量,A·B 表示A 和B 的點(diǎn)積,||A||和||B||分別表示A 和B 的模長(zhǎng)。
1.2.2 Jaccard 相似度
Jaccard 相似度是一種衡量?jī)蓚€(gè)集合相似程度的方法。計(jì)算公式如下:
Jaccard_similarity(A, B) = |A ∩B| / |A ∪B|
其中,A 和B 是兩個(gè)集合,|A ∩B|表示A 和B 的交集元素個(gè)數(shù),|A ∪B|表示A 和B 的并集元素個(gè)數(shù)。
1.2.3 Pearson 相關(guān)系數(shù)
Pearson 相關(guān)系數(shù)是一種衡量?jī)蓚€(gè)變量線性相關(guān)程度的方法。它的計(jì)算公式如下:
Pearson_correlation(A, B) = cov(A, B) / (σ_A×σ_B)
其中,cov(A, B)表示A 和B 的協(xié)方差,σ_A 和σ_B分別表示A 和B 的標(biāo)準(zhǔn)差。
電力行業(yè)培訓(xùn)項(xiàng)目作為一個(gè)專(zhuān)業(yè)性很強(qiáng)的領(lǐng)域,具有以下顯著特點(diǎn)。
1.3.1 安全性要求高
由于電力行業(yè)涉及高壓電、輸電線路、發(fā)電機(jī)組等關(guān)鍵設(shè)備,安全生產(chǎn)是電力行業(yè)培訓(xùn)項(xiàng)目的首要任務(wù)。培訓(xùn)項(xiàng)目需重點(diǎn)關(guān)注安全知識(shí)、安全操作規(guī)程以及應(yīng)急處理方案等方面。
1.3.2 技術(shù)性強(qiáng)
電力行業(yè)涉及電氣、自動(dòng)化、能源與動(dòng)力等多個(gè)領(lǐng)域,對(duì)從業(yè)人員的技能要求較高。因此,電力行業(yè)培訓(xùn)項(xiàng)目需要關(guān)注專(zhuān)業(yè)技能培訓(xùn),如電力設(shè)備運(yùn)維、電力系統(tǒng)調(diào)度控制、新能源技術(shù)應(yīng)用等。
1.3.3 政策法規(guī)影響大
電力行業(yè)受到嚴(yán)格的政策法規(guī)約束,如電力市場(chǎng)準(zhǔn)入、能源結(jié)構(gòu)調(diào)整、環(huán)保要求等。培訓(xùn)項(xiàng)目需要及時(shí)跟進(jìn)政策法規(guī)變化,提高從業(yè)人員的政策法規(guī)意識(shí)[2]。
1.3.4 高度依賴(lài)創(chuàng)新
隨著可再生能源、智能電網(wǎng)、分布式發(fā)電等技術(shù)的發(fā)展,電力行業(yè)對(duì)創(chuàng)新的需求越來(lái)越大。培訓(xùn)項(xiàng)目應(yīng)關(guān)注新技術(shù)、新理念的推廣與應(yīng)用,提高從業(yè)人員的創(chuàng)新能力。
1.3.5 跨專(zhuān)業(yè)性強(qiáng)
電力行業(yè)的工作涉及多個(gè)專(zhuān)業(yè)領(lǐng)域,如管理、經(jīng)濟(jì)、信息技術(shù)等。因此,電力行業(yè)培訓(xùn)項(xiàng)目需要提供跨專(zhuān)業(yè)培訓(xùn),培養(yǎng)從業(yè)人員的綜合素質(zhì)和跨界合作能力。
1.3.6 實(shí)踐性強(qiáng)
電力行業(yè)培訓(xùn)項(xiàng)目強(qiáng)調(diào)實(shí)踐操作與生產(chǎn)現(xiàn)場(chǎng)一致,通過(guò)實(shí)操演練、現(xiàn)場(chǎng)實(shí)訓(xùn)、高仿真模擬實(shí)操等方式,提高從業(yè)人員的實(shí)際操作能力,發(fā)揮培訓(xùn)工作的實(shí)際效果。電力行業(yè)培訓(xùn)項(xiàng)目具有安全性要求高、技術(shù)性強(qiáng)、政策法規(guī)影響大、高度依賴(lài)創(chuàng)新、跨專(zhuān)業(yè)性強(qiáng)和實(shí)踐性強(qiáng)等特點(diǎn)。在設(shè)計(jì)相似度識(shí)別方法時(shí),應(yīng)充分考慮這些特點(diǎn),以提高識(shí)別的準(zhǔn)確性和實(shí)用性。
特征提取是相似度識(shí)別方法的關(guān)鍵環(huán)節(jié),基于數(shù)據(jù)關(guān)聯(lián)分析的電力行業(yè)培訓(xùn)項(xiàng)目特征提取過(guò)程包括數(shù)據(jù)預(yù)處理、基于關(guān)聯(lián)規(guī)則的特征提取、特征選擇與權(quán)重計(jì)算以及特征向量構(gòu)建[3]。
在進(jìn)行特征提取前,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括缺失值處理和數(shù)據(jù)規(guī)范化。
針對(duì)電力行業(yè)培訓(xùn)項(xiàng)目數(shù)據(jù)中的缺失值,可以采用以下方法進(jìn)行處理。第一,刪除。刪除含有缺失值的樣本,適用于缺失值數(shù)量較少的情況。第二,均值填充。用所在屬性的均值填充缺失值,適用于屬性值分布較為均勻的情況。第三,中位數(shù)填充。用所在屬性的中位數(shù)填充缺失值,適用于屬性值分布呈現(xiàn)明顯偏中的情況。第四,回歸預(yù)測(cè)。根據(jù)其他屬性值構(gòu)建回歸模型,預(yù)測(cè)缺失值,適用于屬性值之間存在較強(qiáng)相關(guān)性的情況。
為消除數(shù)據(jù)量綱和尺度的影響,需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理。
(1)最小-最大規(guī)范化。將數(shù)據(jù)轉(zhuǎn)換到[0,1]區(qū)間,適用于數(shù)據(jù)分布較為均勻的情況。計(jì)算公式:
$x_{norm} = frac{x - x_{min}}{x_{max} - x_{min}}$
(2)Z-score 規(guī)范化。將數(shù)據(jù)轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1 的標(biāo)準(zhǔn)正態(tài)分布,適用于數(shù)據(jù)分布呈現(xiàn)正態(tài)分布或近似正態(tài)分布的情況。計(jì)算公式:
$x_{norm} = frac{x - mu}{sigma}$
其中,$mu$ 為屬性值的均值,$sigma$ 為屬性值的標(biāo)準(zhǔn)差。
(3)小數(shù)定標(biāo)規(guī)范化。通過(guò)移動(dòng)屬性值的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化,適用于數(shù)據(jù)分布未知或者不滿(mǎn)足其他規(guī)范化方法的前提假設(shè)的情況。計(jì)算公式:
$x_{norm} = frac{x}{10^k}$
其中,$k$為使得$x_{norm}$落在[-1,1]區(qū)間的最小整數(shù)。
根據(jù)電力行業(yè)培訓(xùn)項(xiàng)目數(shù)據(jù)的特點(diǎn),可以選擇適當(dāng)?shù)囊?guī)范化方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,為后續(xù)特征提取和相似度計(jì)算奠定基礎(chǔ)。
為構(gòu)建電力行業(yè)培訓(xùn)項(xiàng)目的相似度識(shí)別模型,首先需要確定模型的輸入和輸出。模型的輸入是電力行業(yè)培訓(xùn)項(xiàng)目的特征向量,輸出是各培訓(xùn)項(xiàng)目之間的相似度分?jǐn)?shù)[4]。在此基礎(chǔ)上,采用多種相似度計(jì)算方法實(shí)現(xiàn)相似度識(shí)別。結(jié)合相關(guān)理論基礎(chǔ),選擇余弦相似度、Jaccard 相似度和Pearson 相關(guān)系數(shù)作為候選的相似度計(jì)算方法。
為選擇合適的相似度計(jì)算方法,對(duì)每種方法進(jìn)行實(shí)證分析,比較它們?cè)陔娏π袠I(yè)培訓(xùn)項(xiàng)目相似度識(shí)別任務(wù)中的表現(xiàn)。通過(guò)實(shí)驗(yàn)結(jié)果分析,確定最優(yōu)的相似度計(jì)算方法。
對(duì)余弦相似度、Jaccard 相似度和Pearson 相關(guān)系數(shù),分別實(shí)現(xiàn)相應(yīng)的計(jì)算函數(shù)。這些函數(shù)接受兩個(gè)培訓(xùn)項(xiàng)目的特征向量作為輸入,輸出它們之間的相似度分?jǐn)?shù)。
為提高相似度識(shí)別模型的性能,對(duì)模型參數(shù)進(jìn)行優(yōu)化。針對(duì)特征選擇和權(quán)重計(jì)算部分,采用啟發(fā)式搜索算法(如遺傳算法、粒子群優(yōu)化算法)對(duì)特征權(quán)重進(jìn)行優(yōu)化[5]。此外,還可以根據(jù)實(shí)證分析結(jié)果,調(diào)整相似度計(jì)算方法中的參數(shù),以提高模型的準(zhǔn)確性。
為評(píng)估相似度識(shí)別模型的性能,采用一定的評(píng)估指標(biāo)。常用的評(píng)估指標(biāo)有準(zhǔn)確率、召回率、F1 值等。將這些評(píng)估指標(biāo)應(yīng)用于實(shí)驗(yàn)結(jié)果,以評(píng)估模型的性能。
同時(shí),還需要對(duì)模型進(jìn)行驗(yàn)證,以確保模型在實(shí)際應(yīng)用中的可靠性。驗(yàn)證方法可以采用K 折交叉驗(yàn)證,將數(shù)據(jù)集劃分為K個(gè)子集,輪流將其中一個(gè)子集作為測(cè)試集,其余子集作為訓(xùn)練集。重復(fù)K次實(shí)驗(yàn),計(jì)算模型在每次實(shí)驗(yàn)中的評(píng)估指標(biāo),最終得到模型的平均性能。
通過(guò)模型評(píng)估與驗(yàn)證,可以確定相似度識(shí)別模型的性能和可靠性,為電力行業(yè)培訓(xùn)項(xiàng)目相似度識(shí)別提供有效的方法。
為驗(yàn)證相似度識(shí)別模型的有效性,收集了一份電力行業(yè)培訓(xùn)項(xiàng)目數(shù)據(jù)集。該數(shù)據(jù)集包含了過(guò)去5 年來(lái)的500 個(gè)電力行業(yè)培訓(xùn)項(xiàng)目,每個(gè)項(xiàng)目都有一系列相關(guān)的特征,如培訓(xùn)項(xiàng)目名稱(chēng)、培訓(xùn)目標(biāo)、培訓(xùn)必要性、培訓(xùn)可行性、培訓(xùn)主要內(nèi)容、培訓(xùn)對(duì)象、培訓(xùn)時(shí)長(zhǎng)、培訓(xùn)專(zhuān)業(yè)等。在進(jìn)行實(shí)證分析前,首先對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,包括缺失值處理和數(shù)據(jù)規(guī)范化。
實(shí)驗(yàn)的目的是評(píng)估基于數(shù)據(jù)關(guān)聯(lián)分析的電力行業(yè)培訓(xùn)項(xiàng)目相似度識(shí)別模型的性能,實(shí)驗(yàn)設(shè)計(jì)如下。
(1)特征提取。根據(jù)基于關(guān)聯(lián)規(guī)則的特征提取的方法,基于關(guān)聯(lián)規(guī)則從數(shù)據(jù)集中提取特征。
(2)特征選擇與權(quán)重計(jì)算。采用特征選擇與權(quán)重計(jì)算的方法進(jìn)行特征選擇,并計(jì)算特征權(quán)重。
(3)特征向量構(gòu)建。根據(jù)特征向量構(gòu)建的方法,為每個(gè)培訓(xùn)項(xiàng)目構(gòu)建特征向量。
(4)相似度計(jì)算方法實(shí)現(xiàn)。根據(jù)相似度計(jì)算方法選擇與實(shí)現(xiàn)的方法,實(shí)現(xiàn)余弦相似度、Jaccard 相似度和Pearson 相關(guān)系數(shù)的計(jì)算函數(shù)。
(5)模型參數(shù)優(yōu)化。按照模型參數(shù)優(yōu)化的方法,對(duì)模型參數(shù)進(jìn)行優(yōu)化。
(6)模型評(píng)估與驗(yàn)證。使用模型評(píng)估與驗(yàn)證提到的評(píng)估指標(biāo),對(duì)模型進(jìn)行評(píng)估和驗(yàn)證。
在實(shí)驗(yàn)中,比較了余弦相似度、Jaccard 相似度和Pearson 相關(guān)系數(shù)3 種相似度計(jì)算方法在電力行業(yè)培訓(xùn)項(xiàng)目相似度識(shí)別任務(wù)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,余弦相似度在任務(wù)中具有較好的性能,準(zhǔn)確率、召回率和F1 值均優(yōu)于其他兩種方法。因此,選擇余弦相似度作為相似度識(shí)別模型的核心計(jì)算方法[6]。
在模型參數(shù)優(yōu)化方面,采用啟發(fā)式搜索算法對(duì)特征權(quán)重進(jìn)行了優(yōu)化。優(yōu)化后的模型在評(píng)估指標(biāo)上表現(xiàn)更優(yōu),證明了優(yōu)化過(guò)程的有效性。
為展示相似度識(shí)別模型在實(shí)際應(yīng)用中的價(jià)值,選取一個(gè)具體案例進(jìn)行驗(yàn)證分析。在這個(gè)案例中,A 電力公司準(zhǔn)備實(shí)施一個(gè)關(guān)于電力安全的培訓(xùn)項(xiàng)目。通過(guò)使用相似度識(shí)別模型,A 公司可以快速找到與該培訓(xùn)需求相似的歷史培訓(xùn)項(xiàng)目,并借鑒歷史項(xiàng)目的經(jīng)驗(yàn)與做法,根據(jù)項(xiàng)目培訓(xùn)目標(biāo),優(yōu)化培訓(xùn)項(xiàng)目主要內(nèi)容,有效地避免了重復(fù)開(kāi)發(fā),為員工提供更加合適和高質(zhì)量的培訓(xùn)內(nèi)容。具體操作如下。
首先,將該公司提供的培訓(xùn)需求信息轉(zhuǎn)換為特征向量。其次,利用構(gòu)建好的相似度識(shí)別模型,計(jì)算該培訓(xùn)需求與數(shù)據(jù)集中所有歷史培訓(xùn)項(xiàng)目之間的余弦相似度。再次,根據(jù)相似度分?jǐn)?shù),對(duì)歷史培訓(xùn)項(xiàng)目進(jìn)行排序,選取與當(dāng)前需求最相似的前N個(gè)項(xiàng)目(如前5 個(gè)或前10 個(gè))。同時(shí),分析這些相似項(xiàng)目的培訓(xùn)項(xiàng)目名稱(chēng)、培訓(xùn)目標(biāo)、培訓(xùn)主要內(nèi)容、培訓(xùn)方式、培訓(xùn)時(shí)長(zhǎng)等方面的特點(diǎn),從中提煉出對(duì)當(dāng)前培訓(xùn)需求有指導(dǎo)意義的信息。最后,基于以上分析,為A 電力公司員工制定一套關(guān)于電力安全的特色培訓(xùn)方案,包括培訓(xùn)主要內(nèi)容、培訓(xùn)方式和培訓(xùn)周期等。
本研究提出了一種基于數(shù)據(jù)關(guān)聯(lián)分析的電力行業(yè)培訓(xùn)項(xiàng)目相似度識(shí)別方法。通過(guò)對(duì)電力行業(yè)培訓(xùn)項(xiàng)目數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘,提取了項(xiàng)目特征并構(gòu)建了特征向量。在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)相似度識(shí)別模型,并比較了余弦相似度、Jaccard 相似度和Pearson 相關(guān)系數(shù)3 種相似度計(jì)算方法的性能[7]。實(shí)證分析表明,余弦相似度在電力行業(yè)培訓(xùn)項(xiàng)目相似度識(shí)別任務(wù)中具有較好的性能。同時(shí),對(duì)模型參數(shù)進(jìn)行了優(yōu)化,以提高模型的準(zhǔn)確性和可靠性。
本研究結(jié)果對(duì)電力行業(yè)培訓(xùn)具有一定的啟示。首先,通過(guò)構(gòu)建相似度識(shí)別模型,可以更好地了解歷史培訓(xùn)項(xiàng)目的特點(diǎn),從而為未來(lái)培訓(xùn)項(xiàng)目的設(shè)計(jì)和實(shí)施提供參考。其次,相似度識(shí)別模型有助于發(fā)現(xiàn)培訓(xùn)需求之間的關(guān)聯(lián)性,為培訓(xùn)資源分配、課程安排等工作提供依據(jù)。最后,相似度識(shí)別模型可以為培訓(xùn)效果評(píng)估提供數(shù)據(jù)支持,幫助企業(yè)更加客觀地評(píng)價(jià)培訓(xùn)成果。