葉常青
摘 要:由于各種原因,ERP系統(tǒng)中員工技能等級信息缺失、錯誤較多。借助數(shù)據(jù)挖掘軟件開展技能等級信息核查,借助CRISP-DM標(biāo)準(zhǔn)的六個數(shù)據(jù)挖掘環(huán)節(jié)(業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估、部署)進(jìn)行數(shù)據(jù)挖掘,依據(jù)原勞動和社會保障部印發(fā)的《職業(yè)技能鑒定考務(wù)管理編碼方案》中對職業(yè)資格證書編碼的規(guī)定,對證書編碼進(jìn)行邏輯校驗(yàn)。最后,對核查過程中發(fā)現(xiàn)的不符合要求(不完整、不準(zhǔn)確)的技能等級信息記錄進(jìn)行標(biāo)識,進(jìn)行重點(diǎn)核查,進(jìn)而大大減輕工作量、提高準(zhǔn)確程度。
關(guān)鍵詞:數(shù)據(jù)挖掘 信息核查 計(jì)算機(jī)技術(shù) 軟件
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2015)05(b)-0030-02
為提高ERP系統(tǒng)中人員技能等級信息的完整性和準(zhǔn)確性,我們借助數(shù)據(jù)挖掘軟件開展ERP技能等級信息數(shù)據(jù)核查。在核查過程中,我們借助Clementine軟件,大大提高了工作效率。
Clementine是SPSS公司開發(fā)的一款著名且非常實(shí)用的數(shù)據(jù)挖掘軟件,它提供了可視化、功能強(qiáng)大且易用的數(shù)據(jù)挖掘平臺,將聚類、決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等一系列數(shù)據(jù)處理程序或技術(shù)整合成相互獨(dú)立的模塊,并集成在可視化圖形界面中。用戶在建立數(shù)據(jù)挖掘模型過程中只需把不同類型、功能各異的節(jié)點(diǎn)按照一定的順序連接在一起即可,簡單易用。由于不需要編程就可以完成數(shù)據(jù)挖掘模型的建立工作,用戶可以將更多的精力集中在擬具體解決的業(yè)務(wù)問題上,而不是工具軟件的使用上。
Clementine數(shù)據(jù)挖掘流程完全支持CRISP-DM標(biāo)準(zhǔn)。CRISP-DM將一個數(shù)據(jù)挖掘生命周期分成六個階段:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估、部署。
下面,我們按照CRISP-DM標(biāo)準(zhǔn),逐步開展技能等級信息核查。先通過Clementine選出有疑問的記錄,對具體有疑問的證書信息,再與證書頒發(fā)機(jī)構(gòu)發(fā)布信息逐一核對。
1 業(yè)務(wù)理解
開展技能等級信息核查,主要是對ERP系統(tǒng)維護(hù)的技能等級信息完整性、準(zhǔn)確性進(jìn)行核查。其中:⑴完整性:主要就所維護(hù)的技能等級信息中技能鑒定工種名稱、工種編碼、資格等級、證書編號、批準(zhǔn)單位、批準(zhǔn)日期等6個信息項(xiàng)是否完整就行判斷;⑵準(zhǔn)確性:主要依據(jù)原勞動和社會保障部印發(fā)的《職業(yè)技能鑒定考務(wù)管理編碼方案》中對職業(yè)資格證書編碼的規(guī)定,對2001年以后取得的證書編碼進(jìn)行證書核發(fā)年份、鑒定機(jī)構(gòu)、證書類別(等級)、證書編號是否重復(fù)等邏輯校驗(yàn);⑶在準(zhǔn)確性判斷的基礎(chǔ)上,對個別證書通過與鑒定機(jī)構(gòu)確認(rèn),進(jìn)一步確定其準(zhǔn)確性。核查過程中度不符合要求(不完整、不準(zhǔn)確)的技能等級信息記錄進(jìn)行標(biāo)識,要求證書持有人提供佐證材料進(jìn)行確認(rèn)。為便于業(yè)務(wù)理解,我們對技能等級信息核查流程進(jìn)行了梳理。詳見圖2
2 數(shù)據(jù)理解
從ERP系統(tǒng)中導(dǎo)出的人員技能等級信息項(xiàng)有:人員號、人事子范圍、姓名、開始日期、結(jié)束日期、申報年度、技能鑒定工種名稱、工種代碼、資格等級、證書編號、批準(zhǔn)單位、批準(zhǔn)日期、取得方式、是否最高技能等級等字段信息,篩選出技能鑒定工種名稱、工種編碼、資格等級、證書編號、批準(zhǔn)單位、批準(zhǔn)日期、申報年度等7個信息項(xiàng)進(jìn)行完整性判斷,再對證書核發(fā)年份、鑒定機(jī)構(gòu)、證書類別(等級)等進(jìn)行證書編碼規(guī)則校驗(yàn)。
3 數(shù)據(jù)準(zhǔn)備
在獲得人員技能等級有關(guān)信息數(shù)據(jù)后,過濾掉人員號、人事子范圍、姓名、開始日期、結(jié)束日期、申報年度、取得方式、是否最高技能等級等字段信息,篩選出技能鑒定工種名稱、工種編碼、資格等級、證書編號、批準(zhǔn)單位、批準(zhǔn)日期、申報年度等7個信息項(xiàng)。為便于比較,需將技能等級字段、證號等字符型字段信息轉(zhuǎn)換為整數(shù)型,同時增加用于保存“是否特有工種”、“證號是否重復(fù)”、“結(jié)論”等用于保存判斷結(jié)果字段,并初始化為空字符。
4 建模
根據(jù)技能等級信息核查流程,我們建立了Clementine流文件。
在主流程中,我們使用了兩個超級節(jié)點(diǎn),分別進(jìn)行證書編號是否重復(fù)判斷、批準(zhǔn)單位是否準(zhǔn)確判斷。在“證書編號是否重復(fù)判斷”流程中:首先將字符型字段“證書編號”轉(zhuǎn)換為整數(shù)型字段“新證號”,對“新證號”進(jìn)行升序排序,判斷前后兩個記錄的“新證號”是否相等(相減是否為零),相等的則在“結(jié)論”字段標(biāo)注“證號重復(fù)”;接著再對“新證號”進(jìn)行降序排序,同樣如果前后兩個記錄的“新證號”相等,也在“結(jié)論”字段相應(yīng)標(biāo)注“證號重復(fù)”。
在“批準(zhǔn)單位是否準(zhǔn)確”判斷流程中,首先選擇字段“批準(zhǔn)單位”為空的記錄,在“結(jié)論”字段標(biāo)注“批準(zhǔn)單位為空”;接著,依次選取“批準(zhǔn)單位”為“電力行業(yè)職業(yè)技能鑒定指導(dǎo)中心”(以下簡稱行業(yè)指導(dǎo)中心)、“福建省職業(yè)技能鑒定指導(dǎo)中心”(以下簡稱省指導(dǎo)中心)、“福建省電力行業(yè)職業(yè)技能鑒定中心”(以下簡稱鑒定中心)的記錄,進(jìn)行證號與鑒定機(jī)構(gòu)識別代碼、鑒定機(jī)構(gòu)序號編碼一致性判斷,如不一致,則在“結(jié)論”字段標(biāo)注“批準(zhǔn)單位信息有誤”;最后,對批準(zhǔn)單位為其它情況的記錄,在“結(jié)論”字段標(biāo)注“批準(zhǔn)單位不準(zhǔn)確”。
5 評估
在Clementine執(zhí)行技能等級信息核查流程,以往在Excel中每次需要4、5個小時才能完成核查工作的,Clementine僅用了15秒就生成核查結(jié)果,10269條員工技能等級信息記錄中共有5506條記錄不符合核查要求。其中絕大部分為未按要求維護(hù)造成,如批準(zhǔn)日期為空的記錄就有1802條、申報年度為空的記錄有2262個。
6 部署
從“輸出”表中導(dǎo)出所有記錄到Excel,發(fā)給各單位進(jìn)行核對。
7 結(jié)語
從上面的數(shù)據(jù)挖掘過程可以看出,Clementine數(shù)據(jù)流對某個數(shù)據(jù)的處理思路和excel或編程其實(shí)是一樣的,不同的是,Clementine將任務(wù)流程化,一個節(jié)點(diǎn)對應(yīng)一個處理,數(shù)據(jù)源或者處理字段有什么變動,只要在界面上修改節(jié)點(diǎn)設(shè)置即可,而不必去重復(fù)一些無謂的操作。如為減少調(diào)試時間,提高效率,可以在流程中增加樣本節(jié)點(diǎn),在調(diào)試階段僅對10%或20%的記錄進(jìn)行核查。對于需要多種規(guī)則校驗(yàn)且需要重復(fù)開展的工作,使用Clementine可以大大提高運(yùn)行效率。它要比excel更易用更高效,而且處理方法有重用性,即這次構(gòu)建的數(shù)據(jù)流經(jīng)保存后可在下一個類似任務(wù)中稍做修改便可使用,或者一條數(shù)據(jù)流可以支持相似數(shù)據(jù)的分析。
參考文獻(xiàn)
[1] Clementinea 12.0 Clementine Users Guide[Z].
[2] 張雪英.國外先進(jìn)數(shù)據(jù)挖掘工具的比較分析[J].計(jì)算機(jī)工程,2003,29(16):1-3.
[3] (加)Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2006.