王玉
摘要:本文針對(duì)采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗技術(shù)分析,結(jié)合理論實(shí)踐,在簡(jiǎn)要闡述狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗必要性的基礎(chǔ)上,分析了目前數(shù)據(jù)清洗中存在的問(wèn)題,并提出采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗技術(shù)的具體應(yīng)用。分析結(jié)果表明,采煤機(jī)在運(yùn)行過(guò)程中,會(huì)產(chǎn)生大量數(shù)據(jù),一些是有用數(shù)據(jù),一些是無(wú)用數(shù)據(jù),科學(xué)合理的應(yīng)用數(shù)據(jù)清洗技術(shù),可保證數(shù)據(jù)質(zhì)量,提升采煤機(jī)運(yùn)行性能,值得高度重視。
關(guān)鍵詞:采煤機(jī);運(yùn)行狀態(tài)數(shù)據(jù);數(shù)據(jù)清洗技術(shù);數(shù)據(jù)檢測(cè)
引言
在信息化工程不斷推進(jìn)的背景下,數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用愈發(fā)普遍,對(duì)采煤機(jī)而言,數(shù)據(jù)倉(cāng)庫(kù)是決策支持的基礎(chǔ),也是保證采煤機(jī)時(shí)刻處于最佳運(yùn)行狀態(tài)的關(guān)鍵。但數(shù)據(jù)倉(cāng)庫(kù)中包含多種數(shù)據(jù),需要存儲(chǔ)在不同的硬件平臺(tái)上,采用不同的操作系統(tǒng),在具體運(yùn)行過(guò)程中,受到多方面因素的共同影響,難免會(huì)發(fā)生數(shù)據(jù)質(zhì)量問(wèn)題。如相似數(shù)據(jù)重復(fù)記錄、異常數(shù)據(jù)記錄等。通過(guò)數(shù)據(jù)清洗技術(shù),可對(duì)數(shù)據(jù)倉(cāng)中數(shù)據(jù)進(jìn)行規(guī)范、標(biāo)準(zhǔn)、有序的整理,及時(shí)消除數(shù)據(jù)歧義,提升數(shù)據(jù)質(zhì)量?;诖?,開展采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗技術(shù)分析就顯得尤為必要。
1、采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗的重要性
采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)通常會(huì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,但采煤機(jī)在運(yùn)行中經(jīng)常會(huì)形成一些臟數(shù)據(jù),對(duì)數(shù)據(jù)倉(cāng)庫(kù)造成不良影響,甚至?xí)绊憯?shù)據(jù)倉(cāng)庫(kù)運(yùn)行的效率,降低采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)的挖掘效能,影響最終的決策管理效果。為保證采煤機(jī)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中各項(xiàng)數(shù)據(jù)記錄的準(zhǔn)確性、一致性,就必須先對(duì)采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗就是數(shù)據(jù)預(yù)處理的核心環(huán)節(jié),在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)中占據(jù)非常重要的地位。
2、目前數(shù)據(jù)清洗中存在的問(wèn)題
第一,數(shù)據(jù)清洗屬于一個(gè)嶄新的研究課題,專業(yè)研究數(shù)據(jù)清洗機(jī)構(gòu)比較少。目前數(shù)據(jù)清洗的研究主要體現(xiàn)在英文數(shù)據(jù)上。而中文數(shù)據(jù)清洗和英文數(shù)據(jù)存在較大出入,英文數(shù)據(jù)清洗的排序方式,還不能完全適應(yīng)中文數(shù)據(jù)清洗。
第二,雖然目前檢測(cè)重復(fù)記錄備受關(guān)注,也出現(xiàn)了很多措施方法,但無(wú)論是檢測(cè)效率,還是檢測(cè)精度,都不太理想。尤其是大規(guī)模數(shù)據(jù)清洗時(shí),耗時(shí)比較長(zhǎng),需要更加先進(jìn)算法的支持。
第三,現(xiàn)有的很多數(shù)據(jù)清洗軟件、系統(tǒng)、工具都只能對(duì)特定的領(lǐng)域進(jìn)行清洗,存在較大的局限性。
第四,我國(guó)現(xiàn)有數(shù)據(jù)清洗工具比較少,且多集中在重復(fù)記錄數(shù)據(jù)清洗上,很少有研究關(guān)于完整數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)的清洗問(wèn)題。很少利用孤立點(diǎn)的檢測(cè)方法來(lái)檢測(cè)數(shù)據(jù)源中的各項(xiàng)異常記錄。
3、采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗技術(shù)
3.1構(gòu)建數(shù)據(jù)清洗系統(tǒng)框架
現(xiàn)有的數(shù)據(jù)清洗系統(tǒng)存在很多局限性,如:缺乏必需的擴(kuò)展性、交互性等,急需設(shè)計(jì)出一種全新的數(shù)據(jù)清洗系統(tǒng)框架。
3.2數(shù)據(jù)檢測(cè)
數(shù)據(jù)檢測(cè)是采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗的第一步,主要作用是確定目標(biāo)數(shù)據(jù)存在何種問(wèn)題,再通過(guò)現(xiàn)成的檢測(cè)算法進(jìn)行檢測(cè),用戶還可以實(shí)際情況,適當(dāng)添加和調(diào)整算法,利于提升數(shù)據(jù)檢測(cè)的效率和準(zhǔn)確性,這也反應(yīng)了該數(shù)據(jù)實(shí)時(shí)清洗系統(tǒng)的靈活性及擴(kuò)展性。常用的數(shù)據(jù)檢測(cè)算法有以下兩種:
第一種,統(tǒng)計(jì)學(xué)算法,如切比雪夫定理、貝葉斯推理等,都是數(shù)據(jù)檢測(cè)中常用的統(tǒng)計(jì)學(xué)算法,其中切比雪夫定理的應(yīng)用最多,主要內(nèi)容是假設(shè)X是一個(gè)隨機(jī)變數(shù)取區(qū)間(0,∞)上的數(shù)值,F(xiàn)(x)是其分布函數(shù),設(shè)Xα(α>0)的數(shù)學(xué)期望M(Xα)存在,a>0,則不等式成立。通過(guò)切比雪夫定理,可計(jì)算某個(gè)字段值的平均值、標(biāo)準(zhǔn)差、取值范圍、最大值、最小值等。依次來(lái)發(fā)現(xiàn)數(shù)據(jù)中存在的異常字段,可隨機(jī)選擇樣本數(shù)據(jù)進(jìn)行分析,雖然隨度比較快,但準(zhǔn)確有待提升。
第二種,模式識(shí)別法。通過(guò)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法來(lái)尋找異常數(shù)據(jù),通過(guò)劃分、分類、聚類等技術(shù)相互結(jié)合的方法,可發(fā)現(xiàn)采煤機(jī)運(yùn)行狀態(tài)的異常記錄數(shù)據(jù)。如果一個(gè)模式被定義為數(shù)據(jù)集中的一組記錄具有P%的相似字段,P是根據(jù)采煤機(jī)運(yùn)行實(shí)際情況的確定值,一般都在90%以上,應(yīng)用此種數(shù)據(jù)檢測(cè)算法,可生成一個(gè)記錄子集,而不是整個(gè)數(shù)據(jù)集,發(fā)現(xiàn)模式的幾率會(huì)大幅度提升。
3.3數(shù)據(jù)清洗策略
就采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)而言,數(shù)據(jù)質(zhì)量問(wèn)題主要存在兩大類,其一是模式數(shù)據(jù)質(zhì)量問(wèn)題,其二是數(shù)據(jù)本身的質(zhì)量問(wèn)題,因此,在數(shù)據(jù)清洗時(shí)也有兩種清洗策略,一種是模式層的數(shù)據(jù)清洗策略,另一種是實(shí)例層的數(shù)據(jù)清洗策略。
3.3.1 模式層的數(shù)據(jù)清洗策略
在模式層中,數(shù)據(jù)質(zhì)量問(wèn)題主要體現(xiàn)為結(jié)構(gòu)設(shè)計(jì)不合理,缺乏屬性間的完整性和約束性,從沖突的角度來(lái)看,包括兩種沖突,一種是命名沖突,另一種是結(jié)構(gòu)沖突。命名沖突又可分為同名異義和異名同義,其中同名異義指的是相同名稱代表著不同的對(duì)象,異名同義則指不同名稱代表了相同對(duì)象。結(jié)構(gòu)沖突引發(fā)的主要原因是在不同數(shù)據(jù)源中進(jìn)行的不同表示方式引起的。常見結(jié)構(gòu)沖突包括:數(shù)據(jù)類型沖突、數(shù)據(jù)依賴沖突、數(shù)據(jù)關(guān)鍵字沖突等。一旦發(fā)現(xiàn)數(shù)據(jù)模式問(wèn)題,也不代表能夠非常輕松的解決相關(guān)問(wèn)題,僅憑計(jì)算機(jī)對(duì)數(shù)據(jù)模式結(jié)構(gòu)進(jìn)行結(jié)構(gòu)修改,很難完成數(shù)據(jù)清洗。需要手工清洗來(lái)完成。在手工清洗過(guò)程中,可采用計(jì)算機(jī)轉(zhuǎn)換函數(shù),如隊(duì)列操作的SUM函數(shù)、ADD函數(shù)、DROP函數(shù)等輔助清洗,以降低手工清洗的工作量。
3.3.2實(shí)例層數(shù)據(jù)清洗策略
在采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)例層數(shù)據(jù)清洗中,需要結(jié)合不同的情況,選擇與之相適的數(shù)據(jù)清洗策略。
數(shù)據(jù)集中異常記錄清洗,可采取空值清洗策略,空值問(wèn)題可簡(jiǎn)單的分為兩種,一種是缺失值,另一種是空值。其中前者是字段的值實(shí)際存在,但值卻是空值。在處理時(shí)可將字段值直接替換為空。缺失值處理時(shí),某些缺失值可從根本數(shù)據(jù)源或者其他數(shù)據(jù)源中推導(dǎo)出來(lái),可以用平均值推導(dǎo)、中間值推導(dǎo),也可以用復(fù)雜的概率統(tǒng)計(jì)函數(shù)值來(lái)代替缺失值在,但準(zhǔn)確性有限,此時(shí)可人工屬于一個(gè)比較接近的值,以保證數(shù)據(jù)清洗質(zhì)量。
結(jié)束語(yǔ)
綜上所述,本文結(jié)合理論實(shí)踐,分析了采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)清洗技術(shù),分析結(jié)果表明,針對(duì)采煤機(jī)運(yùn)行狀態(tài)數(shù)據(jù)存在的質(zhì)量問(wèn)題,需要采取有針對(duì)性的數(shù)據(jù)清洗技術(shù),有數(shù)據(jù)檢測(cè)系統(tǒng)、數(shù)據(jù)清洗清洗、設(shè)計(jì)評(píng)估系統(tǒng)、元數(shù)據(jù)管理系統(tǒng)組成的數(shù)據(jù)清洗系統(tǒng),可對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行全面分析,然后開展有針對(duì)性的清洗,保證數(shù)據(jù)質(zhì)量,具有很強(qiáng)的通用性、適應(yīng)性及交互性,滿足采煤機(jī)持續(xù)穩(wěn)定運(yùn)行的需求,值得大范圍推廣應(yīng)用。
參考文獻(xiàn)
[1]曹勇,崔治國(guó),武根峰,等.基于機(jī)器學(xué)習(xí)算法的空調(diào)系統(tǒng)運(yùn)行數(shù)據(jù)噪聲識(shí)別與清洗技術(shù)研究[J].建筑節(jié)能,2018,046(005):79-83.