黃海敏+劉琦+李旭+朱海林
摘 要:大數(shù)據(jù)條件下,正確完成數(shù)據(jù)的判別,明確病態(tài)性數(shù)據(jù),是大數(shù)據(jù)質(zhì)量管理的基礎(chǔ)和前提。首先,對(duì)大數(shù)據(jù)條件下質(zhì)量管理中病態(tài)數(shù)據(jù)的定義與來源進(jìn)行了闡述;然后,結(jié)合病態(tài)數(shù)據(jù)的產(chǎn)生過程,歸納總結(jié)了病態(tài)數(shù)據(jù)的主要特點(diǎn);再次,結(jié)合質(zhì)量管理的需求,分析了病態(tài)數(shù)據(jù)的管理需求;最后,基于統(tǒng)計(jì)方法,對(duì)病態(tài)數(shù)據(jù)的判別提出了對(duì)策建議。
關(guān)鍵詞:質(zhì)量管理 病態(tài)數(shù)據(jù) 大數(shù)據(jù) 主流數(shù)據(jù) 判別
中圖分類號(hào):Q213.9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2016)08(b)-0091-04
1 引言
隨著計(jì)算機(jī)技術(shù)、信息技術(shù)、網(wǎng)絡(luò)技術(shù)、云技術(shù)等的發(fā)展,在質(zhì)量管理領(lǐng)域,數(shù)據(jù)收集的類型和數(shù)量呈現(xiàn)出爆炸性的發(fā)展趨勢(shì),大數(shù)據(jù)的特點(diǎn)愈發(fā)明顯。如購(gòu)物網(wǎng)站的產(chǎn)品質(zhì)量評(píng)價(jià)數(shù)據(jù)、體檢中心的健康檢測(cè)數(shù)據(jù)、4S店的車輛維護(hù)數(shù)據(jù)等。這些數(shù)據(jù)不僅數(shù)量大,而且體現(xiàn)出了總體性、壽命周期性、復(fù)雜性等大數(shù)據(jù)的特點(diǎn)[1]。但由于數(shù)據(jù)收集技術(shù)、數(shù)據(jù)提供者本身的問題等原因,使得收集到的一部分?jǐn)?shù)據(jù)呈現(xiàn)出病態(tài)性的特點(diǎn),如評(píng)價(jià)數(shù)據(jù)中非常類似的差評(píng)、好評(píng)數(shù)據(jù)的大量出現(xiàn),健康監(jiān)測(cè)、4S店產(chǎn)品維護(hù)數(shù)據(jù)中數(shù)值長(zhǎng)期保持不變的數(shù)據(jù)、學(xué)生成績(jī)中非常低的成績(jī)數(shù)值大量出現(xiàn)等。病態(tài)數(shù)據(jù)的出現(xiàn),使得對(duì)質(zhì)量的評(píng)價(jià)會(huì)出現(xiàn)評(píng)價(jià)不準(zhǔn)確、問題定位不精確等誤導(dǎo)性結(jié)果。為實(shí)現(xiàn)對(duì)質(zhì)量的精確分析,有必要對(duì)質(zhì)量管理中病態(tài)數(shù)據(jù)的概念進(jìn)行闡述,分析其特點(diǎn)、產(chǎn)生的源頭,并研究病態(tài)數(shù)據(jù)的分析方法,從而實(shí)現(xiàn)對(duì)質(zhì)量數(shù)據(jù)的精細(xì)化管理。
質(zhì)量管理作為一個(gè)重要研究方向,國(guó)內(nèi)外已經(jīng)進(jìn)行了長(zhǎng)期的研究,出版了大量的專著,典型的如《Quality Control Handbook》、《The Management And Control of Quality》等。而作為當(dāng)前研究的熱門領(lǐng)域,國(guó)內(nèi)外對(duì)大數(shù)據(jù)也進(jìn)行了大量的研究,出版了大量的論著,如《Big Data: A Revolution That Will Transform How We Live, Work and Think》、《Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data》、《醫(yī)療大數(shù)據(jù)》等。而對(duì)于大數(shù)據(jù)條件下質(zhì)量管理中病態(tài)數(shù)據(jù)的管理研究,該方面的論述還比較少,現(xiàn)有的研究主要集中于論述數(shù)據(jù)質(zhì)量研究的必要性、研究方法等。如Rao等[2]指出在大數(shù)據(jù)分析中,基于低質(zhì)量數(shù)據(jù)進(jìn)行分析,隱藏的后果可能是災(zāi)難性和蔓延性的,并提出了從大數(shù)據(jù)背景分析數(shù)據(jù)質(zhì)量的方法。Becker等[3]指出大數(shù)據(jù)分析中,數(shù)據(jù)質(zhì)量是所有數(shù)據(jù)分析問題中極其重要的方面,并從數(shù)據(jù)的收集、描述、存儲(chǔ)等方面分析了不同因素對(duì)大數(shù)據(jù)質(zhì)量的影響。Immonen等[4]則針對(duì)大數(shù)據(jù)框架下的社會(huì)媒體數(shù)據(jù)質(zhì)量評(píng)估構(gòu)建了評(píng)估的架構(gòu)。國(guó)內(nèi),宗威等[5]梳理了大數(shù)據(jù)的基本特征,并從流程、技術(shù)和管理視角討論了大數(shù)據(jù)時(shí)代下企業(yè)保證數(shù)據(jù)質(zhì)量的挑戰(zhàn)、重要性及應(yīng)對(duì)措施。程平等[6]對(duì)數(shù)據(jù)的質(zhì)量提出了完整性、及時(shí)性、可靠性等關(guān)鍵數(shù)據(jù)質(zhì)量特征。黃冬梅等[7]對(duì)基于塊嵌套循環(huán)的大數(shù)據(jù)的數(shù)據(jù)質(zhì)量檢驗(yàn)方案進(jìn)行了研究。在基于大數(shù)據(jù)的質(zhì)量管理分析方面,Huang等[8]在對(duì)暫態(tài)電能的質(zhì)量評(píng)價(jià)方法中,基于大數(shù)據(jù)的處理結(jié)構(gòu)完成了樸素Bayes分類,在該結(jié)構(gòu)中,將數(shù)據(jù)源擴(kuò)展為電網(wǎng)監(jiān)控?cái)?shù)據(jù)、用戶數(shù)據(jù)和公共數(shù)據(jù)三種類型。具體到對(duì)病態(tài)數(shù)據(jù)的分析,當(dāng)前的研究比較偏向于具體技術(shù)的分析,如Liu等[9]在對(duì)生物醫(yī)學(xué)圖像和疾病預(yù)測(cè)的多維數(shù)據(jù)分析中,設(shè)計(jì)了可對(duì)病態(tài)數(shù)據(jù)對(duì)象探測(cè)的信息處理算法。Joon-Hong等[10]則對(duì)短期供水需求分析與預(yù)測(cè)中,病態(tài)數(shù)據(jù)細(xì)化的置信區(qū)間方法和誤差百分比校正方法進(jìn)行了論述。國(guó)內(nèi)對(duì)于病態(tài)數(shù)據(jù)的研究主要集中在對(duì)病態(tài)數(shù)據(jù)處理的具體算法分析上,如王晶[11]對(duì)電力系統(tǒng)中異常數(shù)據(jù)的影響進(jìn)行了闡述,并對(duì)多種電力系統(tǒng)異常數(shù)據(jù)檢測(cè)辨識(shí)方法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析。費(fèi)歡等[12]采用K-Means算法思想,基于歐式距離進(jìn)行數(shù)據(jù)的相似性分析,并實(shí)現(xiàn)異常數(shù)據(jù)的檢測(cè)。
從現(xiàn)有的研究情況以及大數(shù)據(jù)和質(zhì)量管理的需求情況看,對(duì)大數(shù)據(jù)條件下的質(zhì)量管理進(jìn)行研究,已是質(zhì)量管理的一個(gè)重要研究方向,但對(duì)于大數(shù)據(jù)中病態(tài)數(shù)據(jù)的研究,目前還處于初始的研究探索階段。因此,需要加強(qiáng)這方面的研究,對(duì)病態(tài)數(shù)據(jù)的定義、特點(diǎn)、來源、管理需求、判別技術(shù)等進(jìn)行分析,為大數(shù)據(jù)條件下的質(zhì)量管理提供準(zhǔn)確的數(shù)據(jù)支撐。
2 病態(tài)數(shù)據(jù)的定義與主要來源
病態(tài)數(shù)據(jù)也稱為“不良數(shù)據(jù)”、“異常數(shù)據(jù)”,翻譯為Abnormal Data,是相對(duì)于總體的主導(dǎo)性數(shù)據(jù)或者正常數(shù)據(jù)而言的。在大數(shù)據(jù)管理中,質(zhì)量管理中的病態(tài)數(shù)據(jù)是指:由于數(shù)據(jù)收集記錄錯(cuò)誤、不良信息傳播、惡意評(píng)價(jià)、重復(fù)引用等原因,使得收集到的部分難以反映產(chǎn)品總體的實(shí)際質(zhì)量狀況的數(shù)據(jù)。病態(tài)數(shù)據(jù)在統(tǒng)計(jì)分布上表現(xiàn)為:與主導(dǎo)性或真實(shí)性質(zhì)量數(shù)據(jù)(稱為主流數(shù)據(jù))的分布存在差異,總體的分布存在不連續(xù)、多峰、鋸齒等特點(diǎn)。
病態(tài)數(shù)據(jù)的來源主要包括如下類型:
(1)誤導(dǎo)性質(zhì)量評(píng)價(jià)數(shù)據(jù)。指在質(zhì)量分析與評(píng)價(jià)中,通過物質(zhì)、精神等方面的手段誤導(dǎo)調(diào)查者,使得質(zhì)量評(píng)價(jià)數(shù)據(jù)偏離實(shí)際質(zhì)量的情況。該類數(shù)據(jù)包括購(gòu)物網(wǎng)站對(duì)產(chǎn)品質(zhì)量評(píng)價(jià)、服務(wù)窗口對(duì)服務(wù)質(zhì)量評(píng)價(jià)方面。如某寶的部分產(chǎn)品在其包裝中附帶好評(píng)卡,該類卡片的出現(xiàn),容易誤導(dǎo)消費(fèi)者,使得收集到的部分質(zhì)量數(shù)據(jù)難以反映質(zhì)量評(píng)價(jià)的客觀性。而服務(wù)窗口的誤導(dǎo)性則體現(xiàn)在其評(píng)價(jià)標(biāo)準(zhǔn)的不全面,如某些服務(wù)窗口,其評(píng)價(jià)標(biāo)準(zhǔn)僅包括非常滿意、滿意、不滿意三個(gè)方面。
(2)惡意評(píng)價(jià)數(shù)據(jù)。指由于調(diào)查者本身的偏激、認(rèn)識(shí)不全面等原因,在對(duì)質(zhì)量評(píng)價(jià)中不能做出客觀評(píng)價(jià)的數(shù)據(jù)。該方面的數(shù)據(jù)不僅在購(gòu)物網(wǎng)站上有相關(guān)表現(xiàn),而且在日常生活中的表現(xiàn)也較為突出,如對(duì)服務(wù)窗口的評(píng)價(jià),由于被服務(wù)者的一時(shí)激憤,對(duì)相關(guān)管理機(jī)構(gòu)的不滿等,就可能在某些場(chǎng)合發(fā)布較為偏激的評(píng)價(jià),甚至?xí)M(jìn)行一定程度的造謠、傳謠等。
(3)重復(fù)性收集數(shù)據(jù)。指由于數(shù)據(jù)記錄、抄襲等原因,造成的收集到的數(shù)據(jù)出現(xiàn)大量重復(fù)或者高度相似數(shù)據(jù)。該類數(shù)據(jù)如問卷調(diào)查中由于被調(diào)查者、調(diào)查者有意造假等在調(diào)查中抄襲已有數(shù)據(jù),考試中題目泄露、抄襲等形成的數(shù)據(jù),數(shù)據(jù)記錄設(shè)備間歇性故障造成數(shù)據(jù)重復(fù)記錄等。
(4)不作為數(shù)據(jù)。指在生產(chǎn)、服務(wù)、研究中由于相關(guān)人員的不努力、不作為等原因,從而使得在質(zhì)量分析與評(píng)價(jià)中,收集到的難以表現(xiàn)真實(shí)質(zhì)量狀況的數(shù)據(jù)。這方面,比較容易說明問題的是農(nóng)產(chǎn)品的質(zhì)量數(shù)據(jù)、醫(yī)療美容產(chǎn)品質(zhì)量數(shù)據(jù)等。作為影響國(guó)計(jì)民生的日用產(chǎn)品,市場(chǎng)上缺乏監(jiān)管或者監(jiān)管不力,使得部分具有毒副作用以及功能缺失的產(chǎn)品進(jìn)入人們的日常生活,這方面只要關(guān)注CCTV-13的《每周質(zhì)量報(bào)告》,就能從一個(gè)側(cè)面看出產(chǎn)品的質(zhì)量在某種程度上并不像廣告宣傳的那樣優(yōu)質(zhì)。造成這種問題在很大程度上是因?yàn)槟承┍O(jiān)管部門的不作為,從而導(dǎo)致質(zhì)量檢驗(yàn)方法與內(nèi)容的缺失。
(5)片面宣傳數(shù)據(jù)。指生產(chǎn)方、銷售方在產(chǎn)品的宣傳中利用名人效應(yīng)、專家效應(yīng)等片面的擴(kuò)大產(chǎn)品或服務(wù)的部分功能或質(zhì)量效應(yīng),而有意屏蔽部分不良特性或短板質(zhì)量問題,這類對(duì)產(chǎn)品或服務(wù)的片面宣傳或理解就稱為片面宣傳數(shù)據(jù)。
3 病態(tài)數(shù)據(jù)的主要特點(diǎn)
相對(duì)于大數(shù)據(jù)條件下正常的質(zhì)量數(shù)據(jù),病態(tài)數(shù)據(jù)主要表現(xiàn)有如下特點(diǎn):
(1)非主流性。相對(duì)于產(chǎn)品正常的質(zhì)量數(shù)據(jù),病態(tài)數(shù)據(jù)是非主流的數(shù)據(jù),無論其表現(xiàn)如何,病態(tài)數(shù)據(jù)都不能代表產(chǎn)品質(zhì)量的真實(shí)水平,在生產(chǎn)、服務(wù)過程透明,監(jiān)管部門質(zhì)量報(bào)告數(shù)據(jù)透明的條件下,這類數(shù)據(jù)將會(huì)從數(shù)量上、表現(xiàn)上呈現(xiàn)出其非主流性,較為容易判斷分析。
(2)異總體性。從病態(tài)數(shù)據(jù)的定義與來源看,病態(tài)數(shù)據(jù)與主流質(zhì)量數(shù)據(jù)反映的質(zhì)量主題是有一定的差異的,這就使得兩方面的數(shù)據(jù)在總體分布形態(tài)會(huì)出現(xiàn)一定的差異,在統(tǒng)計(jì)分布形式上,若將所有的數(shù)據(jù)在同一坐標(biāo)軸上表現(xiàn),則質(zhì)量數(shù)據(jù)會(huì)體現(xiàn)出多峰分布的特點(diǎn)。這種異總體性主要是由病態(tài)數(shù)據(jù)的非主流性造成的。
(3)易擴(kuò)散性。由于名人效應(yīng)、廣告效應(yīng)、消費(fèi)者的獵奇心理等,使得在某種程度上非主流的質(zhì)量數(shù)據(jù)比一般的質(zhì)量數(shù)據(jù)更容易擴(kuò)散。易擴(kuò)散性在某種程度上還可造成病態(tài)數(shù)據(jù)重復(fù)性和關(guān)鍵性的特點(diǎn)。
(4)關(guān)鍵性。指病態(tài)數(shù)據(jù)在某種程度上會(huì)誤導(dǎo)消費(fèi)者、擾亂市場(chǎng)秩序、降低質(zhì)量評(píng)價(jià)的準(zhǔn)確性等,使得病態(tài)數(shù)據(jù)必須重點(diǎn)處理,以消除其不利影響。
(5)少量性。相對(duì)于產(chǎn)品正常的質(zhì)量數(shù)據(jù),尤其是大數(shù)據(jù)條件下的質(zhì)量監(jiān)控,病態(tài)數(shù)據(jù)在產(chǎn)品壽命周期中,僅是少數(shù)的一部分。相比生產(chǎn)過程的監(jiān)測(cè)數(shù)據(jù)、大量消費(fèi)者的評(píng)價(jià)數(shù)據(jù)等而言,病態(tài)數(shù)據(jù)是少量的。
(6)重復(fù)性。與主流質(zhì)量數(shù)據(jù)不同,主流數(shù)據(jù)由于調(diào)查單位的獨(dú)立性和調(diào)查者的責(zé)任感,使得收集到的數(shù)據(jù)通常體現(xiàn)出隨機(jī)性的特點(diǎn)。而病態(tài)數(shù)據(jù)由于收集者或提供者的不作為,就可能使得部分質(zhì)量數(shù)據(jù)出現(xiàn)重復(fù)性的特點(diǎn)。
上述僅對(duì)病態(tài)數(shù)據(jù)的一些顯性的特點(diǎn)進(jìn)行分析。這些顯性特點(diǎn)的分析,有利于科技工作者歸納總結(jié)病態(tài)數(shù)據(jù)的判別方法,完成對(duì)病態(tài)數(shù)據(jù)的歸類與統(tǒng)計(jì)分析。
4 病態(tài)數(shù)據(jù)的管理需求
質(zhì)量管理中病態(tài)數(shù)據(jù)的出現(xiàn),會(huì)在很大程度上影響消費(fèi)者對(duì)產(chǎn)品質(zhì)量的評(píng)價(jià),并在一定程度上造成民眾對(duì)某些產(chǎn)品質(zhì)量信心的缺失,從而可能造成不可估量的影響,如消費(fèi)對(duì)象的轉(zhuǎn)移、企業(yè)的倒閉,甚至是類似產(chǎn)業(yè)的崩潰(如典型的三鹿奶粉現(xiàn)象)等。因此,在大數(shù)據(jù)條件下,有必要加強(qiáng)質(zhì)量數(shù)據(jù)的管理,減少甚至避免病態(tài)數(shù)據(jù)的出現(xiàn)。其管理需求主要包括:
(1)明確質(zhì)量管理機(jī)構(gòu)的主體地位。政府各級(jí)的質(zhì)量技術(shù)監(jiān)督局是產(chǎn)品質(zhì)量的監(jiān)督與管理機(jī)構(gòu),其工作態(tài)度和工作方法決定了產(chǎn)品質(zhì)量的好壞。在質(zhì)量管理中,明確質(zhì)量管理機(jī)構(gòu)的主體地位,賦予其質(zhì)量管理方面的相關(guān)權(quán)力,有利于相關(guān)質(zhì)量管理工作的開展。
(2)實(shí)施質(zhì)量準(zhǔn)入制度。是在明確質(zhì)量管理機(jī)構(gòu)主體地位的基礎(chǔ)上,嚴(yán)格要求進(jìn)入市場(chǎng)的產(chǎn)品具備相關(guān)的具有權(quán)威性的質(zhì)量標(biāo)準(zhǔn)和質(zhì)量標(biāo)志。該制度的執(zhí)行可在較大程度上保證產(chǎn)品質(zhì)量,而且準(zhǔn)入制度和責(zé)任制的配合,可以抑制病態(tài)數(shù)據(jù)的產(chǎn)生和擴(kuò)散。
(3)實(shí)施質(zhì)量數(shù)據(jù)責(zé)任制。有責(zé)任才會(huì)有質(zhì)量。責(zé)任制是對(duì)于數(shù)據(jù)的發(fā)布方、名人效應(yīng)的代言方、廣告的發(fā)布者、質(zhì)量標(biāo)志的發(fā)布者等,在發(fā)布其數(shù)據(jù)的同時(shí),必須承擔(dān)相應(yīng)的責(zé)任,而且應(yīng)出臺(tái)相關(guān)的法律,從而保證所發(fā)布的質(zhì)量數(shù)據(jù)的真實(shí)性。
(4)加強(qiáng)質(zhì)量管理的法制建設(shè)。“有法可依、有法必依”,強(qiáng)有力的法制是確保產(chǎn)品質(zhì)量的有利保障。法制建設(shè)不僅包括質(zhì)量管理相關(guān)法律條文的建設(shè),而且包括相關(guān)法律落實(shí)執(zhí)行的機(jī)構(gòu)、設(shè)施建設(shè),只有真正得到貫徹執(zhí)行的法律才是有效的法律。
(5)加強(qiáng)質(zhì)量教育。在此,質(zhì)量教育是指針對(duì)全民進(jìn)行相關(guān)的質(zhì)量意識(shí)和質(zhì)量判別教育,讓廣大消費(fèi)者明確質(zhì)量的重要性和產(chǎn)品質(zhì)量的簡(jiǎn)單判別方法。質(zhì)量只有得到社會(huì)的廣泛關(guān)注,才能減少質(zhì)量問題的產(chǎn)生,才能抑制病態(tài)數(shù)據(jù)的出現(xiàn)。
(6)加強(qiáng)質(zhì)量的信息化。是在質(zhì)量管理方面引入信息的回溯機(jī)制,通過信息技術(shù)(包括數(shù)據(jù)庫(kù)技術(shù)、二維碼技術(shù)等)將產(chǎn)品質(zhì)量信息植入產(chǎn)品的關(guān)鍵醒目標(biāo)志中,使得消費(fèi)者可以快速、便捷地獲得產(chǎn)品質(zhì)量的相關(guān)信息、責(zé)任者。質(zhì)量信息化是大數(shù)據(jù)條件下質(zhì)量數(shù)據(jù)管理的一個(gè)重要方向,也是保證產(chǎn)品質(zhì)量的關(guān)鍵技術(shù)環(huán)節(jié)。
5 病態(tài)數(shù)據(jù)的判別技術(shù)
在大數(shù)據(jù)條件下,結(jié)合病態(tài)數(shù)據(jù)的來源和特點(diǎn),可從如下方面完成病態(tài)數(shù)據(jù)的判別:
(1)基于統(tǒng)計(jì)分布的病態(tài)數(shù)據(jù)判別。與主流數(shù)據(jù)相比,病態(tài)數(shù)據(jù)在一定程度上表現(xiàn)出與主流數(shù)據(jù)之間的異總體性,因此,可通過對(duì)總體分布的簡(jiǎn)單分析完成病態(tài)數(shù)據(jù)的判別。如若總體分布出現(xiàn)多峰的情況,則可在一定程度上說明數(shù)據(jù)中存在病態(tài)數(shù)據(jù),而峰值之間的距離越遠(yuǎn)說明病態(tài)數(shù)據(jù)的病態(tài)性越嚴(yán)重。一維數(shù)據(jù)基于統(tǒng)計(jì)分布的病態(tài)數(shù)據(jù)判別示意如圖1所示。
(2)基于相似性檢驗(yàn)的病態(tài)數(shù)據(jù)判別。當(dāng)數(shù)據(jù)中出現(xiàn)重復(fù)數(shù)據(jù)或者相似性非常強(qiáng)的評(píng)價(jià)數(shù)據(jù)時(shí),需要通過相似性分析方法驗(yàn)證數(shù)據(jù)之間的一致性。這方面,國(guó)內(nèi)外對(duì)于研究論文的查重已有詳細(xì)標(biāo)準(zhǔn)與方法,可將其借鑒到這方面。
(3)基于聚類分析的病態(tài)數(shù)據(jù)判別。聚類分析是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,該方法基于樣品之間的統(tǒng)計(jì)距離描述樣品之間的相似性。而對(duì)于病態(tài)數(shù)據(jù)分析而言,可知主流數(shù)據(jù)之間相似性強(qiáng),而病態(tài)數(shù)據(jù)與主流數(shù)據(jù)之間相似性較弱,相反,病態(tài)數(shù)據(jù)之間有較強(qiáng)的相似性。通過聚類分析可將數(shù)據(jù)依據(jù)相似性分為不同的類型,從而較為容易的區(qū)分出病態(tài)數(shù)據(jù)。對(duì)于二維數(shù)據(jù),在平面直角坐標(biāo)軸上,可以較為容易的描述其散布特點(diǎn),從而可以較為容易的區(qū)分?jǐn)?shù)據(jù)的類型,其聚類分析的示意圖如圖2所示。
(4)基于判別分析的病態(tài)數(shù)據(jù)歸類。判別分析是統(tǒng)計(jì)學(xué)的一個(gè)重要研究領(lǐng)域,該方法基于已有的分類,然后基于統(tǒng)計(jì)距離完成樣品的歸類判別。在質(zhì)量分析中,當(dāng)質(zhì)量數(shù)據(jù)難以進(jìn)行病態(tài)性判別時(shí),可事先結(jié)合國(guó)內(nèi)外類似產(chǎn)品的質(zhì)量信息完成數(shù)據(jù)的分類分析,然后基于判別分析方法對(duì)需要?dú)w類的質(zhì)量數(shù)據(jù)進(jìn)行判別,完成病態(tài)數(shù)據(jù)的歸類。
6 結(jié)語
大數(shù)據(jù)條件下,病態(tài)數(shù)據(jù)的判別、修正、剔除等是一項(xiàng)長(zhǎng)期而且復(fù)雜的數(shù)據(jù)管理工作,該文對(duì)質(zhì)量數(shù)據(jù)中病態(tài)數(shù)據(jù)的定義、來源、特點(diǎn)和判別技術(shù)進(jìn)行了初步的研究,該研究對(duì)于正確認(rèn)識(shí)病態(tài)數(shù)據(jù)、科學(xué)處理病態(tài)數(shù)據(jù)具有一定的輔助決策作用。在該文研究的基礎(chǔ)上,需要進(jìn)一步說明的是:
(1)病態(tài)數(shù)據(jù)是相對(duì)主流數(shù)據(jù)而言的,是質(zhì)量數(shù)據(jù)中不可避免的數(shù)據(jù)類型。對(duì)質(zhì)量數(shù)據(jù)中出現(xiàn)的病態(tài)數(shù)據(jù)要正確對(duì)待,正確分析其來源、特點(diǎn),然后決定對(duì)其取舍或者修正。較為重要的是要通過一定的管理技術(shù)避免病態(tài)數(shù)據(jù)的出現(xiàn),抑制其發(fā)生。
(2)對(duì)于病態(tài)數(shù)據(jù)的管理分析,該文僅給出了部分研究成果,隨著研究的深入和統(tǒng)計(jì)理論的發(fā)展,各應(yīng)用單位可根據(jù)本身的特點(diǎn),歸納總結(jié)實(shí)用的病態(tài)數(shù)據(jù)管理技術(shù)。
參考文獻(xiàn)
[1] Kenneth Cukier,Viktor Mayer-Sch?nberger,著.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤,盛楊燕,譯.浙江人民出版社,2012.
[2] Rao D.,Gudivada V.N.,Raghavan V.V.Data quality issues in big data[C]//IEEE International Conference on Big Data.Santa Clara:IEEE.2015.
[3] Becker D.,McMullen B.,King T.D.Big data,big data quality problem[C]//IEEE International Conference on Big Data.Santa Clara:IEEE.2015.
[4] Immonen A.,Paakkonen P.,Ovaska E.Evaluating the Quality of Social Media Data in Big Data Architecture[J].IEEE Access,2015,3(10):2028-2043.
[5] 宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013,33(5):38-43.
[6] 程平,孫凌云.大數(shù)據(jù)、云會(huì)計(jì)時(shí)代考慮數(shù)據(jù)質(zhì)量特征的企業(yè)投資決策[J].會(huì)計(jì)之友,2015(12):134-140.
[7] 黃冬梅,陳括,王振華,等.基于塊嵌套循環(huán)的海洋大數(shù)據(jù)質(zhì)量檢驗(yàn)方案選擇算法[J].計(jì)算機(jī)工程與科學(xué), 2013,35(10):51-57.
[8] Huang Zhiwei,Gao Tian,Zhang Huaving,et al.Transient power quality assessment based on big data analysis[C]//2014 China International Conference on Electricity Distribution (CICED).Shenzhen IEEE.2014.
[9] Liu Fei,Zhang Xi,Jia Yan.An efficient sampling algorithm for uncertain abnormal data detection in biomedical image processing and disease prediction[J].Biomedical Materials and Engineering,2015,26(s1):249-255.
[10] Joon-Hong Seok,Jeong-Jung Kim,Joon-Yong Lee,et al.Abnormal data refinement and error percentage correction methods for effective short-term hourly water demand forecasting[J].International Journal of Control,Automation and Systems,2014,12(1256):1245.
[11] 王晶.電力系統(tǒng)異常數(shù)據(jù)檢測(cè)辨識(shí)方法綜述[J].電力與能源,2015,36(6):813-817.
[12] 費(fèi)歡,李光輝.基于K-means聚類的WSN異常數(shù)據(jù)檢測(cè)算法[J].計(jì)算機(jī)工程,2015,41(7):124-128.