姜尚炎 周志軍 曾秋琛
1.中國鐵道科學(xué)研究院集團(tuán)有限公司基礎(chǔ)設(shè)施檢測研究所;2.中國鐵路南昌局集團(tuán)有限公司工電檢測所;3.中國鐵路北京局集團(tuán)有限公司北京西站
隨著互聯(lián)網(wǎng)、計算機(jī)等現(xiàn)代信息化技術(shù)的迅速發(fā)展,數(shù)字資源這一新型資源應(yīng)運而生,其涉及到電子圖書、電子會議論文、電子期刊等。當(dāng)前國鐵集團(tuán)工務(wù)基礎(chǔ)設(shè)施檢測監(jiān)測領(lǐng)域的數(shù)據(jù)量呈現(xiàn)指數(shù)型增長,數(shù)字資源已在其經(jīng)營發(fā)展中發(fā)揮著至關(guān)重要的作用。而元數(shù)據(jù)這一數(shù)據(jù)形式,可對數(shù)字資源的內(nèi)容、特征、屬性等信息進(jìn)行揭示;制定元數(shù)據(jù)標(biāo)準(zhǔn)并建設(shè)元數(shù)據(jù)模型,完成數(shù)據(jù)標(biāo)準(zhǔn)管理和數(shù)據(jù)質(zhì)量管理工作,實現(xiàn)國家鐵路數(shù)字工務(wù)全域數(shù)據(jù)管控。要想有效提高數(shù)字資源的建設(shè)效果與服務(wù)質(zhì)量,就需要確保數(shù)字資源元數(shù)據(jù)的質(zhì)量。但因為數(shù)字資源元數(shù)據(jù)涉及范圍很廣,且存在較高的重復(fù)率等,這就極易引發(fā)各種數(shù)據(jù)質(zhì)量問題,難以確保數(shù)字資源的充分應(yīng)用[1]。基于此,國鐵集團(tuán)下相關(guān)部門在建設(shè)檢測監(jiān)測數(shù)字資源的過程中,應(yīng)積極構(gòu)建高質(zhì)量的元數(shù)據(jù)倉儲,從而實現(xiàn)對檢測監(jiān)測數(shù)字資源元數(shù)據(jù)的質(zhì)量管理。
元數(shù)據(jù)主要指對數(shù)據(jù)特征、彼此關(guān)系、有關(guān)操作進(jìn)行描述與規(guī)定的一種數(shù)據(jù)集合。關(guān)于元數(shù)據(jù)數(shù)據(jù)管理具體涉及到幾個方面:(1)元數(shù)據(jù)的細(xì)?;芾恚窗褦?shù)據(jù)庫中的數(shù)字資源細(xì)致地劃分成單冊、單圖等底層單元體,且依據(jù)相關(guān)規(guī)范來對各個計算單位賦予標(biāo)準(zhǔn)化的標(biāo)志,用戶只需通過相關(guān)系統(tǒng)即可及時獲取到相應(yīng)的信息,而管理人員也可通過對數(shù)據(jù)庫的精細(xì)化對比與管理,即可了解到用戶的實際使用情況,以此來對資源采購內(nèi)容進(jìn)行科學(xué)調(diào)整,確保數(shù)字資源得到更加高效的應(yīng)用[2];(2)采購協(xié)議的保障,目前用戶對數(shù)據(jù)資源的服務(wù)需求更加地精細(xì)化,傳統(tǒng)以“庫”為單位的粗放型數(shù)據(jù)庫管理模式已難以適應(yīng)這一需求,所需各企業(yè)事業(yè)單位在數(shù)字化資源管理過程中,必須積極尋求更加精準(zhǔn)便捷的數(shù)據(jù)庫管理模式;(3)全周期監(jiān)管與數(shù)據(jù)采集,即把數(shù)字資源管理細(xì)分到篇章單位個體以后,可借助動態(tài)監(jiān)管的方式,對過期、無效、授權(quán)有問題、不正確的數(shù)據(jù)進(jìn)行定期篩選,對于無法使用的數(shù)據(jù)應(yīng)及時進(jìn)行刪除或是下架處理,以此來確保單位數(shù)據(jù)資源的整體質(zhì)量[3]。
元數(shù)據(jù),既是數(shù)字信息組織的前提條件,也是關(guān)于數(shù)據(jù)與相關(guān)特征的結(jié)構(gòu)化信息,對于國鐵集團(tuán)工務(wù)基礎(chǔ)設(shè)施檢測監(jiān)測的業(yè)務(wù)發(fā)展而言,元數(shù)據(jù)的質(zhì)量管理是非常重要的一項管理工作。具體需求體現(xiàn)為以下幾點:
深入分析其特點,從中能夠發(fā)現(xiàn)相關(guān)信息主要包含幾方面特點:(1)內(nèi)容信息,關(guān)于題目名稱、分類等方面的信息;(2)屬性信息,依照屬性差異,可將之分為數(shù)字資源類、資源類等;(3)定位信息,提供對應(yīng)的鏈接,用戶能夠通過此查詢數(shù)字資源的內(nèi)容;(4)關(guān)聯(lián)關(guān)系,即揭示數(shù)字資源和對應(yīng)資源、數(shù)據(jù)庫與對應(yīng)系統(tǒng)的關(guān)聯(lián)性;(5)歷史沿革,即對數(shù)字資源的發(fā)展變化加以詳細(xì)描述。
現(xiàn)階段,大多數(shù)數(shù)字資源的管理模式依然是以單位數(shù)據(jù)庫為單位,該模式無法科學(xué)合理的掌握單位或是機(jī)構(gòu)的單個數(shù)字資源的具體情況。元數(shù)據(jù)現(xiàn)已能夠替代“數(shù)字資源”,對國鐵集團(tuán)的檢測監(jiān)測數(shù)據(jù)而言,元數(shù)據(jù)即能夠?qū)λ袉螖?shù)據(jù)進(jìn)行管理,還能夠?qū)趩挝毁Y源而衍生出的集合式數(shù)字資源的各個應(yīng)用環(huán)節(jié)進(jìn)行管理,包括:訪問控制、訪問統(tǒng)計、用戶操作、評價與引用等[4]。
數(shù)字資源元數(shù)據(jù)可在一定程度上實現(xiàn)數(shù)字資源的多種應(yīng)用,包括:資源共享、資源檢索、資源評價等。借助高質(zhì)量的元數(shù)據(jù),有利于用戶更加準(zhǔn)確且及時的獲取到所需的數(shù)字資源內(nèi)容,而低質(zhì)量的元數(shù)據(jù),往往會造成信息獲取過程中發(fā)生過多的、重復(fù)的、錯誤的、不相符的內(nèi)容,進(jìn)而大大降低數(shù)字資源的利用效果?,F(xiàn)如今,數(shù)字資源元數(shù)據(jù)質(zhì)量雖然有一定程度的提升,然而依然存在諸多問題,如:對于資源發(fā)現(xiàn)系統(tǒng)的應(yīng)用,該系統(tǒng)作為一種立足于元數(shù)據(jù)倉儲的資源整合系統(tǒng),因為系統(tǒng)數(shù)據(jù)取得渠道豐富多樣、技術(shù)人員綜合素質(zhì)有待提升等問題,可能使得相關(guān)使用機(jī)構(gòu)或是單位,存在一定的元數(shù)據(jù)質(zhì)量問題[5]。國鐵集團(tuán)下檢測監(jiān)測相關(guān)部門為能夠更好地適應(yīng)新時代發(fā)展的需求,實現(xiàn)長足發(fā)展,需要注重元數(shù)據(jù)的發(fā)展,積極組建一支高素質(zhì)的元數(shù)據(jù)工作隊伍,從而更加深入地探究如何提高數(shù)據(jù)資源元數(shù)據(jù)質(zhì)量管理的方法與策略,從而有效提高自身的信息服務(wù)質(zhì)量,確保數(shù)據(jù)資源得到更加充分的應(yīng)用。
數(shù)據(jù)資源元數(shù)據(jù)質(zhì)量問題具體分為幾點:(1)數(shù)據(jù)不正確。即在數(shù)字資源元數(shù)據(jù)應(yīng)用過程中,并未嚴(yán)格按照國際、國內(nèi)及行業(yè)的相關(guān)規(guī)格與標(biāo)準(zhǔn)進(jìn)行應(yīng)用,這就造成數(shù)據(jù)的內(nèi)容、格式等方面有誤,從而導(dǎo)致無數(shù)據(jù)無法被轉(zhuǎn)換,或在完成轉(zhuǎn)換后數(shù)據(jù)出現(xiàn)錯誤;(2)數(shù)據(jù)不完整。即數(shù)據(jù)信息存在著較多缺損、遺漏;(3)數(shù)據(jù)失效。該問題會導(dǎo)致元數(shù)據(jù)不能被利用,而出現(xiàn)這一問題的主要原因為:元數(shù)據(jù)所對應(yīng)的數(shù)據(jù)資源實際上并沒有被機(jī)構(gòu)或是單位訂購,由于電子期刊停刊而導(dǎo)致相關(guān)網(wǎng)絡(luò)失效,元數(shù)據(jù)中的網(wǎng)絡(luò)鏈接地址不正確等;(4)數(shù)據(jù)重復(fù)。很多數(shù)據(jù)庫都存在多次收錄數(shù)字資源的情況,造成資源重復(fù)。
造成數(shù)據(jù)資源元數(shù)據(jù)產(chǎn)生質(zhì)量問題的原因,具體分為幾點:(1)數(shù)據(jù)來源。元數(shù)據(jù)的獲取途徑主要有:數(shù)據(jù)庫商或是代理商、數(shù)據(jù)庫管理后臺,而這也使得元數(shù)據(jù)來源比較多元化。因為不同來源數(shù)據(jù)所依據(jù)的著錄規(guī)范與要求不一致,這就導(dǎo)致數(shù)據(jù)格式等方面存在不同;(2)數(shù)據(jù)處理。對數(shù)據(jù)處理缺乏重視,使得在對之進(jìn)行存儲之前,沒有結(jié)合各自的具體情況與特點來加以恰當(dāng)處理,如:僅進(jìn)行簡單處理就導(dǎo)入元數(shù)據(jù)倉儲之中,或是設(shè)定合適的參數(shù)加以數(shù)據(jù)歸并、去重、篩選,進(jìn)而導(dǎo)致大量數(shù)據(jù)重復(fù)、不準(zhǔn)確等問題;(3)不穩(wěn)定性。數(shù)字資源可能會出現(xiàn)停止使用、變更等狀況。若數(shù)據(jù)資源出現(xiàn)改變,沒有及時更新,將會引發(fā)較多數(shù)據(jù)不統(tǒng)一問題,對應(yīng)用造成不良影響[6]。
對于數(shù)字資源元數(shù)據(jù)而言,其具備一定的生命周期,基于數(shù)字資源的特征與發(fā)展變化、數(shù)據(jù)處理方式,可將其生命周期劃分成幾個階段:(1)規(guī)劃。在總體層面上,對數(shù)據(jù)質(zhì)量需求進(jìn)行全面分析,提出相應(yīng)的目標(biāo),明確規(guī)范與要求,且對元數(shù)據(jù)在各個生命周期中的有效管理進(jìn)行科學(xué)規(guī)劃;(2)創(chuàng)建。采取多種途徑來獲取數(shù)字資源元數(shù)據(jù);(3)收集。采用多種方式與途徑來收集現(xiàn)成的數(shù)字資源元數(shù)據(jù);(4)處理。在元數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉儲之前,應(yīng)恰當(dāng)處理數(shù)據(jù),確保滿足相關(guān)質(zhì)量要求;(5)裝載。在數(shù)據(jù)倉儲中導(dǎo)入已處理過的元數(shù)據(jù);(6)維護(hù)。對上一階段的元數(shù)據(jù)加以質(zhì)量管理,如:結(jié)合數(shù)字資源的變化來對元數(shù)據(jù)進(jìn)行及時更新,并提出相關(guān)規(guī)范來對問題數(shù)據(jù)集進(jìn)行篩選等;(7)使用。借助資源檢索、資源獲取等方式來發(fā)揮元數(shù)據(jù)的作用;(8)刪除。若數(shù)字資源出現(xiàn)變更、替換等情況時,需要及時刪除已失效的數(shù)字資源,且做好相應(yīng)的記錄。
對于數(shù)字資源元數(shù)據(jù)而言,其相關(guān)影響要素有幾個方面:(1)元數(shù)據(jù)。其作為數(shù)據(jù)資源元數(shù)據(jù)質(zhì)量管理的分析對象,需要以元數(shù)據(jù)為核心,來開展全部的質(zhì)量管理活動,只有確保元數(shù)據(jù)的高質(zhì)量,才能夠有效降低質(zhì)量管理的難度;(2)人員。數(shù)字資源元數(shù)據(jù)質(zhì)量管理活動的開展,需要組建一支高素質(zhì)的管理隊伍,不僅要求不同專業(yè)背景的人才,還需要具備不同專業(yè)技能的人才,如:數(shù)據(jù)管理人員、數(shù)據(jù)處理人員、數(shù)據(jù)分析人員;(3)流程。數(shù)字資源元數(shù)據(jù)質(zhì)量管理涉及到多個環(huán)節(jié),如:數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)更新等,要想確保整個質(zhì)量管理活動的順利開展,就必須合理明確相關(guān)質(zhì)量管理流程;(4)技術(shù)。涉及到數(shù)據(jù)格式轉(zhuǎn)換工具、網(wǎng)址有效性檢測軟件、問題數(shù)據(jù)過濾系統(tǒng)等。
關(guān)于數(shù)字資源的元數(shù)據(jù)質(zhì)量管理活動,具體的流程包括:(1)發(fā)現(xiàn)問題。即通過相應(yīng)的軟件或是工具來對各項數(shù)據(jù)進(jìn)行全面監(jiān)測與審核,及時發(fā)現(xiàn)問題;(2)分析數(shù)據(jù)質(zhì)量。結(jié)合相關(guān)規(guī)范和要求,來分析數(shù)據(jù)質(zhì)量與業(yè)務(wù)需求存在的差異性,判斷不良數(shù)據(jù)可能產(chǎn)生的不利影響等;(3)源端修正問題。若問題責(zé)任在于數(shù)據(jù)源機(jī)構(gòu),則由該機(jī)構(gòu)負(fù)責(zé)修正;(4)修正當(dāng)前問題。即結(jié)合相關(guān)規(guī)則來對代碼進(jìn)行準(zhǔn)確編寫,完成數(shù)據(jù)修改;(5)預(yù)防未來問題。對未來數(shù)字資源應(yīng)用中可能出現(xiàn)的變化進(jìn)行提前預(yù)測,從而采取對應(yīng)的措施,避免今后花費更多的成本去維護(hù)數(shù)據(jù);(6)測試。即利用服務(wù)器來對全部質(zhì)量管理活動進(jìn)行測試,找出問題;(7)實施。在正式服務(wù)器中開展質(zhì)量管理工作;(8)審核。結(jié)合相關(guān)規(guī)范和要求來對各數(shù)據(jù)問題是否得到有效解決進(jìn)行嚴(yán)格核查;(9)改進(jìn)。對質(zhì)量管理流程進(jìn)行總結(jié)歸納,充分分析已出現(xiàn)的問題,并不斷改進(jìn)質(zhì)量管理方法,從而有效提高元數(shù)據(jù)質(zhì)量。
具體到對國鐵集團(tuán)工務(wù)基礎(chǔ)設(shè)施檢測監(jiān)測數(shù)字資源的元數(shù)據(jù)管理方式,有幾種管理策略:(1)選擇科學(xué)的管理模式。根據(jù)業(yè)務(wù)特點,可以選擇集中與分散相結(jié)合的管理模式,在統(tǒng)一性管理過程中,根據(jù)數(shù)據(jù)的實際情況,對其采取針對性的管理,從而提升管理的科學(xué)性;(2)選取科學(xué)的管理策略。由于元數(shù)據(jù)質(zhì)量管理中需要對眾多的數(shù)據(jù)進(jìn)行批處理操作,而在數(shù)據(jù)倉儲中導(dǎo)入元數(shù)據(jù)后再實施批處理時,存在一定的操作風(fēng)險,還會增大系統(tǒng)運行壓力,故而需在元數(shù)據(jù)入庫前就采用批處理方式,且需要明確不同類型數(shù)據(jù)的處理規(guī)范與要求,從而確保質(zhì)量管理的效果[7];而面對多來源重復(fù)的元數(shù)據(jù),應(yīng)做好篩除與去重工作,然后從所有數(shù)據(jù)中選出質(zhì)量最好的元數(shù)據(jù),將其作為主記錄,并把其他來源重復(fù)數(shù)據(jù)中區(qū)別于主記錄但有價值的部分并入主記錄中,還需對數(shù)據(jù)的來源、對應(yīng)訪問網(wǎng)址與數(shù)據(jù)庫收錄情況等進(jìn)行詳細(xì)標(biāo)注。
針對國鐵集團(tuán)工務(wù)基礎(chǔ)設(shè)施檢測監(jiān)測領(lǐng)域,已制定了軌道元數(shù)據(jù)標(biāo)準(zhǔn)初稿,實現(xiàn)了系統(tǒng)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、過程元數(shù)據(jù)的統(tǒng)一。如圖1所示:
圖1 基礎(chǔ)設(shè)施檢測監(jiān)測數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)Fig.1 Metadata standard for infrastructure inspection and monitoring data
業(yè)務(wù)元數(shù)據(jù)中包含了鐵路組織機(jī)構(gòu)數(shù)據(jù)、檢測專業(yè)數(shù)據(jù)、檢測對象數(shù)據(jù)、檢測設(shè)備類型數(shù)據(jù)和檢測項目數(shù)據(jù)。組織機(jī)構(gòu)包含了國鐵集團(tuán)檢測中心和十八個鐵路局檢測所;檢測專業(yè)數(shù)據(jù)包含了鐵路檢測領(lǐng)域工務(wù)、電務(wù)、供電三大檢測專業(yè)的數(shù)據(jù);檢測設(shè)備類型包含了移動檢測、固定監(jiān)測、人工檢查的類型數(shù)據(jù)。
通過國鐵集團(tuán)工務(wù)基礎(chǔ)設(shè)施檢測監(jiān)測元數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范了檢測監(jiān)測數(shù)據(jù)的元數(shù)據(jù)管理,如圖2所示:
元數(shù)據(jù)管理規(guī)范了檢測監(jiān)測數(shù)據(jù)的數(shù)據(jù)組成、編碼組成、名稱類別、表單類型、表單值、數(shù)據(jù)最大長度和顯示排序,可以對單條數(shù)據(jù)實現(xiàn)增刪改查等功能。
綜上所述,對于數(shù)字資源而言,元數(shù)據(jù)是關(guān)鍵的管理方式,也是重要的揭示手段。在信息化時代背景下,數(shù)字資源在各企業(yè)事業(yè)的管理活動中發(fā)揮著越來越重要的作用,但數(shù)字資源存在不穩(wěn)定性,為確保其作用得到有效發(fā)揮,就亟需對數(shù)字資源元數(shù)據(jù)加以合理的質(zhì)量管理。