賈君枝
(中國人民大學信息資源管理學院,北京 100872)
語義網技術的發(fā)展推動關聯(lián)數(shù)據(jù)集不斷出現(xiàn),關聯(lián)開放數(shù)據(jù)云(linked open data,LOD)項目2018年6月的數(shù)據(jù)集已達1 224個,鏈接數(shù)16 113個[1]。隨著數(shù)據(jù)集的增長,數(shù)據(jù)的重用、消費不斷發(fā)生,而數(shù)據(jù)質量在一定程度上會影響用戶的使用效率,判斷數(shù)據(jù)質量成為數(shù)據(jù)消費之前的一個重要決策,數(shù)據(jù)質量評估應運而生。由于不同的評估主體參與、采用的評估指標體系差異,單個機構的評估結果并不完全可信,而且這些評估結果并沒有伴隨數(shù)據(jù)集而存在,導致用戶獲得質量評估數(shù)據(jù)的難度增加。因此,有效地記錄數(shù)據(jù)質量的不同維度信息,調動多個機構參與到數(shù)據(jù)質量評估建設中,對于數(shù)據(jù)消費者而言將可能獲得各個層面的數(shù)據(jù)質量信息,為其數(shù)據(jù)集的選擇判斷以及對于數(shù)據(jù)發(fā)布者及開發(fā)者的信任度提供充分的數(shù)據(jù)支持。因此有效地描述數(shù)據(jù)集在不同階段產生的各種類型的數(shù)據(jù)質量信息,對于數(shù)據(jù)生產者、開發(fā)者、消費者各個主體而言,都具有重要價值。
基于此,2004年2月W3C專利政策運營小組編制數(shù)據(jù)質量詞表,并由Web最佳實踐工作組發(fā)布數(shù)據(jù)。該詞匯表旨在使發(fā)布、交換、消費高質量元數(shù)據(jù)變得更為容易,能夠記錄數(shù)據(jù)各個生命周期階段關于數(shù)據(jù)質量的元數(shù)據(jù)信息,以幫助用戶進行有效的選擇與判斷。本文旨在研究不同參與主體可能產生的數(shù)據(jù)質量信息,通過數(shù)據(jù)質量詞表來客觀地記載這些信息,以形成關于數(shù)據(jù)質量事實鏈,實現(xiàn)數(shù)據(jù)的追蹤與利用。
2009年,Berners-Lee[2]提出關聯(lián)數(shù)據(jù)的“五星標準”,旨在提高關聯(lián)數(shù)據(jù)質量。隨后Hoxha等[3]提出“綠色關聯(lián)數(shù)據(jù)”的原則,魏來等[4]基于“綠色關聯(lián)數(shù)據(jù)”總結出包括內容、表述、系統(tǒng)與應用的關聯(lián)數(shù)據(jù)質量標準總框架。德國萊比錫大學Zaveri等[5]提出針對關聯(lián)開放數(shù)據(jù)云圖的數(shù)據(jù)質量評估框架。王振蒙等[6]利用RDF詞匯、URI有效性等指標對5家國家圖書館發(fā)布的圖書關聯(lián)數(shù)據(jù)集進行分析和評估。Wei等[7]認為目前缺乏基于數(shù)據(jù)質量詞表的數(shù)據(jù)集質量標注工具的系統(tǒng)研究,提出可視化用戶接口以實現(xiàn)對數(shù)據(jù)集的質量標注??梢钥闯觯P聯(lián)數(shù)據(jù)質量評價日益得到重視,但如何有效地描述數(shù)據(jù)質量評價結果并未在相關研究中提及。
數(shù)據(jù)集的數(shù)據(jù)質量形成源于不同主體的共同參與,這些參與主體有數(shù)據(jù)提供者、數(shù)據(jù)質量評價者、數(shù)據(jù)消費者。除這些主體外,數(shù)據(jù)質量形成還依賴于一定的數(shù)據(jù)質量政策與法律。
數(shù)據(jù)提供者指收集、發(fā)布數(shù)據(jù)的機構,負責數(shù)據(jù)的更新與維護管理,旨在提高其聲譽及社會參與度。數(shù)據(jù)提供者作為數(shù)據(jù)來源機構,由于各機構所提供的數(shù)據(jù)量較大且結構各異,對數(shù)據(jù)本身的理解、描述存在偏差,所發(fā)布的數(shù)據(jù)源可能存在不一致、相互矛盾及沖突。顯而易見,關聯(lián)數(shù)據(jù)同一般數(shù)據(jù)相比,具有自身的特點,其質量主要取決于數(shù)據(jù)提供者,質量層面包含的主要內容有數(shù)據(jù)集元數(shù)據(jù)信息(數(shù)據(jù)集的大小、發(fā)布機構、主題等)、數(shù)據(jù)模型(類、屬性定義)、數(shù)據(jù)格式、數(shù)據(jù)發(fā)布狀況(如發(fā)布時間、更新頻率、是否接受用戶修改等)、數(shù)據(jù)獲取方式等。
數(shù)據(jù)質量評價者對所發(fā)布的數(shù)據(jù)集進行評價,獲得的評價結果可以為數(shù)據(jù)消費者提供選擇參考。通常數(shù)據(jù)質量評價者選擇要評價的數(shù)據(jù)集須依據(jù)一定的數(shù)據(jù)質量評估體系,對各指標進行量化計算以獲得可信度高的結論。數(shù)據(jù)質量評價者包括第三方評價機構、個人,通過對各類數(shù)據(jù)集的評價打分、排名,旨在獲得高質量的數(shù)據(jù)集供用戶選擇使用。評價過程中,選用不同的數(shù)據(jù)質量評估體系決定評估的結果。ISO/IEC 25012將數(shù)據(jù)質量分為內在質量和系統(tǒng)依賴質量兩大維度[8],共包括15個指標。內在質量有準確性、完整性、一致性、可信度、現(xiàn)時性,系統(tǒng)依賴質量有可檢索性、準確率、保密性、效率、遵從性、可用性、可理解、可追蹤、可攜帶、可恢復性。針對關聯(lián)數(shù)據(jù)的數(shù)據(jù)質量評估體系,目前較權威的是Zaveri等[5]提出的指標體系,且將其分為存取性、內在性、上下文、表示四大維度。存取性包括可用性、授權、鏈接、安全性、性能,內在性包括語法驗證、語義準確、一致性、簡潔性、完整性,上下文包括相關性、可信度、可理解性、及時性,表示包括簡潔性、互操作性、可解釋性、可視化。
數(shù)據(jù)消費者不僅瀏覽數(shù)據(jù),而且貢獻、提供質量反饋。他們可以編輯數(shù)據(jù),實現(xiàn)數(shù)據(jù)的糾錯及其更新,有助于數(shù)據(jù)的維護;此外,他們也可對數(shù)據(jù)提供評論、標注。通過有效的反饋環(huán)節(jié)使數(shù)據(jù)質量趨于完善。數(shù)據(jù)消費者是關聯(lián)數(shù)據(jù)集的最佳實踐者,作為數(shù)據(jù)集的使用對象,他們有權且最有資格對數(shù)據(jù)質量進行評價監(jiān)督,通過對數(shù)據(jù)質量反饋信息以保證數(shù)據(jù)質量處于不斷上升狀態(tài)。有效地設置由數(shù)據(jù)消費者參與的關聯(lián)數(shù)據(jù)質量反饋環(huán)節(jié),采用多手段積極倡導消費者參與,及時地搜集用戶反饋信息,將有助于關聯(lián)數(shù)據(jù)的質量提升。
關聯(lián)數(shù)據(jù)集自身并不包括對其數(shù)據(jù)質量的描述,有效地記錄不同主體所參與的數(shù)據(jù)質量活動,將成為獲得數(shù)據(jù)質量、追蹤數(shù)據(jù)質量的重要依據(jù)。為保證描述記錄的可理解性、可操作性,需要制定專門型詞表對其表示。因此,W3C的Web數(shù)據(jù)最佳實踐工作組于2016年正式發(fā)布數(shù)據(jù)質量詞表(data quality vocabulary)[9],其有機地記錄數(shù)據(jù)的評估過程及其結果,反映了用戶反饋。
2.1.1 數(shù)據(jù)目錄詞表的擴展
數(shù)據(jù)目錄詞表(data catalog vocabulary,DCAT)作為網絡數(shù)據(jù)目錄的互操作詞表,旨在實現(xiàn)不同格式的數(shù)據(jù)共享與交換[10]。DCAT主要用于表示政府數(shù)據(jù)目錄,定義了3個基本類,即目錄、數(shù)據(jù)集、發(fā)布方式。目錄定義了目錄名、發(fā)布者、時間、地點、語種、所包含的數(shù)據(jù)集,數(shù)據(jù)集定義了數(shù)據(jù)集名稱、發(fā)布者、關鍵詞、描述、時間、地點、語種,發(fā)布方式定義了數(shù)據(jù)集的授權、存取URL、類型、格式、大小。DCAT詞表對數(shù)據(jù)集的基本發(fā)布狀況進行準確且較全面的描述,為數(shù)據(jù)質量詞表的制定奠定了基礎。但數(shù)據(jù)質量詞表只側重于對數(shù)據(jù)質量進行描述,關于描述對象數(shù)據(jù)集本身則應用DCAT詞表,其所定義的數(shù)據(jù)質量類與DCAT詞表中的目錄、數(shù)據(jù)集、發(fā)布方式息息相關,實際是對數(shù)據(jù)集的質量元數(shù)據(jù)進行描述。
2.1.2 數(shù)據(jù)質量描述框架的確立
數(shù)據(jù)質量描述詞表提供了數(shù)據(jù)質量描述框架,定義了數(shù)據(jù)質量描述中所涉及的類、屬性、實例,構建了不同數(shù)據(jù)集質量描述的概念模型,為基于數(shù)據(jù)質量的各種應用提供可能。從其描述內容看,定義了數(shù)據(jù)質量評價對象、評價所采用的指標體系、評價結果值、評價政策及遵循的標準、用戶反饋等,對數(shù)據(jù)質量評價過程及評估方法進行準確記載,并明確各個實體類間關系,以鼓勵不同人員參與數(shù)據(jù)質量評價,全面地反映評價者的觀點、評注及其相關證據(jù)。這些有助于幫助數(shù)據(jù)消費者進行選擇判斷。但是,其并不關注數(shù)據(jù)本身的質量問題,不對數(shù)據(jù)質量進行評價;其旨在實現(xiàn)用戶及機器對這些質量數(shù)據(jù)的解讀,有助于用戶對數(shù)據(jù)集進行標注、評價、比較、選擇,追蹤數(shù)據(jù)質量的動態(tài)變化狀況,為后期數(shù)據(jù)集成應用提供參考。
2.1.3 重用其他詞表
數(shù)據(jù)質量詞表構建并不是從零開始,而是在充分吸收現(xiàn)有多個詞表的基礎上發(fā)展而來,以實現(xiàn)最小成本構建。各個詞表共同表述數(shù)據(jù)集質量信息,相互補充構成對數(shù)據(jù)集質量活動的完整描述。因此,除了定義自身特定的類及屬性(命名空間定義為dqv),其重用了其他本體的類及屬性作為描述構成。重用的本體有數(shù)據(jù)目錄詞表(DCAT)、都柏林核心元素集(DCMI)[11]、數(shù)據(jù)集使用詞表(DUV)[12]、簡單知識組織系統(tǒng)(SKOS)[13]、數(shù)據(jù)起源(PROV)[14]、Web注釋詞表(OA)[15]、ODRL詞表[16]、數(shù)據(jù)立方體詞表(QB)[17]等。數(shù)據(jù)目錄詞表用于定義數(shù)據(jù)集的特征信息,明確數(shù)據(jù)集對象。都柏林核心元素集用于描述通用類型的數(shù)據(jù),如數(shù)據(jù)集的標題、數(shù)據(jù)標準。數(shù)據(jù)集使用詞表描述了消費者關于數(shù)據(jù)集的使用經驗、引用及其反饋信息,定義了評價反饋、使用、使用反饋、使用工具等基本類。數(shù)據(jù)起源描述了數(shù)據(jù)集產生、修改、擁有及其他影響的元數(shù)據(jù),定義了實體、活動、代理3個基本類,用以追蹤對數(shù)據(jù)集所產生影響的人員、活動及變化,如數(shù)據(jù)質量標準與評估體系之間的使用及生成關系采用此定義。簡單知識組織系統(tǒng)定義了共享與鏈接知識組織系統(tǒng)的模型,提供了知識組織系統(tǒng)中概念及概念之間關系、不同詞表映射的表示詞匯。ODRL詞表旨在發(fā)展促進開放式國際政策語言表述,支持發(fā)布、分配、消費內容、應用及服務中數(shù)字資產的透明且創(chuàng)新式使用;涉及政策類型,允許、禁止的職責行為,所扮演的功能角色、數(shù)字資產關系。Web注釋詞表定義了有效表達標注行為的互操作框架,用來描述關聯(lián)數(shù)據(jù)環(huán)境下用戶對網絡數(shù)據(jù)的評注行為,客觀記錄評注人對評注對象所實施的評論、選擇等活動。數(shù)據(jù)立方體詞表用于交換及共享統(tǒng)計數(shù)據(jù)及元數(shù)據(jù)。
數(shù)據(jù)質量詞表只定義了自身的核心類(如質量評估、質量標注、用戶質量反饋、數(shù)據(jù)質量元數(shù)據(jù)),其他類都來源于其他詞表。同時其將核心類通過子類、子屬性關系與其他詞表建立聯(lián)系,如數(shù)據(jù)質量標注類放于OA詞表的標注類下,評估的結果放于QB的數(shù)據(jù)集類下,這些為實現(xiàn)多個詞表的互操作提供了可能,旨在充分發(fā)揮數(shù)據(jù)網絡的價值。
數(shù)據(jù)質量詞表實施的評估對象是數(shù)據(jù)集,主要記錄對數(shù)據(jù)集所開展的質量評估、標注、元數(shù)據(jù)等一系列質量管理活動。
2.2.1 數(shù)據(jù)質量評估
數(shù)據(jù)質量評估需要明確所制定的數(shù)據(jù)質量政策、采納的數(shù)據(jù)質量標準及其所應用的數(shù)據(jù)質量評價指標體系。數(shù)據(jù)質量政策指導數(shù)據(jù)質量活動,為其提供行動準則,通常包含目標、背景、范圍、角色及職責、政策聲明及定義。數(shù)據(jù)質量標準是保證數(shù)據(jù)質量管理活動具有可控性的重要手段,旨在形成跨國家、組織的統(tǒng)一性數(shù)據(jù)質量管理方法,以實現(xiàn)數(shù)據(jù)存儲、傳遞和共享,促使各評估機構遵循統(tǒng)一的數(shù)據(jù)質量評估標準,在一定程度上降低數(shù)據(jù)質量評估成本。數(shù)據(jù)質量標準通常定義滿足數(shù)據(jù)質量需求的一系列特征,對其進行解釋說明并分層展示,實際上為數(shù)據(jù)質量評價提供指標體系。數(shù)據(jù)質量評估是依據(jù)數(shù)據(jù)質量政策及標準而實施的評估過程,以明確獲得評價結果,評估過程涉及評估對象、評估指標(定義數(shù)據(jù)結構)及結果值。數(shù)據(jù)質量詞表定義了3個基本大類,即質量政策(dqv:QualityPolicy)、標準(dcterms:Standard)、評估(dqv:QualityMeasurement)。評估指標體系又細分為3個子類:類(Category)、維度(Dimension)、指標(Metric),類劃分為若干維度,維度下細分為若干指標。
2.2.2 數(shù)據(jù)質量標注活動
標注是創(chuàng)建不同資源之間的關聯(lián)行為,數(shù)據(jù)質量標注旨在表達數(shù)據(jù)資源與資源的關系信息,一個完整的標注情境包括標注者、標注對象、標注行為、標注內容、時間。標注對象實際為標注目標,標注內容稱為標注主體,表達對目標的標注內容。標注行為包括評價(評語、評級)、標簽、收藏、描述、提問、回答、識別、分類、描述、編輯、聯(lián)接、加亮等活動。數(shù)據(jù)質量標注描述了數(shù)據(jù)質量認證及反饋信息,包括數(shù)據(jù)質量認證、用戶質量反饋。ISO在ISO/IEC指南2中將質量認證定義為第三方依據(jù)程序對產品、過程或服務符合規(guī)定的要求給出書面保證(合格證書)[18]。數(shù)據(jù)質量認證是第三方對數(shù)據(jù)質量符合質量標準給出書面保證,包含數(shù)據(jù)質量標準體系和數(shù)據(jù)集質量認證。數(shù)據(jù)質量認證將數(shù)據(jù)集與證書之間建立關聯(lián),數(shù)據(jù)集稱為對象,證書稱為主體,通過評估過程建立兩者聯(lián)系。用戶反饋是識別用戶需求、評估用戶滿意度、發(fā)現(xiàn)質量問題的重要方法[19]。用戶質量反饋從用戶角度反映對數(shù)據(jù)集的滿意程度,通過用戶參與來提供數(shù)據(jù)質量,包含用戶、反饋方式、反饋內容。反饋方式來自標注行為類型,有評級、評語、提問、分類、描述、編輯等;反饋內容涉及內容主體及所提及對象。數(shù)據(jù)質量詞表定義了數(shù)據(jù)質量標注類(dqv:QualityAnnotation),其劃分為兩個子類,即質量認證類(dqv:QualityCertificate)、用戶質量反饋類(dqv:UserQualityFeedback)。
2.2.3 數(shù)據(jù)質量元數(shù)據(jù)
數(shù)據(jù)質量元數(shù)據(jù)描述了數(shù)據(jù)質量的基本信息,有助于用戶迅速獲取數(shù)據(jù)集的基本質量信息,指導用戶進行查詢及使用。數(shù)據(jù)質量元數(shù)據(jù)已成為數(shù)據(jù)質量的基本構成,包含數(shù)據(jù)源本身、數(shù)據(jù)質量認證、政策、數(shù)據(jù)集的評估活動、標注的記錄。數(shù)據(jù)質量詞表定義了質量元數(shù)據(jù)類(dqv:QualityMetadata)。
如圖1所示,描述完成這3個基本活動后,則構建類之間的關系,形成數(shù)據(jù)模型[9]。
圖1 數(shù)據(jù)質量詞表的數(shù)據(jù)模型
應用數(shù)據(jù)質量詞表可以準確地實現(xiàn)對數(shù)據(jù)質量評估、標注及元數(shù)據(jù)信息進行描述,據(jù)此用戶或機器可以及時獲取數(shù)據(jù)質量信息,為數(shù)據(jù)的消費及再利用提供依據(jù)。BNB是大英圖書館發(fā)布的RDF/XML格式的關聯(lián)書目數(shù)據(jù)集,其包含圖書、期刊、報紙等圖書館收藏的資源。大英圖書館的BNB數(shù)據(jù)集作為較早發(fā)布關聯(lián)書目集的國家機構,成為許多機構所選用的數(shù)據(jù)集評價對象。現(xiàn)選用其圖書子集進行RDF描述,利用一定的評估指標及其用戶標注行為對其進行綜合評價,以展示該數(shù)據(jù)集部分質量情況。
當前選用Zaveri等[5]提出的指標體系(https://www.w3.org/2016/05/ldqd,命名空間為ldqd)對BNB數(shù)據(jù)集(http://bnb.data.bl.uk)的圖書子集進行評估,對可用性指標進行評估,結果表明該數(shù)據(jù)集URL可以被訪問。
用戶對BNB的圖書子集的可用性進行評級,給予四星級分值。
對大英圖書館的圖書數(shù)據(jù)子集進行的評估及其標注活動的元數(shù)據(jù)信息進行描述。
通過對該數(shù)據(jù)集的質量評估過程的描述,可以清晰地展示其評估中所采用的指標體系及其評估結果,并充分地表示了用戶所參與的評估活動類型及其標注內容,這些有助于數(shù)據(jù)消費者在后期選擇使用該數(shù)據(jù)集時,形成基于數(shù)據(jù)質量評估活動的一系列準確決策。
隨著開放關聯(lián)數(shù)據(jù)集的增長,數(shù)據(jù)質量成為消費者關心的重要問題。本研究對影響數(shù)據(jù)質量的各種活動進行闡述,深入地對W3C發(fā)布的數(shù)據(jù)質量詞表的特征進行細致深入的分析,并對其RDF應用場景進行說明。隨著該詞表的不斷普及應用,越來越多的機構及用戶參與到數(shù)據(jù)質量的相關描述中,在未來將極大地推動數(shù)據(jù)質量的提升,真正發(fā)揮數(shù)據(jù)價值作用。