吳 江,馬小寧,鄒 丹,孫思齊,王沛然
(1.中國鐵道科學研究院 研究生部,北京 100081;2.中國鐵道科學研究院集團有限公司 鐵路大數據研究與應用創(chuàng)新中心,北京 100081)
伴隨著鐵路數據采集技術的進步,鐵路數據的總量呈現出指數級別的增長。傳統(tǒng)的鐵路數據資產價值評估方法依靠專家討論的文字總結進行價值評估,其結果相對模糊且不能準確表達專家對各價值影響指標的評價,無法滿足對新增數據進行價值評估的精準度要求。研究結合鐵路數據資產特征創(chuàng)建指標體系,構建評估模型,使鐵路數據資產價值評估的結果更加精確。
目前,國內在數據資產價值評估領域的研究處于探索階段,研究方向可分為價值評估指標體系與價值評估模型兩方面。在評估指標體系方面,張志剛等[1]在無形資產價值評估研究成果的基礎上,提出了基于層次分析模型構建的指標評價體系與方法。李永紅等[2]通過對數據資產進行定界與其價值體現的分析,將數據資產價值影響因素分為數據量與數據質量、數據分析能力2個方面。李菲菲等[3]將數據資產成本、應用與數據質量、效果相結合,嘗試了混合評估指標體系。在評估模型方面,王靜等[4]針對互聯網金融企業(yè)數據資產搭建了評價指標體系,結合B-S理論進行評估。董祥千等[5]從市場交易的角度將數據資產作為一種商品進行分析,采用基于市場模型參與者利潤建模方法進行了數據資產價值的評估。倪淵等[6]結合網絡平臺交易的數據構建了AGA-BP神經網絡評估模型,結合實例證明該模型具有較好的評估效果。
綜上所述,針對數據資產價值評估的研究取得了諸多成果。但在鐵路領域內,相關研究較少,不足以實現對鐵路數據資產的精確評估。因此,創(chuàng)建鐵路數據資產價值評估指標體系,構建AHP-FCE模型進行權重分析與價值評價,使用鐵路主數據字段進行仿真,實驗結果表明模型具有良好的評估效果,能夠較為精確地評估鐵路數據資產的價值。
鐵路數據資產是鐵路行業(yè)內各單位在運營管理、人員管理、業(yè)務場景中產生、傳輸、存儲的,具有價值的以圖片、文字、視頻、音頻等方式為載體的數據集合。相較于政務、郵遞、醫(yī)療等領域的數據資產,鐵路數據資產具有產速快、類型多、數據量大、保密性強等特征。
(1)產速快。除了通用的人財物等管理信息系統(tǒng)數據外,鐵路數據資產還包含設備設施維修維護系統(tǒng)和生產系統(tǒng)的數據。對設備設施維修維護系統(tǒng)來說,員工的每次維修都會產生工單;對生產系統(tǒng)來說,監(jiān)測數據每時每刻都在發(fā)生變化。這些系統(tǒng)產生的數據動態(tài)性強、隨機性強、顆粒度多樣,且都以ms或μs的時間間隔變化。
(2)類型多。根據數據產生的來源,可以將數據分為內部數據和外部數據。內部數據包括安全生產數據、運營服務數據、維修維護數據、物資采購數據、人力資源數據、財務管理數據、企業(yè)管理數據;外部數據包括交通路況、天氣數據、大型活動數據和其他相關公共數據等。
(3)數據量大。據粗略統(tǒng)計,目前,鐵路數據資產總量達10 PB以上,日增長量超1 TB。其數據量龐大的主要原因包括以下幾點:鐵路數據采集設備的升級與采集數據的精度提高,使數據來源增多、采集間隔減??;新技術的開發(fā)使得鐵路與其他領域的數據融合頻率增多;數據治理將傳統(tǒng)的紙質及其他形式的資料以數據形式存儲。
(4)保密性強。鐵路數據資產包括鐵路行業(yè)內各單位管控類的人財物數據、生產系統(tǒng)等物聯網系統(tǒng)采集終端傳感器的數據等,具有極大的應用價值,牽扯到鐵路日常管理、人事調動、調度安排等業(yè)務及流程。數據如若泄露,將對企業(yè)秘密和公共安全造成極大的危害,因此對保密性要求高。
鑒于鐵路數據資產的諸多特征,進行價值評估時需從多個維度考慮。通過整理傳統(tǒng)有形資產與無形資產價值評估中的評估因子,結合鐵路數據資產特征選定影響鐵路數據資產價值的主要因素包括數據成本、數據固有價值、數據應用價值3個方面。
(1)數據成本?;跀祿芷谀P停瑪祿杀局饕性跀祿占?、數據管理、數據應用3個階段當中。數據收集階段需一線人員對數據進行采集;數據管理階段需數據管理員對數據進行數據確認、清洗、入庫、整合;數據應用階段需數據分析師對數據進行挖掘。整理上述流程中的成本費用,數據成本可分為數據建設成本、數據管理成本、數據使用成本。
(2)數據固有價值。數據固有價值指數據本身所蘊含的信息內容,包括數據質量、數據活性、數據規(guī)模。數據質量與數據規(guī)模是數據固有價值的直觀體現,質量好的數據可以減少后續(xù)數據治理的成本,而規(guī)模大的數據則可以提供更多的挖掘樣本。數據活性是數據固有價值的潛在體現,關聯性越強的數據可與更多其他領域的數據進行融合。
(3)數據應用價值。鐵路數據資產應用價值分為路內應用價值、路外應用價值。在路內,數據可直接應用,例如根據車輛的延誤數據進行列車調度;同時也可間接應用,例如根據車站的人流量數據進行周邊交通的管控。在路外,數據的價值取決于業(yè)務的需求程度與歷史價值,例如在城際鐵路一體化的智慧城市項目中,鐵路數據是必需的,具有極高的價值。而根據鐵路數據在該項目中的實際使用效果,可在將來為其他同類項目對鐵路數據的價值評估提供參考。
鐵路數據資產價值評估的關鍵在于整理價值影響因素以形成指標體系和定量描述指標。依據鐵路數據資產特征,結合數據資產價值評估領域的研究現狀,將層次分析法與模糊綜合評價法相結合構建評估模型[7-8]。
層次分析法(Analytic Hierarchy Process,AHP)是一種將復雜多目標決策問題通過分解為多個層次與指標進行分析的決策方法,具有科學性、簡潔性、所需定量數據信息較少等優(yōu)點,能夠形成鐵路數據資產價值評估指標體系并計算出各指標的權重;模糊綜合評價法(Fuzzy Comprehensive Evaluation,FCE)是一種基于模糊數學的隸屬度理論把定性評價轉化為定量評價,對受到多種因素制約的對象做出一個總體評價的方法,可以定量描述鐵路數據資產的價值。
(1)構建指標體系。鐵路數據資產價值評估指標體系如圖1所示,包括1個總目標、3個一級指標、8個二級指標、21個三級指標。
圖1 鐵路數據資產價值評估指標體系Fig.1 Index framework for value evaluation of railway data assets
數據成本是指在建設、管理、使用數據的過程中花費的人力、物力的總和,一般認為數據成本越高的數據,其價值越高。數據建設成本包括數據采集成本和現場數據損失。數據采集成本指獲得數據所耗費的人力、物力總和,在現場數據的采集過程中,根據采集設備的費用確定數據的成本,費用越高,則采集成本越高;在統(tǒng)計數據的采集過程中,根據獲取數據的難度確定數據的成本,數據獲取流程越多,所需權限越大,則采集成本越高。不同業(yè)務中的數據由其特定的采集方式決定其采集成本?,F場數據損失指在采集過程中部分數據未達到要求而被舍棄所產生的損失。數據管理成本包括數據傳輸成本、數據治理成本、數據存儲成本。數據使用成本包括數據分析成本、技術使用成本、數據服務成本。數據分析成本指為分析技術所投入的費用,分析技術水平越高,所能挖掘的數據價值越多;技術使用成本、數據服務成本指為了配合數據的使用而進行的相關技術開發(fā)與技術服務等費用。
數據質量是數據固有價值的直接表現,參考國家標準GB/T 25000.12-2017《系統(tǒng)與軟件工程 系統(tǒng)與軟件質量要求和評價(SQuaRE)第12部分:數據質量模型》、GB/T 25000.24-2017《系統(tǒng)與軟件工程系統(tǒng)與軟件質量要求和評價(SQuaRE)第24部分:數據質量測量》等規(guī)定,結合鐵路數據特征整理得到具體指標包括:完整性、準確性、規(guī)范性。數據活性描述了數據的影響與變化,包括關聯性與貶值速率。關聯性由數據來源與影響范圍共同決定,數據可來源于局、段等單位,一般認為來源單位級別越高,影響范圍越大,關聯性越強。數據規(guī)模是對數據整體進行描述,包括數據量、增長率、更新率、多源異構性。多源異構性指由多個數據源所產生的不同結構的數據的結合,描述了數據結構的復雜程度。
路內應用價值包括直接應用價值、間接應用價值。間接應用價值指使用分析技術對數據進行挖掘,是數據深層價值的體現。路外應用價值包括需求程度、歷史價值。歷史價值是數據價值變動的參考依據,可根據以往數據實際使用效果做出價值判斷,效果越好則數據價值越高。
(2)構建判斷矩陣。邀請專家對同一準則下的指標xi與xj成對比較,用1-9標度法表示兩者之間的重要程度,記為aij。遍歷同準則下所有指標,合成判斷矩陣A= (aij)n×n。
(3)計算最大特征根。最大特征根λmax計算如下。
式中:W為判斷矩陣A的特征向量,wi為W的元素。
(4)一致性檢驗。判斷矩陣的一致性指標CI計算如下。
RI值查詢如表1所示。當CR≤ 0.1時,判斷矩陣通過一致性檢驗;當CR> 0.1時,判斷矩陣未通過一致性檢驗,需調整判斷矩陣直至通過檢驗。一致性比CR計算如下。
表1 RI值查詢Tab.1 RI value inquiry
式中:RI為平均隨機一致性指標。
(5)全局權重。指標的全局權重為該指標至總目標的路徑上,所對應準則的權重與其局部權重的乘積。
(1)確定評價因素集和評語集。評價因素集U= {u1,u2,…,un}為評價指標因素所組成的集合,n為評價因素的數量。評語集V= {v1,v2,…,vm}為評價等級所組成的集合,m為評價等級數,需經過專家討論后確定。經過與專家討論取m= 5。
(2)確定評價指標權重。采用AHP法確定指標權重。
(3)一級模糊綜合評價。首先構建模糊評價矩陣,模糊評價矩陣由各指標的隸屬度子集合R= {r1,r2,…,rm}構成。其中,定性指標無法量化評價,采用“優(yōu)”“良”等評語,由專家投票的方式進行計算。定性指標的隸屬度rm計算如下。
式中:k為選擇m級別的人數;N為參與評價的總人數。
定量指標可量化評價,選擇半梯形分布函數作為隸屬度函數,評語集V= {v1,v2,…,vm}中的vm的取值由專家商討決定。定量指標的隸屬度rm計算如下。
式中:x為定量指標ui的具體評價數值。
一級模糊評價向量Bi計算如下。
式中:Wl×1為l個下層指標對應的上層指標的特征向量;Rl×1為l個下層指標對應的隸屬度子集合并形成的模糊評價矩陣。
(4)多級模糊綜合評價。模糊綜合評價法按照由下至上的順序進行計算,下層的模糊評價向量構成中間層的模糊評價矩陣,將其與對應權值W相乘直至得到目標層的模糊評價向量B。
(5)評價結果分析。通過與專家討論,以數據實際應用效果為標準確定了評價對象的分值分級表。分值分級表如表2所示。在此基礎上以分級表的范圍上限為標準,確定總目標的評語集V= {20,40,60,80,100}。評價目標的分值T計算如下。
表2 分值分級表Tab.2 Score grading
選擇鐵路主數據管理平臺中的主數據字段進行仿真。主數據字段作為構成鐵路各系統(tǒng)數據庫的基礎元素,可以描述鐵路業(yè)務實體的特征,指導新建鐵路的系統(tǒng)構建,具有較大的作用與影響。實驗通過對鐵路主數據字段進行價值評估,根據已有評估結果反證實驗模型的準確性。
(1)權值計算。以一級準則層的判斷矩陣作為案例進行分析,統(tǒng)計整理出專家評分結果。專家評分表如表3所示。
表3 專家評分表Tab.3 Expert scoring
根據表3可得判斷矩陣A。
計算矩陣A的特征向量W。
計算矩陣A的最大特征根λmax。
按公式(2)可得CI= 0.001 85,查詢表1可知RI= 0.58,代入公式(3),計算一致性比CR= 0.003 2 < 0.1,通過一致性檢驗。同理可得其余因素權重。指標權重如表4所示。
表4 指標權重Tab.4 Index weight
案例數據總計12個判斷矩陣,其中最大CR= 0.090 4 < 0.1,整體滿足一致性檢驗。對權值進行分析,發(fā)現對鐵路數據資產價值影響最大的3個因素分別是直接應用價值、間接應用價值、數據量。這說明目前鐵路領域對數據價值的認識依舊以數據的直接使用為主,可以增加間接應用價值的比重,挖掘數據深層價值,充分發(fā)揮鐵路數據量巨大的優(yōu)勢。
(2)分數評估。將指標構成評價因素集,根據不同屬性的指標構造評語集。以定性指標直接應用價值C18為例,請20位專家對其進行價值評估。專家投票結果如表5所示。
表5 專家投票結果Tab.5 Voting results of experts
根據公式(4)計算指標C18的隸屬度:r1=r2=r3= 0;r4= 0.15;r5= 0.85。
以定量指標數據采集成本C1為例,其值為12.31萬元,根據公式(5)計算指標C1的隸屬度:r1= 0.769;r2= 1 -r1= 0.231;r3=r4=r5= 0。
同理可得其余指標隸屬度,整理可得隸屬度子集。將指標按性質分為定性與定量兩類。定量指標隸屬度子集結果如表6所示。因定性指標的評價等級一致,直接計算其隸屬度子集即可。定性指標隸屬度子集如表7所示。
表6 定量指標隸屬度子集Tab.6 Quantitative index membership subset
表7 定性指標隸屬度子集Tab.7 Qualitative index membership subset
以數據建設成本B1為例,根據公式(6)計算指標BB1的中間模糊評價向量。
同理可得其余準則及總目標對應的模糊評價向量。
按公式(7)計算分值T。
結合模糊評價向量與實際場景進行分析,主數據字段由鐵路各個系統(tǒng)中的字段整理總結而得,涉及到人工調查、收集等一系列流程工作,中間需經過多次數據傳輸與清洗,經過整理后可直接描述鐵路業(yè)務實體,故其花費主要集中在傳輸、治理方面,成本極低;主數據字段由實際需求確定,其范圍覆蓋整個鐵路的業(yè)務流程,關聯多個相關領域,然而由于標準的落實仍處于初步階段,其在各個系統(tǒng)中的表現形式、數據結構差異較大,導致其固有價值一般;主數據字段作為鐵路系統(tǒng)字段的歸納總結,能夠為后續(xù)鐵路系統(tǒng)的建設起到指導作用,具有較高的應用價值。通過該模型對鐵路數據資產的價值進行評估,不僅可以為鐵路數據資產分類分級提供新的標準,也有助于推動與其他領域的數據資產等值共享,充分發(fā)揮鐵路數據的價值。
隨著數據量指數級的增長,數據資產在鐵路領域的作用日益增強。在構建鐵路數據資產價值評估指標體系的基礎上,根據權重計算、量化模糊評價等需求,選擇層次分析法及模糊綜合評價法建立評估模型。結合鐵路實際業(yè)務場景,選擇具有較高價值的主數據字段進行實例驗證,根據已有的模糊評價反向驗證實驗結果的精確性。結果表明該模型可以較為準確地描述數據資產的價值,有利于進一步挖掘鐵路數據的價值,提高鐵路行業(yè)數據資產管理水平。