席加熠,詹 璐,沈凱龍,沈湘萍
(1.中交信捷科技有限公司,北京 100011;2.北京北大千方科技有限公司,北京 100085;3.天翼云科技有限公司,北京 100007)
隨著人工智能、云計算以及物聯(lián)網(wǎng)等先進技術的快速發(fā)展,大數(shù)據(jù)逐漸成為落實“交通強國”建設、推動“數(shù)字交通”發(fā)展的新型生產(chǎn)要素和推動交通行業(yè)數(shù)字化轉型的核心驅動[1-2]。國內(nèi)外專家學者針對數(shù)據(jù)質量控制方法開展了一系列研究,但大多聚焦于通過人工智能算法識別、處置動態(tài)交通數(shù)據(jù)流中的數(shù)據(jù)重復、數(shù)據(jù)缺失問題[3-8],對覆蓋領域廣、數(shù)據(jù)種類多的綜合交通大數(shù)據(jù)中心往往難以適用,所以迫切需要構建一套科學合理、貼近業(yè)務的交通大數(shù)據(jù)清洗治理方法論,以指導交通大數(shù)據(jù)中心提升數(shù)據(jù)質量。針對上述問題,融合信息技術與管理制度,結合業(yè)務實際提出了一套交通大數(shù)據(jù)質量控制方法論,為配置數(shù)據(jù)質量校驗規(guī)則和實現(xiàn)數(shù)據(jù)清洗治理提供指導,實現(xiàn)業(yè)務流程的優(yōu)化再造和數(shù)據(jù)質量的全面提升。
綜合交通運輸大數(shù)據(jù)中心既是數(shù)據(jù)流轉的底座,也是業(yè)務協(xié)同的中樞,涉及與眾多行業(yè)企業(yè)、業(yè)務處室及相關管理單位的數(shù)據(jù)對接匯聚,數(shù)據(jù)質量的提升也需要多方配合。因此,針對結構化交通數(shù)據(jù)“采集-盤點-校驗-清洗”全生命周期構建數(shù)據(jù)質量控制架構,見圖1。
(1)數(shù)據(jù)采集:通過數(shù)據(jù)抽取工具和數(shù)據(jù)采集服務協(xié)議兩種方式分別從數(shù)據(jù)源頭單位對接獲取行業(yè)數(shù)據(jù),實現(xiàn)數(shù)據(jù)融合。
(2)數(shù)據(jù)盤點:按照行業(yè)領域、性質和特征梳理數(shù)據(jù)資源,支撐個性化校驗清洗策略的制定。
(3)數(shù)據(jù)校驗:采用自動化和人工兩種校驗方式,識別交通數(shù)據(jù)資源中存在的規(guī)范性、完整性、準確性、一致性、時效性和可訪問性問題。
(4)數(shù)據(jù)清洗:以自動化處置為主,人工清洗為輔,增加、刪除、修改識別到的數(shù)據(jù)質量問題。
(5)數(shù)據(jù)質量管理:成立專項數(shù)據(jù)治理工作組,統(tǒng)一領導業(yè)務處室規(guī)范數(shù)據(jù)質量控制工作,協(xié)調處置技術手段無法解決的數(shù)據(jù)質量問題。
(1)行業(yè)領域:按照數(shù)據(jù)來源、數(shù)據(jù)適用場景等條件,將交通大數(shù)據(jù)劃分為地面公交、共享單車、軌道交通、出租(含網(wǎng)約)等領域,支持追溯數(shù)據(jù)源頭,驗證數(shù)據(jù)質量問題產(chǎn)生的原因并要求相關單位整改。
(2)數(shù)據(jù)性質:將各領域數(shù)據(jù)表分為基礎數(shù)據(jù)和動態(tài)數(shù)據(jù)兩類,以區(qū)分數(shù)據(jù)清洗頻率。其中基礎數(shù)據(jù)指人員信息、證件信息、企業(yè)信息等變化頻率不高的數(shù)據(jù),動態(tài)數(shù)據(jù)指位置、訂單、流量等實時產(chǎn)生的高頻變化數(shù)據(jù)。
(3)數(shù)據(jù)特征:細化到字段級別,以能否還原交通運輸行業(yè)運行情況為判斷依據(jù),將數(shù)據(jù)分為還原型和描述型,從而確定不同數(shù)據(jù)的清洗治理粒度及方法。其中,ID、編號、經(jīng)緯度、速度、時間等能夠反映運營態(tài)勢、還原出行鏈條的關鍵字段均屬于還原型數(shù)據(jù),姓名、里程、金額、數(shù)量等用于完善相關信息的字段則屬于描述型數(shù)據(jù)。
參考《信息技術數(shù)據(jù)質量評價指標》(GB/T 36344-2018)[9]中數(shù)據(jù)質量評估維度,結合業(yè)務實際設計數(shù)據(jù)質量校驗標準。采取人工校驗與自動化校驗相結合的方式校驗數(shù)據(jù)質量問題,人工校驗是自動化校驗的前提,通過定期定量人工核驗數(shù)據(jù)質量問題的方式積累數(shù)據(jù)質量問題分析規(guī)則,再配置到Python、SQL等專業(yè)軟件工具中自動清洗處置。數(shù)據(jù)質量校驗方法及標準如表1所示。
表1 數(shù)據(jù)質量校驗
結合數(shù)據(jù)中心持續(xù)對接、每日更新的數(shù)據(jù)傳輸特點,采用循序漸進、不斷積累的方式清洗后續(xù)接入的新數(shù)據(jù),不對存量數(shù)據(jù)進行處理,通過積累治理后數(shù)據(jù)不斷降低數(shù)據(jù)庫中臟數(shù)據(jù)占比,直至不再影響業(yè)務使用。數(shù)據(jù)清洗治理既包括管理制度,也包括技術處置。
考慮到數(shù)據(jù)中心非數(shù)據(jù)源頭的工作實際,針對數(shù)據(jù)質量問題產(chǎn)生原因不明或數(shù)據(jù)中心無法處置的問題,構建清洗治理管理機制,成立專項組織機構,協(xié)調數(shù)據(jù)源頭單位處置。
(1)數(shù)據(jù)治理組織機構。
建議交通運輸管理部門成立數(shù)據(jù)治理專項工作小組,統(tǒng)一領導數(shù)據(jù)質量提升工作。來自行業(yè)企業(yè)的數(shù)據(jù),經(jīng)工作小組確認,交由相關業(yè)務處室協(xié)調確認問題產(chǎn)生的原因,并提出整改要求;來自省交通運輸廳及其他行業(yè)外管理部門的數(shù)據(jù),則由工作小組發(fā)函確認。
(2)數(shù)據(jù)治理工作流程。
①數(shù)據(jù)對接:數(shù)據(jù)中心通過協(xié)議、接口等方式從源頭單位獲取數(shù)據(jù)。
②數(shù)據(jù)校驗:基于數(shù)據(jù)質量問題分析規(guī)則開展數(shù)據(jù)校驗工作,識別存在的數(shù)據(jù)質量問題。
③數(shù)據(jù)清洗:通過技術手段實現(xiàn)數(shù)據(jù)清洗轉換,并將治理后數(shù)據(jù)保存入庫。同時,梳理形成無法處置的問題數(shù)據(jù)清單,提交至數(shù)據(jù)治理專項工作小組。
④數(shù)據(jù)抽樣:定期從治理后數(shù)據(jù)中抽取樣本,人工查驗是否存在尚未發(fā)現(xiàn)的數(shù)據(jù)質量問題,進一步補充數(shù)據(jù)質量規(guī)則庫。同時,梳理無法確認的問題數(shù)據(jù)清單,提交至數(shù)據(jù)治理專項工作小組。若連續(xù)數(shù)次未發(fā)現(xiàn)新的數(shù)據(jù)質量問題,則判斷規(guī)則完善,暫停數(shù)據(jù)抽樣工作。
⑤問題確認:數(shù)據(jù)治理專項工作小組歸納整合無法確認、無法處置的問題數(shù)據(jù)清單,并分發(fā)至相關責任單位協(xié)調解決。
⑥規(guī)則補充:根據(jù)數(shù)據(jù)源頭單位返回情況,補充修改數(shù)據(jù)質量規(guī)則庫,以支持次日的數(shù)據(jù)校驗工作及清洗治理工作。
數(shù)據(jù)中心中動態(tài)數(shù)據(jù)變化頻率較高,采用增量接入方式不斷產(chǎn)生新的數(shù)據(jù)記錄,因此必須對每條傳入的數(shù)據(jù)都做校驗清洗。靜態(tài)數(shù)據(jù)變化頻率偏低,采用全量傳輸方式對接的數(shù)據(jù)可能完全一樣,因此僅對新增數(shù)據(jù)校驗治理,以節(jié)省數(shù)據(jù)中心算力。
還原型數(shù)據(jù)中,每一條記錄均代表著交通運輸行業(yè)中人、車、企的一次關鍵行為或一項關鍵信息,是追蹤行業(yè)走向、還原業(yè)務態(tài)勢的核心要素。故需要明確還原型數(shù)據(jù)中存在的所有質量問題,并給出相應的治理方案。
描述型數(shù)據(jù)則是進一步豐富人、車、企、事件特征的補充要素,可以在還原型數(shù)據(jù)治理完全后,酌情改善數(shù)據(jù)質量。
六類數(shù)據(jù)質量問題的清洗方法如下。
(1)數(shù)據(jù)規(guī)范性:基于SQL Sever數(shù)據(jù)庫管理系統(tǒng)及SQL語句,參照大數(shù)據(jù)中心的數(shù)據(jù)標準,采取統(tǒng)一加工轉換的方式修改字段名稱及類型,替換數(shù)據(jù)字典,實現(xiàn)標準化處理。
(2)數(shù)據(jù)完整性:依托SQL Server數(shù)據(jù)庫管理系統(tǒng),以編號、身份證號等唯一標識為索引關聯(lián)同一主體含義相同的字段,若全部為空值則提交至數(shù)據(jù)治理專項工作小組協(xié)調處置;若其他數(shù)據(jù)表中相同字段有值,則直接關聯(lián)填充。數(shù)據(jù)接入不完整情況在數(shù)據(jù)抽樣階段整理至問題數(shù)據(jù)清單,由數(shù)據(jù)治理專項工作小組負責補充接入。
(3)數(shù)據(jù)一致性:在標準化處理時統(tǒng)一數(shù)據(jù)庫中同義字段命名和格式;使用SQL語句,以唯一標識為索引關聯(lián)相同含義的字段,若存在數(shù)據(jù)缺失則直接填充;若記錄內(nèi)容不同,無法確定正確項目,則錄入無法處置的問題數(shù)據(jù)清單,與源頭單位協(xié)調后處理;與業(yè)務邏輯不相符的數(shù)據(jù)記錄,也交由源頭單位協(xié)調后處理。
(4)數(shù)據(jù)準確性:與行業(yè)實際不相符、格式不正確的還原型數(shù)據(jù),需提交至無法處置的問題數(shù)據(jù)清單,與源頭單位確認清洗路徑;與行業(yè)實際不相符或格式混亂的描述型數(shù)據(jù),可直接采用置空刪除的方式處置。若可以明晰的、簡單的數(shù)據(jù)格式問題,則直接由數(shù)據(jù)中心調換統(tǒng)一格式,如刷卡金額存在“400”、“600”等明顯有誤數(shù)據(jù),則轉換為“4”、“6”。重復數(shù)據(jù)以保留最新記錄,刪除舊記錄為準。
(5)數(shù)據(jù)時效性:數(shù)據(jù)時效性問題均需歸納至問題數(shù)據(jù)清單,由數(shù)據(jù)治理專項工作小組協(xié)調確認。
(6)數(shù)據(jù)可訪問性:將斷開的數(shù)據(jù)傳輸鏈路歸納至問題數(shù)據(jù)清單,由數(shù)據(jù)治理專項工作小組協(xié)調確認。無法調用的數(shù)據(jù)表,則交由數(shù)據(jù)中心工程師檢查確認。
以成都市2022年6月至2022年10月的軌道交通數(shù)據(jù)為例驗證研究成果,數(shù)據(jù)內(nèi)容包括地鐵票卡類型、地鐵刷卡數(shù)據(jù)、地鐵站點信息、地鐵線路信息、地鐵線路客流信息、地鐵線網(wǎng)客流信息、地鐵站點客流信息。
樣本中數(shù)據(jù)質量問題如表2所示,部分數(shù)據(jù)質量問題范例如表3、表4所示。
表2 軌道交通領域數(shù)據(jù)質量問題
表3 問題6數(shù)據(jù)質量問題
表4 問題7數(shù)據(jù)質量問題
針對表2中識別的數(shù)據(jù)質量問題,分別采用如下方法清洗治理。
(1)數(shù)據(jù)轉換:采用標準化處理的方式,統(tǒng)一替換地鐵票卡類型表和地鐵刷卡數(shù)據(jù)表中的數(shù)字代碼(對應表2中序號1、4)。
(2)數(shù)據(jù)關聯(lián)驗證:以地鐵刷卡信息中首條和末條非員工卡刷卡記錄推斷線路運營時間,輔以網(wǎng)絡信息驗證后,將運營時間填充到地鐵站點信息表中(對應表2中序號2)。
(3)問題歸集驗證:將數(shù)據(jù)質量問題歸納整理,形成問題數(shù)據(jù)清單提交至軌道集團驗證。經(jīng)確認,軌道集團補傳地鐵閘機、遺漏地鐵站點位置信息,修正明顯異常的數(shù)據(jù)刷卡記錄,并調整線網(wǎng)預測客流算法和數(shù)據(jù)傳輸鏈路,保證傳輸數(shù)據(jù)穩(wěn)定準確(對應表2中序號3、5、6、8、10)。
(4)數(shù)據(jù)刪除:按照數(shù)據(jù)中心工作需求,將非運營時段的累計客流均置為0(對應表2中序號7)。
(5)修改校驗規(guī)則:經(jīng)確認,軌道集團偶爾會補傳清分數(shù)據(jù)導致清分日期明顯晚于出站日期,屬正常業(yè)務工作,故修改相應校驗規(guī)則(對應表2中序號9)。
數(shù)據(jù)清洗治理成效范例如表5、表6所示。
表5 問題6治理后數(shù)據(jù)
表6 問題7治理后數(shù)據(jù)
經(jīng)清洗治理,除補傳數(shù)據(jù)導致的入庫延遲外,90.9%的軌道數(shù)據(jù)質量問題均得到校正,后續(xù)傳入數(shù)據(jù)質量明顯提高,相同數(shù)據(jù)質量問題未重復出現(xiàn)。
經(jīng)過多年信息化建設,各地市的綜合交通運輸大數(shù)據(jù)中心基本跨過數(shù)據(jù)采集匯聚階段,向業(yè)務賦能邁進。交通數(shù)據(jù)質量的控制與清洗治理作為數(shù)據(jù)應用關鍵,已經(jīng)成為交通數(shù)字化轉型的重要研究方向。
從數(shù)據(jù)匯聚者角度出發(fā),提出了交通數(shù)據(jù)質量控制架構,提煉歸納了6個數(shù)據(jù)質量校驗維度并進一步給出了數(shù)據(jù)質量校驗路徑。同時,從管理和技術兩個角度入手,分析了提高綜合交通運輸大數(shù)據(jù)中心數(shù)據(jù)質量的方法論。以成都市城市交通運輸數(shù)據(jù)為例,驗證了數(shù)據(jù)質量校驗規(guī)則方法的可行性和數(shù)據(jù)清洗治理路徑的適用性。受限于數(shù)據(jù)匯聚者的身份,綜合交通運輸大數(shù)據(jù)中心更多依靠源頭單位處置數(shù)據(jù)質量問題,還需進一步探索采用先進技術自行清洗治理的方法,以提高數(shù)據(jù)清洗效率。