国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時代的文件結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)管理

2024-05-27 00:00:00張榮娟
消費電子 2024年4期
關(guān)鍵詞:數(shù)據(jù)管理

【關(guān)鍵詞】文件;結(jié)構(gòu)化數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù);文件結(jié)構(gòu)化平臺;數(shù)據(jù)管理

結(jié)構(gòu)化數(shù)據(jù)是指由二維表結(jié)構(gòu)來邏輯表達和實現(xiàn)的數(shù)據(jù),如表格數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)等。結(jié)構(gòu)化數(shù)據(jù)主要通過關(guān)系數(shù)據(jù)庫進行存儲和管理,嚴格遵循數(shù)據(jù)格式與長度規(guī)范,字段之間相互獨立,是傳統(tǒng)數(shù)據(jù)的主體[1]。在電子文件發(fā)展的初期,電子文件的結(jié)構(gòu)化數(shù)據(jù)主要是電子文件的各類元數(shù)據(jù),元數(shù)據(jù)是描述文件背景、內(nèi)容、結(jié)構(gòu)及其整個管理過程的數(shù)據(jù),能夠有效記錄文件的各個活動過程,能夠反映文件的形成階段。元數(shù)據(jù)是傳統(tǒng)文件結(jié)構(gòu)化數(shù)據(jù)的主體。

非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、圖片、圖像、音頻、視頻信息等[2]。非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)更難理解和標準化,不便于數(shù)據(jù)應(yīng)用,如何將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)對數(shù)據(jù)的全生命周期管理,增強數(shù)據(jù)應(yīng)用效果,提高數(shù)據(jù)資產(chǎn)利用率是本文要探討解決的問題。

一、文件結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的現(xiàn)狀

(一)文件結(jié)構(gòu)化數(shù)據(jù)現(xiàn)狀

目前文件結(jié)構(gòu)化數(shù)據(jù)主要是文件元數(shù)據(jù),雖然有國家標準《文件元數(shù)據(jù)原則》作為指導(dǎo),但在實際執(zhí)行過程中,各單位在進行各類文件元數(shù)據(jù)管理時仍然存在很多問題,這些問題主要分為幾類:一是同一個文件類型下元數(shù)據(jù)重復(fù),元數(shù)據(jù)名稱不一致,但實際采集的數(shù)據(jù)值一樣,例如內(nèi)部文件責任單位、產(chǎn)生部門、發(fā)文單位等,實際在采集時都是文件產(chǎn)生部門,可以化繁為簡;二是不同類型元數(shù)據(jù)名稱有差異,比如有的文件類型是責任單位,有的文件類型是責任單位名稱,需要統(tǒng)一;三是元數(shù)據(jù)著錄標準不統(tǒng)一,以設(shè)備碼為例,有的著錄為1RPA001PO,有的著錄為1-RPA-001-PO,有的著錄是RPA\001\PO;四是元數(shù)據(jù)著錄不完整,大量非必填元數(shù)據(jù)在實際工作中并未著錄,沒有數(shù)據(jù);五是著錄的元數(shù)據(jù)不準確,如生效日期、保密期限等著錄錯誤。

(二)文件非結(jié)構(gòu)化數(shù)據(jù)現(xiàn)狀

非結(jié)構(gòu)化數(shù)據(jù)由于沒有前置的數(shù)據(jù)模型來收集、記錄相關(guān)數(shù)據(jù),導(dǎo)致數(shù)據(jù)結(jié)構(gòu)不完整、不規(guī)則,難以用數(shù)據(jù)庫二維邏輯表來表現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù)是目前文件的主體,其格式繁多,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。[3]各組織普遍存在文件類型多樣、數(shù)量龐大,文件利用需求高,目前多數(shù)文件只有文件元數(shù)據(jù)作為結(jié)構(gòu)化數(shù)據(jù)應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)更難標準化和理解,缺乏對文件內(nèi)容的深度標引、挖掘。非結(jié)構(gòu)化數(shù)據(jù)來源廣泛,不光在文件管理系統(tǒng)中生成,還在大量功能異構(gòu)的業(yè)務(wù)系統(tǒng)中產(chǎn)生。各個業(yè)務(wù)系統(tǒng)中產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)往往缺乏統(tǒng)一標準,彼此孤立,各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)缺乏有效的流動、聯(lián)通、推送。有的組織已經(jīng)開始重視在業(yè)務(wù)系統(tǒng)、文件管理系統(tǒng)中建立接口,打通數(shù)據(jù)傳輸通道,但仍存在橫向數(shù)據(jù)接口不統(tǒng)一,即使建立接口以后也難以實現(xiàn)有效的集成和應(yīng)用。這些現(xiàn)狀都導(dǎo)致非結(jié)構(gòu)化數(shù)據(jù)在應(yīng)用上非常局限,不僅不能支持移動化、智能化的工作應(yīng)用場景,有的文件格式連全文檢索都不支持。例如,傳統(tǒng)非結(jié)構(gòu)化圖紙只能進行低效的視覺瀏覽,不支持全文檢索,無法搜索定位,在圖紙上點擊某項設(shè)備圖例也無法跳轉(zhuǎn)到這個設(shè)備相應(yīng)的其他圖紙上;傳統(tǒng)版式管理制度難以實現(xiàn)與上游制度、標準、法規(guī)聯(lián)動等。

二、文件數(shù)據(jù)結(jié)構(gòu)化的意義

(一)確保文件的真實性、可靠性、完整性

文件結(jié)構(gòu)化數(shù)據(jù)能夠更好地維護文件的原始記錄性,體現(xiàn)文件的憑證價值,通過結(jié)構(gòu)化數(shù)據(jù)能夠記錄文件形成時的背景信息、結(jié)構(gòu)信息和相關(guān)的信息系統(tǒng)參數(shù),記錄文件管理各個環(huán)節(jié)的有關(guān)信息,如文件的編制、審核、批準、升版等環(huán)節(jié)相關(guān)信息,自動記錄這些環(huán)節(jié)審批的日期、時間等。文件結(jié)構(gòu)化平臺能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),不光能記錄文件的形成、修訂過程,還能夠支持訪問管理、隱私管理和權(quán)限管理,有利于確保文件的真實性、可靠性、完整性。

(二)創(chuàng)新文件應(yīng)用場景

結(jié)構(gòu)化數(shù)據(jù)比非結(jié)構(gòu)化數(shù)據(jù)更易于理解和標準化,不僅能支持高效率的檢索,還能在文件與其形成的背景信息之間進行邏輯鏈接,并以一種結(jié)構(gòu)化的、可靠的和有效的方式維護這種鏈接,維系文件間有機聯(lián)系,實現(xiàn)建立在相關(guān)關(guān)系分析基礎(chǔ)上的數(shù)據(jù)預(yù)測,支持更多數(shù)字化、移動化、智能化的應(yīng)用場景。

三、建立文件結(jié)構(gòu)化平臺

為增強數(shù)據(jù)應(yīng)用效果,提高數(shù)據(jù)資產(chǎn)利用率,可以建立文件結(jié)構(gòu)化平臺,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。在建立平臺之前,先梳理文件管理系統(tǒng)和各個業(yè)務(wù)系統(tǒng)上存儲的海量的各類文件,選出復(fù)用率高的文件類型,通過文件結(jié)構(gòu)化平臺將其非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),打通數(shù)據(jù)孤島,開展數(shù)據(jù)治理,提高數(shù)據(jù)利用率。通常每個單位利用最頻繁的文件是管理制度、運行或維修技術(shù)規(guī)定,可以從這兩類文件入手推進文件結(jié)構(gòu)化工作。

管理制度結(jié)構(gòu)化要從前端控制的角度,把管理制度內(nèi)容數(shù)字化,將原來的版式文件通過結(jié)構(gòu)化平臺轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),使管理制度每個章節(jié)內(nèi)容都成為單獨的元數(shù)據(jù),將管理制度與上游法律法規(guī)、標準、制度進行有效關(guān)聯(lián),當上游法律法規(guī)、標準、制度發(fā)生變化時,能夠及時準確地提醒編制單位、編制人開展管理制度識別、修改,同時能夠提醒下載或打印過本管理制度的人有新的管理制度發(fā)布,讓用戶能夠及時利用新的管理制度。管理制度一般會規(guī)定與本制度相關(guān)的組織機構(gòu)和職責,往往當組織機構(gòu)和職責調(diào)整時,管理制度就需要修改相關(guān)內(nèi)容,通過管理制度結(jié)構(gòu)化,當組織機構(gòu)和職責變化時,結(jié)構(gòu)化平臺能精準地識別需要修改的制度清單,并統(tǒng)一發(fā)起修訂流程。還可以導(dǎo)出制度規(guī)定的各單位、各崗位的職責數(shù)據(jù),進行對比分析和利用,或建立數(shù)據(jù)庫在制度編寫時使用,使其管理規(guī)范化。在傳統(tǒng)管理制度發(fā)布前,需要由人工檢查、調(diào)整文件格式,通過文件結(jié)構(gòu)化平臺自動規(guī)范管理制度格式,省去文檔檢查環(huán)節(jié),能夠提高管理制度編制效率。

通過運行或維修技術(shù)規(guī)定結(jié)構(gòu)化,以部件或設(shè)備作為數(shù)字化對象,建立維修、設(shè)備管理、備件管理、設(shè)備運行和維護“端到端”的數(shù)據(jù)互通應(yīng)用,以便負責人在現(xiàn)場使用移動端完成技術(shù)規(guī)定相關(guān)工作的執(zhí)行,并結(jié)構(gòu)化地記錄現(xiàn)場檢查所得數(shù)據(jù),以實現(xiàn)現(xiàn)場工作過程移動化,實現(xiàn)運行、維修人員無紙化辦公。依據(jù)結(jié)構(gòu)化技術(shù)規(guī)定的運行活動、運行測量點編碼等,對編寫生效的結(jié)構(gòu)化技術(shù)規(guī)定進行數(shù)據(jù)控制和文檔屬性解釋,從而實現(xiàn)在工作執(zhí)行過程中記錄設(shè)備狀態(tài)變化、運行參數(shù)信息,以及指令的執(zhí)行時間、執(zhí)行人資格授權(quán)、各類管理控制點數(shù)據(jù),并依據(jù)設(shè)備管理等需要提供相關(guān)數(shù)據(jù),同時記錄和觸發(fā)技術(shù)規(guī)定執(zhí)行過程的反饋。參數(shù)測量點錄入的數(shù)據(jù)能夠自動比對標準,超標數(shù)據(jù)自動提示,實現(xiàn)歷史數(shù)據(jù)的比對和分析,趨勢判斷,實時讀取設(shè)備狀態(tài)參數(shù),進行報警提醒等應(yīng)用。

目前文件結(jié)構(gòu)化平臺轉(zhuǎn)換的數(shù)據(jù)仍是較為規(guī)范、章節(jié)清晰的文件,對于沒有固定格式、清晰度差、有的還帶有云線標識的圖紙,結(jié)構(gòu)化平臺將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的效果還不理想,需要結(jié)合海量存儲、智能檢索、知識挖掘等技術(shù),識別分析各類圖紙內(nèi)容數(shù)據(jù),制定數(shù)據(jù)提取規(guī)則,提取文件關(guān)鍵內(nèi)容信息,如設(shè)備功能位置碼、管道號、支架號等。能夠?qū)崿F(xiàn)圖紙檢索定位,檢索到的內(nèi)容在圖紙上進行高亮標注或者提示,實現(xiàn)在文件上的快速定位等。

四、加強文件數(shù)據(jù)管理

(一)制定數(shù)據(jù)規(guī)范和標準

文件數(shù)據(jù)管理已成為文件管理中必不可少的一部分,制定文件數(shù)據(jù)管理規(guī)范和標準是順理成章的事。文件數(shù)據(jù)標準是文件數(shù)據(jù)的命名、定義、結(jié)構(gòu)和取值的規(guī)則,在設(shè)置的時候要從業(yè)務(wù)角度、文件管理角度、使用角度考慮,捕獲文件特征和文件背景信息,既包括文件內(nèi)容、結(jié)構(gòu)和顯現(xiàn)的數(shù)據(jù),也包括文件業(yè)務(wù)處理和文件使用過程中文件在內(nèi)容、結(jié)構(gòu)上發(fā)生變化的數(shù)據(jù)。

文件管理歸口部門在設(shè)置文件數(shù)據(jù)標準時,不光要考慮文件管理系統(tǒng)中的數(shù)據(jù)標準,還要考慮業(yè)務(wù)系統(tǒng)中產(chǎn)生的文件數(shù)據(jù)標準,否則在后期要花大量精力開展數(shù)據(jù)治理,在業(yè)務(wù)系統(tǒng)文件歸檔時文件數(shù)據(jù)不全、不準確等問題會影響歸檔進度和質(zhì)量。尤其對于新建業(yè)務(wù)系統(tǒng),在編制業(yè)務(wù)需求書的階段就要把文件數(shù)據(jù)命名、定義、結(jié)構(gòu)和取值的規(guī)則落實到業(yè)務(wù)需求書中,在設(shè)置時還可以制定檢驗標準,例如設(shè)備功能位置碼,只能是2RPA001PO的格式,固化字符長度和格式,如果錄入“-”等其他符號或長度不符合要求都無法提交,并給用戶提示原因。增加文件捕獲節(jié)點自動捕獲功能要求,由文件系統(tǒng)和業(yè)務(wù)系統(tǒng)自動捕獲編制人、編制單位、修改人、簽收人等信息,減少人員填寫的工作量,并且能夠保證數(shù)據(jù)準確、不被篡改。在系統(tǒng)開發(fā)過程中還要確保相關(guān)接口標準落地,保證文件主要數(shù)據(jù)在系統(tǒng)間能夠順利交互,還可以在文件產(chǎn)生時就將檔案分類設(shè)置為一個數(shù)據(jù),在產(chǎn)生時就確定檔案分類,方便業(yè)務(wù)系統(tǒng)歸檔時進行聯(lián)動。通過建立統(tǒng)一的文件數(shù)據(jù)標準,從源頭規(guī)范文件數(shù)據(jù)名稱和內(nèi)容,提高文件數(shù)據(jù)質(zhì)量,才能保障文件數(shù)據(jù)準確性和規(guī)范性,為數(shù)據(jù)共享利用創(chuàng)造條件。

(二)對數(shù)據(jù)實施全生命周期管理

參考文件全生命周期理論,對數(shù)據(jù)實施全生命周期管理。數(shù)據(jù)全生命周期是指將原始數(shù)據(jù)轉(zhuǎn)化為可用于行動的知識的一組過程,包括數(shù)據(jù)規(guī)劃、獲取、傳輸、存儲、整合、分析、應(yīng)用、呈現(xiàn)、歸檔和銷毀等過程。對數(shù)據(jù)實施全生命周期管理,圍繞數(shù)據(jù)全生命周期各階段開展一系列管理活動,使數(shù)據(jù)在各個階段都處于良好的管理狀態(tài),避免數(shù)據(jù)產(chǎn)生后才發(fā)現(xiàn)各種影響應(yīng)用的問題,再開展數(shù)據(jù)治理,費時費力,還難以達到預(yù)期效果。

(三)對數(shù)據(jù)實施分級管理

分級管理有兩個維度,一是管理責任分級,二是數(shù)據(jù)分級管理。管理責任分級是指按照“誰主管誰負責、誰產(chǎn)生誰負責、誰使用誰負責”的原則開展分級管理,承擔相應(yīng)責任。文件歸口管理部門對文件數(shù)據(jù)進行統(tǒng)籌管理,制定文件數(shù)據(jù)標準,承擔文件數(shù)據(jù)管理和應(yīng)用的全面責任。業(yè)務(wù)歸口管理部門對業(yè)務(wù)范圍內(nèi)的文件數(shù)據(jù)進行管理和維護,對相應(yīng)文件數(shù)據(jù)質(zhì)量和應(yīng)用效果承擔主要責任。文件數(shù)據(jù)的使用單位對數(shù)據(jù)應(yīng)用效果進行管理,并將數(shù)據(jù)需求、改進建議反饋到業(yè)務(wù)歸口管理部門,對數(shù)據(jù)應(yīng)用效果承擔直接責任。數(shù)據(jù)分級管理是指將文件數(shù)據(jù)分為主數(shù)據(jù)和其他數(shù)據(jù),文件主數(shù)據(jù)是文件管理必備的核心數(shù)據(jù),會影響文件真實性、完整性、有效性的數(shù)據(jù),或是需要跨系統(tǒng)、跨部門進行共享的核心數(shù)據(jù)。文件主數(shù)據(jù)作為各個業(yè)務(wù)系統(tǒng)必須配置的數(shù)據(jù)進行推廣,其他數(shù)據(jù)可由業(yè)務(wù)歸口管理部門自行管理。

(四)做好數(shù)據(jù)質(zhì)量控制

建立文件數(shù)據(jù)質(zhì)量指標,對相關(guān)部門進行考核,可從唯一性、完整性、準確性、一致性、及時性五個維度設(shè)置。相同的文件元數(shù)據(jù)在同一系統(tǒng)中應(yīng)該有唯一命名、描述,對于舊的信息系統(tǒng),可通過與新的數(shù)據(jù)命名建立對照關(guān)系來解決,使文件數(shù)據(jù)保持唯一性。文件數(shù)據(jù)的實體、屬性、字段值等要保持精確可靠,符合文件數(shù)據(jù)標準,準確無誤地表達其真實含義,在不同系統(tǒng)之間或同一系統(tǒng)內(nèi)不同類型之間的定義和規(guī)則保持一致。文件數(shù)據(jù)質(zhì)量指標的設(shè)置和考核會推動文件編寫人、審核人、批準人在編寫、審批時除了關(guān)注文件內(nèi)容外,還會再關(guān)注文件數(shù)據(jù)的質(zhì)量。

(五)增強數(shù)據(jù)共享和交易

做好文件數(shù)據(jù)管理工作的重要環(huán)節(jié)是規(guī)范文件數(shù)據(jù)共享,建立數(shù)據(jù)共享機制和數(shù)據(jù)共享審批流程,用戶在申請文件數(shù)據(jù)共享時應(yīng)該明確需要共享的數(shù)據(jù)的目的、范圍、應(yīng)用場景、使用方式、期限等。在文件數(shù)據(jù)產(chǎn)生時,就確定文件數(shù)據(jù)資產(chǎn)共享屬性,有條件共享的文件數(shù)據(jù)使用需要經(jīng)過審批,不予共享的文件數(shù)據(jù)要嚴格執(zhí)行相關(guān)規(guī)定,采取措施防止數(shù)據(jù)泄露。從宏觀層面來說,文件數(shù)據(jù)是資產(chǎn),文件數(shù)據(jù)不僅是被交易的對象,還能夠支持交易,文件數(shù)據(jù)的價值不限于特定的用途,也不限于眼前的用途,它有更多的潛在價值,等著人們?nèi)グl(fā)現(xiàn)和挖掘。

數(shù)據(jù)已經(jīng)成為理解和解決許多問題所不可或缺的重要工具,它不僅能幫助人們解決當下的問題,還能夠預(yù)測未來。而文件相關(guān)的數(shù)據(jù)是眾多數(shù)據(jù)中數(shù)量較為龐大的一類,文件管理歸口部門要積極開展文件數(shù)據(jù)管理工作,梳理、分析結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),建立數(shù)據(jù)規(guī)范和標準,實現(xiàn)對數(shù)據(jù)的全生命周期管理和分級分類管理,推進數(shù)據(jù)共享,增強數(shù)據(jù)應(yīng)用,充分發(fā)揮文件數(shù)據(jù)的價值,推動組織和個人發(fā)展。

猜你喜歡
數(shù)據(jù)管理
基于大數(shù)據(jù)管理的管道智慧檢驗系統(tǒng)的研發(fā)及應(yīng)用
企業(yè)級BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
土地權(quán)屬調(diào)查的方法及數(shù)據(jù)管理
自然資源一體化數(shù)據(jù)管理與服務(wù)平臺關(guān)鍵技術(shù)研究與應(yīng)用
列控數(shù)據(jù)管理平臺的開發(fā)
一種嵌入式控制系統(tǒng)的高容錯小型數(shù)據(jù)管理方法
電子測試(2018年6期)2018-05-09 07:31:49
基于數(shù)據(jù)管理的綠通車輛規(guī)范化應(yīng)用
翁源县| 景德镇市| 汝州市| 岱山县| 龙泉市| 海原县| 钦州市| 亳州市| 深水埗区| 平顶山市| 阜新市| 农安县| 琼海市| 博乐市| 宁陵县| 安岳县| 师宗县| 屯门区| 浪卡子县| 宝兴县| 潍坊市| 龙南县| 临朐县| 汽车| 台北市| 内江市| 中阳县| 丹棱县| 卢龙县| 潼南县| 原阳县| 桦川县| 攀枝花市| 五原县| 余干县| 慈利县| 桑日县| 高陵县| 利津县| 公主岭市| 林口县|