詹超銘,李锘雯
(中核國電漳州能源有限公司,福建 漳州 363300)
2021年7月6日, 習(xí)近平總書記對檔案工作作出了“四好”“兩服務(wù)”的重要批示。筆者作為核電從業(yè)者, 10余年深耕核電檔案工作, 深以為“四好”是基礎(chǔ),“兩服務(wù)”是目的,新時代的文檔服務(wù)不僅要能發(fā)揮檔案的憑證作用,更要發(fā)揮檔案的參考作用,給組織和個人呈現(xiàn)文檔中的內(nèi)容、 提供文檔中的知識,更好的服務(wù)于公司發(fā)展和人才培養(yǎng),使檔案工作真正的“存史資政育人”。
通常來說,各行各業(yè)文檔部門的主要職責(zé)都是做好業(yè)務(wù)形成文檔的收、管、存、用,但實際上,大多數(shù)行業(yè)的文檔部門只做好了文檔的收、管、存,沒做好文檔的用,主要是因為傳統(tǒng)的文檔服務(wù)是一個從文檔管理端到文檔服務(wù)端的過程,文檔部門在進(jìn)行文檔管理系統(tǒng)開發(fā)時關(guān)注重點在于如何做好文檔管理,沒有充分考慮用戶的需求,沒有從頂層的規(guī)劃、場景的需求、應(yīng)用的方式和服務(wù)的成效進(jìn)行系統(tǒng)性思考,從而導(dǎo)致文檔服務(wù)的能力不足、水平不高,如圖1所示。
究其根本原因,主要有以下兩方面因素:
(1)文檔管理和業(yè)務(wù)活動相互隔離
在各行各業(yè)的業(yè)務(wù)活動中,文檔業(yè)務(wù)環(huán)節(jié)基本上都處于業(yè)務(wù)流程的末端,業(yè)務(wù)部門和文檔部門職責(zé)邊界比較清晰,文檔部門很少提前介入業(yè)務(wù)過程。
圖1 傳統(tǒng)文檔服務(wù)的困境Fig.1 The dilemma of traditional document service
(2)文檔管理和服務(wù)主客觀不統(tǒng)一
文檔管理的主體是文檔人員,而文檔服務(wù)的對象是業(yè)務(wù)人員,在這種情況下,文檔人員很容易陷入主客觀不統(tǒng)一的陷阱,僅從文檔管理的角度思考后續(xù)的文檔服務(wù)。
近些年,中核集團(tuán)持續(xù)推進(jìn)系統(tǒng)工程理論學(xué)習(xí)與研討,核電文檔管理不應(yīng)在局限于竣工資料管理、設(shè)備檔案管理以及相關(guān)的驗收活動中,而應(yīng)運用系統(tǒng)思維,以核電大數(shù)據(jù)為主,深入挖掘信息資源,靈活運用信息技術(shù)來彌補(bǔ)以往文檔工作中數(shù)據(jù)缺失的不足和弊端,從而提升文檔管理工作效率和質(zhì)量[1]。因此,文檔部門在開發(fā)文檔管理系統(tǒng)時應(yīng)進(jìn)行系統(tǒng)性思考,摒棄主觀思維,通過分析用戶產(chǎn)生需求的客觀場景,見表1,應(yīng)用信息技術(shù)設(shè)計滿足用戶需求的目標(biāo)場景,從而構(gòu)建客觀場景到目標(biāo)場景的價值實現(xiàn)以及目標(biāo)場景到客觀場景的價值反饋的良性循環(huán),持續(xù)改進(jìn)和提升文檔服務(wù)能力和水平。
表1 案例客觀場景分析
通過這兩個案例的客觀場景分析,可以總結(jié)出一個業(yè)務(wù)邏輯:用戶想要通過文檔管理系統(tǒng)查詢所需內(nèi)容,通常需要通過四個步驟:確定關(guān)鍵詞和文件類型、進(jìn)行檢索、尋找目標(biāo)文件、查找所需內(nèi)容。
對這兩個案例的目標(biāo)場景進(jìn)行分析見表2。
表2 案例目標(biāo)場景分析Table 2 Case target scenario analysis
通過這兩個案例的目標(biāo)場景分析,可以推理出一個文檔服務(wù)概念(如圖2所示):用戶想要通過文檔管理系統(tǒng)查詢文檔中某一個知識點,文檔管理系統(tǒng)應(yīng)直接告知用戶該知識點的內(nèi)容。
圖2 客觀場景與目標(biāo)場景的價值循環(huán)Fig.2 Value cycle between objective and target scenarios
通過以上兩個案例分析客觀場景和目標(biāo)場景的差異,不難得到一個結(jié)論:知識型文檔服務(wù)可以有效減少用戶查詢步驟、提高文檔服務(wù)效率。因此,知識型文檔服務(wù)是新時代文檔服務(wù)的一個創(chuàng)新方向,文檔部門可以將知識工程理論體系與文檔管理進(jìn)行融合,通過文檔知識工程指導(dǎo)文檔服務(wù)的創(chuàng)新和實踐,從而實現(xiàn)客觀場景到目標(biāo)場景的場景轉(zhuǎn)變。
核電廠的文檔部門存有海量的文檔資源,這些文檔資源中隱含著大量零碎的知識,可以應(yīng)用知識工程的理論將這些零碎的知識進(jìn)行整合并用專業(yè)的語言表述出來,讓用戶能夠更容易地進(jìn)行查詢利用。
知識工程是以知識為處理對象,借用工程化的思想,利用人工智能的原理、方法和技術(shù),設(shè)計、構(gòu)造和維護(hù)知識型系統(tǒng)的一門學(xué)科,人們一般認(rèn)為知識工程是人工智能的一個應(yīng)用分支。知識工程包括知識獲取、知識表示與知識利用三大過程[2]。文檔作為最典型的顯性知識,應(yīng)結(jié)合文檔本身的特性在知識工程三大過程的基礎(chǔ)上進(jìn)行“一增”“一強(qiáng)”,“一增”是在知識表示后增加一個知識組織過程,“一強(qiáng)”是強(qiáng)化知識利用的過程,因此,文檔知識工程應(yīng)包括文檔知識獲取、文檔知識表示、文檔知識組織和文檔知識利用四大過程。
(1)文檔知識獲取
目前,大多數(shù)核電企業(yè)文檔管理系統(tǒng)所能夠支持的管理對象是文件,同時在系統(tǒng)中填寫元數(shù)據(jù)對文件進(jìn)行補(bǔ)充描述,但是補(bǔ)充元數(shù)據(jù)并不能改變系統(tǒng)的管理對象,文件中的內(nèi)容及其隱含的知識并沒有進(jìn)行處理。因此,文檔知識工程的第一步就是要獲取文檔中的內(nèi)容,將非結(jié)構(gòu)化的文本進(jìn)行內(nèi)容解析識別為一條條結(jié)構(gòu)化的數(shù)據(jù)。
(2)文檔知識表示
文檔知識獲取只能支撐文檔管理系統(tǒng)實現(xiàn)全文檢索,因為計算機(jī)并不知道這些文檔內(nèi)容所表達(dá)的意思,所以文檔知識工程的第二步就是要告訴計算機(jī)這些文檔內(nèi)容是什么意思。即將一條條結(jié)構(gòu)化的數(shù)據(jù)賦予語義的過程,如定義“反應(yīng)堆控制系統(tǒng)”是“系統(tǒng)名稱”,定義“控制反應(yīng)堆系統(tǒng)壓力變化”是“系統(tǒng)的作用”,通過文檔知識表示讓無意義的數(shù)據(jù)代表語義。
(3)文檔知識組織
計算機(jī)知道文檔內(nèi)容中的每條數(shù)據(jù)及其代表的語義后仍不能實現(xiàn)知識型文檔服務(wù),因為計算機(jī)仍不理解數(shù)據(jù)與數(shù)據(jù)之間有什么內(nèi)在的關(guān)聯(lián)關(guān)系,以及語義與語義之間到底是如何互相作用和影響的,所以,文檔知識工程的第三步就是要對語義進(jìn)行重新排列組合,告訴計算機(jī)這是什么系統(tǒng)、系統(tǒng)的功能是什么、系統(tǒng)中有哪些設(shè)備以及每個設(shè)備的作用是什么等,將文檔內(nèi)容中隱含的“系統(tǒng)-功能”和“系統(tǒng)-設(shè)備-作用”邏輯關(guān)系給梳理出來。這個數(shù)據(jù)之間的邏輯關(guān)系就是文檔中隱含的知識。實際上,文檔知識組織就是表達(dá)文檔中隱含的業(yè)務(wù)及其邏輯的過程。
(4)文檔知識利用
經(jīng)過文檔內(nèi)容獲取、文檔知識表示和文檔知識組織后,系統(tǒng)就基本具備了提供知識型文檔服務(wù)的條件,但要達(dá)成“提出問題-得到答案”兩個步驟的目標(biāo)場景,系統(tǒng)的檢索引擎必須應(yīng)用語義分析、分詞等信息技術(shù)進(jìn)行功能開發(fā),此外,為了更好的展示知識以及知識之間的關(guān)聯(lián)關(guān)系,還需要通過知識圖譜的技術(shù)實現(xiàn)知識的可視化。
在文檔知識工程的四個過程中,其中最為關(guān)鍵的是文檔知識獲取。文檔知識獲取的方式主要有三種:非自動知識獲取、機(jī)器學(xué)習(xí)和知識抽取。
1)非自動知識獲取是通過培訓(xùn)、閱讀或與專家交流等方式獲取原始知識并進(jìn)一步歸納總結(jié)形成文檔輸入到系統(tǒng)中;
2)機(jī)器學(xué)習(xí)是機(jī)器憑借人工智能通過其視覺、聽覺等途徑直接閱讀理解文檔中的知識,或在系統(tǒng)運行過程中,結(jié)合已有的知識和實例推演、歸納總結(jié)出新知識補(bǔ)充到系統(tǒng)中;
3)知識抽取是通過構(gòu)建機(jī)器學(xué)習(xí)規(guī)則和知識庫,對隱含在文檔中的知識進(jìn)行識別、理解、篩選、格式化,在解析文檔過程中不斷改進(jìn)規(guī)則和算法,邊分析邊抽取,邊抽取邊校正,邊校正邊學(xué)習(xí),把文檔中的知識點都抽取出來,以一定形式存入系統(tǒng)中。
非自動知識獲取效率較低,很難滿足自動化需要;機(jī)器學(xué)習(xí)難度太大,需要結(jié)合分詞、語義分析和人工智能等技術(shù)進(jìn)一步研究和探索,也很難進(jìn)行自動化實施;知識抽取是最符合現(xiàn)狀的文檔知識獲取方式。
結(jié)合知識工程的理論應(yīng)用研究,知識型文檔服務(wù)可以在遵循和參考文檔知識工程理論和方法的基礎(chǔ)上,從業(yè)務(wù)、數(shù)據(jù)和技術(shù)三個實踐方向進(jìn)行研究分析。
(1)以業(yè)務(wù)為導(dǎo)向
對于文檔管理而言,傳統(tǒng)的載體比如紙張、照片、膠片等如今已基本形成了數(shù)字化副本,同時也產(chǎn)生了原生的電子文件,文檔管理的對象已從物理實體變?yōu)榱藬?shù)字化實體,雖然提高了工作效率,但從業(yè)務(wù)邏輯來說并沒有改變。未來的文檔服務(wù)應(yīng)該是通過數(shù)據(jù)和業(yè)務(wù)進(jìn)行雙向互動和驅(qū)動,將文檔服務(wù)延伸到前端,延伸到核心業(yè)務(wù)線,在核心工作開展的初期,文檔部門就要緊跟業(yè)務(wù)部門,為業(yè)務(wù)流程做好服務(wù)配套,支撐并優(yōu)化核心業(yè)務(wù)流程。通過審視業(yè)務(wù)過程找到業(yè)務(wù)痛點,也就是分析業(yè)務(wù)需求,制定解決方案,再應(yīng)用信息技術(shù)去實現(xiàn)和促進(jìn)業(yè)務(wù)流程,將業(yè)務(wù)整體進(jìn)行升級。數(shù)據(jù)要成為知識從而優(yōu)化業(yè)務(wù)流程,業(yè)務(wù)流程要更好地為數(shù)據(jù)保存和知識利用創(chuàng)造條件,他們之間雙向互動的這種工作模式不僅僅是提升效率,也能讓業(yè)務(wù)人員真真切切感受到知識型文檔服務(wù)的價值。
(2)以數(shù)據(jù)為導(dǎo)向
核電企業(yè)的信息化起點和平均水平比較高,基本上都實現(xiàn)了業(yè)務(wù)流程電子化,因此,業(yè)務(wù)形成的文檔也從紙質(zhì)介質(zhì)轉(zhuǎn)變?yōu)閿?shù)字載體。實際上就是文檔管理對象發(fā)生了轉(zhuǎn)變,目前核電工程項目檔案執(zhí)行的是雙軌單套制,這個單套制指的就是要歸檔一套紙質(zhì)檔案,但是在實際工作中基本上很少會去檔案庫房找紙質(zhì)檔案,只有財會檔案采用這種利用方式,其余大多數(shù)文檔都是在業(yè)務(wù)系統(tǒng)中直接形成數(shù)字載體文件。也就是說,原來在庫房中管理的檔案經(jīng)過數(shù)字化存儲在了服務(wù)器和磁盤上,但整個管理流程,業(yè)務(wù)邏輯沒有發(fā)生本質(zhì)改變,為了適應(yīng)或滿足其他業(yè)務(wù)的需要,文檔工作就不能僅僅局限于保管,要向開發(fā)利用進(jìn)行轉(zhuǎn)變,要對文檔進(jìn)行更深層次的分析和數(shù)據(jù)采集,得到的數(shù)據(jù)越精細(xì),獲取的知識越準(zhǔn)確,才有助于開展分析和歸納總結(jié),形成更多的知識成果。
(3)以技術(shù)為導(dǎo)向
文檔的載體已經(jīng)從紙質(zhì)轉(zhuǎn)向了數(shù)字,這是不可逆的趨勢,文檔技術(shù)的研究和應(yīng)用上也應(yīng)從實體保管技術(shù)、保護(hù)技術(shù)和數(shù)字化技術(shù)向以數(shù)據(jù)和內(nèi)容為主的數(shù)據(jù)載體可信技術(shù)、數(shù)據(jù)內(nèi)容開發(fā)技術(shù)和文檔知識服務(wù)技術(shù)轉(zhuǎn)型。但是,基于數(shù)據(jù)的通性或者說是數(shù)據(jù)的特性,僅憑單個技術(shù)或單個算法是無法真正實現(xiàn)知識服務(wù)的,一定是一種體系化的技術(shù),集成化的技術(shù),技術(shù)之間有交互、有關(guān)聯(lián),實現(xiàn)新技術(shù)應(yīng)用1+1>2的效果,這就需要把技術(shù)的應(yīng)用點和應(yīng)用邏輯講清楚。首先是單文檔的智能分析技術(shù),知識工程第一步就是知識獲取,要通過智能分析的技術(shù)對單份文件中的內(nèi)容和數(shù)據(jù)抽取出來。抽取第二份、第三份文件里面的內(nèi)容時,就需要對內(nèi)容中相同的數(shù)據(jù)進(jìn)行關(guān)聯(lián),所以第二個技術(shù)就是多資源的數(shù)據(jù)連接。當(dāng)關(guān)聯(lián)的數(shù)據(jù)越來越多,數(shù)據(jù)就變得很亂,為了更好地去利用這些數(shù)據(jù),就需要第三個技術(shù),對數(shù)據(jù)進(jìn)行知識化的組織。形成知識以后要進(jìn)行利用,所以最后一個應(yīng)用的技術(shù)就是全概念的結(jié)構(gòu)化展示技術(shù)。因此,知識型的文檔服務(wù)就需要把這些技術(shù)點連成技術(shù)線,如果技術(shù)點應(yīng)用得不好,就很可能會得到一個1+1<2的結(jié)果,產(chǎn)生很多的內(nèi)耗造成資源的浪費。
信息技術(shù)的高速發(fā)展引領(lǐng)了各行各業(yè)的業(yè)務(wù)變革,同時也給各行各業(yè)帶來了很多理論和生產(chǎn)要素的變革文檔工作已從傳統(tǒng)制度化的1.0模式向文檔一體化的2.0模式轉(zhuǎn)變,現(xiàn)在正在向文檔智能化的3.0模式發(fā)展。文檔部門存有海量的文檔資源,坐擁最大的數(shù)據(jù)資產(chǎn)。文檔人員如何保管好、利用好這些數(shù)據(jù)資產(chǎn),需要進(jìn)一步研究和探索。作為“華龍一號”建設(shè)者,作為核電文檔工作者,要以“四好”“兩服務(wù)”為指引,留存好、記錄好這段奮斗歷史,講好這段紅色故事,實現(xiàn)傳統(tǒng)文檔服務(wù)向智慧知識服務(wù)轉(zhuǎn)型。