曾博文 / 中核核電運行管理有限公司
企業(yè)檔案是企業(yè)經(jīng)營過程中員工在設計、生產(chǎn)、經(jīng)營、管理工作中的真實歷史記錄,是企業(yè)重要的知識資產(chǎn)[1-2]。中核核電運行管理有限公司(下文簡稱秦山核電)歷經(jīng)30多年的發(fā)展,積累了豐富的核電工程建設、生產(chǎn)運行、設備維修、技術改造等方面的檔案資源共24萬卷222萬件。進入新時代,信息技術發(fā)展突飛猛進,新一輪科技革命和產(chǎn)業(yè)變革帶動數(shù)字技術、數(shù)字經(jīng)濟正深刻改變著傳統(tǒng)的經(jīng)濟發(fā)展模式,企業(yè)檔案工作也正在從手工操作接收管理紙質檔案進入到接收管理電子檔案信息化,從管理檔案實體過渡到管理檔案數(shù)據(jù),檔案信息資源開發(fā)利用方式也在發(fā)生根本性的變革。在慶祝中國共產(chǎn)黨成立100周年的重大歷史時刻,習近平總書記高瞻遠矚對檔案工作作出了“四個好”“兩個服務”的重要批示,為做好新時代企業(yè)檔案工作指明了方向。秦山核電檔案室借助數(shù)字化改革,全力推進檔案資源數(shù)字化、檔案服務智能化和檔案利用知識化,構建檔案數(shù)字化應用場景,撬動檔案治理、資源、服務體系全方位、系統(tǒng)性的變革,推動企業(yè)檔案工作整體智治、高效協(xié)同和智慧應用。通過引入知識管理新技術、新方法,以用戶為中心,在內網(wǎng)建設核電檔案知識管理平臺,提升了檔案利用效率,為企業(yè)檔案工作創(chuàng)新發(fā)展注入了新活力。
秦山核電為夯實基礎,打造數(shù)字檔案資源的外部環(huán)境,編制了《電子文件四性檢測方案》《電子簽名與時間戳工作規(guī)范》《電子文件封裝工作規(guī)范》《電子文件歸檔接口技術規(guī)范》《電子文件備份規(guī)范》《電子檔案長期保存規(guī)范》等技術規(guī)范,為檔案工作數(shù)字化改革創(chuàng)造了良好的外部環(huán)境。在嚴格遵循各項規(guī)范的前提下,秦山核電穩(wěn)步開展了檔案“存量數(shù)字化”和“增量電子化”等一系列工作。
作為我國核電事業(yè)的先行者,“數(shù)字核電”建設的倡導者,“智慧核電”檔案管理領域建設的探索者。秦山核電以電子檔案管理系統(tǒng)(ECM)為核心的業(yè)務系統(tǒng)建設運行長達10年,沉淀了非常寶貴的檔案,包括核電工程建設全過程、核電廠運營全周期內各階段所產(chǎn)生的工程項目檔案、生產(chǎn)運行檔案及其他各種經(jīng)營管理檔案,除文書文件、財務文件、合同文件等內部敏感文檔外,共約426萬件已同步映射到檔案知識管理平臺,并實現(xiàn)和電子檔案管理系統(tǒng)(ECM)同權管控,及時更新。系統(tǒng)內涵蓋了生產(chǎn)、經(jīng)營等多領域的檔案,以及支撐核電廠從設計、建造、調試、運行、維修、退役全周期的檔案資源,實現(xiàn)了檔案知識的分享與利用。秦山核電采用ETL數(shù)據(jù)抽取、自然語言處理(NLP)、AI大語言模型、自動聚類、動態(tài)標簽索引、自然語言智能檢索等先進技術,在企業(yè)內網(wǎng)部署了核電檔案知識管理平臺,全面提升檔案利用服務“智能化”水平,為一線人員提供了便捷的查閱和利用途徑。
本文將從四個層面深入剖析秦山核電在檔案利用方面探索的新模式,旨在為讀者提供借鑒與思考。
核工業(yè)語義庫從檔案中來,應用到檔案中去。該語義庫由詞庫、對象庫、知識庫三部分組成。通過命名實體識別優(yōu)化、基于TF-IDF與Bi-LSTM+CRF的新詞發(fā)現(xiàn)模型、語義標簽標注等方式在秦山核電現(xiàn)有的檔案庫中抽取概念關系詞,進行語義網(wǎng)絡、上下位詞構建,不斷豐富核工業(yè)語義庫,目前語義庫已經(jīng)收錄詞條6946393條,涵蓋核電領域絕大多數(shù)的詞語,并建立了詞語之間的關聯(lián)關系,作為底層支撐為核電檔案知識管理平臺的智能檢索、智能問答、智能推送等功能提供語義識別支持,讓檢索和問答更具有核電特質。
通過動態(tài)標簽和自動聚類實現(xiàn)了檔案信息與設備的有機關聯(lián),將搜索內容溯源。在查找某件檔案的時候,通過圖譜關聯(lián)(見圖1),可以直接找到該件檔案的附件文檔、依據(jù)文件、參考文件、被引關系、下游文件等內容,極大地提升了檔案查詢效率。
圖1 檔案關聯(lián)圖譜
檔案知識化,不光要著眼于自身檔案的管理和利用,也需要引入外部支持,秦山核電與“中國知網(wǎng)”“萬方”等國內知名廠商合作引入知識鏡像庫不斷完善內部知識資產(chǎn),以便員工能及時了解企業(yè)外部動態(tài)。同時開發(fā)基于“RPA+AI”技術的檔案機器人智能挖掘核電情報、核電前沿信息,主動收集整理來自合作伙伴和競爭對手的動態(tài),將獲取的信息通過郵件的形式進行外網(wǎng)到內網(wǎng)的穿透,然后通過內網(wǎng)機器人對郵件進行解析后錄入檔案知識管理平臺數(shù)據(jù)庫,利用內外部檔案資源不斷豐富秦山核電知識數(shù)據(jù)庫,使外部信息獲取更高效,激發(fā)企業(yè)員工技術創(chuàng)新活力,服務領導智慧決策,提升企業(yè)市場競爭能力。
檔案知識管理平臺全面繼承了電子檔案管理系統(tǒng)(ECM)的權限,這一特點在提高檔案應用效率的同時,更重要的是確保了檔案的安全性。為進一步便捷用戶使用,平臺設有借閱功能,對于用戶無權查閱的檔案,在經(jīng)過借閱審批后,可賦予閱讀或下載權限。這一舉措既保證了檔案的保密性,又滿足了用戶在學術、工作等方面的需求。
通過對搜索引擎進行優(yōu)化,以及對檔案檢索模式的重塑,本系統(tǒng)借助語義庫專業(yè)詞匯與高效搜索算法為用戶呈現(xiàn)最優(yōu)檢索結果,提升了檢索精確度。檔案知識管理平臺具備標題、主題詞、作者、年份、圖譜等基礎檢索功能,同時支持將重要屬性與全文進行組合提取生成主題字段,進行權重分配后應用于檢索。根據(jù)用戶輸入情況,系統(tǒng)可動態(tài)智能提示可能的檢索詞,在426萬份電子文件和檔案中,單份檔案的檢索時間由過去的10秒縮短至1秒以內。此外,系統(tǒng)實現(xiàn)了“單點登錄、智慧查詢、一站辦理”的全場景服務。
通過知識管理的用戶畫像功能,為不同崗位建立360度畫像,接入到智慧文檔檢索平臺(iDoc)中,一方面結合核工業(yè)語義庫600萬余條詞典和知識圖譜功能將知識文檔精準推送給公司員工。另一方面在公司核心業(yè)務流程中嵌入知識推薦功能,如在數(shù)字運行規(guī)程系統(tǒng)(iDom)中,現(xiàn)場人員在執(zhí)行某一份操作規(guī)程時,系統(tǒng)會自動推薦該項操作對應的歷史經(jīng)驗反饋、良好實踐等,有效規(guī)范了現(xiàn)場操作,減少了人員失誤。將傳統(tǒng)的被動式的檔案服務逐步過渡到主動的、智能化的知識服務。
依托知識管理先進技術手段創(chuàng)建門類齊全、內容豐富的核電專題檔案庫。像管理知識一樣管理檔案,秦山核電通過檔案工作與業(yè)務工作的深度融合,結合各類智能技術,建立專題檔案庫,精準服務于生產(chǎn)。基于人工智能技術,根據(jù)業(yè)務需求,開展面向文檔知識服務的數(shù)據(jù)治理,分析文檔著錄項和電子文件內容實現(xiàn)自動聚類,建立各類專題檔案庫,在不改變原檔案分類的基礎上,擴展檔案關聯(lián)維度,利用檔案標題、元數(shù)據(jù)信息及電子標簽等進行數(shù)據(jù)分析、加工與處理,將文檔自動掛接到相應的專題樹中,通過信息化手段實現(xiàn)虛擬組卷,目前形成八個體系化、專業(yè)化的專題檔案庫,如內部的OLE(秦山核電320Mwe機組運行許可證延續(xù)項目)項目專題、數(shù)據(jù)中心專題、管理創(chuàng)新專題等。這些文檔專題能夠幫助用戶快速、全面地了解某一個重大項目或者專題,實現(xiàn)了數(shù)字文檔資源的快速傳播和利用,使檔案“活起來,動起來”。
采用智能化方法開展檔案編研,省時省力省心。我們大膽探索辦公自動化在文檔領域的應用,創(chuàng)新性地分析各類用戶對檔案利用的需求,自動搜集與編研主題相關的檔案。通過解析后創(chuàng)建編研文件清單,到各業(yè)務系統(tǒng)抓取清單文檔,并進行整理、排版等操作生成編研文件,待專業(yè)人員審核后納入秦山核電知識數(shù)據(jù)庫供用戶查閱,此舉將檔案編研效率提升了一倍。目前已成功編制了秦山核電大事記、秦山核電十大技術問題匯編、秦山核電文件匯編三期文件,并獲得用戶好評。“秦小智”正是利用知識管理技術整合關聯(lián)各種編研資源,實現(xiàn)檔案信息、技術信息等資源的共享,減少重復勞動,避免人力資源的浪費[3]?!扒匦≈恰钡纳蠉徥乔厣胶穗娫跈n案管理工作中開展的一次有益探索,也是本公司文檔管理數(shù)字化轉型的典型應用案例。
在秦山核電內部部署AI大語言模型,借助該模型的人工智能技術,主動挖掘與提取檔案中的設備編碼等關鍵信息,替代人工整理和提煉知識,實現(xiàn)實體抽取、知識更新、關系抽取及知識補全,高效繪制核電設備知識圖譜(見圖2),實現(xiàn)知識的可視化展示,同時建立實體與檔案內容之間的關聯(lián),并借助大語言模型卓越的語義理解功能,實現(xiàn)智能知識問答,為用戶提供更為精準的問答服務。
在核電企業(yè)中,標準文件和管理程序(核電內部操作手冊和規(guī)范)是應用非常頻繁的檔案類型,我們將這些常用檔案進行XML碎片化處理,分解為多個獨立的XML片段,每個片段都包含一個特定的主題或知識點,利用這些片段構建一個問答系統(tǒng),以實現(xiàn)對核電企業(yè)內部信息的快速檢索和理解。問答系統(tǒng)可以根據(jù)不同類型的問題,如是非類、陳述類、求值類、范圍類、時間類和統(tǒng)計類問題,直接在片段中尋找答案。例如,當員工需要了解出差某地的住宿費報銷標準時,問答系統(tǒng)可以根據(jù)操作手冊中的XML片段,直接給出答案,大大減少了翻閱文檔的時間。
讓檔案數(shù)據(jù)“活”起來。為便于管理,開發(fā)檔案系統(tǒng)數(shù)據(jù)駕駛艙,直觀展示檔案數(shù)量、年份、種類、分布以及利用情況等各項數(shù)據(jù),提升了檔案信息資源管理效率,增強了檔案信息資源可用性,挖掘了檔案信息資源利用深度[4]。通過檔案駕駛艙,公司領導和檔案管理部門可以實時了解企業(yè)檔案的運行現(xiàn)狀,同時借助底層應用數(shù)據(jù)分析,為檔案知識管理平臺的后續(xù)優(yōu)化提供指導,從而更好地服務用戶。