葉亞芬/上海泰宇信息技術(shù)股份有限公司 原德巍/溫州市檔案館
如何將海量檔案數(shù)據(jù)資源進(jìn)行有效的開發(fā)利用,是檔案工作實(shí)現(xiàn)整體智治和轉(zhuǎn)型發(fā)展的重要舉措之一。為進(jìn)一步縱深推進(jìn)檔案工作數(shù)字化改革,充分發(fā)揮檔案存史資政育人的功能,溫州市檔案館開拓“深度融合、多維立體、創(chuàng)新賦能”的思路,錨定“激活館藏檔案”的目標(biāo)導(dǎo)向,以服務(wù)大局、服務(wù)社會(huì)、服務(wù)于民為根本途徑,開展基于數(shù)據(jù)化和文本檢索技術(shù)的檔案資源智能聚類研究,主要以檔案資源數(shù)據(jù)化和標(biāo)簽化為基礎(chǔ),以需求為導(dǎo)向,提供個(gè)性化、精準(zhǔn)化的數(shù)據(jù)檢索、數(shù)據(jù)聚類、數(shù)據(jù)挖掘、成果輸出等服務(wù),最大程度上激活館藏檔案,面向不同用戶提供利用服務(wù),建設(shè)智慧檔案管理平臺(tái),積極打造全域智慧檔案管理生態(tài)圈。
項(xiàng)目研究以“數(shù)字賦能、改革破題、創(chuàng)新驅(qū)動(dòng)”為總基調(diào),以館藏檔案信息資源建設(shè)為基礎(chǔ),充分“盤活”館藏檔案,實(shí)現(xiàn)國(guó)家綜合檔案館主動(dòng)面向各類用戶,響應(yīng)各類跨行業(yè)、目標(biāo)模糊的系統(tǒng)性復(fù)雜檔案利用需求,快速精準(zhǔn)提供針對(duì)性強(qiáng)、內(nèi)容豐富充實(shí)、利用價(jià)值高的檔案信息資源,服務(wù)數(shù)字化改革和各項(xiàng)中心工作。具體研究?jī)?nèi)容有:以館藏檔案數(shù)據(jù)化為基礎(chǔ),構(gòu)建檔案數(shù)據(jù)標(biāo)簽信息體系;以激活館藏檔案為根本,建立多維檔案數(shù)據(jù)聚類模型;以建立數(shù)據(jù)集合為引擎,開發(fā)館藏系統(tǒng)檔案智能聚類功能;以提供精準(zhǔn)檔案服務(wù)為目標(biāo),建立檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機(jī)制。
本項(xiàng)目研究基于數(shù)據(jù)化和文本檢索技術(shù)的檔案資源智能聚類研究,以檔案資源數(shù)據(jù)化和標(biāo)簽化為基礎(chǔ),在溫州市檔案館現(xiàn)有數(shù)字檔案館系統(tǒng)功能基礎(chǔ)上,引入OCR、文本挖掘、文本檢索等技術(shù),針對(duì)各類跨行業(yè)、目標(biāo)模糊的系統(tǒng)性復(fù)雜檔案利用需求,突破傳統(tǒng)“線性檢索”方式,對(duì)館藏檔案資源進(jìn)行“條目信息”和“標(biāo)簽信息”多維度檢索,實(shí)現(xiàn)“網(wǎng)狀檢索結(jié)構(gòu)”,深入挖掘檔案信息,智能聚類檢索結(jié)果,參考“全宗+主題”模式對(duì)檢索結(jié)果進(jìn)行整理,編輯摘要說明,最大化回應(yīng)利用需求,并通過積累利用實(shí)例,逐步建立健全檔案多維數(shù)據(jù)集合,在檔案服務(wù)新戰(zhàn)略新跨越上求突破,發(fā)揮檔案價(jià)值,為經(jīng)濟(jì)社會(huì)發(fā)展提供優(yōu)質(zhì)高效的檔案服務(wù)。
2.1.1 奠定檔案數(shù)據(jù)基礎(chǔ)。基于溫州市檔案館館藏檔案資源,將檔案數(shù)字化全文轉(zhuǎn)換成通用的利用格式,并通過OCR技術(shù)進(jìn)行全文識(shí)別提取,分析檔案數(shù)據(jù)內(nèi)容,進(jìn)行檔案數(shù)據(jù)結(jié)構(gòu)化處理,為檔案多維度智能檢索奠定基礎(chǔ)。
2.1.2 構(gòu)建三大標(biāo)簽體系。即構(gòu)建“靜態(tài)標(biāo)簽”“動(dòng)態(tài)標(biāo)簽”“關(guān)系型標(biāo)簽”三大標(biāo)簽數(shù)據(jù)分析處理應(yīng)用體系。其中“靜態(tài)標(biāo)簽”設(shè)立1.2億個(gè),每個(gè)靜態(tài)標(biāo)簽都可根據(jù)檔案數(shù)據(jù)自身的一些特色來定義,如題名、責(zé)任制和來源等條目信息。靜態(tài)標(biāo)簽主要用于滿足常規(guī)數(shù)據(jù)分析的需求;“動(dòng)態(tài)標(biāo)簽”主要是關(guān)聯(lián)數(shù)據(jù)信息,是檔案形成之后隨著時(shí)間波動(dòng)、傳播影響等因素產(chǎn)生的多種數(shù)據(jù)標(biāo)簽,如涉及的人物、時(shí)間、事件主題等;“關(guān)系型標(biāo)簽”則通過技術(shù)手段深入挖掘數(shù)據(jù)內(nèi)在關(guān)系,促進(jìn)檔案數(shù)據(jù)與利用需求深度融合,滿足利用者多元化的需求。
2.1.3 形成自動(dòng)分類模型。結(jié)合三大標(biāo)簽體系屬性,運(yùn)用分詞庫(kù)和規(guī)則庫(kù),綜合使用統(tǒng)計(jì)學(xué)、大數(shù)據(jù)算法形成自動(dòng)分類模型。第一步利用自動(dòng)分類技術(shù)對(duì)檔案數(shù)據(jù)做預(yù)處理,將數(shù)據(jù)傳送至ETL節(jié)點(diǎn),第二步經(jīng)過多輪ETL處理服務(wù)體系完成檔案特征抽取,第三步智能提取摘要,組建檔案標(biāo)簽信息。
對(duì)館藏檔案資源“條目信息”“標(biāo)簽信息”和全文進(jìn)行多維度檢索,深入挖掘檔案信息,形成智能聚類檢索結(jié)果,同時(shí)參考全宗模式對(duì)檢索結(jié)果進(jìn)行分類整理,建立多維檔案數(shù)據(jù)集合。
館藏系統(tǒng)檔案智能聚類主要功能如下:
2.2.1 數(shù)據(jù)處理與標(biāo)簽
通過ETL數(shù)據(jù)清洗功能,實(shí)現(xiàn)檔案數(shù)據(jù)純凈化的同時(shí)進(jìn)行結(jié)構(gòu)化處理。與此同時(shí)經(jīng)過結(jié)構(gòu)化的數(shù)據(jù),擁有“靜態(tài)標(biāo)簽”“動(dòng)態(tài)標(biāo)簽”“關(guān)系標(biāo)簽”等多類標(biāo)簽,系統(tǒng)可通過數(shù)據(jù)標(biāo)簽快速進(jìn)行同維度數(shù)據(jù)組合篩選。
2.2.2 詞庫(kù)建設(shè)與完善
一是詞庫(kù)的建設(shè)。通過知識(shí)圖譜技術(shù),對(duì)現(xiàn)有館藏檔案內(nèi)容按“主題+維度”模式進(jìn)行數(shù)據(jù)分析,經(jīng)過人工梳理、篩選,在基礎(chǔ)詞庫(kù)內(nèi)進(jìn)行“增、刪、改”操作,進(jìn)一步優(yōu)化館藏基礎(chǔ)檢索詞庫(kù)。
二是詞庫(kù)的完善。通過人工智能技術(shù),快速繪制全網(wǎng)知識(shí)圖譜,將與新詞中相關(guān)的詞匯進(jìn)行智能推薦,形成新詞庫(kù)。同時(shí)對(duì)生成的新詞庫(kù)加持到現(xiàn)有館藏詞庫(kù)中,進(jìn)一步鞏固詞庫(kù)建設(shè)。
2.2.3 智能檢索與聚類
通過分布式檢索引擎及詞關(guān)系引擎、實(shí)體關(guān)系引擎,支持基于高效索引的多維度智能檢索,如通過“人物”“事件”“專題”“地點(diǎn)”等規(guī)則,支持用戶對(duì)數(shù)據(jù)聚類規(guī)則進(jìn)行相應(yīng)配置,檢索結(jié)果可按相關(guān)度、時(shí)間等分類排序。在此基礎(chǔ)上,系統(tǒng)根據(jù)檢索規(guī)則將關(guān)聯(lián)性極高的檔案數(shù)據(jù)進(jìn)行自動(dòng)類聚,同時(shí)自動(dòng)保存、輸出數(shù)據(jù)集合。
2.2.4 成果審核與補(bǔ)充
對(duì)最終形成的檔案數(shù)據(jù)集合進(jìn)行人工審核,支持對(duì)檔案數(shù)據(jù)集合的補(bǔ)充、刪除等操作,從而確保成果聚類數(shù)據(jù)的有效性、全面性、完整性。
2.2.5成果輸出與利用
通過“主題+維度”檢索模式,結(jié)合利用需求,輸出多維數(shù)據(jù)集合,并以知識(shí)圖譜展示所相關(guān)聯(lián)數(shù)據(jù)。檔案數(shù)據(jù)集合利用實(shí)現(xiàn)檔案數(shù)據(jù)集合的分類查看、在線閱覽、打印、下載、整體打包導(dǎo)出功能。
2.3產(chǎn)出多維、有序的檔案數(shù)據(jù)集合
本項(xiàng)目覆蓋溫州市檔案館館藏檔案信息資源375余萬件,通過3輪人工審核、分析、清洗,形成詞庫(kù)“黑白名單”,進(jìn)一步精簡(jiǎn)維度及檢索詞。“數(shù)字化改革”“碳達(dá)峰碳中和”“共同富?!薄肮袢芷凇?個(gè)專題,經(jīng)過3次聚類模型優(yōu)化,維度精簡(jiǎn)優(yōu)化過程分別為:52個(gè)、35個(gè)、26個(gè),檢索詞精簡(jiǎn)優(yōu)化過程分別為1126個(gè)、472個(gè)、169個(gè)。經(jīng)過滾動(dòng)式優(yōu)化后,聚類數(shù)據(jù)集合從第一輪的100多萬件,到第二輪為5.4萬件,第三輪為1000余件檔案數(shù)據(jù)。同時(shí)形成涵蓋專題、維度、檢索詞、檔號(hào)、題名、全宗號(hào)、年度、責(zé)任者、文件編號(hào)、開放審核標(biāo)志、密級(jí)及摘要等條目信息及全文信息的多維、有序的檔案數(shù)據(jù)集合。
在本項(xiàng)目研究的基礎(chǔ)上,溫州市檔案館“先行先試”,以建立健全檔案信息聚類為引擎,擴(kuò)面建設(shè)全域檔案信息聚類成果庫(kù),實(shí)現(xiàn)檔案館主動(dòng)面向各類用戶,響應(yīng)各類跨行業(yè)、目標(biāo)模糊的系統(tǒng)性復(fù)雜檔案利用需求,快速精準(zhǔn)提供針對(duì)性強(qiáng)、內(nèi)容豐富、利用價(jià)值高的檔案信息資源,從而更高效地服務(wù)數(shù)字化改革和各項(xiàng)中心工作。
檔案資源智能聚類整體架構(gòu)
3.1.1 融合全市檔案系統(tǒng)“115”人才、檔案信息化專家、檔案業(yè)務(wù)骨干等“工匠”型人才,同時(shí)積極吸納其他相關(guān)系統(tǒng)的專家,組建溫州市檔案信息資源開發(fā)利用專家組。專家組成員主要參與課題研究、項(xiàng)目評(píng)審、開發(fā)利用等工作,并在學(xué)術(shù)引領(lǐng)、智囊參謀等方面發(fā)揮積極作用,為全市檔案事業(yè)轉(zhuǎn)型升級(jí)和高質(zhì)量發(fā)展提供智力支持。
3.1.2 以點(diǎn)擴(kuò)面提升服務(wù)效能。以溫州市檔案館為中心,輻射市域各級(jí)檔案館(室),以“一盤棋”“一條鏈”“一張網(wǎng)”布局,建立檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機(jī)制,充分開發(fā)利用檔案信息資源。同時(shí)結(jié)合多類型聚類成果,持續(xù)建立并完善專屬“數(shù)據(jù)集市”,通過檔案一體化信息平臺(tái)、檔案編研成果等多種平臺(tái)(渠道),為黨委政府和社會(huì)各界提供檔案信息資源“大餐”,大幅度提升數(shù)字檔案館主動(dòng)服務(wù)能力,提升黨政機(jī)關(guān)、社會(huì)公眾對(duì)數(shù)字檔案的滿意度。
3.2.1 以黨委政府和社會(huì)各界對(duì)檔案數(shù)據(jù)利用提出的需求為導(dǎo)向,以“數(shù)字化改革”“碳達(dá)峰碳中和”“共同富?!薄肮袢芷凇?個(gè)專題為例,構(gòu)建“1+N+X”數(shù)據(jù)聚類模型(即1個(gè)主題,N個(gè)維度,X個(gè)檢索詞)。通過檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機(jī)制,遞進(jìn)式開展聚類維度、檢索關(guān)鍵詞的梳理和確立等相關(guān)工作,其中“公民全生命周期”專題聚類模型從“1+52+386”精簡(jiǎn)到“1+11+79”,實(shí)現(xiàn)從粗放型向精細(xì)型轉(zhuǎn)變,為其他專題數(shù)據(jù)聚類模型奠定扎實(shí)基礎(chǔ)。
3.2.2 基于“1+N+X”數(shù)據(jù)聚類模型,研究并編制檔案數(shù)據(jù)聚類工作方案,多層次確立數(shù)據(jù)聚類主題,完善相應(yīng)聚類維度及檢索詞。其中數(shù)據(jù)聚類主題的建立,主要有兩個(gè)方面:主動(dòng)建,即結(jié)合館藏檔案內(nèi)容按政治、經(jīng)濟(jì)、文化、教育、民生等維度建立基礎(chǔ)類、專題類、記憶類等主題,深度挖掘檔案信息資源,讓館藏檔案“活”起來。按需建,即區(qū)分不同利用對(duì)象,采用“按需選題”的檔案數(shù)據(jù)聚類模型,關(guān)注利用者的個(gè)性化需求,逐步實(shí)現(xiàn)檔案數(shù)據(jù)聚類“圍繞中心”與“適應(yīng)個(gè)性”兼容并重。
3.2.3 結(jié)合聚類維度詞庫(kù)形成的分類模型,對(duì)館藏檔案數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,即為檔案建立數(shù)據(jù)標(biāo)簽,激活檔案屬性,實(shí)現(xiàn)“物以類聚”,從而進(jìn)一步提升檔案數(shù)據(jù)利用和分析效果。與此同時(shí),數(shù)據(jù)標(biāo)簽的添加,為下一步利用NLP自然語言技術(shù)學(xué)習(xí)樣本數(shù)據(jù),建立新的文本分類模型,實(shí)現(xiàn)對(duì)增量的檔案數(shù)據(jù)進(jìn)行自動(dòng)推理和分析,形成檔案數(shù)據(jù)自動(dòng)歸集到相應(yīng)主題、相應(yīng)維度的應(yīng)用場(chǎng)景。
3.2.4 完成聚類工作流程,實(shí)現(xiàn)滾動(dòng)式聚類效應(yīng),提升數(shù)據(jù)聚類精度。主要分三步走:第一步,基于初步聚類產(chǎn)出成果,組織專業(yè)技術(shù)人員進(jìn)行審核、分析研判,去蕪存菁,優(yōu)化聚類維度和檢索詞,形成新詞庫(kù)。同時(shí)根據(jù)新詞進(jìn)行第二次聚類。第二步,為確保聚類成果與實(shí)際需求的一致性,結(jié)合第二次聚類成果數(shù)據(jù),提交需求方或相關(guān)單位審核、確認(rèn),并結(jié)合確認(rèn)結(jié)果及反饋意見建議進(jìn)行第三次優(yōu)化,并通過關(guān)鍵詞定位等技術(shù),采用“人工+智能輔助”方式編輯摘要性說明。第三步,結(jié)合第三次聚類成果做好輸出、提交利用等工作,及時(shí)跟蹤利用反饋情況,建立聚類成果全生命周期服務(wù)模式。
大數(shù)據(jù)時(shí)代,檔案館的核心競(jìng)爭(zhēng)力在很大程度上會(huì)取決于將檔案信息資源轉(zhuǎn)化為信息和知識(shí)的速度與能力。具有“五位一體”功能的國(guó)家綜合檔案館作為海量資源的存儲(chǔ)信息中心和信息服務(wù)中心,必須主動(dòng)創(chuàng)新,推動(dòng)檔案工作向“知識(shí)化、信息化、技術(shù)化、市場(chǎng)化”變革,利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)戰(zhàn)略發(fā)展以滿足未來需求。
溫州市檔案館建設(shè)館藏檔案綜合管理系統(tǒng)的同時(shí),開發(fā)檔案數(shù)據(jù)智能聚類功能模塊,為項(xiàng)目研究提供了必要的理論基礎(chǔ)、研究基礎(chǔ)。本項(xiàng)目建設(shè)集合數(shù)據(jù)挖掘技術(shù),“盤活”館藏檔案,逐步形成“三類”數(shù)據(jù)聚合。一是基礎(chǔ)類。即構(gòu)建政策庫(kù)、名人庫(kù)、組織沿革庫(kù)等通用型數(shù)據(jù)集合。二是專題類。即圍繞中心工作、重點(diǎn)工作、專項(xiàng)工作,開展專題類數(shù)據(jù)聚合。如“數(shù)字化改革”“碳達(dá)峰碳中和”“共同富?!薄肮袢芷凇钡阮愋椭黝};三是記憶類。如家庭經(jīng)濟(jì)、民俗文化、傳統(tǒng)戲劇等類型主題,即深挖家庭工業(yè)、專業(yè)市場(chǎng)、小城鎮(zhèn)、供銷員等專用型數(shù)據(jù)集合,構(gòu)建特色庫(kù)??蓪?shí)現(xiàn)以更開放的結(jié)構(gòu),推動(dòng)檔案資源的深挖和利用,科學(xué)區(qū)分層次、準(zhǔn)確實(shí)施定位,使項(xiàng)目成果更具普適性,為下一步的推廣應(yīng)用打下扎實(shí)基礎(chǔ)。
近年來,溫州市檔案館秉持主動(dòng)服務(wù)、靠前服務(wù)、精準(zhǔn)服務(wù)精神,積極探索檔案資源智能聚類研究,激活館藏檔案信息資源,深化迭代數(shù)字檔案資源匯聚共享,把“被動(dòng)服務(wù)”轉(zhuǎn)變成“主動(dòng)服務(wù)”,推進(jìn)檔案工作整體智治和轉(zhuǎn)型發(fā)展,在“溫州模式”的引領(lǐng)下,踐行小檔案實(shí)現(xiàn)大服務(wù)。本項(xiàng)目形成的館藏檔案數(shù)據(jù)聚類工作模式、智能聚類功能以及數(shù)據(jù)標(biāo)簽體系等研究成果,不僅適用于各級(jí)檔案館激活館藏檔案信息資源,提升檔案精準(zhǔn)服務(wù)能力;同樣也為各級(jí)黨政機(jī)關(guān)、企事業(yè)單位激活數(shù)據(jù)潛能,打造“數(shù)據(jù)倉(cāng)”“數(shù)據(jù)集市”提供了思路和模板,具有較強(qiáng)的可復(fù)制性、可推廣性和可借鑒性。