周楓 呂東偉
摘要:人工智能的發(fā)展正推動(dòng)著以“智能+”為標(biāo)志的普適性智能社會(huì)的到來(lái)。本文指出,人工智能在檔案管理中的應(yīng)用,不僅是檔案管理業(yè)務(wù)的緊迫需要,更是社會(huì)需求的必然要求。智能+檔案管理的應(yīng)用場(chǎng)景涵蓋智能收集、智能分類、智能利用等檔案管理全業(yè)務(wù)流程,給傳統(tǒng)檔案工作帶來(lái)了巨大變革。智能+檔案管理時(shí)代,業(yè)務(wù)核心在于特定場(chǎng)景規(guī)則的提出與相應(yīng)模型的訓(xùn)練,因此智能+檔案管理時(shí)代,需要更加專業(yè)的檔案人員。
關(guān)鍵詞:人工智能智能+檔案管理應(yīng)用場(chǎng)景
在數(shù)據(jù)集聚、技術(shù)突破、國(guó)家戰(zhàn)略等多重力量的驅(qū)動(dòng)下,人工智能(AI)迎來(lái)了一個(gè)爆發(fā)期,從2016年Alpha? Go一鳴驚人到如今AI“飛入尋常百姓家”,人工智能成為科技創(chuàng)新的“超級(jí)風(fēng)口”。人工智能已經(jīng)進(jìn)入到場(chǎng)景應(yīng)用階段,深入落地到各行各業(yè)以解決不同場(chǎng)景的問(wèn)題,也給檔案工作帶來(lái)新的發(fā)展機(jī)遇。與以往其他技術(shù)不同,人工智能幾乎可以在檔案管理的各個(gè)業(yè)務(wù)環(huán)節(jié)中進(jìn)行應(yīng)用,這也就意味著我們需要站在戰(zhàn)略高度,更加全面深入地加強(qiáng)對(duì)人工智能在檔案工作中應(yīng)用的研究。
人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué),目前在自然語(yǔ)言處理、模式識(shí)別、專家系統(tǒng)、圖像識(shí)別、語(yǔ)音識(shí)別、機(jī)器學(xué)習(xí)、智能機(jī)器人等方面已經(jīng)發(fā)展得較為成熟。
自然語(yǔ)言處理是指讓計(jì)算機(jī)擁有人類般的文本處理能力,如識(shí)別文檔的核心議題、提取相關(guān)內(nèi)容并制作成報(bào)表等,其主要原理包括句法語(yǔ)義分析、信息抽取、文本挖掘、信息檢索、人機(jī)交互等。自然語(yǔ)言處理主要應(yīng)用于智能問(wèn)答、機(jī)器翻譯、文本分類、文本摘要等方面。
模式識(shí)別是指對(duì)表征事物或現(xiàn)象的各種形式的信息進(jìn)行處理和分析,從而達(dá)到對(duì)樣本進(jìn)行分類的目的,是文本、語(yǔ)音、圖像等識(shí)別的一項(xiàng)基礎(chǔ)技術(shù)。
專家系統(tǒng)可看作一類具有專門知識(shí)的計(jì)算機(jī)智能程序系統(tǒng),通過(guò)運(yùn)用人工智能中的推理技術(shù)來(lái)求解和模擬通常由專家才能解決的各種復(fù)雜問(wèn)題。目前專家系統(tǒng)在醫(yī)療診斷、化學(xué)和地質(zhì)數(shù)據(jù)分析等方面的應(yīng)用,已達(dá)到較高水平。
圖像識(shí)別是指從圖像中識(shí)別出物體、場(chǎng)景和活動(dòng)的能力,如自動(dòng)駕駛、醫(yī)療影像分析、人臉識(shí)別等都屬于圖像識(shí)別的應(yīng)用;語(yǔ)音識(shí)別是指將語(yǔ)音轉(zhuǎn)化為文字,并對(duì)其進(jìn)行識(shí)別認(rèn)知和處理,如科大訊飛中的實(shí)時(shí)翻譯、蘋果手機(jī)中的Siri等。
機(jī)器學(xué)習(xí)是指機(jī)器從樣本中,通過(guò)特定算法,自動(dòng)去尋找、提煉相關(guān)規(guī)律,并進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)正成為人工智能研究的核心之一,并廣泛應(yīng)用于自然語(yǔ)言處理、專家系統(tǒng)、語(yǔ)音圖像識(shí)別等領(lǐng)域。
智能機(jī)器人在生活中已隨處可見,如掃地機(jī)器人、陪伴機(jī)器人,目前在安防監(jiān)控、互動(dòng)交流等方面應(yīng)用較廣。
綜上,人工智能在數(shù)據(jù)、信息與知識(shí)的提取、分類、分析等方面具有強(qiáng)大的技術(shù)優(yōu)勢(shì),而恰好檔案工作的主要內(nèi)容也在于數(shù)據(jù)的采集、處理、分析等,因此,人工智能在數(shù)據(jù)的規(guī)范性、準(zhǔn)確性、一致性等方面的思維、技術(shù)和方法,能夠有效促進(jìn)檔案資源的收集、管理、利用等業(yè)務(wù)工作。
人工智能時(shí)代已經(jīng)到來(lái),并正深刻地沖擊著傳統(tǒng)社會(huì)與生態(tài)。2013年,牛津大學(xué)的兩位學(xué)者在研究報(bào)告《就業(yè)的未來(lái)》中指出,估計(jì)到2033年,電話銷售人員和保險(xiǎn)業(yè)務(wù)員有99%的概率失業(yè),而檔案管理員有76%的可能性。[1]在檔案管理領(lǐng)域進(jìn)行人工智能的應(yīng)用勢(shì)在必行。
(一)管理業(yè)務(wù)需要
大數(shù)據(jù)時(shí)代,電子化、數(shù)據(jù)化、數(shù)量龐大、增長(zhǎng)迅速、類型多樣的檔案資源給檔案管理帶來(lái)了巨大的挑戰(zhàn)。如何實(shí)現(xiàn)海量檔案的收集?如何更有效率地進(jìn)行鑒定?如何實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化文檔的檢索?如何實(shí)現(xiàn)數(shù)據(jù)檔案的管理……盡管我們應(yīng)用了很多技術(shù)來(lái)提升檔案管理水平,但總體來(lái)看,檔案工作仍然屬于“勞動(dòng)密集型”,很多工作依賴于人力,也很難跟上時(shí)代發(fā)展需要,迫切需要采取新模式、新思路來(lái)進(jìn)行革新。同時(shí),“人工智能時(shí)代,程式化的、重復(fù)性的、僅依靠記憶與練習(xí)就可以掌握的技能將是最沒(méi)有價(jià)值的,幾乎一定可以由機(jī)器完成”,[2]毋庸諱言,此類業(yè)務(wù)在檔案部門也大量存在,唯有更好地學(xué)習(xí)、應(yīng)用、融合人工智能,通過(guò)人工智能來(lái)賦能傳統(tǒng)檔案工作,我們才能不被時(shí)代拋棄,才能更好地促進(jìn)檔案工作發(fā)展。
(二)服務(wù)需求倒逼
“我們被信息淹沒(méi),但是更渴求知識(shí)”,奈斯比特的困惑在大數(shù)據(jù)時(shí)代更加凸顯。從簡(jiǎn)單的檔案借閱到希望提供專業(yè)化、精品化、知識(shí)化的服務(wù)內(nèi)容和個(gè)性化、一站式、互動(dòng)式服務(wù)方式,用戶需求不斷升級(jí)。在這個(gè)開放、競(jìng)爭(zhēng)的社會(huì)中,當(dāng)需求滿足途徑和方式日趨多元時(shí),服務(wù)成為市場(chǎng)競(jìng)爭(zhēng)的核心要素。如何幫助用戶從海量檔案資源中進(jìn)行快速發(fā)現(xiàn)和獲取,如何深度挖掘用戶特征,提供個(gè)性化、多元化、人性化的智慧檔案服務(wù),將決定著檔案部門的生存和地位,而這也正如特里·庫(kù)克所言:“如果我們這些信息工作者能夠引導(dǎo)利用者從泛濫的、具體的信息過(guò)渡到知識(shí),甚至于智慧,我們?cè)谛聲r(shí)代的工作、地位就會(huì)得到保證”[3]。
人工智能可用于檔案管理的多個(gè)環(huán)節(jié),并且由于主要借助機(jī)器進(jìn)行,很多的規(guī)則和數(shù)據(jù)可以復(fù)用,因此大量業(yè)務(wù)可以同步進(jìn)行,如在收集的同時(shí)可以進(jìn)行整理、鑒定、著錄等,從而很好地提高業(yè)務(wù)效率和準(zhǔn)確性。
(一)數(shù)字檔案資源智能歸檔
大數(shù)據(jù)時(shí)代電子文件的爆發(fā)式增長(zhǎng)給歸檔帶來(lái)較大困難。基于模式識(shí)別、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù),能夠?qū)崿F(xiàn)歸檔范圍內(nèi)電子文件的自動(dòng)歸檔,并抓取相關(guān)元數(shù)據(jù)信息,同時(shí)還可結(jié)合庫(kù)藏抓取網(wǎng)絡(luò)上的各類文檔,構(gòu)成多元、立體的館藏體系。針對(duì)歸檔文件質(zhì)量較難把控的痛點(diǎn),基于相關(guān)質(zhì)量審核要點(diǎn)并經(jīng)過(guò)機(jī)器學(xué)習(xí)形成歸檔文件質(zhì)量審核模型,可以很好地發(fā)現(xiàn)并標(biāo)注歸檔文件質(zhì)量問(wèn)題,提升歸檔文件質(zhì)量。
(二)數(shù)字檔案資源智能整理
基于自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、模式識(shí)別等技術(shù),可以實(shí)現(xiàn)檔案的自動(dòng)分類和排列組合。一是全宗內(nèi)的檔案分類,如自動(dòng)將相關(guān)文檔按文書、會(huì)計(jì)、基建或年度、組織機(jī)構(gòu)、問(wèn)題等進(jìn)行分類;二是直接提取文件的相關(guān)特征,并進(jìn)行快速、準(zhǔn)確的排列組合,如正文與附件、正本與定稿、來(lái)文與復(fù)文等自動(dòng)組合。
(三)檔案智能鑒定劃控輔助
檔案鑒定大多需要考慮內(nèi)容、作者、時(shí)間、完整程度等進(jìn)行綜合判斷,相對(duì)比較抽象,對(duì)專業(yè)性要求比較高。而采用專家系統(tǒng)和機(jī)器學(xué)習(xí),可以從成熟的鑒定樣本中尋找規(guī)律,并運(yùn)用這些規(guī)律對(duì)各類檔案的內(nèi)容價(jià)值進(jìn)行判斷,作為檔案人員鑒定的參考。這樣做不僅可以統(tǒng)一鑒定標(biāo)準(zhǔn),而且可以有效提高鑒定效率。
(四)智能化安全保管
借助機(jī)器視覺(jué)和語(yǔ)音識(shí)別的相關(guān)技術(shù),可以讓計(jì)算機(jī)具備像人類一樣的觀察和識(shí)別能力,目前常見的應(yīng)用場(chǎng)景為庫(kù)房安全。如應(yīng)用人臉識(shí)別、語(yǔ)音識(shí)別、指紋識(shí)別、虹膜識(shí)別等智能識(shí)別技術(shù)建立的安防系統(tǒng),通過(guò)相關(guān)傳感器實(shí)現(xiàn)庫(kù)房環(huán)境的智能監(jiān)控等。
(五)智能化多維統(tǒng)計(jì)
檔案統(tǒng)計(jì)依賴于元數(shù)據(jù)的多寡和著錄顆粒度的高低,傳統(tǒng)環(huán)境下檔案統(tǒng)計(jì)維度相對(duì)較少、可視化程度相對(duì)較低。基于“智能+檔案統(tǒng)計(jì)”,可以采取自然語(yǔ)言處理技術(shù),提取檔案的相關(guān)內(nèi)容和屬性信息形成多類標(biāo)簽,并建立標(biāo)簽之間的內(nèi)在關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)檔案統(tǒng)計(jì)的按需調(diào)取、多維呈現(xiàn)。
(六)智能化檔案檢索
基于“智能+檔案檢索”,能夠?qū)z索從基于關(guān)鍵詞級(jí)別提高到基于知識(shí)級(jí)別,得到優(yōu)化檢索結(jié)果,使查全率和查準(zhǔn)率能夠更好地滿足檢索需求,具體包括三個(gè)步驟:一是基于自然語(yǔ)言處理,提取檔案形式特征,自動(dòng)進(jìn)入檔案系統(tǒng)形成相關(guān)檢索項(xiàng),減少人工錄入,提高著錄效率;二是運(yùn)用機(jī)器學(xué)習(xí),對(duì)檔案內(nèi)容進(jìn)行智能標(biāo)引、智能摘取,并以規(guī)范化的檢索語(yǔ)言賦予檢索標(biāo)識(shí);三是基于語(yǔ)義搜索,更好地理解用戶的真實(shí)意圖,提供更加精確的檢索服務(wù)。
(七)智能化檔案編研
目前,利用數(shù)據(jù)撰寫新聞已經(jīng)比較成熟,甚至基于人工智能寫詩(shī)也已成為現(xiàn)實(shí),如微軟小冰所作的詩(shī)集《陽(yáng)光失去了玻璃窗》已正式出版,成為人類歷史上首部100%由人工智能創(chuàng)作的詩(shī)集。盡管目前智能寫作與人的創(chuàng)造性還有一定差距,但至少已初具雛形。在檔案領(lǐng)域,針對(duì)一些相對(duì)簡(jiǎn)單的編研工作,如檔案文件匯編、檔案文摘匯編、大事記、組織沿革、專題概要等,可以嘗試?yán)脵C(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)智能編研。
(八)智能化檔案利用
檔案利用領(lǐng)域是人工智能應(yīng)用的重點(diǎn)。一是運(yùn)用自然語(yǔ)言處理,對(duì)檔案內(nèi)容進(jìn)行數(shù)據(jù)挖掘,深層次發(fā)掘檔案資源價(jià)值,多層次地滿足用戶需求,并根據(jù)需要形成知識(shí)圖譜;二是通過(guò)自然語(yǔ)言處理和模式識(shí)別,分析用戶特征和需求,對(duì)用戶進(jìn)行畫像,并進(jìn)行個(gè)性化、情景化的智能推送;三是充分利用智能機(jī)器人、聊天機(jī)器人,加強(qiáng)與用戶的溝通交流與互動(dòng)。
盡管人工智能可以很好地幫助檔案部門解決很多問(wèn)題,但人工智能技術(shù)不是萬(wàn)能的,尚無(wú)法完全代替人類智能,在智能+檔案管理的過(guò)程中,核心工作依然由檔案人員負(fù)責(zé)。
(一)人工智能時(shí)代需要更清晰地了解業(yè)務(wù)規(guī)則
經(jīng)過(guò)幾十年的積累,人工智能的應(yīng)用在技術(shù)實(shí)現(xiàn)上已經(jīng)不是關(guān)鍵。在技術(shù)之上,最核心的問(wèn)題是特定場(chǎng)景規(guī)則的提出和模型的應(yīng)用。對(duì)于檔案領(lǐng)域而言,如果文檔模板或結(jié)構(gòu)本身相對(duì)比較固定,那么人工智能處理起來(lái)會(huì)相對(duì)容易一些。例如針對(duì)文書檔案,由于有《黨政機(jī)關(guān)電子公文格式規(guī)范》的約束,其文檔結(jié)構(gòu)相對(duì)比較統(tǒng)一、文檔要素相對(duì)比較齊全,因此規(guī)則的制定與提取相對(duì)簡(jiǎn)單,進(jìn)行人工智能處理時(shí)會(huì)更加容易,應(yīng)用效果也相對(duì)比較明顯。而針對(duì)科技檔案或一些專門檔案,由于其文檔特點(diǎn)不一,對(duì)規(guī)則的提取和樣本的訓(xùn)練一定程度上會(huì)加大處理難度。
(二)人工智能時(shí)代需要更加專業(yè)的人員
每一次技術(shù)革命所產(chǎn)生的新行業(yè)都會(huì)帶來(lái)對(duì)應(yīng)的新崗位,舊崗位被淘汰所釋放的資源會(huì)被重新定義和分配,正如轎車的普及消滅了黃包車夫這個(gè)崗位,卻創(chuàng)造了出租車司機(jī)這個(gè)新的崗位。因此,當(dāng)人工智能將檔案工作者從煩瑣的常規(guī)檔案管理事務(wù)中解放出來(lái)時(shí),并不意味著檔案人員被完全替代了。他們或許不再叫檔案管理員,或許將由數(shù)據(jù)工程師來(lái)從事檔案業(yè)務(wù)。同時(shí),人工智能時(shí)代,程式化、重復(fù)性的檔案業(yè)務(wù)將由機(jī)器完成,但那些更有意義、更具價(jià)值且更能體現(xiàn)檔案人員綜合素質(zhì)的技能,如規(guī)則的設(shè)定和把握、檔案價(jià)值的判斷、深層次的編研、各類創(chuàng)新利用等,仍然將由檔案人員來(lái)完成。同時(shí),我們還需要更深入地了解相關(guān)人工智能技術(shù),從而實(shí)現(xiàn)技術(shù)與規(guī)則的深度融合。
用新興的人工智能為古老的檔案工作裝上聰明的“大腦”,讓“故紙堆”重?zé)ㄉ鷻C(jī),這是當(dāng)前檔案管理的前沿模式和巨大變革,甚至可能是檔案發(fā)展史上的一次“工業(yè)革命”?!翱v觀檔案發(fā)展史,從簡(jiǎn)牘到電子,檔案工作無(wú)不是適應(yīng)科技發(fā)展而不斷更新檔案管理內(nèi)容和手段才獲取更大發(fā)展的。”[4]對(duì)于檔案工作者而言,要跟得上技術(shù)的發(fā)展變化,才能不被智能之風(fēng)吹遠(yuǎn)。
*本文系2017年國(guó)家檔案局科技項(xiàng)目“OFD格式在證券行業(yè)技術(shù)檔案管理中的應(yīng)用研究”的部分成果,項(xiàng)目編號(hào):2017-X-20。
注釋及參考文獻(xiàn):
[1]尤瓦爾·赫拉利.未來(lái)簡(jiǎn)史[M].林俊宏,譯.北京:中信出版集團(tuán)股份有限公司,2015:17.
[2]李開復(fù),王詠剛.人工智能[M].北京:文化發(fā)展出版社,2017:251.
[3]特里·庫(kù)克,劉越男.電子文件與紙質(zhì)文件觀念:后保管及后現(xiàn)代主義社會(huì)里信息與檔案管理中面臨的一場(chǎng)革命[J].山西檔案,1997(2):7-13.
[4]楊冬權(quán).楊冬權(quán)在全國(guó)數(shù)字檔案館(室)建設(shè)推進(jìn)會(huì)上的講話[N].中國(guó)檔案報(bào),2013-10-18(001).
作者單位:上海證券交易所