葛澤鈺/上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院
隨著Al技術(shù)迎來新一輪發(fā)展熱潮,AI賦能各行各業(yè)被提升到新的戰(zhàn)略高度,檔案領(lǐng)域不可避免地卷入其中。目前,AI技術(shù)在我國(guó)檔案工作中的應(yīng)用尚處于嘗試和探索階段,主要用于取代部分程序化、機(jī)械化、模式化的檔案業(yè)務(wù)[1],避開了開放性、解釋性和自主化的任務(wù),例如人工智能在檔案鑒定中的應(yīng)用實(shí)踐仍然較為缺乏。檔案鑒定是檔案管理的核心環(huán)節(jié),是對(duì)歸檔文件去粗取精,優(yōu)先保管具有保存價(jià)值的文件并使其發(fā)揮更大作用,以滿足社會(huì)需要的過程[2]。數(shù)字環(huán)境下,傳統(tǒng)的人工鑒定模式難以應(yīng)對(duì)海量結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)字信息鑒定,與Al技術(shù)融合發(fā)展成為檔案鑒定的應(yīng)然選擇。目前感知智能技術(shù)應(yīng)用正向認(rèn)知智能技術(shù)應(yīng)用演進(jìn),在認(rèn)知智能層面,機(jī)器具備理解、解釋、推理及規(guī)劃等能力[3],為檔案價(jià)值鑒定這一更深層次的業(yè)務(wù)場(chǎng)景落地提供了技術(shù)支持。通過認(rèn)知智能技術(shù)賦能檔案鑒定,能夠?yàn)榧确爆嵱掷щy重重的檔案鑒定工作提供有效解決方案,有力推動(dòng)智能化、智慧化檔案管理實(shí)踐取得實(shí)質(zhì)性進(jìn)展。
英國(guó)國(guó)家檔案館主導(dǎo)的AI for selection項(xiàng)目(以下簡(jiǎn)稱AI項(xiàng)目)通過研究和測(cè)試證明AI可以用于電子文件鑒定工作,并探究了AI如何支持和優(yōu)化電子文件揀選過程[4]。本文以英國(guó)國(guó)家檔案館該項(xiàng)目為例,描繪人工智能技術(shù)在檔案歸檔鑒定中的應(yīng)用圖景,總結(jié)其經(jīng)驗(yàn),審視其中存在的風(fēng)險(xiǎn),以期為我國(guó)檔案領(lǐng)域更廣泛和深入應(yīng)用人工智能技術(shù)提供理論參考。
早在2018年,英國(guó)政府?dāng)?shù)字化轉(zhuǎn)型導(dǎo)致電子文件的數(shù)量和種類急劇增加,海量電子文件的鑒定和保存工作幾乎不可能完全依靠人工手段。于是,英國(guó)國(guó)家檔案館數(shù)字保存部門成立研究小組,探究應(yīng)用人工智能工具進(jìn)行電子文件鑒定的過程,其主導(dǎo)了 AI for selection項(xiàng)目,該項(xiàng)目的主要內(nèi)容包括:一是掌握利用AI技術(shù)進(jìn)行電子文件鑒定的技術(shù)原理,熟悉AI技術(shù)應(yīng)用于電子文件鑒定的操作流程;二是研究和測(cè)試不同供應(yīng)商的AI工具,評(píng)估AI如何支持和優(yōu)化電子文件鑒定工作;三是設(shè)計(jì)選擇AI工具供應(yīng)商的評(píng)估指標(biāo),為對(duì)接外包市場(chǎng)提供參考等。
AI for selection項(xiàng)目通過探究一系列機(jī)器學(xué)習(xí)方法,自主研發(fā)了AI技術(shù)應(yīng)用的基準(zhǔn)工具,并最終形成了一份面向各文件管理部門的指導(dǎo)手冊(cè)《在政府中使用AI進(jìn)行電子文件鑒定》[5],為人工智能技術(shù)在電子文件鑒定中的應(yīng)用提供了一個(gè)可行方案。英國(guó)國(guó)家檔案館的有益探索為我國(guó)依托人工智能技術(shù)實(shí)現(xiàn)檔案智能鑒定提供了借鑒和參考,下面以AI for selection項(xiàng)目為例從決策依據(jù)、功能實(shí)現(xiàn)及效能呈現(xiàn)方面描繪人工智能應(yīng)用于檔案鑒定的圖景。
英國(guó)國(guó)家檔案館使用來自其文件管理系統(tǒng)的“代表性數(shù)據(jù)”,包括110882個(gè)文件與12462個(gè)文件夾,在研究和測(cè)試AI工具的過程中,使用80%經(jīng)過標(biāo)記的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,由機(jī)器對(duì)訓(xùn)練數(shù)據(jù)集中“選中的”文件的特征與“未選中的”文件的非特征進(jìn)行識(shí)別和學(xué)習(xí),之后使用剩余20%數(shù)據(jù)進(jìn)行測(cè)試,通過不斷完善模型以優(yōu)化鑒定的準(zhǔn)確度。
AI for selection項(xiàng)目發(fā)現(xiàn)檔案工作者擁有的關(guān)于檔案價(jià)值判定的主觀經(jīng)驗(yàn)和知識(shí)對(duì)于AI工具的有效運(yùn)作至關(guān)重要。此外,數(shù)字檔案自身特性所引發(fā)的鑒定問題有必要交由數(shù)字技術(shù)本身來處理,這既是一種技術(shù)邏輯,即尊重機(jī)器的運(yùn)行方式,也是一種技術(shù)思維,即將現(xiàn)實(shí)問題放置在其產(chǎn)生的源環(huán)境中去理解。因此,人工智能技術(shù)賦能的內(nèi)在本質(zhì)是通過將人類經(jīng)驗(yàn)與AI技術(shù)結(jié)合實(shí)現(xiàn)檔案鑒定。在收集、分析和推理大量數(shù)據(jù)的基礎(chǔ)上,人工智能可以挖掘隱藏在檔案數(shù)據(jù)中的潛在規(guī)律,客觀現(xiàn)實(shí)狀況及不同現(xiàn)象之間的關(guān)聯(lián)得以充分反映。
AI for selection項(xiàng)目智能鑒定功能的實(shí)現(xiàn)是通過將檔案鑒定指標(biāo)與檔案數(shù)據(jù)挖掘結(jié)果進(jìn)行比對(duì),判定文件的價(jià)值類型。首先,上傳電子文件,將檔案鑒定方法、原則、標(biāo)準(zhǔn)、影響因素等轉(zhuǎn)化為算法表達(dá),借助自然語(yǔ)言處理、數(shù)據(jù)挖掘等技術(shù)促進(jìn)對(duì)文件內(nèi)容特征、元數(shù)據(jù)特征的理解與提取。其次,使用算法依據(jù)鑒定規(guī)則和流程判定文件是否需要?dú)w檔,并做出文件保管期限的判定,識(shí)別出需要永久保存的電子文件。第三,在機(jī)器完成鑒定后由人工進(jìn)行結(jié)果審查,反饋情況以調(diào)整或重新設(shè)計(jì)流程。
AI for selection項(xiàng)目基于文件元數(shù)據(jù)和文件內(nèi)容分別開發(fā)了兩種鑒定模型,其中基于文件元數(shù)據(jù)的鑒定模型主要是根據(jù)文件的元數(shù)據(jù)特征判別是否需要?dú)w檔及其保管期限;基于文件內(nèi)容的鑒定模型主要是根據(jù)文件的內(nèi)容特征判斷文件的價(jià)值,將具有相同特征的文件聚類到一起,做出文件保管期限的判定。經(jīng)測(cè)試,英國(guó)國(guó)家檔案館指出電子文件智能鑒定的實(shí)現(xiàn)應(yīng)當(dāng)既考慮文件的元數(shù)據(jù)特征,還應(yīng)根據(jù)文件的具體內(nèi)容來決定[6],以得到較為良好的鑒定結(jié)果。
目前檔案鑒定工作繁瑣且困難重重,存在鑒定標(biāo)準(zhǔn)缺乏且難以把握、專業(yè)鑒定人員不足等問題。自動(dòng)化、智能化的鑒定在結(jié)果呈現(xiàn)上以高效、簡(jiǎn)潔為特征,AI憑借其自身優(yōu)勢(shì)成為檔案鑒定工作高質(zhì)量高效率發(fā)展的助推器。AI for selection項(xiàng)目基于文件元數(shù)據(jù)和文件內(nèi)容兩種模型最終研發(fā)了兩類揀選器,即樸素貝葉斯分類器和邏輯回歸分類器,為電子文件鑒定提供了AI工具。通過智能化的產(chǎn)品輔助人工管理,極大地提高了檔案鑒定工作質(zhì)效,為檔案鑒定工作從“純?nèi)斯つJ健鞭D(zhuǎn)變?yōu)椤鞍胱詣?dòng)模式”提供了可行方案。
隨著數(shù)字轉(zhuǎn)型深入推進(jìn),英國(guó)國(guó)家檔案館AI for selection項(xiàng)目將人工智能技術(shù)應(yīng)用于電子文件鑒定能夠解決當(dāng)前鑒定工作所面臨的部分難題,為我國(guó)檔案領(lǐng)域與人工智能深入融合提供了參考。但由于檔案鑒定工作本身具有很強(qiáng)的嚴(yán)謹(jǐn)性,我國(guó)檔案領(lǐng)域在借鑒AI for selection項(xiàng)目經(jīng)驗(yàn)的同時(shí)應(yīng)當(dāng)理性審視其中存在的諸多風(fēng)險(xiǎn):一是鑒定主體權(quán)責(zé)亟需明確;二是人類認(rèn)知偏差導(dǎo)致人工智能偏見;三是鑒定模型建構(gòu)中存在“質(zhì)”與“量”的鴻溝等。
人工智能應(yīng)用于檔案歸檔鑒定,意味著在檔案機(jī)構(gòu)和檔案管理人員之外,機(jī)器也作為檔案管理主體參與其中。目前AI for selection項(xiàng)目通過人工智能實(shí)現(xiàn)輔助人工鑒定,而隨著人工智能由感知智能技術(shù)應(yīng)用轉(zhuǎn)向認(rèn)知智能技術(shù)應(yīng)用,其自主學(xué)習(xí)能力正不斷增強(qiáng),自主意識(shí)也在不斷形成,這樣的事實(shí)是我們無法回避的。人工智能形態(tài)的不斷變革,當(dāng)前關(guān)于人工智能體的屬性和地位該如何明確存在很大爭(zhēng)論[7],未來,人工智能是人還是機(jī)器的爭(zhēng)論也許還將持續(xù)很久。倘若今后檔案鑒定工作逐步實(shí)現(xiàn)“智能化模式”,當(dāng)利用算法判定文件是否需要?dú)w檔,是否讓它留存下去成為檔案時(shí),對(duì)于機(jī)器提供的結(jié)果是否可以完全信任難以下定論,歸責(zé)問題需要明確,這需要依托檔案學(xué)者們的共同努力以及相應(yīng)的法律法規(guī)提供支持。
人工智能本身并不具備鑒定經(jīng)驗(yàn),其鑒定經(jīng)驗(yàn)是由人類所賦予它的,AI for selection項(xiàng)目將保存著復(fù)雜類經(jīng)驗(yàn)的檔案轉(zhuǎn)化為算法表達(dá),也可以窮盡的規(guī)則實(shí)現(xiàn)檔案鑒定。人腦不可否認(rèn)地存在認(rèn)知偏差,而一旦人類給予AI的鑒定經(jīng)驗(yàn)本身存在偏差,這種偏差會(huì)持續(xù)重復(fù)下去,最終將導(dǎo)致AI在實(shí)際上的偏見[8]。檔案價(jià)值鑒定理論從“年齡鑒定論”“行政官員決定論”“職能鑒定論”等發(fā)展到目前被廣泛接受和認(rèn)可的“宏觀鑒定論”,宏觀鑒定論的實(shí)質(zhì)是片面的“實(shí)體價(jià)值論”,即其認(rèn)為檔案價(jià)值是獨(dú)立于主體之外而存在的,它隨檔案的產(chǎn)生而產(chǎn)生,不論人們利用與否都是客觀存在的,顯然存在著重大的理論缺陷[9]?;诖嬖谄姷娜斯ぶ悄軐?duì)檔案進(jìn)行鑒定,其結(jié)果會(huì)對(duì)歷史的真實(shí)和完整造成嚴(yán)重傷害。
對(duì)于人工智能而言,算法、算力、數(shù)據(jù)是其核心三要素,其中最基礎(chǔ)最核心的是數(shù)據(jù)。任何算法都需經(jīng)過大量數(shù)據(jù)的洗禮,數(shù)據(jù)的質(zhì)量、精確度、完善度等直接決定了AI在實(shí)際應(yīng)用中的表現(xiàn)[10]。以英國(guó)國(guó)家檔案館開發(fā)的基于文件元數(shù)據(jù)和文件內(nèi)容的兩種模型來看,檔案智能鑒定需要數(shù)據(jù)與知識(shí)雙核驅(qū)動(dòng),其能否得以實(shí)現(xiàn)的前提是擁有足夠量的檔案數(shù)據(jù)及龐大的鑒定知識(shí)為基礎(chǔ)開展機(jī)器學(xué)習(xí)的應(yīng)用,研究人員需要準(zhǔn)備大量訓(xùn)練數(shù)據(jù)集對(duì)系統(tǒng)進(jìn)行訓(xùn)練。數(shù)據(jù)規(guī)模越大,學(xué)習(xí)效果更佳,準(zhǔn)備機(jī)器學(xué)習(xí)的大規(guī)模數(shù)據(jù)和知識(shí)需要耗費(fèi)大量資源對(duì)其進(jìn)行預(yù)處理。然而,現(xiàn)階段我國(guó)檔案數(shù)據(jù)化程度較低,來源復(fù)雜、內(nèi)容廣泛、標(biāo)準(zhǔn)不一,尤其元數(shù)據(jù)稀缺,無法提供足夠優(yōu)質(zhì)的數(shù)據(jù)作為智能鑒定的訓(xùn)練數(shù)據(jù)集,將影響機(jī)器學(xué)習(xí)應(yīng)用的效果。
通過上述分析可知,人工智能應(yīng)用于檔案鑒定工作存在著一些風(fēng)險(xiǎn),為此,我國(guó)檔案界應(yīng)當(dāng)理性看待并采取手段防范AI技術(shù)可能帶來的隱患,可以在借鑒參考AI for selection項(xiàng)目做法的基礎(chǔ)之上,從制度、意識(shí)、資源和業(yè)務(wù)等層面進(jìn)行風(fēng)險(xiǎn)防范,以保持我國(guó)檔案工作良性運(yùn)行,維持檔案業(yè)務(wù)與技術(shù)之間平衡協(xié)調(diào)發(fā)展。
為加快推動(dòng)我國(guó)檔案領(lǐng)域深入應(yīng)用人工智能技術(shù),防范人工智能應(yīng)用于檔案鑒定帶來的風(fēng)險(xiǎn),還需以法律和行業(yè)標(biāo)準(zhǔn)來引導(dǎo)和規(guī)范人工智能技術(shù)在檔案領(lǐng)域的應(yīng)用行為。首先,制定檔案智能鑒定系統(tǒng)開發(fā)和應(yīng)用的規(guī)范標(biāo)準(zhǔn)。英國(guó)國(guó)家檔案館在研究和探索人工智能支持和優(yōu)化檔案鑒定的過程中,形成了一份面向各文件管理部門的指導(dǎo)手冊(cè)《在政府中使用AI進(jìn)行電子文件鑒定》,為希望在電子文件鑒定工作中應(yīng)用人工智能的政府部門提供技術(shù)、市場(chǎng)、管理等方面的建議。當(dāng)前,我國(guó)檔案智能鑒定系統(tǒng)的建立過程中許多量化指標(biāo)還難以確定,可以參考該項(xiàng)目的經(jīng)驗(yàn),對(duì)電子文件鑒定應(yīng)用的AI技術(shù)、評(píng)估指標(biāo)設(shè)計(jì)等方面加以明確,為檔案智能鑒定的落地提供指導(dǎo)。其次,界定檔案管理主體權(quán)責(zé)。建立法律法規(guī)是以普遍存在的社會(huì)事實(shí)為約束對(duì)象,對(duì)潛在風(fēng)險(xiǎn)尚無力防范[11]。然而一旦機(jī)器鑒定結(jié)果有誤,又會(huì)因法律法規(guī)的不完善導(dǎo)致檔案機(jī)構(gòu)和人員承受巨大損失,法律法規(guī)應(yīng)起作用和實(shí)起作用之間的差距使得檔案領(lǐng)域深入應(yīng)用AI技術(shù)存在猶豫和遲疑。為此,需要明確檔案主管部門領(lǐng)導(dǎo)、機(jī)器學(xué)習(xí)模型設(shè)計(jì)者、檔案工作者等主體的責(zé)任劃分,從而在法律保障層面推動(dòng)人工智能在檔案鑒定工作中的深化應(yīng)用。
“智慧”的根源在于人,而非智能技術(shù)。在意識(shí)層面,我國(guó)檔案界應(yīng)回歸價(jià)值理性,重構(gòu)和完善檔案鑒定理論體系,讓檔案鑒定理論與技術(shù)深度融合,以紓解偏差偏見風(fēng)險(xiǎn)。首先,秉持價(jià)值理性。檔案鑒定不應(yīng)完全由人工智能的技術(shù)理性所牽制[12],AI for selection項(xiàng)目也指出檔案工作者所具備的關(guān)于檔案鑒定的知識(shí)對(duì)于有效運(yùn)作AI工具至關(guān)重要。在探索檔案鑒定智能化過程中,如何實(shí)現(xiàn)檔案工作價(jià)值理性地發(fā)揮是不可規(guī)避的問題。為此,需要在智能鑒定工作中考量情感需求、聚焦人文關(guān)懷,將真實(shí)、客觀、公平、向善等原則嵌入鑒定標(biāo)準(zhǔn)中。從整體層面思考檔案鑒定與文化、記憶之間的關(guān)系,檔案鑒定需具備更多的包容性,以呈現(xiàn)豐富多樣和與社會(huì)真相對(duì)稱的立體結(jié)構(gòu)[13]。其次,重構(gòu)檔案鑒定理論體系。一是要充分吸收既有經(jīng)典理論的有益成分。宏觀鑒定法雖獲得較為廣泛的認(rèn)可,但因其中的職能分析模塊難于把握,在應(yīng)用當(dāng)中仍然面臨一些困難。數(shù)字環(huán)境下,將抽象的宏觀鑒定論細(xì)化為具體指南不可避免。二是基于檔案屬性、內(nèi)容與來源背景、價(jià)值實(shí)現(xiàn)方式鑒定[14],構(gòu)建與完善檔案鑒定理論體系。通過將更為完備的檔案鑒定理論與Al技術(shù)深度融合,以減少AI技術(shù)造成的偏差、偏見。
《在政府中使用AI進(jìn)行電子文件鑒定》中提出不同的文件類型如文本、媒體和圖像等可能需要不同的模型。在資源層面,需要依托足夠的檔案數(shù)據(jù)及專家知識(shí),通過大量訓(xùn)練數(shù)據(jù)集檢驗(yàn)和優(yōu)化鑒定模型及規(guī)則,以獲得更為準(zhǔn)確的鑒定結(jié)果。首先,夯實(shí)數(shù)據(jù)基礎(chǔ),為人工智能深度分析提供支撐。AI for selection項(xiàng)目建議在選擇訓(xùn)練數(shù)據(jù)時(shí)檔案工作者需要重點(diǎn)考慮數(shù)據(jù)的質(zhì)量和數(shù)量。一是需要打好檔案數(shù)據(jù)資源基礎(chǔ),檔案工作者應(yīng)意識(shí)到重復(fù)文件的普遍性,確保訓(xùn)練數(shù)據(jù)的多樣性,準(zhǔn)備初始數(shù)據(jù)以及設(shè)定用于價(jià)值判定的關(guān)鍵詞、密級(jí)判定的敏感詞等。二是需要大規(guī)模的訓(xùn)練數(shù)據(jù)集對(duì)機(jī)器進(jìn)行訓(xùn)練,隨著訓(xùn)練集數(shù)量越大,學(xué)習(xí)結(jié)果的準(zhǔn)確率將越高。其次,優(yōu)化鑒定指標(biāo)、模型和規(guī)則。一是基于檔案鑒定理論,以及檔案的真實(shí)、完整、可靠等屬性,構(gòu)建檔案鑒定理論框架模型,設(shè)定鑒定標(biāo)準(zhǔn)、指標(biāo)、原則等,并將其轉(zhuǎn)化為算法表達(dá)??梢詫?duì)接ISO 15489檔案管理標(biāo)準(zhǔn),設(shè)定多維度多變量的衡量標(biāo)準(zhǔn)[15],以此搭建檔案鑒定理論框架。二是在遵循既定規(guī)則的基礎(chǔ)上,充分利用人工智能技術(shù)從訓(xùn)練和測(cè)試中歸納總結(jié)電子文件共性,并以此來反哺既定規(guī)則,通過不斷完善和發(fā)展檔案鑒定規(guī)則以更準(zhǔn)確高效地完成檔案鑒定。
AI for selection項(xiàng)目指出AI無法取代檔案工作者的專長(zhǎng),檔案工作未來在很長(zhǎng)一段時(shí)間將會(huì)是人機(jī)共存、人機(jī)互補(bǔ)的模式。為此,從業(yè)務(wù)層面看,可以通過積極探索人機(jī)協(xié)同共生,以及廣泛吸納社會(huì)公眾參與兩條路徑有效防范運(yùn)用AI技術(shù)進(jìn)行檔案歸檔鑒定的風(fēng)險(xiǎn)。首先,檔案工作者應(yīng)樹立人機(jī)共存的思維,積極探索與人工智能協(xié)同共生。一是積極應(yīng)對(duì)人工智能時(shí)代帶來的挑戰(zhàn),不斷提高自身創(chuàng)新能力,發(fā)展與人工智能技術(shù)融合能力。二是由于目前認(rèn)知智能的發(fā)展仍不夠成熟完備,檔案人員應(yīng)避免過于依賴技術(shù),將檔案價(jià)值判定工作脫離人類經(jīng)驗(yàn)和認(rèn)知而完全交由機(jī)器,應(yīng)當(dāng)探索人機(jī)互補(bǔ)的模式以提升檔案鑒定質(zhì)效。其次,吸納社會(huì)公眾參與檔案鑒定。2020年修訂的《中華人民共和國(guó)檔案法》中指出“國(guó)家鼓勵(lì)社會(huì)力量參與和支持檔案事業(yè)的發(fā)展”,為社會(huì)公眾參與檔案鑒定提供了法律依據(jù)。在以往的檔案鑒定模式中,不論是由立檔單位鑒定、檔案工作者鑒定,還是由學(xué)科專家、政治家等合作鑒定,決定權(quán)始終把握在少部分人手中。顯然,同任何決策過程一樣,試圖將所有社會(huì)相關(guān)群體納入決策圈并不現(xiàn)實(shí)。但在網(wǎng)絡(luò)空間中,隨著人工智能技術(shù)的發(fā)展,檔案價(jià)值鑒定可以吸納公眾參與其中,社會(huì)公眾的智慧與力量將逐漸得以凸顯。