国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能在檔案資源開發(fā)利用中的應(yīng)用分析*

2021-08-04 02:41李歡施瑞婷張潔
山西檔案 2021年2期
關(guān)鍵詞:檢索人工智能資源

李歡 施瑞婷 張潔

(1.上海大學(xué)圖書情報(bào)檔案系 上海 200444;2.澳門城市大學(xué)人文社會(huì)科學(xué)學(xué)院澳門 999078;3.南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 南京 210000)

人工智能簡(jiǎn)稱AI,是本世紀(jì)三大尖端技術(shù)之一。其提出者麥卡錫認(rèn)為它是“研制智能機(jī)器的一門科學(xué)與技術(shù)”。具體而言,人工智能是研究、開發(fā)用于模擬和擴(kuò)展人的智能的理論、方法、技術(shù)和應(yīng)用系統(tǒng)的一門技術(shù)科學(xué)。[1]目前,人工智能是驅(qū)動(dòng)科技革命和產(chǎn)業(yè)變革的重要力量。2017年我國(guó)將人工智能上升為國(guó)家戰(zhàn)略,2018年中國(guó)檔案學(xué)會(huì)年會(huì)關(guān)于人工智能的大會(huì)主旨發(fā)言引發(fā)檔案學(xué)界廣泛關(guān)注。因此,如何推動(dòng)新形勢(shì)下檔案資源的開發(fā)利用值得思考。

1 國(guó)內(nèi)外研究現(xiàn)狀

現(xiàn)階段國(guó)內(nèi)關(guān)于檔案與人工智能的文獻(xiàn)研究主要發(fā)表于2018--2020年。截止到2020年10月31日,在中國(guó)知網(wǎng)(CNKI)中限定“檔案及博物館”學(xué)科進(jìn)行“人工智能”AND“檔案”主題檢索,共得到文獻(xiàn)170篇,其中僅2019年就達(dá)到67篇,表明檔案學(xué)界對(duì)人工智能的關(guān)注。(詳見圖1)。

圖1 上述主題檢索文獻(xiàn)年度發(fā)文量

既有文獻(xiàn)的研究?jī)?nèi)容主要集中在人工智能在檔案管理中的實(shí)踐分析及理論總結(jié)、人工智能對(duì)檔案職業(yè)的影響分析、人工智能在檔案界應(yīng)用前景的分析這三個(gè)方面。而國(guó)外的相關(guān)研究則更加注重人工智能應(yīng)用于檔案管理的實(shí)踐研究。

1.1 國(guó)內(nèi)研究現(xiàn)狀

關(guān)于人工智能在檔案管理中的實(shí)踐分析,陳會(huì)明介紹了北京市市場(chǎng)監(jiān)督管理局的檔案智能化應(yīng)用狀況。[2]楊靖在實(shí)踐基礎(chǔ)上分析了人工智能對(duì)智慧檔案館的驅(qū)動(dòng)作用,分析其在個(gè)性化服務(wù)系統(tǒng)建設(shè)、保障檔案存儲(chǔ)安全等方面的作用。[3]楊建梁則探討了檔案管理的復(fù)雜性等現(xiàn)實(shí)因素將是機(jī)器學(xué)習(xí)的挑戰(zhàn)。[4]因此,對(duì)檔案管理而言,人工智能技術(shù)是機(jī)遇也是挑戰(zhàn)。

關(guān)于人工智能對(duì)檔案職業(yè)的影響分析,張會(huì)超提到人工智能未來將促進(jìn)檔案人員的分化和分流;[5]馮永光指出人工智能能夠促進(jìn)檔案工作者轉(zhuǎn)變思維,變成檔案整合者、共享者、安全守護(hù)者;[6]而曹航認(rèn)為在技術(shù)環(huán)境下,檔案工作者的工作方式將轉(zhuǎn)變?yōu)槿藱C(jī)協(xié)同模式。[7]由此可見,隨著科技的演進(jìn),檔案工作者的思維方式和所扮演的角色一直在發(fā)生轉(zhuǎn)變。

關(guān)于人工智能在檔案界應(yīng)用前景的分析,林凱提到人工智能在檔案工作中的應(yīng)用不能只是噱頭,如何實(shí)現(xiàn)人工智能與檔案服務(wù)的融合,提高檔案信息服務(wù)公眾的質(zhì)量和水平是需要思考的。[8]此外,《國(guó)務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知》強(qiáng)調(diào)開展跨學(xué)科研究的重要性,這意味著數(shù)字環(huán)境下,檔案工作未來的發(fā)展勢(shì)必要向其他學(xué)科借鑒。

1.2 國(guó)外研究現(xiàn)狀

國(guó)外的相關(guān)研究尤其注重人工智能應(yīng)用于檔案管理的實(shí)踐,包括檔案文本智能識(shí)別、檔案鑒定、檔案服務(wù)等。2018年,一個(gè)名為In Codice Ratio的項(xiàng)目將人工智能與光學(xué)字符識(shí)別軟件進(jìn)行組合,成功轉(zhuǎn)錄了梵蒂岡秘密館中的文本,實(shí)現(xiàn)復(fù)雜古籍的電子化;[9]2019年,為了提升音視頻檢索的便利性,Markus Mühling等人利用人工智能技術(shù)設(shè)計(jì)了自動(dòng)視頻分析檢索系統(tǒng);同年,Gregory Rolan介紹了澳大利亞檔案館及政府機(jī)構(gòu)開展的人工智能技術(shù)在文本記錄保存中的應(yīng)用這一項(xiàng)目的最新進(jìn)展。[10]而美國(guó)也用人工智能對(duì)唐納德·特朗普(Donald Trump)的部分發(fā)言進(jìn)行了實(shí)時(shí)轉(zhuǎn)錄,得到了能夠更加方便、快捷被利用的檔案文本。日本設(shè)立了“重啟記憶”黑白照片彩色化項(xiàng)目,科研團(tuán)隊(duì)采用人工智能照片著色軟件,將部分戰(zhàn)爭(zhēng)黑白照片檔案彩色化,[11]實(shí)現(xiàn)照片檔案喚醒主體戰(zhàn)爭(zhēng)記憶的價(jià)值。此外,國(guó)外的相關(guān)研究還提出了技術(shù)應(yīng)用的風(fēng)險(xiǎn)問題,2020年英國(guó)信息與文件管理協(xié)會(huì)以理性的態(tài)度從正反兩個(gè)角度分析了人工智能的影響。[12]

總之,“檔案管理與技術(shù)世界不是平行的兩個(gè)系統(tǒng),相反,技術(shù)世界與檔案管理一直如影隨形。”[13]人工智能的應(yīng)用促進(jìn)技術(shù)的換代革新,“數(shù)字時(shí)代檔案開發(fā)將從表征轉(zhuǎn)向深度復(fù)雜計(jì)算,檔案利用從單一轉(zhuǎn)向高階多維價(jià)值發(fā)現(xiàn),關(guān)鍵技術(shù)將從分布離散應(yīng)用轉(zhuǎn)向融合協(xié)同創(chuàng)新?!盵14]但技術(shù)變革存在風(fēng)險(xiǎn),如何使人工智能更好地融入檔案發(fā)展,從而更好地管理檔案、保障其實(shí)體信息安全以及充分開發(fā)利用檔案資源也尤為重要。這也是本文將要探討的內(nèi)容。

2 人工智能在檔案資源開發(fā)利用中的應(yīng)用現(xiàn)狀

據(jù)相關(guān)統(tǒng)計(jì)報(bào)告顯示:2018年末,我國(guó)各級(jí)各類檔案館共4210個(gè),而已開放檔案有14016萬卷(件),仍有海量檔案資源未開發(fā)利用。人工智能時(shí)代的智能語音技術(shù)、光學(xué)字符識(shí)別技術(shù)、人臉識(shí)別技術(shù)等能夠多方助力檔案資源的開發(fā)與利用。

2.1 智能語音技術(shù)助力檔案資源文本化

檔案資源類型多樣,既包括紙質(zhì)檔案、電子檔案等靜態(tài)檔案,也包括動(dòng)態(tài)的音視頻檔案。目前,全國(guó)館藏的音視頻檔案有近47萬GB,相比文本檔案,音視頻檔案的利用受到諸多限制,其中就包括對(duì)于播放條件與設(shè)備的要求以及不同語種間的溝通障礙。而智能語音識(shí)別技術(shù)的應(yīng)用能幫助解決音視頻檔案利用中的困境,實(shí)現(xiàn)檔案使用的便捷化。

智能語音是實(shí)現(xiàn)人與機(jī)器以語言為紐帶的交流,相關(guān)研發(fā)工作起步較早,1980年就已出現(xiàn)兩項(xiàng)非常重要的技術(shù):隱馬爾科夫模型(HMM)與N-gram語言模型,而當(dāng)前深度神經(jīng)網(wǎng)絡(luò)(DNN)的應(yīng)用更強(qiáng)化了語音識(shí)別的準(zhǔn)確性。其識(shí)別準(zhǔn)確率于2016年首次超過人類水平,進(jìn)入可應(yīng)用階段。[15]智能語音識(shí)別系統(tǒng)的運(yùn)行包含五個(gè)流程:語音信號(hào)的采樣模塊、前期處理模塊、特征參數(shù)提取模塊、識(shí)別核心模塊和識(shí)別后期處理模塊。[16]通過上述運(yùn)行過程能為音視頻檔案自動(dòng)翻譯匹配字幕或?qū)崿F(xiàn)文本轉(zhuǎn)錄。目前科大訊飛公司研發(fā)的檔案機(jī)采用語音識(shí)別技術(shù)實(shí)現(xiàn)音視頻檔案自動(dòng)轉(zhuǎn)換及文本生成,10分鐘完成1小時(shí)錄音的轉(zhuǎn)換。當(dāng)前許多口述檔案資源的收集、整理與利用也因語音識(shí)別技術(shù)的發(fā)展而實(shí)現(xiàn)了即刻文本轉(zhuǎn)化。

2.2 光學(xué)字符識(shí)別技術(shù)助力檔案資源數(shù)字化

光學(xué)字符識(shí)別(Optical Character Recognition)簡(jiǎn)稱OCR,其原理是通過計(jì)算機(jī)實(shí)現(xiàn)文字的掃描識(shí)別與數(shù)字化形式轉(zhuǎn)錄。該系統(tǒng)的運(yùn)行主要為六大流程:影像采集、影像前處理、文字特征提取、比對(duì)辨別、人工校正、結(jié)果輸出。[17]目前,OCR技術(shù)對(duì)書寫規(guī)范、圖像清晰的文本容易實(shí)現(xiàn)高準(zhǔn)確率轉(zhuǎn)錄,而檔案古籍文獻(xiàn)常包含的復(fù)雜古舊文字等通常影響轉(zhuǎn)錄準(zhǔn)確度。

In Codice Ratio項(xiàng)目通過人工智能與OCR的結(jié)合較精準(zhǔn)轉(zhuǎn)錄梵蒂岡秘密館中部分古籍文本。項(xiàng)目最初采用的OCR因古籍手稿的復(fù)雜而出現(xiàn)單詞劃分與匹配錯(cuò)誤,形成“塞爾悖論”。此后,項(xiàng)目結(jié)合人工智能技術(shù),設(shè)計(jì)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)語言模型的原則性解決方案,即改用拼圖分割法。首先通過視覺模式匹配訓(xùn)練OCR系統(tǒng)進(jìn)行字母識(shí)別,然后研究者訓(xùn)練系統(tǒng)辨認(rèn)常見字母組合,最終系統(tǒng)便成為能獨(dú)立閱讀部分文本的專家,實(shí)現(xiàn)了96%的準(zhǔn)確率轉(zhuǎn)錄。[18]在國(guó)內(nèi),安徽省檔案館也和科大訊飛開展檔案古籍識(shí)別合作。目前簡(jiǎn)體手寫和民國(guó)繁體文書識(shí)別率分別達(dá)到90%和85%,達(dá)到可用水平。[19]總之人工智能與OCR結(jié)合可以強(qiáng)化系統(tǒng)智能化識(shí)別能力,從而實(shí)現(xiàn)檔案資源的高準(zhǔn)確率數(shù)字化轉(zhuǎn)錄,促使庫(kù)房中沉睡的檔案資源,尤其是檔案古籍更好得到開發(fā)利用。

2.3 人臉識(shí)別技術(shù)助力檔案識(shí)別高效化

人臉識(shí)別技術(shù)是通過攝像設(shè)備將所識(shí)別的面部文件轉(zhuǎn)為面部編碼,與數(shù)據(jù)庫(kù)中的編碼進(jìn)行比對(duì),以達(dá)到面部辨認(rèn)目的。目前該項(xiàng)技術(shù)的識(shí)別準(zhǔn)確度高達(dá)99.5%,已然接近100%。[20]

雖然人臉識(shí)別憑借高精度、高效便捷性等特征應(yīng)用廣泛,但在檔案資源開發(fā)利用領(lǐng)域的實(shí)踐案例較少。國(guó)泰君安企業(yè)曾成功將人臉識(shí)別技術(shù)應(yīng)用于公司內(nèi)部和客戶留存的共20T聲像檔案中,經(jīng)過視頻預(yù)處理、建立人臉數(shù)據(jù)庫(kù)、視頻檢索的流程實(shí)現(xiàn)人臉識(shí)別技術(shù)的應(yīng)用,[21]達(dá)到識(shí)別檢索的高效化和精準(zhǔn)化。通過人臉識(shí)別技術(shù),不僅彌補(bǔ)了因缺少文字語言描述無法檢索公司內(nèi)部人員信息的短板,而且也實(shí)現(xiàn)了客戶身份的快速識(shí)別與核實(shí),降低業(yè)務(wù)風(fēng)險(xiǎn)。此案例將人臉識(shí)別技術(shù)與檔案的結(jié)合發(fā)揮良好示范作用,我國(guó)有海量的聲像檔案資源,若能有效運(yùn)用人臉識(shí)別技術(shù)對(duì)此進(jìn)行處理,將進(jìn)一步提高聲像檔案的利用率。

2.4 綜合技術(shù)助力檔案檢索智能化

檢索是檔案資源實(shí)現(xiàn)高效便捷利用的必要手段,因而一直是檔案工作研究的重要對(duì)象。目前,數(shù)字化檔案信息檢索主要依靠以案卷為單位著錄形成的索引,一般檢索流程如圖2所示:

圖2 檔案檢索流程簡(jiǎn)圖

上述傳統(tǒng)檢索系統(tǒng)存在不足,不僅固定且更新慢的著錄規(guī)則限制了精準(zhǔn)檢索,且無法實(shí)現(xiàn)跨平臺(tái)、跨系統(tǒng)、跨類型的檢索。而檔案智能檢索是通過實(shí)施語義理解、邏輯推理與學(xué)習(xí)、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等環(huán)節(jié),對(duì)檔案資源進(jìn)行智能存儲(chǔ)、提取和分析等,實(shí)現(xiàn)系統(tǒng)模擬人的智能水平,彌補(bǔ)傳統(tǒng)檢索不足。[22]

當(dāng)前對(duì)檔案智能檢索的研究尚處于探索階段,較有代表性的是呂元智、于力春等學(xué)者關(guān)于語義檢索的探討。于力春指出,通過文本自動(dòng)提取、基于概念關(guān)系的自動(dòng)文本分詞技術(shù)、構(gòu)建基于本體的檔案信息模型、語義標(biāo)注與語義查詢等技術(shù)能夠構(gòu)建出檔案檢索系統(tǒng)。[23]面向用戶的語義檢索可增強(qiáng)檢索內(nèi)容的主體相關(guān)性,提高檢全率和檢準(zhǔn)率,因而在多媒體檔案查詢中有其應(yīng)用價(jià)值。2017年,Markus Mühling等人致力于研究為視頻自動(dòng)分配語義標(biāo)簽實(shí)現(xiàn)精準(zhǔn)檢索。該系統(tǒng)采用視覺概念分類、相似搜索、人物識(shí)別和視頻OCR算法等技術(shù),對(duì)視頻內(nèi)容添加語義標(biāo)簽。[24]但由于技術(shù)的復(fù)雜性,語義檢索系統(tǒng)尚未進(jìn)入大規(guī)模應(yīng)用階段,Markus Mühling等研發(fā)的系統(tǒng)也僅在德國(guó)廣播檔案館進(jìn)行了實(shí)踐操作,但為今后智能檢索系統(tǒng)研發(fā)提供思路。

3 人工智能在檔案資源開發(fā)利用中的困境

目前,人工智能處在不斷發(fā)展完善的過程中,并未達(dá)到強(qiáng)人工智能階段,且在檔案領(lǐng)域中的應(yīng)用才剛起步,因而在檔案資源開發(fā)利用中存在問題。

3.1 資源層面:檔案資源類型復(fù)雜

前文已述及,智能語音技術(shù)、光學(xué)字符識(shí)別技術(shù)分別通過識(shí)別音頻與文本實(shí)現(xiàn)相應(yīng)轉(zhuǎn)錄。而實(shí)現(xiàn)上述目標(biāo)的前提是算法對(duì)海量檔案數(shù)據(jù)的學(xué)習(xí),從而使機(jī)器擁有龐大的語音和文字語料庫(kù),最終才能實(shí)現(xiàn)檔案的準(zhǔn)確識(shí)別。但是檔案資源數(shù)量龐大且類型多樣,算法學(xué)習(xí)未必能覆蓋全部相關(guān)資源類型及內(nèi)容。一方面,部分復(fù)雜的檔案資料,如方言記載的檔案或以少數(shù)民族語言文字記載的文獻(xiàn)等,都給機(jī)器學(xué)習(xí)和人工智能識(shí)別造成阻礙;另一方面,同一份檔案內(nèi)若包含文字、圖片、表格圖形等多種類型的復(fù)雜信息,進(jìn)行人工智能處理時(shí)也會(huì)遇到難題。目前人工智能還處于弱人工智能階段,不具備獨(dú)立解決問題的能力,一旦遇上機(jī)器無法識(shí)別的口音和文字類型,將出現(xiàn)識(shí)別錯(cuò)誤。即使識(shí)別成功,也屬于機(jī)器識(shí)別,與人工識(shí)別仍有差距,因而在處理復(fù)雜問題時(shí)容易出現(xiàn)偏差,識(shí)別準(zhǔn)確率并非100%,在轉(zhuǎn)錄時(shí)也可能會(huì)影響到檔案資料的真實(shí)可靠性。

3.2 理念層面:檔案理念指導(dǎo)脫節(jié)

人工智能應(yīng)用的目的是促進(jìn)檔案資源的開發(fā)利用,而技術(shù)實(shí)踐與理念指導(dǎo)的脫節(jié)也是制約技術(shù)應(yīng)用的重要因素。一方面,有研究指出,當(dāng)前我國(guó)檔案館、室仍以行政導(dǎo)向?yàn)闄n案資源開發(fā)的重要驅(qū)動(dòng)力,該開發(fā)導(dǎo)向甚至是個(gè)別地區(qū)的唯一動(dòng)力。[25]這種服務(wù)理念可能會(huì)使技術(shù)應(yīng)用更注重政務(wù)檔案資源的開發(fā)利用,而忽略社會(huì)大眾對(duì)于其他類型檔案信息的利用需求。另一方面,我國(guó)檔案信息資源開發(fā)理念是以粗放投入和忽視效益為主,且開發(fā)對(duì)象以單一結(jié)構(gòu)和淺層檢索為主。[26]這種開發(fā)理念和開發(fā)對(duì)象可能會(huì)使得技術(shù)、資金等資源重復(fù)或過量投入、追求一時(shí)成果而忽略長(zhǎng)期效益。也可能會(huì)導(dǎo)致未考慮館藏檔案資源的特點(diǎn)而盲目進(jìn)行數(shù)字化轉(zhuǎn)錄,未把握用戶需求而使相應(yīng)檢索系統(tǒng)的設(shè)計(jì)不具有實(shí)用性和針對(duì)性,造成系統(tǒng)利用率低等問題的出現(xiàn)。此類實(shí)踐既損耗了機(jī)器,又未真正實(shí)現(xiàn)檔案服務(wù),應(yīng)當(dāng)盡可能地避免。檔案資源開發(fā)利用的相關(guān)理念需進(jìn)行調(diào)整,以發(fā)揮指引作用,使人工智能技術(shù)的應(yīng)用具有問題導(dǎo)向性,在達(dá)到節(jié)約資源的同時(shí),能夠最優(yōu)化地滿足大眾的檔案利用需求。

3.3 技術(shù)層面:隱私存在泄露風(fēng)險(xiǎn)

大數(shù)據(jù)時(shí)代,人工智能可以通過多元數(shù)據(jù)分析用戶瀏覽行為,形成推測(cè)性信息實(shí)現(xiàn)個(gè)性化服務(wù),但技術(shù)帶來便利的同時(shí)也導(dǎo)致用戶信息被泄露。如:2018年爆出超過1.2億臉書用戶信息數(shù)據(jù)泄露丑聞。同年,美國(guó)運(yùn)動(dòng)品牌Under Armour的某APP1.5億用戶的名稱、郵箱、和密碼等數(shù)據(jù)泄露事件發(fā)生。[27]目前檔案信息資源服務(wù)平臺(tái)的構(gòu)建一般都是外包,即利用者進(jìn)入網(wǎng)站形成的個(gè)人信息,如用戶名稱、聯(lián)系電話、IP地址、身份證號(hào)等會(huì)被外包公司收集,因而關(guān)系到公眾隱私保密問題。據(jù)相關(guān)調(diào)查顯示:截止到2019年10月14日,我國(guó)31個(gè)省級(jí)行政區(qū)(不含港澳臺(tái))及其省會(huì)城市共58個(gè)檔案館網(wǎng)站中只有4個(gè)檔案網(wǎng)站設(shè)有隱私政策。[28]同時(shí)既有研究也分析了人臉識(shí)別技術(shù)應(yīng)用于個(gè)人電子檔案管理中存在的主體信息泄露法律風(fēng)險(xiǎn)。[29]這些都暴露出當(dāng)前我國(guó)檔案數(shù)字化服務(wù)平臺(tái)對(duì)用戶隱私保護(hù)意識(shí)和保護(hù)行動(dòng)的欠缺。因而人工智能技術(shù)在檔案資源管理方面的大規(guī)模應(yīng)用尚需相關(guān)技術(shù)的加持,以保護(hù)用戶隱私安全,實(shí)現(xiàn)檔案服務(wù)的優(yōu)質(zhì)化。

3.4 倫理層面:人工智能倫理困境

人工智能的核心是算法,而人們也越發(fā)依賴算法形成的人工智能系統(tǒng)進(jìn)行決策。但由于算法和系統(tǒng)必須依賴相關(guān)主體嵌入相應(yīng)程序,甚至通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)完成,因此相關(guān)主體的價(jià)值取向影響著人工智能系統(tǒng)的公正性與客觀性。[30]當(dāng)研發(fā)人員將其主觀的偏見、好惡、歧視等思想帶入人工智能系統(tǒng),便可能產(chǎn)生倫理問題。如微軟開發(fā)的聊天機(jī)器人Tay因吸收了種族主義歧視等有違倫理道德的信息,對(duì)社會(huì)產(chǎn)生了不良影響,使其上線24小時(shí)后便被終止。[31]而在檔案資源開發(fā)過程中,同樣存在潛在的倫理問題。利用人工智能對(duì)檔案圖像進(jìn)行識(shí)別以及對(duì)視頻檔案資源進(jìn)行標(biāo)簽化處理時(shí),研究人員通過算法將黑人錯(cuò)誤標(biāo)記為黑猩猩或猿猴等案例都違背了倫理道德觀。因此,算法引發(fā)的種族和性別歧視、社會(huì)公平正義等問題都是需要直面的倫理困境,這將是人工智能造福人類的重要阻礙。

4 人工智能在檔案資源開發(fā)利用中的優(yōu)化策略

由于人工智能在檔案領(lǐng)域的應(yīng)用面臨著上述現(xiàn)實(shí)困境,因而可從技術(shù)、理念、信息素養(yǎng)和法律救濟(jì)等方面入手,盡可能地避免社會(huì)問題、解決上述困境,并且從有助于檔案資源開發(fā)利用的角度提出人工智能的優(yōu)化策略。

4.1 關(guān)鍵技術(shù)聚焦

針對(duì)檔案資源的復(fù)雜性和多樣化,在開發(fā)應(yīng)用于檔案領(lǐng)域的智能語音以及OCR、人臉識(shí)別等技術(shù)時(shí),應(yīng)根據(jù)檔案類型進(jìn)行相應(yīng)技術(shù)的聚焦。如:識(shí)別語言、文字的算法并非是通用的,而是根據(jù)不同檔案內(nèi)容進(jìn)行相應(yīng)大量算法學(xué)習(xí)使系統(tǒng)形成專門海量數(shù)據(jù)庫(kù),進(jìn)而將語言或文字進(jìn)行智能識(shí)別轉(zhuǎn)化,達(dá)到檔案利用便捷目的。2018年,國(guó)家檔案局檔案科學(xué)技術(shù)研究所與科大訊飛雙方達(dá)成合作共識(shí),聚焦人工智能在識(shí)別民國(guó)繁體文書類檔案的應(yīng)用中取得進(jìn)展。[32]另外國(guó)外也有學(xué)者提出建立“全球語言檔案館”的設(shè)想,逐步開展利用人工智能聚焦不同種類語言的歸檔工作。目前雖然人工智能為檔案工作帶來機(jī)遇,但技術(shù)應(yīng)用并非是任意選擇的,因此面對(duì)檔案資源類型多樣的現(xiàn)實(shí)特征,人工智能需要相應(yīng)的技術(shù)聚焦進(jìn)行對(duì)應(yīng)資源開發(fā)。

4.2 檔案理念調(diào)整

關(guān)于檔案理念的調(diào)整,首先,檔案部門應(yīng)樹立以人為本、開放合作的理念。一方面檔案工作者需改變以行政為導(dǎo)向的開發(fā)理念,應(yīng)堅(jiān)持技術(shù)是為大多數(shù)人服務(wù)的思想,理解技術(shù)應(yīng)用的最終目的是發(fā)掘有研究?jī)r(jià)值的檔案資源,傳達(dá)檔案中的精神內(nèi)涵,盡可能滿足不同群體的文化需求,而不是在行政單一導(dǎo)向基礎(chǔ)上形成以技術(shù)為主導(dǎo)的盲目的檔案實(shí)踐研究;另一方面檔案部門應(yīng)開放包容,積極與相關(guān)技術(shù)部門合作,促進(jìn)人工智能對(duì)檔案資源的深入開發(fā)及對(duì)用戶現(xiàn)實(shí)及潛在需求的挖掘,實(shí)現(xiàn)檔案資源的人性化、個(gè)性化服務(wù)。其次,檔案部門在注重社會(huì)效益的同時(shí)也應(yīng)注重經(jīng)濟(jì)效益。目前我國(guó)檔案資源的開發(fā)主要關(guān)注政治和社會(huì)效益,而忽略了經(jīng)濟(jì)效益,因此形成粗放式、低效率的開發(fā)模式,并在一定程度上造成了所投入的人力、物力和資金的浪費(fèi),技術(shù)應(yīng)用也未實(shí)現(xiàn)預(yù)期效果。因此應(yīng)注重檔案開發(fā)利用的經(jīng)濟(jì)效益,使技術(shù)、人才等資源有效合理投入,實(shí)現(xiàn)檔案價(jià)值最大化。

4.3 用戶信息加密

人工智能的應(yīng)用是海量數(shù)據(jù)的集聚與分析,數(shù)據(jù)搜集實(shí)現(xiàn)精準(zhǔn)服務(wù)的同時(shí),用戶信息泄露也成常態(tài)。目前檔案數(shù)字化平臺(tái)的建設(shè)仍然存在用戶個(gè)人信息泄露的隱患,因此為保障人工智能技術(shù)應(yīng)用中檔案利用者的信息安全,需要運(yùn)用相應(yīng)的技術(shù)對(duì)用戶信息加密。如今,區(qū)塊鏈廣泛應(yīng)用于各大行業(yè),其非對(duì)稱加密技術(shù)能夠保障數(shù)據(jù)傳輸安全,一旦應(yīng)用于檔案領(lǐng)域,不僅能確保檔案信息的傳輸安全,也能確保用戶信息傳輸?shù)陌踩?。同時(shí),其可追溯技術(shù)使平臺(tái)既能記錄用戶的瀏覽痕跡并據(jù)此打造精準(zhǔn)的用戶畫像,為利用者提供個(gè)性化的檔案信息服務(wù);且對(duì)相關(guān)的賬戶名稱、IP地址、身份證號(hào)等隱私進(jìn)行加密,確保數(shù)據(jù)不會(huì)泄露。因此,為了優(yōu)化人工智能在檔案資源開發(fā)利用中的應(yīng)用,研發(fā)者可考慮加密技術(shù)的嵌入,構(gòu)建更為安全可靠的平臺(tái),解決用戶利用檔案的隱私泄露風(fēng)險(xiǎn)問題。

4.4 信息素養(yǎng)與法律救濟(jì)

研發(fā)者通過算法賦予人工智能讀取、識(shí)別能力,而該技術(shù)本身幾乎不具備自我判斷、抉擇能力,因此研究人員的價(jià)值取向和價(jià)值判斷會(huì)影響人工智能的公正客觀性。為解決技術(shù)算法的倫理問題,應(yīng)從塑造研發(fā)人員正確的價(jià)值判斷與價(jià)值選擇著手。一方面應(yīng)強(qiáng)化研發(fā)人員的信息素養(yǎng)。人工智能系統(tǒng)的開發(fā)涉及到多方主體,研發(fā)理念提出者、算法設(shè)計(jì)者、程序檢測(cè)者等多類主體都需要接受信息素養(yǎng)的培訓(xùn),能夠秉承公正客觀的想法進(jìn)行系統(tǒng)設(shè)計(jì)、開發(fā)、運(yùn)行、監(jiān)督。另一方面,主管部門應(yīng)開通法律救濟(jì)途徑,解決已經(jīng)發(fā)生的倫理爭(zhēng)端。當(dāng)相應(yīng)人群在系統(tǒng)使用中發(fā)現(xiàn)存在偏見和歧視,就能借助救濟(jì)途經(jīng)進(jìn)行申訴,并得到及時(shí)回應(yīng)、處理,進(jìn)而對(duì)系統(tǒng)進(jìn)行改善,避免類似的違背倫理道德的問題再次出現(xiàn)??傊?,人工智能涉及到的倫理困境是必然面對(duì)也是必須解決的問題,需要多方主體協(xié)同解決。

5 結(jié)語

人工智能的出現(xiàn)與發(fā)展深刻影響了社會(huì),同時(shí)也為檔案資源開發(fā)利用帶來機(jī)遇。相關(guān)技術(shù)的研發(fā)能夠助力檔案資源的數(shù)字化、文本化并實(shí)現(xiàn)資源的高效檢索。但許多現(xiàn)實(shí)因素制約了其在檔案領(lǐng)域的全面應(yīng)用,而通過檔案理念調(diào)整、用戶信息加密、信息素養(yǎng)塑造等措施能夠優(yōu)化人工智能在檔案資源開發(fā)利用的應(yīng)用,期望檔案更好實(shí)現(xiàn)價(jià)值最大化。需要注意的是人工智能技術(shù)利弊共存,技術(shù)變革存在風(fēng)險(xiǎn),設(shè)備故障、數(shù)字環(huán)境缺失、數(shù)字信息泄露等問題不容忽視;同時(shí)智能設(shè)備出現(xiàn)道德倫理問題也是重要隱患。因此檔案工作者和研究者對(duì)前沿技術(shù)應(yīng)用前景期待的同時(shí),也應(yīng)以理性的態(tài)度對(duì)待技術(shù)在檔案資源開發(fā)利用中的應(yīng)用。

猜你喜歡
檢索人工智能資源
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
我給資源分分類
瑞典專利數(shù)據(jù)庫(kù)的檢索技巧
2019:人工智能
資源回收
人工智能與就業(yè)
做好綠色資源保護(hù)和開發(fā)
英國(guó)知識(shí)產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫(kù)信息檢索
數(shù)讀人工智能
下一幕,人工智能!