国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能在專題檔案收集工作中的應(yīng)用

2024-10-17 00:00:00鮑玲莉
檔案天地 2024年10期

人類正在步入人工智能時(shí)代,這是繼互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)之后又一次大的技術(shù)變革。人工智能的發(fā)展對(duì)社會(huì)生活方方面面產(chǎn)生了深刻影響。在多學(xué)科交叉發(fā)展的環(huán)境下,檔案事業(yè)同樣需要人工智能技術(shù)的參與,專題檔案的收集工作尤其需要人工智能技術(shù)的協(xié)助。

一、專題檔案收集工作的特點(diǎn)

專題檔案分兩大類,一類是以某一主題(事件)為歸檔對(duì)象的專題,與該主題有關(guān)的文書(shū)、圖片、實(shí)物等,譬如重大科研、鄉(xiāng)村振興等;另一類是以名人為歸檔對(duì)象,包含名人在其公務(wù)活動(dòng)、社會(huì)活動(dòng)和個(gè)人活動(dòng)中形成的具有保存價(jià)值的文件材料。專題檔案是以專題為核心的“專題全宗”,包含了與專題有關(guān)的所有有價(jià)值的材料,有紙質(zhì)、聲像、實(shí)物等多種形態(tài)。專題檔案在收集工作中呈現(xiàn)出以下特點(diǎn)。

(一)歸檔時(shí)間的不固定性

不同于其他門類檔案有固定的歸檔時(shí)間,專題檔案的歸檔時(shí)間是不固定的,主要根據(jù)選題的確定而決定,在時(shí)間上有前有后。

有些專題具有“前瞻性”,在事件發(fā)生之前就確定了選題,可以提前介入收集工作,通過(guò)“向前看”提升歸檔文件的質(zhì)量。譬如建黨周年慶,從建黨周年慶準(zhǔn)備階段就可以收集專題檔案材料,伴隨著建黨周年慶各項(xiàng)活動(dòng)的開(kāi)展,不停地收集,最終形成建黨周年慶專題。

有些專題具有“滯后性”,是在事件發(fā)生之后確定選題,事后收集,而這種“滯后”專題的檔案收集工作通常會(huì)比較困難,需要“回過(guò)頭”去查找與專題有關(guān)的文件資料等。譬如,高校根據(jù)名人專題檔案制度和校內(nèi)教職員工的科研成果、感人事跡等,確定建立某名人專題檔案,這類專題檔案需要從檔案保管部門存量檔案中收集與之有關(guān)的文書(shū)、照片等,對(duì)存量檔案的整理質(zhì)量提出了較高要求。而對(duì)非存量檔案的社會(huì)信息資源等,則需要名人主動(dòng)提供有關(guān)信息。

還有些專題兼具“滯后性”與“前瞻性”于一體,即確定選題時(shí),事件已經(jīng)發(fā)生,但還會(huì)繼續(xù)發(fā)生。該類專題檔案的收集既要“回過(guò)頭”,也要“向前看”。譬如脫貧攻堅(jiān)專題,早在2005年,國(guó)家就制定了“全面建設(shè)小康社會(huì)、消除貧困”的目標(biāo),實(shí)施了一系列脫貧計(jì)劃和政策,但直到2020年國(guó)家檔案局提出了要規(guī)范建設(shè)脫貧攻堅(jiān)專題檔案數(shù)據(jù)庫(kù),很多檔案部門才開(kāi)始重視脫貧攻堅(jiān)專題,“回過(guò)頭”去搜集相關(guān)材料、建立專題。2021年,我國(guó)脫貧攻堅(jiān)戰(zhàn)取得全面勝利,為了進(jìn)一步鞏固拓展脫貧攻堅(jiān)成果,接續(xù)推動(dòng)脫貧地區(qū)發(fā)展和鄉(xiāng)村全面振興,中共中央、國(guó)務(wù)院發(fā)布《關(guān)于實(shí)現(xiàn)鞏固拓展脫貧攻堅(jiān)成果同鄉(xiāng)村振興有效銜接的意見(jiàn)》,于是在脫貧攻堅(jiān)專題的基礎(chǔ)上,發(fā)展鄉(xiāng)村振興專題,用“向前看”的方式,繼續(xù)不斷豐富專題內(nèi)容。

(二)來(lái)源多樣

不同于其他門類檔案有固定的檔案生成部門,財(cái)會(huì)檔案由財(cái)務(wù)部門生成,文書(shū)檔案由發(fā)文部門生成,專題檔案是根據(jù)選題,將與之有關(guān)的各種材料歸集到一起,其來(lái)源是多種多樣的,檔案保管部門、業(yè)務(wù)部門、社會(huì)團(tuán)體、個(gè)人等等都有可能是檔案的來(lái)源。

譬如名人專題檔案。一是制作單位,收集其參加各項(xiàng)業(yè)務(wù)工作和社會(huì)活動(dòng)的檔案。二是通過(guò)名人本人及其家人,收集其日常生活中的檔案。三是通過(guò)其所在單位的檔案保管部門,檢索館藏,歸類與之有關(guān)的檔案。四是其他單位、團(tuán)體中與之有關(guān)的檔案材料。

(三)形式豐富

專題檔案形式多樣,內(nèi)容豐富,只要是與專題有關(guān),各種類型、載體、形式的材料都可以收集。

譬如高校校慶專題,既包含有關(guān)校慶議程文件、政府部門的賀信、校友捐贈(zèng)公示等紙質(zhì)檔案,又有記錄校慶宣傳、校慶活動(dòng)中形成的錄像或照片檔案,還有校慶文化衫、錦旗和各種紀(jì)念品等實(shí)物檔案。

二、人工智能技術(shù)的應(yīng)用

人工智能是指計(jì)算機(jī)像人一樣擁有智力能力,是一個(gè)融合計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、腦神經(jīng)學(xué)和社會(huì)科學(xué)的前沿綜合學(xué)科,可以代替人類實(shí)現(xiàn)識(shí)別、認(rèn)知、分析和決策等多種功能。當(dāng)代的人工智能的主流方法是機(jī)器學(xué)習(xí)(Machine Learning),即通過(guò)學(xué)習(xí)的方法來(lái)獲得判斷和預(yù)測(cè)的能力,從已知的數(shù)據(jù)中去學(xué)習(xí)數(shù)據(jù)背后所蘊(yùn)含的規(guī)則或者規(guī)律,然后根據(jù)學(xué)習(xí)到的規(guī)則或者規(guī)律對(duì)新的輸入進(jìn)行判斷或者預(yù)測(cè)。人工智能最核心的能力,是根據(jù)給定的輸入作出判斷和預(yù)測(cè)[1]。這樣的人工智能技術(shù)可以有效地服務(wù)于專題檔案的收集。

首先,檔案工作人員讓人工智能學(xué)習(xí)具體某個(gè)專題的內(nèi)涵和外延,使人工智能獲得分辨專題不同于其他信息的能力,然后讓人工智能投入到收集工作,從浩瀚的信息中篩選出可以歸入此專題的信息。

因此,將人工智能技術(shù)應(yīng)用到收集工作中來(lái),將大大提高工作效率。成熟的人工智能可以作出判斷,確定哪些材料屬于這個(gè)專題,也可以預(yù)測(cè)未來(lái)的某些材料是否可以歸結(jié)到該專題中來(lái)。

(一)圖像識(shí)別

圖像識(shí)別是指通過(guò)計(jì)算機(jī)算法將圖像中的內(nèi)容進(jìn)行分析、識(shí)別和理解,從而實(shí)現(xiàn)對(duì)圖像的自動(dòng)處理和分析,是目前人工智能領(lǐng)域最為社會(huì)大眾所了解的一項(xiàng)技術(shù)。不論是進(jìn)出固定場(chǎng)所的人臉識(shí)別,抑或某些購(gòu)物軟件的人臉支付,還是當(dāng)遇到不認(rèn)識(shí)的花草樹(shù)木拍照后的“看圖識(shí)物”,都是圖像識(shí)別技術(shù)的應(yīng)用。圖像識(shí)別通常使用深度學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù),以提取圖像的特征,并通過(guò)訓(xùn)練分類器等方法實(shí)現(xiàn)識(shí)別。專題檔案來(lái)源豐富、類型多樣,在檔案數(shù)據(jù)庫(kù)或選擇某些網(wǎng)絡(luò)信息資源庫(kù)中置入圖像識(shí)別技術(shù),根據(jù)具體專題的要求,人工智能可以協(xié)助判定某些材料是否屬于該專題以及圖片所展示的各種信息。

譬如名人專題中數(shù)量最龐大的照片檔案,可以先讓機(jī)器學(xué)習(xí)該名人的人臉信息,提取名人的人臉特征,然后分析數(shù)據(jù)庫(kù)中圖片人臉、環(huán)境、文字等信息,抓取與名人特征一致的有用信息,判定該照片是否屬于該專題。成熟的圖像識(shí)別技術(shù)甚至可以根據(jù)照片中場(chǎng)景、光線等信息,判定照片拍攝的時(shí)間、事件等。中國(guó)人民大學(xué)牛力教授團(tuán)隊(duì)在建立吳寶康專題檔案過(guò)程中,對(duì)大量照片檔案圖像進(jìn)行識(shí)別 [2]。該團(tuán)隊(duì)還完成了對(duì)照片中吳寶康及其合影人物的識(shí)別,對(duì)其中的重要人物進(jìn)行再標(biāo)注等,有效地豐富了吳寶康專題檔案的內(nèi)容。

(二)語(yǔ)音識(shí)別

語(yǔ)音識(shí)別技術(shù)是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或者命令的技術(shù)。專題檔案中比較常見(jiàn)的聲像檔案可以使用語(yǔ)音識(shí)別技術(shù)對(duì)語(yǔ)音信息進(jìn)行文本輸出。利用深度學(xué)習(xí)語(yǔ)音識(shí)別技術(shù)對(duì)文本化的信息進(jìn)行上下文理解和語(yǔ)義分析,然后自動(dòng)化著錄音頻的主題、概念、事件、觀點(diǎn)等,自動(dòng)生成內(nèi)容摘要,聚合音頻數(shù)據(jù),構(gòu)建知識(shí)圖譜,形成知識(shí)體系,為音頻檔案內(nèi)容挖掘和知識(shí)化加工創(chuàng)造條件[3]。

譬如大型會(huì)議專題,一般會(huì)產(chǎn)生大量的錄音錄像材料,檔案管理人員需要花費(fèi)大量的時(shí)間去觀看并記錄內(nèi)容,從而篩選出會(huì)議的重要內(nèi)容并對(duì)聲像檔案的內(nèi)容做相應(yīng)的標(biāo)記。借助語(yǔ)音識(shí)別技術(shù),可以在相對(duì)較短時(shí)間內(nèi)對(duì)全部聲像內(nèi)容做出文本輸出,以供檔案管理人員了解并掌握聲像檔案的具體內(nèi)容,確定是屬于哪個(gè)名人、參加什么活動(dòng)、發(fā)表了什么觀點(diǎn)等,從而更好、更便捷地對(duì)聲像檔案進(jìn)行分割、收集。語(yǔ)音識(shí)別的文本結(jié)果,還可以通過(guò)接下來(lái)要介紹的自然語(yǔ)言處理完成分類,進(jìn)一步提高專題檔案收集的效率。

(三)自然語(yǔ)言處理

自然語(yǔ)言處理是人工智能領(lǐng)域中的一個(gè)重要方向,它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論,主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要、觀點(diǎn)提取、文本分類、問(wèn)題回答、文本語(yǔ)義對(duì)比、語(yǔ)音識(shí)別、中文OCR等方面。實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信就是要求計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖和思想等。自然語(yǔ)言處理的目標(biāo)與意義,是能夠通過(guò)設(shè)計(jì)出對(duì)應(yīng)的算法與規(guī)則,來(lái)達(dá)到讓計(jì)算機(jī)能夠理解自然語(yǔ)言的目的。

在專題檔案收集工作中,自然語(yǔ)言處理通過(guò)信息提取、文本感情分析、自然語(yǔ)言生成,能迅速判斷處理對(duì)象是否全部、部分屬于該專題。信息提取可以分析文件的關(guān)鍵詞,并理解該文件所講述的內(nèi)容進(jìn)而確認(rèn)是否屬于該主題;文本情感分析是在文件信息提取的基礎(chǔ)上進(jìn)一步分析文件內(nèi)容的具體指向是褒義的還是貶義的;自然語(yǔ)言生成可以通過(guò)分析文件資料進(jìn)而生成自然語(yǔ)言,譬如重要會(huì)議專題的文件資料,通過(guò)自然語(yǔ)言生成的分析,可以分辨出會(huì)議前的準(zhǔn)備、會(huì)議過(guò)程中、會(huì)議結(jié)束后等不同時(shí)期的文件資料,從而為會(huì)議專題的整理打好基礎(chǔ)。

三、使用人工智能的基礎(chǔ)

人工智能是為人服務(wù)的智能,但它在檔案工作中的應(yīng)用比想象中的要復(fù)雜。人工智能的主流方法是機(jī)器學(xué)習(xí),不論是監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)還是半監(jiān)督學(xué)習(xí),機(jī)器學(xué)習(xí)的前提是有學(xué)習(xí)的對(duì)象——數(shù)據(jù)集。半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間,是目前較為流行的機(jī)器學(xué)習(xí)方式,它是對(duì)小部分帶標(biāo)記數(shù)據(jù)(訓(xùn)練集)學(xué)習(xí),找到數(shù)據(jù)背后的規(guī)則、規(guī)律(測(cè)試集),進(jìn)而去分析剩余部分未標(biāo)記的數(shù)據(jù)的結(jié)果[1]。由此可見(jiàn),建立數(shù)據(jù)集并找到數(shù)據(jù)的規(guī)則、規(guī)律非常重要。

(一)建立數(shù)據(jù)集

人工智能能否應(yīng)用在專題檔案收集工作中,首先在于檔案是否建立了數(shù)據(jù)集(即檔案信息資源數(shù)據(jù)庫(kù))。在檔案領(lǐng)域,檔案的數(shù)字化成果和電子文件等都可以作為數(shù)據(jù)集,所以要想使用人工智能為檔案工作服務(wù),前提是加快檔案的數(shù)字化和電子文件的確權(quán),這也是當(dāng)前檔案工作開(kāi)展的重要方向。

(二)半監(jiān)督學(xué)習(xí)

在專題檔案收集工作開(kāi)展前,需要將已完成的某幾個(gè)專題檔案的數(shù)字化成果作為訓(xùn)練集和測(cè)試集,以半監(jiān)督學(xué)習(xí)的方式通過(guò)訓(xùn)練和測(cè)試,不斷優(yōu)化人工智能對(duì)于專題的規(guī)則或者規(guī)律的理解,進(jìn)而去學(xué)習(xí)新的專題,分析新的數(shù)據(jù)集并作出判斷和預(yù)測(cè)。成熟的人工智能可以在海量的數(shù)據(jù)集中,根據(jù)現(xiàn)有的規(guī)則或者規(guī)律,迅速分析出數(shù)據(jù)的結(jié)果,進(jìn)而判定數(shù)據(jù)是否屬于某個(gè)專題的檔案。

四、結(jié)語(yǔ)

專題檔案歸檔時(shí)間不固定、來(lái)源分散、形式多樣,僅靠檔案人員去一一收集和甄別,需要耗費(fèi)大量的時(shí)間和精力,成熟的人工智能可以極大地提高工作效率和準(zhǔn)確性,同時(shí)海量的機(jī)器學(xué)習(xí)也可以提高人工智能的性能,更好地為檔案事業(yè)提供有效服務(wù)。

參考文獻(xiàn):

[1] 楊清平. 人工智能 [M]. 北京:北京航空航天大學(xué)出版社, 2022:1.

[2] 牛力,高晨翔,張宇鋒,等.發(fā)現(xiàn)、重構(gòu)與故事化:數(shù)字人文視角下檔案研究的路徑與方法[J].中國(guó)圖書(shū)館學(xué)報(bào),2021 (1):88-107.

[3] 楊巍,王茂煥. 基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)在音頻檔案數(shù)據(jù)化中的應(yīng)用 [J]. 浙江檔案, 2024 (2): 52-54+60.

作者單位:安徽大學(xué)檔案館

吉林省| 通化县| 新建县| 信阳市| 富裕县| 邮箱| 郯城县| 新民市| 自治县| 横山县| 安徽省| 泸溪县| 红原县| 印江| 乌兰县| 呼图壁县| 交口县| 图片| 和平区| 英吉沙县| 错那县| 谷城县| 馆陶县| 香港 | 庆城县| 牙克石市| 离岛区| 东明县| 台中县| 内黄县| 东辽县| 洛阳市| 博乐市| 无锡市| 临桂县| 巫山县| 瓮安县| 申扎县| 台江县| 崇州市| 奉新县|