国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字人文技術(shù)在檔案編研中的應(yīng)用研究

2020-04-08 09:30葉靖宜
電腦知識(shí)與技術(shù) 2020年3期
關(guān)鍵詞:數(shù)字人文技術(shù)應(yīng)用檔案館

葉靖宜

摘要:數(shù)字人文是在人文計(jì)算的基礎(chǔ)上發(fā)展起來(lái)的,側(cè)重人文社會(huì)科學(xué)研究對(duì)象知識(shí)本體的數(shù)字化保存和應(yīng)用。近年來(lái)隨著信息化技術(shù)的不斷發(fā)展,數(shù)字人文技術(shù)深入檔案編研領(lǐng)域不斷嘗試和應(yīng)用,自我國(guó)大力推進(jìn)檔案信息化建設(shè)以來(lái),已經(jīng)產(chǎn)生了大量數(shù)字檔案信息資源,但過(guò)程中也產(chǎn)生了信息化程度低、缺乏組織規(guī)范、技術(shù)不成熟等問(wèn)題,文章從國(guó)家政府和檔案館自身兩方面有針對(duì)性的提出建議,以期為檔案編研工作提供參考和指導(dǎo)。

關(guān)鍵詞:數(shù)字人文;檔案館;技術(shù)應(yīng)用

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)03-0013-03

1 數(shù)字人文的概念

1.1 起源與概念

目前,學(xué)術(shù)界普遍認(rèn)為數(shù)字人文起源于人文計(jì)算(Humani-ties Computing),1949年,意大利耶穌教神父羅伯托·布薩(Ro-berto Busa)在IBM公司的協(xié)助下,使用計(jì)算機(jī)處理神學(xué)家阿奎那(Thomas Aquinas)的全集,半自動(dòng)地生成其中中世紀(jì)拉丁文字詞的索引,自此引起了學(xué)者們對(duì)于人文計(jì)算的關(guān)注和研究。數(shù)字人文是在人文計(jì)算的基礎(chǔ)上發(fā)展起來(lái)的,但兩者研究的側(cè)重點(diǎn)有所不同,人文計(jì)算強(qiáng)調(diào)的是計(jì)算機(jī)技術(shù)在人文社會(huì)科學(xué)領(lǐng)域中的應(yīng)用,而數(shù)字人文是針對(duì)計(jì)算工具與所有文化產(chǎn)品交叉領(lǐng)域的研究[1],側(cè)重人文社會(huì)科學(xué)研究對(duì)象知識(shí)本體的數(shù)字化保存和應(yīng)用[2]。

1.2 數(shù)字人文的定義

對(duì)于數(shù)字人文,學(xué)界尚未形成統(tǒng)一的定義,劍橋大學(xué)藝術(shù)、社科人文研究中心學(xué)者Katy Barrett認(rèn)為,數(shù)字人文是利用計(jì)算機(jī)對(duì)于傳統(tǒng)人文研究資料進(jìn)行處理和分析,結(jié)合人文學(xué)科方法論和計(jì)算機(jī)進(jìn)行人文研究[3]。倫敦國(guó)王學(xué)院的Willard Mc Carty教授認(rèn)為,利用研究對(duì)象數(shù)字化對(duì)人文科學(xué)研究的內(nèi)容、方法和模式進(jìn)行支撐、保障和創(chuàng)新是數(shù)字人文研究的核心[4]。我國(guó)學(xué)者趙生輝認(rèn)為,數(shù)字人文是圍繞人文社會(huì)科學(xué)領(lǐng)域特定研究對(duì)象知識(shí)本體的數(shù)字化保存和應(yīng)用所進(jìn)行的相關(guān)信息資源采集、加工、組織、服務(wù)、研究、教育等活動(dòng)總稱[2]。而對(duì)于數(shù)字人文最經(jīng)典的定義是美國(guó)伊利諾伊香檳分校圖書(shū)情報(bào)學(xué)院院長(zhǎng)約翰安斯沃斯(John Unsworth)教授提出的,數(shù)字人文是一種代表性的實(shí)踐、一種建模的方式,或者說(shuō)就是一種擬態(tài)、一種推理、一個(gè)本體論約定。這種代表性的實(shí)踐可一分為二,一端是高效的計(jì)算,另一端是人文溝通[5][6]。

2 研究現(xiàn)狀分析

截止到2019年7月,以“數(shù)字人文”為主題關(guān)鍵詞檢索中國(guó)知網(wǎng)期刊數(shù)據(jù)庫(kù),共檢索到相關(guān)論文836篇,從圖中可以看出,2010年以前,對(duì)于數(shù)字人文的研究文獻(xiàn)數(shù)量幾乎為零,學(xué)界研究者幾乎沒(méi)有數(shù)字人文相關(guān)主題研究,從2011年開(kāi)始發(fā)文量才緩步提升,此時(shí)數(shù)字人文逐漸引起學(xué)界研究者的注意,有專家學(xué)者開(kāi)始關(guān)于數(shù)字人文的研究。而從2015年開(kāi)始,對(duì)于數(shù)字人文相關(guān)主題的論文研究明顯增加,發(fā)文量顯著提升,且每一年較前一年都有較大增幅。數(shù)字人文概念已經(jīng)引起了廣泛的關(guān)注和重視,關(guān)于數(shù)字人文的研究大幅上升。僅2018年一年的發(fā)表量就達(dá)到215篇,并呈現(xiàn)出持續(xù)增長(zhǎng)態(tài)勢(shì)。

隨著計(jì)算機(jī)技術(shù)的普及與大數(shù)據(jù)分析在科學(xué)研究領(lǐng)域的滲入,數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)第四范式日益興起,數(shù)字人文研究越來(lái)越受到研究者們的重視。在“文學(xué)和語(yǔ)言計(jì)算學(xué)會(huì)”和“計(jì)算機(jī)和人文學(xué)會(huì)”基礎(chǔ)上成立的國(guó)際數(shù)字人文組織聯(lián)盟不斷發(fā)展壯大。眾多國(guó)內(nèi)外數(shù)字人文研究中心不斷涌現(xiàn),也形成了大量經(jīng)典數(shù)字人文應(yīng)用案例,對(duì)于數(shù)字人文的研究熱點(diǎn)也主要集中在高校圖書(shū)館、人文科學(xué)、圖書(shū)館學(xué)、大數(shù)據(jù)、可視化等方面。

弗吉尼亞大學(xué)的影谷(The Valley of the Shadow)項(xiàng)目是對(duì)歷史信息的數(shù)字化,通過(guò)對(duì)于報(bào)紙、原始信件、演講、地圖等信息資源對(duì)于美國(guó)內(nèi)戰(zhàn)時(shí)期的歷史進(jìn)行還原與重現(xiàn)[7]。加拿大瑞爾森大學(xué)數(shù)字人文中心的REED Online項(xiàng)目集合了英國(guó)國(guó)王學(xué)院數(shù)字人文部門(mén)、多倫多大學(xué)圖書(shū)館相關(guān)人員及多家出版商,對(duì)于早期英國(guó)戲劇記錄學(xué)術(shù)交流模式的改進(jìn)進(jìn)行了探索[8]。馬里蘭大學(xué)、伊利諾伊大學(xué)香檳分校、國(guó)家超級(jí)計(jì)算應(yīng)用中心等高校與機(jī)構(gòu)共同參與的Monk項(xiàng)目[9],基于Word Hoard和NORA兩個(gè)前期項(xiàng)目平臺(tái),開(kāi)發(fā)人文領(lǐng)域的文本元數(shù)據(jù)中的新知識(shí),為人文學(xué)者提供集成化的文本挖掘平臺(tái)。耶魯大學(xué)的“機(jī)器人讀Vogue”(Ro-bots Reading Vogue)項(xiàng)目[10]囑于可視化與圖形化的應(yīng)用,通過(guò)對(duì)經(jīng)典時(shí)尚雜志Vogue的封面、內(nèi)容、數(shù)據(jù)進(jìn)行深入挖掘,探索Vogue雜志從性別研究到計(jì)算機(jī)科學(xué)等問(wèn)題的可能性。

我國(guó)對(duì)于數(shù)字人文的研究起步較晚,2008年,臺(tái)灣大學(xué)成立“數(shù)位人文研究中心”,對(duì)明清檔案、古契書(shū)、國(guó)民黨黨史、臺(tái)灣老照片、植物標(biāo)本、民族文化等多種資源進(jìn)行數(shù)字化研究,成為臺(tái)灣“數(shù)位典藏科技計(jì)劃”的重要組成部分[11]。2011年5月,武漢大學(xué)成立了我國(guó)大陸地區(qū)第一家高校數(shù)字人文研究中心,形成了包括歷史地理信息系統(tǒng)、古籍檔案語(yǔ)義分析、新聞傳播文本挖掘、法律文檔數(shù)據(jù)庫(kù)、計(jì)算機(jī)語(yǔ)料庫(kù)研究等一系列數(shù)字人文實(shí)踐項(xiàng)目[12]。由于我國(guó)擁有燦爛的傳統(tǒng)文化藝術(shù)資源,形成了一批基于文物保護(hù)、史學(xué)研究、古籍研習(xí)的數(shù)字人文項(xiàng)目,如“數(shù)字敦煌”項(xiàng)目[13],“中國(guó)歷代人物傳記資料庫(kù)(CBDB)”項(xiàng)目,“全唐詩(shī)分析系統(tǒng)”和“全宋詩(shī)分析系統(tǒng)”[14]以及“古籍研習(xí)平臺(tái)”等,為我國(guó)傳統(tǒng)文化藝術(shù)和保護(hù)提供了支撐和平臺(tái),為人文學(xué)者以及普通用戶對(duì)于傳統(tǒng)文化藝術(shù)的研究提供參考和便利。

3 數(shù)字人文在檔案館中的應(yīng)用

3.1 背景與意義

檔案館作為眾多文獻(xiàn)檔案的集中存儲(chǔ)場(chǎng)所,本身就是一個(gè)豐富的數(shù)據(jù)庫(kù),對(duì)于檔案館中現(xiàn)有的大量特色資源進(jìn)行數(shù)字化的人文研究有著明顯的價(jià)值和意義,通過(guò)檔案信息化,使得檔案資源可以不受時(shí)間、空間和載體的限制進(jìn)行網(wǎng)絡(luò)檢索和遠(yuǎn)程共享,極大地提升了檔案的利用率,實(shí)現(xiàn)檔案館作為傳播文化和信息資源的社會(huì)機(jī)構(gòu)的基本服務(wù)職能,檔案館本身具有的特有屬性使其成為實(shí)施數(shù)字人文的絕佳場(chǎng)所。

自2000年我國(guó)大力推進(jìn)檔案信息化建設(shè)以來(lái),已經(jīng)產(chǎn)生了大量數(shù)字檔案信息資源,如何對(duì)檔案館豐富的特色資源進(jìn)行更深刻的人文研究,在檔案數(shù)字化文本入庫(kù)和檔案信息的數(shù)字化文本呈現(xiàn)的基礎(chǔ)上,從海量非結(jié)構(gòu)化、復(fù)雜冗余的數(shù)據(jù)資源中提取出各檔案文本信息間的模式與關(guān)聯(lián),提升對(duì)于問(wèn)題研究的決策支持,真正實(shí)現(xiàn)大數(shù)據(jù)時(shí)代“信息為王”的理念是推進(jìn)我國(guó)數(shù)字人文建設(shè)的關(guān)鍵問(wèn)題。

3.2 現(xiàn)狀與不足

我國(guó)檔案信息化建設(shè)開(kāi)始較晚,雖然經(jīng)過(guò)近年來(lái)的蓬勃發(fā)展,檔案信息化研究取得了明顯的成果,但是目前我國(guó)的檔案信息化還處于初級(jí)階段。檔案館現(xiàn)有的檔案信息化建設(shè)主要體現(xiàn)在對(duì)于初級(jí)業(yè)務(wù)流程的計(jì)劃和管理,包括檔案文件的在線檢索與借閱的信息化管理,用戶可以通過(guò)網(wǎng)絡(luò)系統(tǒng)對(duì)于需要的檔案進(jìn)行檔案的題錄、文摘及全文等基礎(chǔ)性的檢索和查詢;以及檔案的收集、整理、立卷和歸檔等基礎(chǔ)流程的信息化管理,檔案館的工作人員可以利用信息系統(tǒng)進(jìn)行材料預(yù)立卷、整理組卷、歸檔驗(yàn)收及檔案鑒定等工作。部分檔案館以案卷集解釋檔案資料信息等,僅僅只是實(shí)現(xiàn)了對(duì)于檔案的題錄、摘要等部分內(nèi)容的在線發(fā)布和利用,提供的是“目錄式服務(wù)”。

部分已經(jīng)開(kāi)始實(shí)施和推進(jìn)數(shù)字化的檔案館也局限于對(duì)于紙質(zhì)資源的數(shù)字化掃描和檔案信息的文本入庫(kù),只是將自身的服務(wù)從“目錄式”提升到了“全文式”[15],缺乏對(duì)于檔案信息資源的深入挖掘與知識(shí)發(fā)現(xiàn),還遠(yuǎn)遠(yuǎn)無(wú)法滿足當(dāng)前知識(shí)經(jīng)濟(jì)背景下研究者的基于檔案信息的相關(guān)研究需求,也無(wú)法實(shí)現(xiàn)檔案館作為文化傳播和信息資源載體提供知識(shí)的知識(shí)服務(wù)。

在推進(jìn)檔案信息化的過(guò)程中涌現(xiàn)出了很多問(wèn)題,如在工作流程中缺少明確的組織和規(guī)范,檔案館推進(jìn)檔案信息化沒(méi)有統(tǒng)一的方向指引,使得檔案的數(shù)字化處理無(wú)法以一種標(biāo)準(zhǔn)化的形式迅速推進(jìn),導(dǎo)致檔案信息化進(jìn)程緩慢。同時(shí),對(duì)于檔案內(nèi)容的揭示還存在不完善、不完整等問(wèn)題,對(duì)于公文、電報(bào)簿冊(cè)、書(shū)信、電話記錄、圖紙、登記表、報(bào)表、名冊(cè),照片、錄音帶、錄像帶等非傳統(tǒng)性的檔案信息資源的開(kāi)發(fā)和利用還存在明顯不足。從技術(shù)層面來(lái)說(shuō),目前部分?jǐn)?shù)字資源無(wú)法進(jìn)行內(nèi)容識(shí)別,如對(duì)于手寫(xiě)檔案等非標(biāo)準(zhǔn)化的檔案信息的內(nèi)容識(shí)別還存在困難,對(duì)于檔案信息的知識(shí)發(fā)現(xiàn)仍然存在障礙,成為推動(dòng)數(shù)字人文的瓶頸。

4 對(duì)策與建議

從國(guó)家和政府的宏觀角度來(lái)說(shuō),我國(guó)國(guó)家檔案局、中央檔案館及檔案科學(xué)技術(shù)研究所、中國(guó)檔案學(xué)會(huì)等相關(guān)主管部門(mén)與行業(yè)協(xié)會(huì)應(yīng)當(dāng)對(duì)于檔案信息化建設(shè)引起足夠的重視,清楚認(rèn)識(shí)到我國(guó)目前檔案信息化建設(shè)中存在的如目標(biāo)不明確、機(jī)制不健全、溝通不順暢等諸多問(wèn)題,同時(shí)加強(qiáng)隊(duì)伍建設(shè),重視對(duì)于檔案信息化專業(yè)人才的培養(yǎng)。目前檔案館需要的是多領(lǐng)域全面化的復(fù)合型人才,不僅需要具有圖書(shū)情報(bào)、檔案管理等領(lǐng)域的專業(yè)知識(shí),了解檔案館里的工作流程,擁有系統(tǒng)化的檔案業(yè)務(wù)知識(shí),也要掌握相關(guān)的計(jì)算機(jī)科學(xué)和管理學(xué)基礎(chǔ),能夠利用計(jì)算機(jī)軟件、網(wǎng)絡(luò)技術(shù)和硬件設(shè)備等展開(kāi)檔案信息化管理的相關(guān)工作,并對(duì)于數(shù)據(jù)存儲(chǔ)、備份策略和檢測(cè)機(jī)制等關(guān)鍵問(wèn)題開(kāi)展研究??傮w而言,檔案界對(duì)于相關(guān)檔案信息化人才存在著較高的要求,而目前對(duì)于真正的檔案信息化人才也存在著巨大的需求缺口,這也要求我國(guó)相關(guān)組織機(jī)構(gòu)對(duì)于檔案信息化人才進(jìn)行針對(duì)性的、專業(yè)化的培養(yǎng)和培訓(xùn),一方面提升現(xiàn)有館員的相關(guān)理論和技術(shù)水平,一方面培養(yǎng)并引導(dǎo)一批新生的檔案信息化人才加入檔案館,為檔案館注入新鮮的血液。

目前的檔案信息化工作還存在著無(wú)組織、不規(guī)范等諸多問(wèn)題,歸根究底是由于缺乏相關(guān)的標(biāo)準(zhǔn)規(guī)范的引導(dǎo),國(guó)家主管部門(mén)與行業(yè)協(xié)會(huì)組織應(yīng)當(dāng)積極合作,制定一套完整的檔案資源信息化的標(biāo)準(zhǔn)對(duì)于我國(guó)現(xiàn)在的檔案信息化工作進(jìn)行指導(dǎo)。2017年5月,我國(guó)國(guó)家檔案館與中央檔案局及其他相關(guān)組織機(jī)構(gòu)成立了“檔案信息化工作領(lǐng)導(dǎo)小組”,旨在對(duì)于我國(guó)檔案信息化工作進(jìn)行統(tǒng)一的領(lǐng)導(dǎo)和統(tǒng)籌規(guī)劃,真正落實(shí)《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》,不斷提高以信息化為核心的檔案管理現(xiàn)代化水平。這是檔案界一次很好的實(shí)踐,檔案信息化小組應(yīng)當(dāng)在此基礎(chǔ)上盡快出臺(tái)關(guān)于檔案資源信息化的標(biāo)準(zhǔn)和規(guī)范,不斷健全相關(guān)法規(guī)和章程,有方向的引導(dǎo)和指引各檔案館檔案信息化工作的實(shí)施和推進(jìn)。

從檔案信息化工作推進(jìn)的角度,檔案館自身應(yīng)該主動(dòng)參與、積極推動(dòng)檔案信息化的建設(shè),積極推動(dòng)數(shù)字化資源的全文識(shí)別,不斷完善和健全數(shù)字化檔案資源的特色數(shù)據(jù)庫(kù),如公文、電報(bào)簿冊(cè)、書(shū)信、電話記錄、圖紙、登記表、報(bào)表、名冊(cè)、照片、錄音帶、錄像帶等非傳統(tǒng)性的檔案信息資源的開(kāi)發(fā)和利用與存儲(chǔ)也應(yīng)當(dāng)納入研究的范圍。從技術(shù)領(lǐng)域而言,需要不斷推進(jìn)相關(guān)計(jì)算機(jī)技術(shù)的研究,如手寫(xiě)識(shí)別、機(jī)器學(xué)習(xí)等算法的改良和優(yōu)化,從而實(shí)現(xiàn)對(duì)于部分目前難以實(shí)現(xiàn)內(nèi)容識(shí)別的檔案資源的信息讀取與入庫(kù)分析,也可以選擇商業(yè)外包的形式,對(duì)于無(wú)法進(jìn)行全文識(shí)別的文本資源采用閱讀翻譯等商業(yè)手段處理,具體也應(yīng)當(dāng)視檔案性質(zhì)與檔案館實(shí)際情況而定。

參考文獻(xiàn):

[1] Robinson L,Priego E,Bawden D.Library and Information Sci-ence and Digital Humanities:rwo Disciplines, Joint Future?[EB/OL]. [2019-11-04]. https://www.zenodo.org/record/17969#.XcAcWjMzY2w.

[2]趙生輝,朱學(xué)芳.我國(guó)高校數(shù)字人文中心建設(shè)初探[J].圖書(shū)情報(bào)工作,2014,58(6):64-69,100.

[3]陸璟.PISA如何測(cè)評(píng)閱讀素養(yǎng)[EB/OL].[2019-11-04].http://www.jyb.cn/book/ydz d/201 103/t201 103 17_4203 68.html

[4]郭金龍,許鑫.數(shù)字人文中的文本挖掘研究[J]大學(xué)圖書(shū)館學(xué)報(bào),2012,30(3):11-18.

[5]周瓊,胡禮忠,圖書(shū)館員在“數(shù)字人文”中的作為——“2011數(shù)字人文國(guó)際大會(huì)”后的感想[J].圖書(shū)館建設(shè),2012(3):82-84.

[6]范佳,“數(shù)字人文”內(nèi)涵與古籍?dāng)?shù)字化的深度開(kāi)發(fā)[J].圖書(shū)館學(xué)研究,2013(3):29-32.

[7]李娜.高校圖書(shū)館閱讀教育工作探析[J].新西部,2013(13):121-122.

[8]燕今偉,劉霞,信息素質(zhì)教程[M].武漢:武漢大學(xué)出版社,2008:195.

[9] Monk [EB/OL]. [2019-11-04]. http://mith. umd. edu/research/monk/

[10] Robots Reading Vogue [EB/OL]. [2019-11-04]. http://dh.li-brary.yale.edu/proj ects/vogue/

[11]臺(tái)灣大學(xué)數(shù)字人文研究中心網(wǎng)站.中心介紹[EB/OL].[2019-1 1-04]. http://www.digital.ntu.edu.tw/introduction.j sp.

[12]武漢大學(xué)人文社會(huì)科學(xué)研究院網(wǎng)站,武漢大學(xué)成立數(shù)字人文研究中心——推動(dòng)數(shù)字技術(shù)深層融人人文社會(huì)科學(xué)研究[EB/OL]. [2019-11-04]. http://ssroff. whu. edu. cn/info/1009/1407.htm

[13]敦煌石窟公共網(wǎng),數(shù)字敦煌工程簡(jiǎn)介.[EB/OL]. [2019-11-04].https://www.e-dunhuang.com/index.htm

[14]朱本軍,聶華,跨界與融合:全球視野下的數(shù)字人文——首屆北京大學(xué)“數(shù)字人文論壇”會(huì)議綜述[J].大學(xué)圖書(shū)館學(xué)報(bào),2016,34(5):16-21.

[15]楊力,姚樂(lè)野.基于知識(shí)管理的數(shù)字檔案館服務(wù)體系構(gòu)建[J]檔案學(xué)通訊,2010(1):58-60.

猜你喜歡
數(shù)字人文技術(shù)應(yīng)用檔案館
全省部分檔案館新館掠影
現(xiàn)代煙草工業(yè)發(fā)展趨勢(shì)及降焦減害技術(shù)應(yīng)用研究
太倉(cāng)市數(shù)字檔案館成為“全國(guó)示范數(shù)字檔案館”
when與while檔案館
科隆檔案館突然坍塌