国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字人文在中國農(nóng)史研究中的實踐與思考
——以中華農(nóng)業(yè)文明研究院數(shù)字人文項目為例

2021-12-31 08:37:39朱鎖玲
關(guān)鍵詞:物產(chǎn)典籍方志

朱鎖玲,包 平

(南京農(nóng)業(yè)大學(xué)數(shù)字人文研究中心,南京 210095)

1 引言

數(shù)字人文是數(shù)字技術(shù)與人文學(xué)科交叉融合的研究領(lǐng)域,其產(chǎn)生在本質(zhì)上屬于一種方法論和研究范式的創(chuàng)新[1],即通過數(shù)據(jù)計算與挖掘發(fā)現(xiàn)傳統(tǒng)人文研究方法難以得出的新觀點、新線索,或為新觀點、新線索的發(fā)現(xiàn)提供數(shù)據(jù)、技術(shù)及工具支撐[2]。國際數(shù)字人文組織聯(lián)盟(The Alliance of Digital Humanities Organizations,ADHO)每年召開一次數(shù)字人文國際會議,全球多所大學(xué)也已建立數(shù)字人文研究中心。這些數(shù)字人文研究學(xué)會和研究機構(gòu)為各類人文研究項目提供豐富的數(shù)據(jù)支撐、持續(xù)的資金支持、機構(gòu)間的協(xié)同管理以及研究人員的培訓(xùn)服務(wù),在哲學(xué)、歷史學(xué)、文學(xué)、語言學(xué)、藝術(shù)學(xué)等多個學(xué)科領(lǐng)域取得豐碩成果[3]。

農(nóng)史學(xué)作為一門介于自然科學(xué)與社會科學(xué)之間的交叉學(xué)科,其跨學(xué)科屬性決定了其研究方法的多元化,也給農(nóng)史研究帶來了新的契機。國外在該領(lǐng)域已有不少數(shù)字人文實踐探索,如美國國家農(nóng)業(yè)圖書館開發(fā)的農(nóng)史數(shù)字人文項目“Growing a Nation:The Story of American Agriculture”借助視頻等多媒體形式,以劇本故事的方式講述美國的農(nóng)業(yè)史[4];日本農(nóng)林水產(chǎn)省建制的“Agriknowledge”知識庫提供了論文、研究成果情報、研究課題、研究業(yè)績、認(rèn)定品種、農(nóng)機具等大量日本農(nóng)業(yè)科學(xué)與技術(shù)相關(guān)的信息資源[5];印度科學(xué)研究院學(xué)者利用1990—2016 年的Landsat 衛(wèi)星圖像數(shù)據(jù),對印度密集的地下水灌溉農(nóng)業(yè)流域的灌溉歷史進(jìn)行估算[6];另外,澳大利亞的牛奶記錄系統(tǒng)是澳大利亞農(nóng)業(yè)大數(shù)據(jù)使用的首批案例之一,它收集、分析和使用農(nóng)場層面的數(shù)據(jù)(牛奶生產(chǎn)、泌乳和育種記錄),提供奶牛個體和牛群的性能信息,供農(nóng)場主個人在農(nóng)場管理決策時使用。澳大利亞拉特羅布維多利亞農(nóng)業(yè)大學(xué)的學(xué)者通過分析澳大利亞牛奶記錄系統(tǒng)中1912 年至今的歷史數(shù)據(jù),探討大數(shù)據(jù)在農(nóng)業(yè)決策中的應(yīng)用,提出數(shù)據(jù)展示格式的多樣性有助于促進(jìn)農(nóng)場向數(shù)字化和智能農(nóng)業(yè)的轉(zhuǎn)型[7]。

中國數(shù)字人文研究正如火如荼地開展,研究者不僅在理論與方法層面進(jìn)行深入探討,包括對數(shù)字人文的概念、內(nèi)容、發(fā)展歷史、研究現(xiàn)狀和前沿方向進(jìn)行全面介紹[8],提出加快面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)[9],探討數(shù)字人文的技術(shù)體系及理論結(jié)構(gòu)[10]等;在實踐應(yīng)用層面也開展了不少有益探索,應(yīng)用領(lǐng)域涉及歷史學(xué)[11]、文學(xué)[12]、檔案學(xué)[13]等多個學(xué)科,處理的人文資料包括文化遺產(chǎn)文獻(xiàn)[14]、家譜[15]、地方歷史文獻(xiàn)[16]、先秦典籍[17]等。至于農(nóng)史學(xué)領(lǐng)域的數(shù)字人文實踐項目,目前仍較少,且主要集中在南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院。該研究院作為國內(nèi)農(nóng)史研究的重鎮(zhèn),其特藏《方志物產(chǎn)》等資料被學(xué)界譽為“海內(nèi)孤本”。近年來,圍繞方志物產(chǎn)典籍的整理與利用,學(xué)者們先后開展了以數(shù)字化整理及素材庫構(gòu)建為主的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、以命名實體識別為主的文本挖掘研究、以地理信息系統(tǒng)和社會網(wǎng)絡(luò)分析應(yīng)用為主的可視化呈現(xiàn),以及以知識服務(wù)平臺構(gòu)建為主的應(yīng)用開發(fā)等一系列數(shù)字人文研究,成為農(nóng)史學(xué)領(lǐng)域數(shù)字人文應(yīng)用實踐的典型。本文以中華農(nóng)業(yè)文明研究院圍繞方志物產(chǎn)典籍開展的數(shù)字人文研究項目為例,介紹項目的研究進(jìn)展,分析數(shù)字人文研究中存在的問題并提出相關(guān)對策,旨在為數(shù)字人文視角下的農(nóng)史研究提供參考與借鑒。

2 項目研究進(jìn)展

2.1 數(shù)字資源建設(shè)

農(nóng)史研究須以可靠和充分的農(nóng)業(yè)史料為基礎(chǔ)。方志物產(chǎn)史料主要記錄一地出產(chǎn)的植物、動物、貨物(含天然產(chǎn)礦物與動植物制品)等資源,是農(nóng)史研究中不可或缺的重要文獻(xiàn)資料。因方志物產(chǎn)史料極為豐富卻又十分龐雜,整理和利用的難度很大,以往農(nóng)史學(xué)者對方志物產(chǎn)史料的提取和利用都是通過手工逐頁逐字地在數(shù)量浩繁的方志中搜求翻檢,費時費力。如今,信息技術(shù)飛速發(fā)展,數(shù)字人文、語義技術(shù)等的實踐應(yīng)用不僅能降低方志物產(chǎn)史料整理和利用的難度,也能通過數(shù)據(jù)驅(qū)動的研究范式以及新的資料呈現(xiàn)方式揭示方志物產(chǎn)典籍中的隱含知識,推動數(shù)據(jù)共享和聯(lián)合研究。

數(shù)字人文在農(nóng)史研究中的實踐基礎(chǔ)是數(shù)據(jù)資源建設(shè)。早在20 世紀(jì)50 年代,金陵大學(xué)農(nóng)業(yè)圖書研究部萬國鼎先生組織人員從全國40 多個大中型城市、100多個文史單位、8 000 多部地方志中手工摘抄物產(chǎn)資料,后于1960 年初編成專題性資料——《方志物產(chǎn)》。該方志物產(chǎn)史料詳細(xì)記載一地物產(chǎn)的名稱、性能、作用及分布情況,在一定程度上反映了當(dāng)時當(dāng)?shù)氐拿裆鸂顩r,對農(nóng)史研究具有重要參考價值。

2000 年始,中華農(nóng)業(yè)文明研究院農(nóng)史學(xué)家王思明教授帶領(lǐng)團(tuán)隊分階段完成對《方志物產(chǎn)》全部內(nèi)容的掃描,并采用人工錄入的方式初步實現(xiàn)《方志物產(chǎn)》文本字符的數(shù)字化。之后,以情報語言學(xué)家侯漢清教授為首的研究團(tuán)隊從技術(shù)層面對文化典籍整理與開發(fā)的智能技術(shù)進(jìn)行了系列研究,通過對自動編纂、自動注釋、自動校勘、自動斷句標(biāo)點、自動分類標(biāo)引等技術(shù)的實驗性探討,推進(jìn)了古典文獻(xiàn)整理研究的自動化和智能化。

近年來,中華農(nóng)業(yè)文明研究院數(shù)字人文研究團(tuán)隊在《方志物產(chǎn)》數(shù)字化成果的基礎(chǔ)上,對照原手抄本和掃描圖像對《方志物產(chǎn)》的電子文本進(jìn)行人工校對,對錯字、漏字做修訂、補充和注釋等處理;制定《方志物產(chǎn)》文本格式規(guī)范化整理的說明文檔,在此基礎(chǔ)上將非結(jié)構(gòu)化的《方志物產(chǎn)》電子文本轉(zhuǎn)換成包含物產(chǎn)名、志書名、年代、物產(chǎn)類別、物產(chǎn)說明、省屬及地區(qū)編號等關(guān)鍵信息在內(nèi)的半結(jié)構(gòu)化數(shù)據(jù),并以素材庫的形式予以存儲,實現(xiàn)了物產(chǎn)的導(dǎo)入/ 導(dǎo)出、瀏覽、查詢、刪除、修改、統(tǒng)計等功能。《方志物產(chǎn)》素材庫的建立為中華農(nóng)業(yè)文明研究院數(shù)字人文項目的研究奠定了數(shù)據(jù)基礎(chǔ),開啟了農(nóng)史學(xué)領(lǐng)域數(shù)字人文研究的基礎(chǔ)設(shè)施建設(shè)。

2.2 命名實體識別

面對海量的《方志物產(chǎn)》文本數(shù)據(jù),農(nóng)史學(xué)者迫切需要一些自動化的工具來幫助其進(jìn)行信息處理,命名實體識別是其中必不可少的關(guān)鍵技術(shù)。所謂命名實體,是指現(xiàn)實世界中具體的或抽象的實體,如人、地點、組織,廣義上也包括時間、數(shù)量表達(dá)式等,通常用唯一的標(biāo)志符(即專有名詞)表示,如人名、地名、組織名等。《方志物產(chǎn)》文本中,命名實體主要包括人名、地名、物產(chǎn)及其別名、時間、引書名等。這些實體作為《方志物產(chǎn)》文本的基本信息元素,包含了《方志物產(chǎn)》文本的主要知識內(nèi)容。命名實體識別的任務(wù)主要包括兩部分:一是確定命名實體的左右邊界,二是識別命名實體對應(yīng)的類別。因《方志物產(chǎn)》的行文格式和語言特點皆不同于現(xiàn)代文獻(xiàn),命名實體識別任務(wù)相對復(fù)雜,學(xué)者們結(jié)合《方志物產(chǎn)》的語法特點,先后開展了一系列探索研究。

2008 年,白振田等以《方志物產(chǎn)》廣東分卷為語料,設(shè)計并構(gòu)建了古籍引書挖掘系統(tǒng),探討引書的模式提取、N-gram 分詞識別等功能算法[18];2011 年,朱鎖玲以廣東、福建、臺灣三省《方志物產(chǎn)》為例,分析、歸納物產(chǎn)說明文本的描述特征,提煉物產(chǎn)地名的不同表達(dá)模式,采用基于規(guī)則的識別方法對物產(chǎn)地名進(jìn)行識別。由于識別規(guī)則的覆蓋面有限,《方志物產(chǎn)》資料數(shù)字化處理過程中存在生字、錯字等原因,物產(chǎn)地名識別的準(zhǔn)確率不足70%[19];2018 年,李娜以《方志物產(chǎn)》山西分卷為例,分析文本書寫特征并研制出方志物產(chǎn)的多特征詞匯表,通過人工標(biāo)注、機器學(xué)習(xí)的策略實現(xiàn)方志物產(chǎn)別名、人名、地名、引書名的自動標(biāo)注,同時構(gòu)建基于條件隨機場的方志物產(chǎn)典籍地名、人名、引書名、物產(chǎn)別名等實體的自動識別模型,物產(chǎn)別名、地名、引用名的識別精確率較好,但人名的識別精確率不到80%[20];2020 年,徐晨飛又以《方志物產(chǎn)》云南分卷為例,在分析并歸納史料知識書寫差異性的基礎(chǔ)上制定方志物產(chǎn)的多特征詞匯表,通過人工標(biāo)注、深度學(xué)習(xí)的策略實現(xiàn)對方志物產(chǎn)文本中物產(chǎn)別名、人名、地名、引書名的智能識別,同時構(gòu)建基于Bi-LSTM-CRF 的方志物產(chǎn)實體識別模型,整體識別精確率為81.87%,驗證了深度學(xué)習(xí)應(yīng)用于方志類典籍文本數(shù)據(jù)集具有一定的可行性[21]。

從起初基于規(guī)則的識別方法,到后來基于統(tǒng)計的識別模型,再到基于深度學(xué)習(xí)的人工智能標(biāo)注平臺,學(xué)者們一直致力于尋求適合方志物產(chǎn)典籍命名實體識別的有效方法。該工作將研究的觸角從文獻(xiàn)整理層面深入到知識組織層面,實現(xiàn)了對文本數(shù)據(jù)的細(xì)粒度管理,是知識從產(chǎn)生來源到利用終端的重要中間過程。

2.3 大數(shù)據(jù)分析及可視化展示

基于命名實體識別的結(jié)果,數(shù)字人文研究學(xué)者采用定量分析的方法,結(jié)合各類統(tǒng)計模型對數(shù)據(jù)進(jìn)行計算、分析,提取數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,借助關(guān)聯(lián)關(guān)系揭示數(shù)據(jù)中隱含的規(guī)律性知識,并利用可視化工具予以展示。

最初,學(xué)者基于物產(chǎn)地名的識別結(jié)果及識別規(guī)則,利用時空分析的方法,開展物產(chǎn)種植區(qū)域及引種路徑的知識挖掘及可視化研究[22,23]。先后統(tǒng)計、分析物產(chǎn)及其原產(chǎn)地(識別規(guī)則為“本出-”“來自-”“種自-來”“唯-產(chǎn)”等)、優(yōu)產(chǎn)地(識別規(guī)則為“-產(chǎn)者佳”“-出者佳”“產(chǎn)-者佳”“出-者佳”等)、高產(chǎn)地(識別規(guī)則為“-多產(chǎn)”“-多出”“唯-類多”“唯-盛多”等)等數(shù)據(jù),整體還原特定物產(chǎn)的優(yōu)質(zhì)產(chǎn)地在空間上的地域分布以及時間上的歷史變遷,揭示不同歷史時期外來物產(chǎn)通過對外貿(mào)易、朝貢、朝廷使者或傳教人士傳入等各類途徑引種、推廣和傳播的歷史演變。

之后,又有學(xué)者基于物產(chǎn)類別名稱開展物產(chǎn)栽培種類及分類體系的知識挖掘研究[24]。利用時空分析的方法,統(tǒng)計、分析物產(chǎn)類別名稱、地名、時間,揭示不同歷史時期、不同地域的物產(chǎn)栽培種類,同時構(gòu)建方志物產(chǎn)分類體系,揭示物產(chǎn)知識被標(biāo)準(zhǔn)化的過程。

除時空分析之外,社會關(guān)系分析法也被用于農(nóng)史研究中的大數(shù)據(jù)分析。學(xué)者基于物產(chǎn)別名、人名的識別結(jié)果,運用社會網(wǎng)絡(luò)分析方法揭示物產(chǎn)與別名、物產(chǎn)與人物、人物與人物之間的網(wǎng)絡(luò)關(guān)系并進(jìn)行可視化呈現(xiàn)[25]。通過抽取語料識別結(jié)果中蘊含的物產(chǎn)與別名、物產(chǎn)與人名、人名與人名的關(guān)聯(lián)關(guān)系為數(shù)據(jù)對象,借助社會網(wǎng)絡(luò)分析方法中線值、點度、個人中心網(wǎng)絡(luò)、連通子網(wǎng)絡(luò)等維度,直觀呈現(xiàn)物產(chǎn)異物同名、同物異名的網(wǎng)絡(luò)關(guān)系,揭示特定人物與物產(chǎn)之間的關(guān)系(如蘇軾曾賦詩描寫菠菜、杜鵑花、海棠、芥菜、蒲筆、薺菜、蕎麥、人參、芍藥、松膏、薇、棗等物產(chǎn)),挖掘不同人物之間(如李時珍與張騫)因物產(chǎn)而建立的關(guān)聯(lián)等。

時空分析、社會關(guān)系分析等方法的應(yīng)用,使農(nóng)史研究和數(shù)字人文技術(shù)更加有效地對接和融合,細(xì)化了農(nóng)史研究的時間粒度,也深化了農(nóng)史研究的空間層次,推動農(nóng)史研究從傳統(tǒng)的選擇性分析向整體性還原轉(zhuǎn)變。

2.4 知識服務(wù)平臺構(gòu)建

大數(shù)據(jù)分析通過數(shù)據(jù)驅(qū)動的研究方法揭示了海量的物產(chǎn)數(shù)據(jù)中隱含的知識,為知識發(fā)現(xiàn)提供了可能。學(xué)者們在此基礎(chǔ)上又進(jìn)一步開發(fā)了方志物產(chǎn)相關(guān)知識服務(wù)平臺,推動數(shù)字人文研究的技術(shù)轉(zhuǎn)化和成果應(yīng)用。

最初,中華農(nóng)業(yè)文明研究院的學(xué)者基于物產(chǎn)地名的識別結(jié)果構(gòu)建了物產(chǎn)地名查詢平臺,通過該平臺可瀏覽、查詢方志物產(chǎn)的地名識別結(jié)果,獲取不同歷史時期特定物產(chǎn)其種植區(qū)域分布的相關(guān)知識;也可按物產(chǎn)名、物產(chǎn)屬名、物產(chǎn)地名、識別規(guī)則、志書名稱、時間等條件進(jìn)行知識的聚類檢索。

之后,他們又在物產(chǎn)地名識別的基礎(chǔ)上,借助命名實體識別方法實現(xiàn)方志物產(chǎn)典籍中優(yōu)質(zhì)產(chǎn)品及其產(chǎn)地、貢區(qū)、出口區(qū)、名人故事、詩詞歌賦等內(nèi)涵信息的自動識別,并基于機器識別結(jié)果構(gòu)建地方優(yōu)特產(chǎn)品數(shù)據(jù)庫,為深入挖掘地方特產(chǎn)的歷史文化內(nèi)涵提供了計算機可直接統(tǒng)計與運算的數(shù)據(jù)。這些與當(dāng)?shù)鬲毺氐淖匀毁Y源和人文傳統(tǒng)資源密切相關(guān)的歷史文化底蘊,為各地地標(biāo)農(nóng)產(chǎn)品發(fā)展及地標(biāo)品牌建設(shè)提供了數(shù)據(jù)支撐[26]。

近年來,學(xué)者還嘗試構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)四原則與語義技術(shù)框架的云南方志物產(chǎn)知識庫,實現(xiàn)了物產(chǎn)知識檢索、知識聚合、時空展現(xiàn)等功能,能夠為相關(guān)用戶提供物產(chǎn)時空聚類分析等增值服務(wù)[21]。

上述知識服務(wù)平臺皆以新的知識譜系和新的知識呈現(xiàn)模式展示《方志物產(chǎn)》中蘊藏的物產(chǎn)知識,是數(shù)字技術(shù)與農(nóng)史研究深度融合的具體體現(xiàn),這就使得方志物產(chǎn)典籍不再是平面的、孤立的史料,而是成為一個立體的、融合的文化學(xué)術(shù)信息知識庫,一方面可使研究人員充分享受到現(xiàn)代數(shù)字化技術(shù)給學(xué)術(shù)研究帶來的便利,在資料的搜集、整理等基礎(chǔ)環(huán)節(jié)上節(jié)省大量時間;另一方面也使其有可能從中獲取新的思路和研究方法,開拓新的研究方向與課題內(nèi)容。

3 項目研究存在的問題

圍繞方志物產(chǎn)典籍的整理與利用,中華農(nóng)業(yè)文明研究院開展的數(shù)字人文研究在取得一定進(jìn)展的同時,也面臨一些問題。

3.1 基礎(chǔ)數(shù)據(jù)的全面性與準(zhǔn)確性亟待完善

數(shù)字人文研究的對象是基礎(chǔ)數(shù)據(jù),數(shù)字人文研究是基于對數(shù)據(jù)的計算與分析得出相關(guān)結(jié)論,所以,數(shù)據(jù)的全面性和準(zhǔn)確性直接關(guān)系著數(shù)字人文研究的成效。中華農(nóng)業(yè)文明研究院數(shù)字人文應(yīng)用研究的基礎(chǔ)數(shù)據(jù)主要來源于《方志物產(chǎn)》,由于該史料本身的特點以及史料整理過程中的諸多因素導(dǎo)致數(shù)據(jù)在全面性與準(zhǔn)確性方面仍存在一定缺陷,需進(jìn)一步完善。

首先,不可否認(rèn)的是,因不同朝代、不同地域的方志物產(chǎn)其編纂水平良莠不齊,有些史料詳實、考證精準(zhǔn),而有些則考證不精、裁剪不當(dāng),部分方志物產(chǎn)的內(nèi)容過于簡略,或僅列少數(shù)物產(chǎn),或僅列物產(chǎn)名稱而對物產(chǎn)不加任何注釋,這些都將影響數(shù)據(jù)集的質(zhì)量與顆粒度。其次,因《方志物產(chǎn)》是手工摘抄的方志物產(chǎn)匯編資料,抄得全不全,對不對,其覆蓋面和完整度如何,還需結(jié)合海內(nèi)外現(xiàn)存的方志目錄作比對及補充輯錄。再者,從手抄本到電子文本的數(shù)字化加工過程中,盡管研究中采用了漢字超大字符集字庫,也配備了字符集字體支持包,并在校對過程中補充漏字、修訂并注釋錯字,但仍有不少集外字無法錄入,導(dǎo)致數(shù)據(jù)缺失。另外,《方志物產(chǎn)》中引用了大量民國時期的實業(yè)調(diào)查報告,其中有不少珍貴的統(tǒng)計圖表在數(shù)據(jù)的半結(jié)構(gòu)化處理過程中存在少量的信息丟失。這些數(shù)據(jù)問題都成為制約數(shù)字人文研究的瓶頸,亟待完善。

3.2 數(shù)字人文技術(shù)與方法的應(yīng)用有待深入

圍繞方志物產(chǎn)典籍整理與利用開展的數(shù)字人文研究已嘗試?yán)脪呙?、?shù)據(jù)庫設(shè)計、實體識別、時空分析、社會關(guān)系分析等技術(shù)與方法實現(xiàn)了典籍資源的收集、發(fā)現(xiàn)、比較、發(fā)布等功能。這些技術(shù)方法的應(yīng)用不僅為學(xué)者在研究過程中節(jié)省了大量的時間和精力,還幫助他們發(fā)現(xiàn)了大數(shù)據(jù)背后隱藏的農(nóng)史事實,也改變了傳統(tǒng)農(nóng)史研究的認(rèn)知角度和方法,使農(nóng)史研究從選擇性分析向整體性還原的轉(zhuǎn)變成為可能。但從已有的應(yīng)用實踐來看,數(shù)字人文相關(guān)技術(shù)與方法的運用還比較粗淺,也存在一定缺陷。例如實體識別技術(shù)的應(yīng)用過程中,因《方志物產(chǎn)》史料為古文,沒有句讀和標(biāo)點,且行文格式也不同于現(xiàn)代文本;加之方志資料本身具有較強的地域性,史料中各地地名、人名、物產(chǎn)別名、引書名等實體的表述不盡相同,尤其是不同地域的地名差異性較大,這些都直接影響了算法模型的性能,所以應(yīng)用過程中必須結(jié)合一定量的人工標(biāo)注及校對工作才能保證識別的效果。此外,數(shù)字人文技術(shù)與方法的應(yīng)用也比較單一,尚不夠全面。數(shù)字人文技術(shù)方法體系豐富,可應(yīng)用于整個數(shù)字人文研究的生命周期過程中。而方志物產(chǎn)典籍是中國獨有的文獻(xiàn)資源,其文本書寫特征與知識組織方式的揭示、物產(chǎn)相關(guān)歷史文化與傳統(tǒng)技藝的仿真與再現(xiàn)等,都有賴于更多數(shù)據(jù)分析技術(shù)、可視化技術(shù)、VR/AR 等技術(shù)的深入應(yīng)用。另外,已有的知識服務(wù)平臺主要是提供規(guī)范的數(shù)字化信息和數(shù)據(jù),大量的軟件和統(tǒng)計分析工具尚未能提供,眾包、協(xié)作等功能尚未實現(xiàn)。

3.3 數(shù)據(jù)結(jié)果的實用性與新穎性尚待考證

中華農(nóng)業(yè)文明研究院的數(shù)字人文研究項目通過數(shù)據(jù)計算與分析得出的數(shù)據(jù)結(jié)果,如果不加甄別地直接用于下一步的農(nóng)史解釋,很難形成闡釋意義,這也是目前很多數(shù)字人文研究可能存在的問題。這種完全由數(shù)據(jù)驅(qū)動、主體介入較少的結(jié)果,其實用性很難不引起人們質(zhì)疑。所以,嚴(yán)格意義上來說,這些數(shù)據(jù)結(jié)果都還僅僅是假設(shè),尚未得到人文學(xué)科領(lǐng)域的專業(yè)檢驗、考證與解釋,不能算作問題求解的結(jié)果。例如方志物產(chǎn)典籍的命名實體識別環(huán)節(jié)中,一些物產(chǎn)的品種、地名因其出現(xiàn)的特征與別名十分相似,被機器誤判為物產(chǎn)別名(比如機器識別出赭石的別名有“代赭、雁門、土朱、鐵朱”,而其中的“雁門”并非赭石的別名,而是地點“代”表示的地名;比如機器識別得出物產(chǎn)“稷”有43 個別名,但其中“朱砂紅”“牛尾黃”“狼尾”“秤錘”其實是“稷”的不同品種,并非別稱),這些結(jié)果都需經(jīng)過領(lǐng)域?qū)<业恼鐒e才能為下一步研究所用。

再者,在數(shù)據(jù)結(jié)果的基礎(chǔ)上形成的知識發(fā)現(xiàn)的初步結(jié)果,理應(yīng)是傳統(tǒng)人文研究方法難以得出的新觀點或新線索,如果其新穎性不能獲得農(nóng)史學(xué)者的普遍認(rèn)可,則失去數(shù)字人文研究的意義。所以,知識發(fā)現(xiàn)的初步結(jié)果其新穎性尚有待農(nóng)史學(xué)領(lǐng)域?qū)<业膶I(yè)考證。

4 相關(guān)對策

針對中華農(nóng)業(yè)文明研究院數(shù)字人文項目存在的問題,筆者提出以下幾點對策。

4.1 以數(shù)據(jù)資源為核心,加快數(shù)字人文基礎(chǔ)設(shè)施建設(shè)

針對方志物產(chǎn)典籍?dāng)?shù)字人文研究中基礎(chǔ)數(shù)據(jù)的全面性與準(zhǔn)確性存在一定缺陷的問題,首先需要掌握方志物產(chǎn)史料的目錄,盡可能獲取該領(lǐng)域的主要內(nèi)容。一方面可通過比對海內(nèi)外現(xiàn)存方志目錄,對缺失部分進(jìn)行補充輯錄;另一方面也可關(guān)聯(lián)古農(nóng)書、博物志及物產(chǎn)志、筆記、正史、本草類典籍、小學(xué)類等其他典籍,輯錄其中所載物產(chǎn)史料,力求數(shù)據(jù)全面。其次,要妥善解決史料文獻(xiàn)數(shù)字化過程中集外字錄入的問題,可通過對比分析目前古籍?dāng)?shù)字化實踐中集外字的處理方法,總結(jié)歸納替換法、造字法、描述法等各類方法的優(yōu)缺點,同時結(jié)合物產(chǎn)相關(guān)典籍的文本特點,考慮采取構(gòu)造集外字資源庫、開發(fā)專門的生僻字輸入法軟件等方法予以解決。再者,針對特殊類型的史料信息,要制定統(tǒng)一的處理規(guī)范,避免因處理不當(dāng)造成信息丟失。如針對典籍中的圖表信息,應(yīng)盡可能整體還原并多層級標(biāo)注,形成領(lǐng)域內(nèi)的操作規(guī)范與執(zhí)行標(biāo)準(zhǔn)。

以數(shù)據(jù)資源為核心的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)是數(shù)字人文項目的首要工程。數(shù)字人文基礎(chǔ)設(shè)施,即支持人文學(xué)者在數(shù)字環(huán)境下開展科研活動的必須具備的基礎(chǔ)設(shè)施,包括與主題相關(guān)的數(shù)字化文獻(xiàn)資源、數(shù)據(jù)、軟件工具、硬件(云存儲),系統(tǒng)平臺等對象。這些基礎(chǔ)設(shè)施能夠支持人文科學(xué)研究數(shù)據(jù)的分享與重用,促進(jìn)科研成果在線出版、全球人文學(xué)科合作,加速科研創(chuàng)新的生態(tài)系統(tǒng)[27]。中華農(nóng)業(yè)文明研究院擁有豐富的農(nóng)史資料,如古農(nóng)書、農(nóng)業(yè)期刊、農(nóng)史論文、農(nóng)業(yè)調(diào)查報告等。中華農(nóng)業(yè)文明研究院開展數(shù)字人文研究應(yīng)當(dāng)以人文學(xué)者的學(xué)術(shù)研究需求為出發(fā)點,選擇具有獨特性的史料資源,制定建設(shè)規(guī)劃,從數(shù)字化、數(shù)據(jù)化,到知識化、平臺化,最終關(guān)聯(lián)多方外部數(shù)據(jù)提供知識服務(wù),建成具有中國特色、農(nóng)史風(fēng)采的數(shù)字人文基礎(chǔ)設(shè)施。當(dāng)然,建設(shè)過程中需要加強多方合作,鼓勵眾包加工,實行共建共享,避免重復(fù)建設(shè)。

4.2 以技術(shù)方法為支撐,強化數(shù)字人文技術(shù)在農(nóng)史研究中的實踐應(yīng)用

數(shù)字人文研究中,學(xué)者試圖將文本挖掘、內(nèi)容分析、多媒體出版、信息可視化、地理信息系統(tǒng)、虛擬現(xiàn)實以及深度學(xué)習(xí)等多種信息技術(shù)融進(jìn)人文領(lǐng)域的研究,這樣不僅能跳出傳統(tǒng)人文學(xué)科的研究范式,也能在發(fā)現(xiàn)新問題上有獨特優(yōu)勢。上文提到中華農(nóng)業(yè)文明研究院數(shù)字人文項目中數(shù)字人文技術(shù)與方法的應(yīng)用尚為粗淺、不夠全面,筆者認(rèn)為可圍繞數(shù)字人文研究的生命周期過程建立體系化的技術(shù)方案,強化數(shù)字人文技術(shù)在農(nóng)史學(xué)研究中的實踐應(yīng)用。首先,立足農(nóng)史資料的文本特征,研制語料的自動分詞、自動斷句、標(biāo)點、詞性標(biāo)注、實體識別和淺層句法結(jié)構(gòu)標(biāo)識、語義分析、語用分析、語境分析等研究支持工具,實現(xiàn)計算機對史料的字、詞、句、篇章的存儲、識別、分析、理解、生成等多方面的加工處理,通過文本分析實現(xiàn)對方志物產(chǎn)典籍書寫特征和知識內(nèi)容組織方式的揭示。其次,針對方志物產(chǎn)典籍中所記載的一些地方名優(yōu)特產(chǎn)的傳統(tǒng)制作工藝等,可嘗試借助場景模擬、歷史仿真等可視化技術(shù)進(jìn)行直觀、形象的再現(xiàn)。再者,在知識服務(wù)平臺上提供規(guī)范的數(shù)字化信息和數(shù)據(jù)的同時,也應(yīng)盡可能提供諸如GIS 平臺、時間線工具等一系列軟件和統(tǒng)計分析工具,以便減輕學(xué)者的基礎(chǔ)工作量,使其能夠有更多的精力集中在創(chuàng)新性研究方面。當(dāng)然,值得注意的一點,技術(shù)方法的應(yīng)用皆有一定適用范圍,其使用是有條件的,當(dāng)數(shù)字人文技術(shù)與方法應(yīng)用到農(nóng)史資料的處理過程中,相應(yīng)的領(lǐng)域化改造工作必不可少,可針對選定的研究問題以及史料數(shù)據(jù)的實際情況改進(jìn)算法或調(diào)整參數(shù),注重算法的運行效率,以確保數(shù)字人文研究軟件和系統(tǒng)能高效運行。

4.3 以農(nóng)史專家為主導(dǎo),實現(xiàn)對數(shù)字人文研究結(jié)果的考證

在方志物產(chǎn)典籍的數(shù)字人文研究中,一些通過數(shù)據(jù)計算與分析得出的數(shù)據(jù)結(jié)果由于缺乏專業(yè)領(lǐng)域的考證,尚無法投入實際應(yīng)用。事實上,無論是基于自然語言處理技術(shù)得出的數(shù)據(jù)結(jié)果,還是利用社會網(wǎng)絡(luò)分析法予以可視化呈現(xiàn)的隱含知識,均需經(jīng)過專業(yè)人員的檢驗和校對,要有領(lǐng)域?qū)<业慕忉尯涂甲C,這樣才能使數(shù)據(jù)真正轉(zhuǎn)化為可靠的知識,從而激活蘊藏在典籍中的深層文化基因;也才能使數(shù)字人文研究的結(jié)果被領(lǐng)域?qū)W者所接受,使其煥發(fā)新的學(xué)術(shù)生命力。

當(dāng)然,考慮到人工檢驗和校對耗時耗力,可通過計算機輔助實現(xiàn)數(shù)據(jù)結(jié)果的自動比對。如對物產(chǎn)別名的檢驗和核對,可借助計算機對提取的物產(chǎn)別名進(jìn)行匯總及組內(nèi)比對,對每一條物產(chǎn)別名皆鏈接其來源志書對應(yīng)的原文及掃描圖像。而在數(shù)據(jù)結(jié)果的基礎(chǔ)上所得的問題結(jié)果,即大數(shù)據(jù)驅(qū)動下通過新的資料呈現(xiàn)方式所揭示的農(nóng)史典籍中的隱含知識,還需以農(nóng)史學(xué)領(lǐng)域?qū)<覟橹鲗?dǎo)進(jìn)行專業(yè)論證與考釋,如對物產(chǎn)同名異物、同物異名的考證,對特定物產(chǎn)其性狀變化、數(shù)量消長以及變遷路線的考證等。如果領(lǐng)域?qū)<覍?shù)字人文研究結(jié)果不能完全接受,就需要重新審視問題選定、數(shù)據(jù)采集與整理、算法設(shè)計與技術(shù)實現(xiàn)、知識發(fā)現(xiàn)與展示等各個過程,調(diào)整思路繼續(xù)研究。這樣的考證,能夠從“基礎(chǔ)數(shù)據(jù)”的層面,實現(xiàn)真正的跨學(xué)科協(xié)同合作,并從方法和路徑的層面打通自然科學(xué)、應(yīng)用工程、社會科學(xué)、人文科學(xué)與藝術(shù)的綜合研究,也使得研究者從自身的學(xué)科立場出發(fā),得以擴(kuò)展到其他領(lǐng)域,并能以“問題導(dǎo)向”出發(fā),與其他學(xué)者協(xié)同研究,實現(xiàn)研究層面的資源最大共享化、分析方法的最大通約化和知識內(nèi)容的最大綜合性[28]。

5 結(jié)語

誠如學(xué)者所言,“作為一個不斷變化和再定義的新興領(lǐng)域,數(shù)字人文注定要在跨界與融合中謀求發(fā)展,在追問與反思中不斷前行[29]”。經(jīng)過幾十年的發(fā)展歷程,目前數(shù)字人文在實踐上仍處于分布式的摸索階段,在研究中尚缺乏與歷史、文學(xué)等具體學(xué)科的緊密結(jié)合。本文以中華農(nóng)業(yè)文明研究院的數(shù)字人文項目為例,梳理已有研究進(jìn)展,分析存在問題,并提出相關(guān)對策和建議。今后,農(nóng)史學(xué)領(lǐng)域的數(shù)字人文研究應(yīng)廣泛借助相關(guān)技術(shù)與方法賦予傳統(tǒng)農(nóng)史資料以新的知識譜系和新的知識展示模式,更好地幫助研究學(xué)者、社會政企和公眾等各類用戶解構(gòu)、表現(xiàn)和利用農(nóng)史知識。希望該領(lǐng)域的實踐探索能夠有助于推動數(shù)字人文視角下的典籍傳承與學(xué)科融合,促進(jìn)數(shù)字人文技術(shù)轉(zhuǎn)化與成果應(yīng)用。

猜你喜歡
物產(chǎn)典籍方志
飛速發(fā)展的順平縣物產(chǎn)有限公司
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
物產(chǎn)環(huán)能:凈利潤兩版本 業(yè)績陷“羅生門”
《典籍里的中國》為什么火?
金橋(2021年4期)2021-05-21 08:19:24
黑龍江民國方志所刊名家墨跡選
書法賞評(2019年2期)2019-07-02 12:10:50
嘉絨藏族地區(qū)的舊方志編纂
西藏研究(2017年1期)2017-06-05 09:26:11
在詩詞典籍中賞春日盛景
物產(chǎn)美食
典籍翻譯模式的構(gòu)建與啟發(fā)
先秦典籍中的男嬖形象探微
阜平县| 鄄城县| 五峰| 奉化市| 长子县| 孟州市| 长岭县| 婺源县| 博客| 万安县| 成武县| 巨野县| 沾益县| 晋中市| 友谊县| 赤城县| 宁蒗| 丰原市| 扎鲁特旗| 桃园市| 儋州市| 揭东县| 肇州县| 巴塘县| 广安市| 当涂县| 泾阳县| 富裕县| 三亚市| 广德县| 嘉义市| 沈阳市| 宁德市| 宜章县| 精河县| 兴隆县| 沭阳县| 枣庄市| 错那县| 平果县| 宜春市|