姚遠(yuǎn) 黃玉蘭
(武昌工學(xué)院 信息工程學(xué)院 湖北省武漢市 430065)
如今計(jì)算機(jī)與網(wǎng)絡(luò)已經(jīng)深入到人類社會各個(gè)領(lǐng)域,大數(shù)據(jù)和云計(jì)算等信息聚合概念層出不窮,為人們的生產(chǎn)生活提供便利、為科學(xué)技術(shù)經(jīng)濟(jì)的發(fā)展加速。但在歷史文獻(xiàn)檢索和使用方面,數(shù)字化信息化的進(jìn)程卻相對比較落后。僅僅停留在低級的數(shù)字化原始文本、分類存儲的階段,充其量只是一個(gè)數(shù)字化的圖書館,現(xiàn)今四類歷史文獻(xiàn)資源,分別為全圖像版、標(biāo)題檢索版、全文本版和圖文檢索版[1]。歷史文獻(xiàn)研究者、相關(guān)領(lǐng)域應(yīng)用者及愛好者們是歷史文獻(xiàn)檢索系統(tǒng)的主要使用群體,目前的僅供數(shù)字化查閱的歷史文獻(xiàn)檢索系統(tǒng)使得大量的文獻(xiàn)收集整理工作仍然需要研究者們手工進(jìn)行。而如何從海量的歷史文獻(xiàn)中找到有邏輯聯(lián)系、有時(shí)空線索的有用信息,來滿足自己的課題研究及相關(guān)需要是至關(guān)重要的。
目前的文獻(xiàn)檢索方法包括直接法(順查法、倒查法、抽查法)、追溯法、循環(huán)法,但無一不是利用人名、事件名等文字信息進(jìn)行常規(guī)人工檢索或者計(jì)算機(jī)檢索?,F(xiàn)在有些研究者提出基于TopicMaps技術(shù)的可視化檢索方法等[2],但這類方法也僅僅是做到以各種關(guān)鍵字的可視化,無法做到按時(shí)空坐標(biāo)的系統(tǒng)化檢索。經(jīng)統(tǒng)計(jì),研究者們?yōu)榱双@取與主題相關(guān)的歷史文獻(xiàn),通常是從歷史事件發(fā)生的時(shí)間和地理信息上進(jìn)行事件擴(kuò)展的關(guān)鍵字搜索的,這些工作因?yàn)閭鹘y(tǒng)的文字檢索方法使得搜索效率不高,往往會占用研究者們約40%以上的研究時(shí)間。如果利用歷史事件的天然屬性:三維空間位置和范圍,限定歷史事件發(fā)生的區(qū)域和時(shí)間順序,給終端研究者們呈現(xiàn)一個(gè)四維立體化的操作界面,相互穿插的歷史事件序列分布在這個(gè)基于時(shí)空和地理位置的四維立體空間中,通過研究者 “所見即所得”的圖形化搜索:移動(dòng)時(shí)間軸、地圖漫游、縮放等操作,得到準(zhǔn)確快速高效的相關(guān)事件興趣點(diǎn)群及目標(biāo)歷史文獻(xiàn)集合。那么這將是一個(gè)通過歷史事件之間四維屬性的關(guān)聯(lián)性而得到目標(biāo)文獻(xiàn)集的新方法,也即是本文提出的歷史文獻(xiàn)四維檢索方法。
歷史文獻(xiàn)四維檢索方法利用歷史事件的天然屬性:三維空間位置和范圍,限定歷史事件發(fā)生的區(qū)域;利用最重要的時(shí)間維度,限定歷史事件發(fā)生的時(shí)間順序。本文關(guān)于歷史事件四維屬性觀點(diǎn)的提出,為歷史文獻(xiàn)圖形化立體檢索方法提供了理論基礎(chǔ)。
通過研究者所劃定的時(shí)空坐標(biāo)范圍可以迅速找到與研究主題緊密聯(lián)系的歷史事件、并將它們以時(shí)間為主軸、空間位置和其他重要信息為坐標(biāo)形成一個(gè)時(shí)空立體化事件序列供檢索者高效查詢,同時(shí)得到記載這些關(guān)聯(lián)事件的對應(yīng)文獻(xiàn)。傳統(tǒng)文獻(xiàn)的檢索方法如圖1所示,四維時(shí)空檢索方法如圖2所示。
圖1:傳統(tǒng)檢索法查找文獻(xiàn)
圖2:四維時(shí)空檢索法查找文獻(xiàn)
四維時(shí)空檢索方法替代簡單原始的文字信息檢索,采用四維空間的圖形化方法進(jìn)行“所見即所得”的聯(lián)合檢索,使發(fā)現(xiàn)和利用歷史事件間的關(guān)聯(lián)通過高速有效途徑來準(zhǔn)確和快速獲得,當(dāng)多個(gè)時(shí)間、空間連續(xù)的事件在文獻(xiàn)檢索系統(tǒng)的顯示區(qū)域顯示時(shí),這些事件序列將從四個(gè)維度縱橫交錯(cuò),立體化延伸,迅速將相關(guān)文獻(xiàn)呈現(xiàn)給檢索者。所以拖動(dòng)四維空間中的時(shí)間軸或者改變地理坐標(biāo)點(diǎn)時(shí),就會得到一系列四維事件序列,可以將歷史事件的時(shí)空連續(xù)性直觀而完整的描述起來,于此同時(shí),豐富的對應(yīng)歷史文獻(xiàn)作為事件的記載者也會呈現(xiàn)給操作者。這樣對于研究者來說可以對歷史趨勢、人類社會變遷始末、事件發(fā)生發(fā)展變化進(jìn)行立體的、結(jié)構(gòu)化的研究,從而真正發(fā)現(xiàn)和掌握各個(gè)歷史事件的內(nèi)在聯(lián)系,對深入研究歷史、全面理解古代社會文化生活起到重要作用。這種給予檢索者的豐富文獻(xiàn)呈現(xiàn),將大大加快目標(biāo)文獻(xiàn)的獲取進(jìn)程。
該種文獻(xiàn)檢索方法將大大提高研究者們的搜索效率,同時(shí)研究者的最新研究成果(新產(chǎn)生的文獻(xiàn))也無縫融合到這個(gè)四維歷史文獻(xiàn)模型的云存儲之中,成為它的組成部分,使得這個(gè)四維歷史文獻(xiàn)云的目標(biāo)文獻(xiàn)搜索能力不斷增長。這樣一個(gè)能夠不斷生長并不斷吸收研究者成果的智能云,將會是歷史文獻(xiàn)研究的重要發(fā)展方向和智能成果的體現(xiàn)。能夠使歷史研究成為真正的信息擴(kuò)展源,為社會發(fā)展、生產(chǎn)生活做出卓越貢獻(xiàn)。
四維歷史文獻(xiàn)檢索方法的實(shí)際應(yīng)用需要確定以下3 個(gè)方面:
(1)歷史事件作為基本檢索單元,需確定歷史事件四維屬性的存儲,確保歷史事件得以檢索。包括地理空間坐標(biāo)體系、歷史時(shí)間尺度與公元紀(jì)年對照等數(shù)據(jù)存儲標(biāo)準(zhǔn)的確定。
(2)確定歷史文獻(xiàn)和其記載的歷史事件的映射存儲。
(3)確定四維圖形化檢索在內(nèi)的多種檢索服務(wù)。
四維歷史文獻(xiàn)檢索方法,通過歷史事件得到歷史文獻(xiàn),歷史事件之間四維屬性的時(shí)空連續(xù)性,使歷史文獻(xiàn)時(shí)空聯(lián)動(dòng)的立體化檢索成為可能,所以歷史事件的存儲、歷史事件/歷史文獻(xiàn)的映射尤為重要。
四維立體圖形化檢索界面中事件所代表的興趣點(diǎn),對于計(jì)算機(jī)技術(shù)來說是數(shù)據(jù)的表現(xiàn)。數(shù)據(jù)表現(xiàn)來源于數(shù)據(jù)的存儲,歷史事件作為基本數(shù)據(jù)存儲實(shí)體,具備四維屬性,是文獻(xiàn)云的基本檢索單元。
時(shí)間是歷史文獻(xiàn)所記錄事件的天然屬性之一,包括成書時(shí)間、陳述時(shí)間,以及文獻(xiàn)敘述內(nèi)容的時(shí)間。任一起歷史事件將會與一個(gè)時(shí)間段聯(lián)系,但是時(shí)間段有大有小,有的事件可能發(fā)生于一天之內(nèi)。事件對應(yīng)的時(shí)間尺度將區(qū)分事件的影響時(shí)間范圍。存儲時(shí)間尺度的分類是重要研究內(nèi)容之一。
歷史文獻(xiàn)中記錄的事件除了時(shí)間維度之外,還有另外一個(gè)天然屬性:空間位置和范圍。任何歷史事件,都發(fā)生在某個(gè)地表上特定的地理位置、一個(gè)特定的空間。根據(jù)歷史事件的規(guī)模和影響范圍,這個(gè)地理空間單元可以以三維空間坐標(biāo)表示,并且根據(jù)其影響范圍選定相應(yīng)的空間尺度。根據(jù)地球上地點(diǎn)的表示方法,統(tǒng)一選用WGS84 經(jīng)緯度坐標(biāo)對地理地點(diǎn)進(jìn)行標(biāo)注。
時(shí)間、空間位置及范圍是歷史事件的四維屬性,四維屬性的劃分使得歷史事件作為四維文獻(xiàn)云的基本檢索單元成為可能。
利用數(shù)據(jù)庫技術(shù)存儲事件、事件序列、文獻(xiàn)映射數(shù)據(jù)。利用全文搜索技術(shù)和空間查詢擴(kuò)展完成四維屬性的獲取和存儲。
基于時(shí)空GIS 的數(shù)據(jù)存儲技術(shù)已經(jīng)較為成熟[3-7],有些甚至已經(jīng)利用到按時(shí)間變化的三維動(dòng)態(tài)實(shí)時(shí)建模技術(shù)[8]。由于歷史文獻(xiàn)四維檢索方法關(guān)心的是歷史文獻(xiàn)數(shù)據(jù),為了簡化表達(dá)和便于檢索,歷史文獻(xiàn)四維檢索方法使用四維點(diǎn)模型作為基本存儲。所有的歷史事件統(tǒng)一作為四維時(shí)空坐標(biāo)中的四維點(diǎn)存儲。
同一個(gè)事件會被記載于不同的歷史文獻(xiàn)中,所以當(dāng)所搜索的事件在四維聯(lián)動(dòng)空間中出現(xiàn)時(shí),相應(yīng)的歷史文獻(xiàn)應(yīng)得以呈現(xiàn)。這就需要存儲這種映射關(guān)系。
同一個(gè)歷史文獻(xiàn)會記載多個(gè)事件序列,同樣需要云存儲來實(shí)現(xiàn)這種映射關(guān)系。把歷史文獻(xiàn)和其中所記載的事件序列,理解為一個(gè)四維存儲區(qū)。每一份文獻(xiàn)及其中記載的歷史事件,均可看作具有一定時(shí)間區(qū)間和一定空間范圍的單元實(shí)體,依附于這個(gè)實(shí)體之上的主要因素,如人物、地點(diǎn)、社會面貌、軍事力量等等,都體現(xiàn)在事件的發(fā)生變化之中。
在大數(shù)據(jù)大行其道的今天,每一個(gè)終端操作者都無時(shí)不刻充當(dāng)著各類平臺的使用者,同時(shí)也是數(shù)據(jù)的貢獻(xiàn)者。將歷史文獻(xiàn)和其中所記載的事件序列、時(shí)間、空間信息等進(jìn)行抽取,按照四維形式進(jìn)行存儲;每一個(gè)研究者也都可以將最新研究成果(新產(chǎn)生的文獻(xiàn))無縫融合到四維歷史文獻(xiàn)云之中,成為它的組成部分,使得這個(gè)四維歷史文獻(xiàn)云的目標(biāo)文獻(xiàn)搜索能力不斷增長。
四維時(shí)空聯(lián)動(dòng)檢索方法提供四維立體圖形化檢索服務(wù)來高效獲取檢索文獻(xiàn)結(jié)果。使用者通過圖形化操作界面搜索文獻(xiàn),以完全區(qū)別于以往的高效搜索方式而定位到目標(biāo)文獻(xiàn)信息。與以前的單純文字信息檢索方式相比,對歷史文獻(xiàn)中記載的各個(gè)事件的時(shí)間維度和空間三個(gè)維度的信息整合和關(guān)聯(lián),會給使用者前所未有的便利和高價(jià)值的信息量。
四維立體圖形化檢索數(shù)據(jù)服務(wù)允許使用者輸入的單一包含事件/人物的關(guān)鍵字,不再是得到常規(guī)的歷史文獻(xiàn)文字結(jié)果信息,而是根據(jù)關(guān)鍵字的四維屬性值得到一系列相關(guān)聯(lián)的歷史事件,這些事件在四維空間檢索立體空間中以興趣點(diǎn)的形式標(biāo)注出來。同時(shí),所有記錄該相關(guān)事件的歷史文獻(xiàn)將以彈窗或者其它懸浮形式呈現(xiàn)給操作者。最重要的是,當(dāng)在四維操作空間中通過時(shí)間軸進(jìn)行尺度縮放、前后移動(dòng),或者將地域范圍進(jìn)行比例尺縮放、及通常的漫游、移動(dòng)等操作時(shí),該單一事件所關(guān)聯(lián)的時(shí)空連續(xù)性事件將全部呈立體化以興趣點(diǎn)的形式在界面中高亮出來,這些興趣點(diǎn)都對應(yīng)著相應(yīng)的歷文獻(xiàn)結(jié)果列表,重要文獻(xiàn)將被同步高亮。這樣由點(diǎn)及面、由平面到空間、一個(gè)快速、高效的立體化歷史文獻(xiàn)搜索序列結(jié)果就此快速可以在四維圖形化立體空間中產(chǎn)生。且當(dāng)時(shí)間軸上標(biāo)注的時(shí)間發(fā)生變化時(shí),地圖框內(nèi)的地理名稱也將隨其變化,改變?yōu)楫?dāng)時(shí)歷史上的對應(yīng)名稱。形成一種簡單明了、操作方便的四維時(shí)空聯(lián)動(dòng)的檢索空間。
四維時(shí)空聯(lián)動(dòng)檢索方法同時(shí)提供豐富的四維歷史文獻(xiàn)檢索服務(wù),包括文獻(xiàn)全文檢索服務(wù)、事件檢索服務(wù)、時(shí)間軸檢索服務(wù)、地理位置檢索服務(wù)、關(guān)鍵字檢索服務(wù)等。
使用大數(shù)據(jù)分析、時(shí)空四維數(shù)據(jù)存儲及自然語言智能搜索等軟件技術(shù),搭建一個(gè)能夠以時(shí)空為線索,針對任意歷史人物、地點(diǎn)、事件、物體等事件/主題進(jìn)行搜索的文獻(xiàn)云,實(shí)現(xiàn)歷史文獻(xiàn)四維時(shí)空聯(lián)動(dòng)檢索。
四維時(shí)空聯(lián)動(dòng)文獻(xiàn)云采用流行的JavaEE 技術(shù)提供WEB 服務(wù),WEB 客戶端操作界面則利用支持MVC 模式的Javascript 框架AngularJS 來實(shí)現(xiàn)。全面使用最為先進(jìn)的AJAX 及JS template 技術(shù),系統(tǒng)集成地圖服務(wù)提供商提供的中國全域地圖提供空間維度搜索服務(wù);同時(shí)系統(tǒng)提供統(tǒng)一時(shí)間標(biāo)準(zhǔn)檢索替代原始公元紀(jì)年對照表,文獻(xiàn)云的大數(shù)據(jù)分析技術(shù)將會對時(shí)間刻度與文獻(xiàn)關(guān)聯(lián)度進(jìn)行智能存儲、提供時(shí)間軸檢索。
文獻(xiàn)云部署所有的后臺軟件服務(wù)與電子歷史文獻(xiàn)數(shù)據(jù),通過云服務(wù)向廣大歷史文獻(xiàn)使用者提供基于四維立體圖形化檢索的數(shù)據(jù)服務(wù)。使用者使用編著者、人物、地理名稱、事件名稱等進(jìn)行主題檢索,這些主題都將轉(zhuǎn)換成四維屬性的形式位于云存儲中;同時(shí)操作者通過圖形化方式快速在四維聯(lián)動(dòng)空間界面中得到擁有四維屬性的興趣點(diǎn)或興趣點(diǎn)群,進(jìn)而通過內(nèi)部云存儲映射機(jī)制得到興趣點(diǎn)對應(yīng)的歷史文獻(xiàn)信息。在呈現(xiàn)的時(shí)候,四維聯(lián)動(dòng)空間界面中以時(shí)間為縱軸附加到一個(gè)可縮放移動(dòng)的地圖窗口內(nèi),以給文獻(xiàn)檢索者一個(gè)動(dòng)態(tài)的反映實(shí)際變化的信息,而不再是常規(guī)方式孤立無序的文獻(xiàn)片段。四維時(shí)空聯(lián)動(dòng)文獻(xiàn)云將歷史文獻(xiàn)時(shí)間維度和空間三個(gè)維度的信息整合和關(guān)聯(lián),給使用者前所未有的便利和高價(jià)值的信息量。
四維歷史文獻(xiàn)檢索方法,首先對文獻(xiàn)檢索的操作方式進(jìn)行了變革。以前的目錄樹方式按文字檢索雖得以保留,但在以時(shí)間為主軸的時(shí)空聯(lián)動(dòng)檢索中,采用了新穎的時(shí)間軸顯示方式。用戶可以以公歷時(shí)間、中文紀(jì)年輸入年代日期信息,或者通過時(shí)間軸的拖拉定位到特定時(shí)代的相關(guān)文獻(xiàn)。通過搜索得到的事件、事件序列等將會在四維地理時(shí)空中以興趣點(diǎn)的方式進(jìn)行立體化呈現(xiàn),從而將記載事件的歷史文獻(xiàn)通過映射技術(shù)提供給使用者,使其方便快速的得到有用的信息。
其次,對歷史文獻(xiàn)的存儲方式進(jìn)行了改進(jìn),把單純的電子化文本內(nèi)容,變?yōu)閯?dòng)態(tài)的,按照一定主題不斷演化和增長的文獻(xiàn)生長系統(tǒng),使文獻(xiàn)存儲本身可以自組織和優(yōu)化,對歷史文獻(xiàn)的使用帶來豐富化和網(wǎng)絡(luò)化。歷史文獻(xiàn)四維圖形化立體檢索方法,能夠讓研究者從時(shí)間范圍和空間范圍內(nèi)大大縮小需要閱讀的文獻(xiàn)量,可以將需要閱讀的文獻(xiàn)縮減到常規(guī)方式下日常工作的十分之一甚至更少。與原始簡單文字的搜索方法相較,在搜索準(zhǔn)確度和效率上呈指數(shù)倍增長。
再次,提出新形態(tài)的四維歷史事件單元概念,利用這個(gè)概念把重要的歷史事件、地點(diǎn)人物組織起來,讓歷史文獻(xiàn)能夠以時(shí)間維度把描述相近或相同的內(nèi)容并列,以方便文獻(xiàn)使用者篩選編輯。文獻(xiàn)研究者可以以歷史事件為單位,組織考察相關(guān)的文章資料來源,按照這種方式可以快速有效的檢索到自己需要的文獻(xiàn)資料。使用者可以充分利用文獻(xiàn)數(shù)據(jù)的按時(shí)間空間的四維組織形式,對自己的研究主題進(jìn)行數(shù)據(jù)收集整理。能從根本上解決卷帙浩繁的歷史文獻(xiàn)難以組織時(shí)間線索,獲取資料不易取舍的問題,大大加快文獻(xiàn)使用者得到有效信息的進(jìn)程,促進(jìn)歷史文獻(xiàn)研究者們的研究。