覃 熙,李佳輝,蘇瑞竹
(廣西民族大學(xué) a.圖書館;b.管理學(xué)院,廣西 南寧 530006)
數(shù)字人文從最早的“人文計(jì)算”產(chǎn)生以來(lái)發(fā)展至今,無(wú)數(shù)學(xué)者對(duì)其內(nèi)涵外延作了研究和論證,業(yè)內(nèi)統(tǒng)指人文學(xué)者運(yùn)用計(jì)算思維,將研究對(duì)象通過(guò)計(jì)算機(jī)軟件以可關(guān)聯(lián)、可計(jì)算和可視化的方式進(jìn)行知識(shí)重構(gòu),便于開展統(tǒng)計(jì)分析和信息挖掘。研究者通過(guò)這種思維方式,發(fā)現(xiàn)人文學(xué)科中蘊(yùn)藏的特征和規(guī)律以及隱藏的新知識(shí),為研究對(duì)象的發(fā)展趨勢(shì)作出判斷提供依據(jù)。
傳統(tǒng)的人文研究范式是對(duì)基礎(chǔ)性材料進(jìn)行思辨、歸納、解釋的定性分析模式以及線性、深度、細(xì)讀的閱讀,“人文計(jì)算”將數(shù)理統(tǒng)計(jì)的研究方法引入人文領(lǐng)域,對(duì)海量的不同文本進(jìn)行綜合定量分析。而“數(shù)字人文”,在“人文計(jì)算”的基礎(chǔ)上,增加包含了信息組織可視化,將信息轉(zhuǎn)變?yōu)閳D形從而生成二次知識(shí)。美國(guó)伊利諾伊州立大學(xué)教授John Unsworth認(rèn)為,“數(shù)字人文”是高效計(jì)算和人文溝通的一種建模方式,將人文知識(shí)的發(fā)現(xiàn)、標(biāo)注、比較、引用、取樣、詮釋以及呈現(xiàn)等過(guò)程都通過(guò)計(jì)算機(jī)技術(shù)改變了其模式。作為新興的研究手段,數(shù)字人文被大量運(yùn)用于歷史、考古、文學(xué)等學(xué)科領(lǐng)域,將學(xué)科知識(shí)進(jìn)行單元細(xì)粒度化、語(yǔ)義化,為人們提供了全新的研究視角和工具手段。劉煒等歸納了傳統(tǒng)人文各領(lǐng)域的數(shù)字化特征,將“六經(jīng)”,即《詩(shī)經(jīng)》《尚書》《禮》《易》《樂經(jīng)》《春秋》對(duì)應(yīng)當(dāng)代人文研究體系的“語(yǔ)言學(xué)”“政治學(xué)”“社會(huì)學(xué)”“哲學(xué)”“藝術(shù)”和“史學(xué)”,當(dāng)數(shù)字技術(shù)進(jìn)入這些領(lǐng)域時(shí),學(xué)科研究的深度和廣度得到很大拓展。因此數(shù)字人文不僅是一種學(xué)科研究范式、一種人文計(jì)算的工具集合、一種研究意識(shí)共同體,從更簡(jiǎn)單的表象上來(lái)看,它就是一種知識(shí)重構(gòu)的技術(shù)集合。由于其知識(shí)的關(guān)聯(lián)度大大增加,知識(shí)的語(yǔ)義描述擴(kuò)展為多個(gè)維度,從而呈現(xiàn)出更加豐富的表現(xiàn)結(jié)構(gòu)。
數(shù)字人文技術(shù)把沒有形體的數(shù)據(jù)、文字、概念和故事變成畫面,通過(guò)人類最發(fā)達(dá)的視覺系統(tǒng),幫助缺乏數(shù)字直覺的學(xué)習(xí)者加深理解和體驗(yàn),開展數(shù)據(jù)背后意義的抽象思考。目前,學(xué)界通過(guò)數(shù)字技術(shù)進(jìn)行知識(shí)重組的研究日漸豐富,研究者通過(guò)文本分析工具研究語(yǔ)言現(xiàn)象和規(guī)律、分析哲學(xué)的概念語(yǔ)義,結(jié)合多地圖疊加技術(shù)展現(xiàn)各種學(xué)科知識(shí)在時(shí)間上的演化過(guò)程以及空間分布,挖掘歷史人物的行蹤軌跡和人物關(guān)系。我們樂于發(fā)現(xiàn)數(shù)字技術(shù)為人文學(xué)科帶來(lái)的計(jì)算結(jié)果,如通過(guò)武則天稱謂的詞頻變化統(tǒng)計(jì)、朝代分布、文獻(xiàn)分布和地理空間聚合分布等多個(gè)觀察維度,能夠得出歷史上人們對(duì)武則天的客觀評(píng)價(jià);通過(guò)法律語(yǔ)言學(xué)的分析方法鑒別《布谷鳥的呼喚》的真實(shí)作者與《哈利·波特》的作者J.K.羅琳是同一人;通過(guò)對(duì)《左傳》里的事件、人物信息進(jìn)行結(jié)構(gòu)特征的計(jì)量算法,用可視化結(jié)果分析《左傳》里的人物在同一事件中出現(xiàn)的概率、人物關(guān)系特點(diǎn)以及人物地位表述。多媒體映像技術(shù)可對(duì)藝術(shù)和歷史進(jìn)行史料的解釋和重建再現(xiàn)。例如,用全息影像展示清明上河圖;利用應(yīng)用數(shù)據(jù)庫(kù)《3D實(shí)景莫高窟》展示“數(shù)字敦煌”“虛擬洞窟”等;通過(guò)歷史地理信息系統(tǒng),實(shí)現(xiàn)古代道路和城市復(fù)原以及語(yǔ)言民族變遷調(diào)查地圖的形成。數(shù)字技術(shù)的魅力不僅可應(yīng)用在學(xué)術(shù)上,還可以通過(guò)其可視化的知識(shí)表現(xiàn)形式應(yīng)用于政治決策。19世紀(jì),英國(guó)護(hù)士和統(tǒng)計(jì)學(xué)家Florence Nightingale,為一些不太能理解傳統(tǒng)統(tǒng)計(jì)報(bào)表的公務(wù)人員制作了一種色彩繽紛的圖表,即歷史上著名的“南丁格爾玫瑰圖”,用以揭示軍醫(yī)院季節(jié)性的死亡率,得到當(dāng)時(shí)的國(guó)家政府高層包括軍方人士和維多利亞女王對(duì)醫(yī)事改良的支持。
2015年,我國(guó)發(fā)布《推動(dòng)共建絲綢之路經(jīng)濟(jì)帶和21世紀(jì)海上絲綢之路的愿景與行動(dòng)》,“一帶一路”正式進(jìn)入全面實(shí)施階段。東南亞航線是“21世紀(jì)海上絲綢之路”的第一段,東南亞多國(guó)與中國(guó)海陸相連。自2003年起,中國(guó)與東盟各國(guó)建立了和平穩(wěn)定的戰(zhàn)略伙伴關(guān)系;2011年,中國(guó)—東盟中心正式成立,著力促進(jìn)中國(guó)與東盟各領(lǐng)域合作。從政府到科研機(jī)構(gòu),從高校到企業(yè),對(duì)東盟貿(mào)易、投資、教育、文化、旅游、信息媒體等全方位的研究日益深入。各類信息服務(wù)機(jī)構(gòu)為東盟的研究開展了大量信息保障工作,目前已有多個(gè)東盟信息資源收集整理數(shù)據(jù)平臺(tái)并各具特色。
東盟信息資源保障體系的構(gòu)建,是新時(shí)代中國(guó)自主創(chuàng)新道路實(shí)施創(chuàng)新驅(qū)動(dòng)以及“一帶一路”建設(shè)的重要支撐,經(jīng)過(guò)多年的探索和實(shí)踐,我國(guó)構(gòu)建了多個(gè)東盟信息資源保障中心和平臺(tái)。例如,中國(guó)社會(huì)科學(xué)院亞太與全球戰(zhàn)略研究院建設(shè)的“東南亞研究網(wǎng)”,其中收錄了2008—2016年國(guó)內(nèi)出版的部分東南亞研究學(xué)術(shù)著作以及各類期刊公開發(fā)表的東南亞研究文獻(xiàn),同時(shí)鏈接了如文萊政策和戰(zhàn)略研究所、老撾國(guó)家經(jīng)濟(jì)研究中心、緬甸戰(zhàn)略和國(guó)際問(wèn)題研究所、柬埔寨合作與和平研究所、越南中央經(jīng)濟(jì)管理研究所、泰國(guó)朱拉隆功大學(xué)社會(huì)研究所、菲律賓發(fā)展研究所、印尼經(jīng)濟(jì)研究中心等30多所東南亞研究機(jī)構(gòu)的官網(wǎng)。社會(huì)科學(xué)文獻(xiàn)出版社構(gòu)建的“一帶一路”數(shù)據(jù)庫(kù),設(shè)置九大功能子庫(kù),從研究、實(shí)踐、資訊等方面服務(wù)三大主流用戶。廣西社會(huì)科學(xué)院東南亞研究所、云南社會(huì)科學(xué)院東南亞研究所、社會(huì)科學(xué)文獻(xiàn)出版社以及臺(tái)灣東南亞學(xué)會(huì)、臺(tái)灣政策研究中心亞太研究小組等,這些學(xué)術(shù)機(jī)構(gòu)均收藏了大量的東盟文獻(xiàn)信息資源。圍繞“中國(guó)—東盟信息港”的建設(shè),多家具備數(shù)字產(chǎn)業(yè)優(yōu)勢(shì)的平臺(tái)開發(fā)了專門的公司,發(fā)揮大數(shù)據(jù)分析處理的平臺(tái)特色帶動(dòng)了不少數(shù)字經(jīng)濟(jì)專項(xiàng)的開發(fā)。此外,還有圍繞大湄公河次區(qū)域經(jīng)濟(jì)合作開發(fā)的各類數(shù)據(jù)庫(kù),如中尺度行政區(qū)劃地理信息系統(tǒng)數(shù)據(jù)庫(kù)(GMS_AdmBnd)等。國(guó)內(nèi)多所院校以及香港、臺(tái)灣地區(qū)的不少大學(xué)均設(shè)立東南亞研究機(jī)構(gòu),在東盟文獻(xiàn)信息資源(特別是東盟語(yǔ)種文獻(xiàn))建設(shè)方面也形成了區(qū)域地方特色。此外,我國(guó)關(guān)于東盟研究的成果豐富,在期刊、會(huì)議、報(bào)告、報(bào)紙、圖書、學(xué)位論文以及各類平臺(tái)開放。
發(fā)達(dá)的互聯(lián)網(wǎng)為我們提供了海量的東盟國(guó)家發(fā)展統(tǒng)計(jì)數(shù)據(jù)。聯(lián)合國(guó)商貿(mào)易統(tǒng)計(jì)數(shù)據(jù)庫(kù)是目前全球數(shù)據(jù)量最多、最權(quán)威的國(guó)際商品貿(mào)易信息資源庫(kù),收集了 6 000 多種商品、近17億個(gè)數(shù)據(jù),數(shù)據(jù)最早可回溯至1962年;全球可持續(xù)發(fā)展指標(biāo)數(shù)據(jù)庫(kù)結(jié)合全球可持續(xù)發(fā)展峰會(huì)確立的17項(xiàng)總目標(biāo)和169項(xiàng)子目標(biāo)以及相應(yīng)的SDG指標(biāo)數(shù)據(jù)庫(kù),數(shù)據(jù)涵蓋社會(huì)、經(jīng)濟(jì)、環(huán)境三大領(lǐng)域;服務(wù)貿(mào)易數(shù)據(jù)庫(kù)涵蓋近十多年來(lái)200個(gè)經(jīng)濟(jì)體服務(wù)進(jìn)出口的服務(wù)數(shù)量;世界發(fā)展指標(biāo)數(shù)據(jù)庫(kù)包含200多個(gè)國(guó)家和18個(gè)地區(qū)的社會(huì)、經(jīng)濟(jì)、財(cái)政、自然資源和環(huán)境等各方面,共695種發(fā)展指數(shù)的統(tǒng)計(jì)數(shù)據(jù);環(huán)境、社會(huì)和公司治理數(shù)據(jù)庫(kù)將世界各國(guó)的溫室氣體排放量、人口變化和男女平等的進(jìn)展程度等17種指標(biāo)一元化;全球金融發(fā)展數(shù)據(jù)庫(kù)收錄136個(gè)國(guó)家的外債與金融流程數(shù)據(jù)資料,涵蓋217個(gè)參數(shù)的統(tǒng)計(jì)數(shù)據(jù);國(guó)家統(tǒng)計(jì)局也做了六大洲多個(gè)國(guó)家的統(tǒng)計(jì)網(wǎng)站的鏈接,亞洲部分涵蓋29個(gè)國(guó)家,其中東盟國(guó)家有7個(gè),發(fā)布包含GDP、CPI、人口普查、糧食產(chǎn)量等多種統(tǒng)計(jì)指標(biāo)國(guó)家數(shù)據(jù)。
探尋東盟國(guó)家的文化資源,有些國(guó)家電子書資源相對(duì)豐富,如泰國(guó)的移動(dòng)電子書網(wǎng)站,印尼的Gramedia的電子書平臺(tái)、Wayang Force綜合類書籍與雜志等。一些東盟國(guó)家的機(jī)構(gòu)知識(shí)庫(kù)以及高校的學(xué)位論文庫(kù)相對(duì)健全,如新加坡國(guó)立大學(xué)學(xué)位論文庫(kù)、泰國(guó)朱拉隆功大學(xué)學(xué)位論文數(shù)據(jù)庫(kù)等。東盟各國(guó)及地方政府網(wǎng)站或facebook的官方賬號(hào),地方新聞媒體、綜合門戶網(wǎng)站、社會(huì)團(tuán)體網(wǎng)站、論壇等是當(dāng)?shù)卣巍⒔?jīng)濟(jì)、社會(huì)、文化、科技以及政府信息發(fā)布的集中平臺(tái),如越南河內(nèi)市政府官網(wǎng),泰國(guó)馬哈沙拉坎府facebook賬戶,泰國(guó)的《民族報(bào)》《泰國(guó)日?qǐng)?bào)(英文版)》《暹羅日?qǐng)?bào)(泰文版)》、泰聯(lián)網(wǎng)等網(wǎng)站,緬甸的旅游信息網(wǎng)、果敢論壇,新加坡南安藝文社、菲律賓華裔青年聯(lián)合會(huì)Kaisa Para Kaunlaraan等。自中國(guó)—東盟自由貿(mào)易區(qū)成立以來(lái),東南亞國(guó)家之間民間的“微”交流愈加頻繁,社交平臺(tái)上出現(xiàn)了難以計(jì)數(shù)的公眾號(hào),如“泰語(yǔ)泰國(guó)”“大緬甸”“緬甸今日”“泰國(guó)中文網(wǎng)”“老撾快訊”“醉美緬甸”“泰國(guó)妞”等,都屬于實(shí)時(shí)信息來(lái)源。
“十三五”期間,東盟基礎(chǔ)資源的建設(shè)在資源深度加工和整合、數(shù)據(jù)庫(kù)的建設(shè)與組織、保障平臺(tái)的建設(shè)與維護(hù)等方面都加大了創(chuàng)新力度,東盟信息資源保障的能力和水平顯著提升。但隨著數(shù)字人文的興起,研究人員對(duì)數(shù)據(jù)有著更豐富和更深層的訴求,而當(dāng)下,東盟信息資源建設(shè)仍然是以數(shù)據(jù)集散建設(shè)模式為主,這種傳統(tǒng)知識(shí)組織形式下的數(shù)據(jù)材料之間缺乏有意義的關(guān)聯(lián),如時(shí)序性、地理信息以及其他元素之間的數(shù)據(jù)支持,數(shù)據(jù)粒度大且分散,沒有形成多維度的關(guān)聯(lián)組織和精細(xì)化的計(jì)算分析,使用者只能通過(guò)零散的原始數(shù)據(jù)進(jìn)行孤立分析,難以發(fā)現(xiàn)數(shù)據(jù)所包含的深層問(wèn)題。目前,東盟信息資源建設(shè)取得的成就只是一種建設(shè)式的改變,而不是重構(gòu)式的改革。面對(duì)復(fù)雜變幻的信息技術(shù)環(huán)境和日益增長(zhǎng)的用戶信息需求,東盟信息資源供給不平衡、不充分,信息資源組織方式單一,個(gè)性化和集成化服務(wù)程度不高,信息資源開發(fā)利用不足與無(wú)序?yàn)E用的現(xiàn)象亟待改善。
隨著國(guó)際競(jìng)爭(zhēng)局勢(shì)的加劇,國(guó)內(nèi)對(duì)東盟國(guó)家發(fā)展的研究需求提高,數(shù)字人文技術(shù)的出現(xiàn)帶來(lái)了全新信息環(huán)境的形成以及科學(xué)研究范式的轉(zhuǎn)變,也為東盟信息資源保障體系帶來(lái)了改革契機(jī),東盟信息資源的組織方式和保障機(jī)制都有待重新界定和設(shè)計(jì)。數(shù)字人文技術(shù)的出現(xiàn)促進(jìn)了科技手段與傳統(tǒng)人文學(xué)科的融合,也引發(fā)了信息資源保障體系建設(shè)利用思路的轉(zhuǎn)變,“十四五”發(fā)展規(guī)劃對(duì)我國(guó)數(shù)字資源保障建設(shè)提出新的戰(zhàn)略要求,東盟信息資源重組的發(fā)展方向是知識(shí)關(guān)聯(lián)、定量分析和深度挖掘。我們有必要研究如何擴(kuò)充信息的知識(shí)表達(dá),把異形數(shù)據(jù)、大顆粒度的信息進(jìn)行內(nèi)容關(guān)聯(lián)和聚集,建立東盟數(shù)字資源服務(wù)堆棧,實(shí)現(xiàn)東盟信息資源的存儲(chǔ)、重構(gòu)、挖掘和知識(shí)發(fā)現(xiàn),以滿足信息價(jià)值深度挖掘和再創(chuàng)造的用戶需求作為出發(fā)點(diǎn)和歸宿,支撐我國(guó)“一帶一路”信息資源保障任務(wù)順利推進(jìn)。
利用數(shù)字分析技術(shù)對(duì)東盟信息資源進(jìn)行組織和重構(gòu),需要搭建一個(gè)以用戶響應(yīng)機(jī)制為出發(fā)點(diǎn)的集數(shù)據(jù)抓取處理、資源語(yǔ)義重構(gòu)性描述、認(rèn)知計(jì)算功能三位一體的數(shù)字資源堆棧,包含數(shù)據(jù)棧、語(yǔ)義棧、用戶棧,每一層面都運(yùn)用下一層的能力,我們討論信息從堆棧底層向上直至用戶需求響應(yīng)的實(shí)現(xiàn)理念,提出數(shù)字人文堆棧平臺(tái)的思路。平臺(tái)設(shè)計(jì)采用Python編程技術(shù)結(jié)合Hadoop架構(gòu)作為基礎(chǔ),對(duì)數(shù)據(jù)流進(jìn)行控制和可視化展示,以實(shí)現(xiàn)數(shù)字人文堆棧模型(見圖1)和數(shù)字人文平臺(tái)架構(gòu)體系(見圖2)。
圖1 數(shù)字人文堆棧模型
圖2 數(shù)字人文分析平臺(tái)架構(gòu)體系
數(shù)據(jù)的處理是資源堆棧搭建的重要根基。以定量二維表格式為代表的結(jié)構(gòu)化數(shù)據(jù),儲(chǔ)存于關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中,這類數(shù)據(jù)的存、取、用技術(shù)成熟。常規(guī)做法是利用DBMS驅(qū)動(dòng)對(duì)結(jié)構(gòu)數(shù)據(jù)源進(jìn)行ETL操作(提取、轉(zhuǎn)換、載入)。這部分?jǐn)?shù)據(jù)較為規(guī)范,可使用Sqoop工具,根據(jù)中介數(shù)據(jù)結(jié)構(gòu)在數(shù)據(jù)源采集數(shù)據(jù)時(shí)確保數(shù)據(jù)類型得到準(zhǔn)確處理,形成格式統(tǒng)一且能夠直接利用的元數(shù)據(jù),存儲(chǔ)在Hbase元數(shù)據(jù)庫(kù)當(dāng)中。
而文本、影音、短視頻等無(wú)法使用數(shù)據(jù)二元結(jié)構(gòu)邏輯表現(xiàn)對(duì)信息進(jìn)行表示的這類數(shù)據(jù)可歸納為非結(jié)構(gòu)化和半結(jié)構(gòu)化形式數(shù)據(jù)。例如,東盟各國(guó)語(yǔ)種媒體資料這類非結(jié)構(gòu)化數(shù)據(jù),則專門需要通過(guò)NLP(自然語(yǔ)言處理)技術(shù),識(shí)別文本中的關(guān)鍵信息元。使用Avro工具對(duì)這部分信息元進(jìn)行JSON字符串或二進(jìn)制編碼進(jìn)序列化處理,將提取的元數(shù)據(jù)保存在Hive數(shù)據(jù)庫(kù)當(dāng)中。
非結(jié)構(gòu)化的數(shù)據(jù),沒有嚴(yán)格的格式限定,對(duì)信息在堆棧當(dāng)中的描述是有利的,信息可以在堆棧當(dāng)中自由流入以及更新。利用自然手段對(duì)非結(jié)構(gòu)化數(shù)據(jù)有針對(duì)性地挖掘,根據(jù)用戶自建模式來(lái)檢索信息。非結(jié)構(gòu)化數(shù)據(jù)不再是信息資源的附加描述,當(dāng)中也包含著豐富的可關(guān)聯(lián)、可統(tǒng)計(jì)、可視化資源,能夠?qū)?shù)據(jù)進(jìn)行多維度描述。
信息在數(shù)字系統(tǒng)中是數(shù)據(jù)結(jié)構(gòu)和控制結(jié)構(gòu)的組合,堆棧建設(shè)信息元的存儲(chǔ)和利用需要深度清洗、轉(zhuǎn)換、重排、載入等操作,以滿足信息的準(zhǔn)確重組和推理。用戶可提取Hbase中的數(shù)據(jù)進(jìn)行深度清洗,再將元數(shù)據(jù)載入Hive數(shù)據(jù)庫(kù)當(dāng)中,用于信息統(tǒng)計(jì)業(yè)務(wù)。數(shù)據(jù)集的錯(cuò)誤需要在被采集時(shí)進(jìn)行了糾正和重塑,Hbase中的元數(shù)據(jù)主要是滿足信息實(shí)時(shí)業(yè)務(wù)的利用。
信息推理是語(yǔ)義棧的重要職能,海量數(shù)據(jù)集在這里進(jìn)行算法學(xué)習(xí),得到目標(biāo)數(shù)據(jù)在特定領(lǐng)域里的訓(xùn)練模型,實(shí)現(xiàn)信息推理。TensorFlow作為深度學(xué)習(xí)的框架,除了能夠提供各類預(yù)測(cè)算法,還提供了強(qiáng)化學(xué)習(xí)的算法。強(qiáng)化學(xué)習(xí)算法能夠讓具有決策能力的智能實(shí)體,通過(guò)感應(yīng)外界環(huán)境的變化而激發(fā)自身作出決策。當(dāng)前,自然語(yǔ)言處理技術(shù)也得到深度學(xué)習(xí)助力,解決了語(yǔ)義匹配當(dāng)中語(yǔ)義相似度的問(wèn)題。
選擇和利用好適當(dāng)?shù)墓ぞ呖梢蕴岣邤?shù)據(jù)載入的工作效率,節(jié)約數(shù)據(jù)準(zhǔn)備時(shí)間,有利于數(shù)據(jù)有效進(jìn)入用戶響應(yīng)環(huán)節(jié)。
用戶棧的建設(shè)前提是要做好用戶對(duì)東盟信息資源重構(gòu)的需求預(yù)判。東盟信息不僅是資源集散地,更是為國(guó)家戰(zhàn)略提供智力支持的重要材料。信息的重構(gòu)并不是將原有的數(shù)據(jù)消除或是新建,而是當(dāng)源數(shù)據(jù)集的表現(xiàn)方式不能滿足用戶需求時(shí),用戶棧需要將數(shù)據(jù)分析形成二次信息元數(shù)據(jù)自行重組利用,實(shí)現(xiàn)系統(tǒng)人機(jī)交互。數(shù)據(jù)集內(nèi)的數(shù)據(jù)意義在堆棧當(dāng)中是可以進(jìn)行重復(fù)利用的,并且可以隨用戶使用不斷完善和擴(kuò)充,形成優(yōu)質(zhì)的數(shù)據(jù)集。
信息重構(gòu)的重點(diǎn),不僅有數(shù)據(jù)處理技術(shù),還有用戶響應(yīng)機(jī)制。用戶是知識(shí)的開發(fā)者,他們通過(guò)文本和時(shí)空數(shù)據(jù)集成,用專業(yè)的研究方式進(jìn)行知識(shí)發(fā)現(xiàn),形成新的知識(shí)組織形式。便于用戶易懂易用的圖形化展示工具可呈現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和規(guī)律,讓抽象的信息具體化,有助于研究者發(fā)現(xiàn)信息包含的知識(shí),展示高質(zhì)量的數(shù)據(jù)內(nèi)容可提升信息交互的高率性、可靠性、專業(yè)性。在Python編程框架對(duì)數(shù)據(jù)的可視化提供豐富的工具支持,使用Matplotlib繪圖庫(kù),能夠輕松繪制多種類型的二維圖表,也可利用mpl_toolkits.mplot3d工具庫(kù)實(shí)現(xiàn)三維圖表繪制。在Superset平臺(tái)可以使用SQL語(yǔ)句連接數(shù)據(jù)庫(kù)對(duì)大型數(shù)據(jù)實(shí)時(shí)展示提供快速切片,構(gòu)建合理的儀表盤。
東盟數(shù)字資源堆棧搭建成型后,用戶進(jìn)入資源平臺(tái),面對(duì)的既是已經(jīng)組織成型的數(shù)據(jù)結(jié)構(gòu),也是一個(gè)多維度人機(jī)交互使用的信息系統(tǒng)。在這里,用戶不僅是數(shù)據(jù)獲取方,更是二次知識(shí)的開發(fā)者,數(shù)據(jù)以各類知識(shí)元形式排列,由用戶進(jìn)行重組重構(gòu),發(fā)現(xiàn)新的知識(shí)和規(guī)律,并上傳平臺(tái)進(jìn)行二次知識(shí)共享。
用戶根據(jù)需求,自行圍繞東盟十國(guó)信息資源形成主題建制,數(shù)據(jù)棧已經(jīng)圍繞年份、國(guó)家、領(lǐng)域等時(shí)間、空間、發(fā)展維度描述進(jìn)行變量編碼,并提供開放式結(jié)構(gòu)便于用戶進(jìn)行數(shù)據(jù)統(tǒng)計(jì)以及相關(guān)性分析。例如,關(guān)聯(lián)性分析、數(shù)據(jù)過(guò)濾、矩陣散點(diǎn)、用戶畫像、三維聚類、特征篩選、回歸分析、帕累托圖等分析可視化,協(xié)助用戶全面觀察研究領(lǐng)域的歷史數(shù)據(jù)。數(shù)據(jù)棧提供的算法可以計(jì)算東盟各國(guó)之間的差距與關(guān)系,深層次挖掘東盟各國(guó)的發(fā)展與變遷,同時(shí)對(duì)信息的來(lái)源、行業(yè)領(lǐng)域、數(shù)據(jù)特征等多種維度進(jìn)行關(guān)聯(lián),利用趨勢(shì)推理技術(shù)發(fā)現(xiàn)不同維度數(shù)據(jù)之間包含的關(guān)系。例如,東盟十國(guó)的GDP以及相關(guān)商貿(mào)、航運(yùn)等行業(yè)的發(fā)展指數(shù),與人口總數(shù)、就業(yè)失業(yè)人數(shù)共18個(gè)字段的數(shù)據(jù)資源進(jìn)行交叉融合,以三維聚類散點(diǎn)圖方式進(jìn)行組織重構(gòu),得到東盟十國(guó)經(jīng)貿(mào)人口發(fā)展概況的對(duì)比散點(diǎn)圖,能夠?qū)崿F(xiàn)1個(gè)界面18個(gè)維度的東盟各國(guó)綜合指數(shù)分析(見圖3)。
圖3 東盟十國(guó)經(jīng)貿(mào)人口數(shù)據(jù)交叉重組和三維聚類分析
東盟數(shù)字資源堆棧能夠滿足用戶對(duì)文本的粒度化知識(shí)分析,提供文本資源全文閱覽和統(tǒng)計(jì)分析的功能。堆棧具備的提煉關(guān)鍵詞、過(guò)濾降噪、分詞、詞性分析、專有名詞識(shí)別、知識(shí)圖譜、情感分析、自動(dòng)摘要、主題識(shí)別、生成故事流等知識(shí)重組技術(shù),可提供知識(shí)圖譜服務(wù)。以“越南自衛(wèi)反擊戰(zhàn)”詞云圖為例,不同的字體大小和位置展示了其關(guān)鍵詞和高頻詞(見圖4)。又如,用戶在某國(guó)皇室人物及關(guān)系地位進(jìn)行文本研究時(shí)被冗長(zhǎng)的人名和復(fù)雜的地位關(guān)系所困擾,專有名詞識(shí)別技術(shù)可以將文本導(dǎo)出形成人物關(guān)系知識(shí)圖譜,以此節(jié)約用戶的理解耗時(shí)。
圖4 “越南自衛(wèi)反擊戰(zhàn)”詞云圖
具備地理空間觀察視角的用戶可以通過(guò)研究數(shù)據(jù)在地圖上進(jìn)行分布、組合與變遷動(dòng)態(tài)的重構(gòu),能夠通過(guò)從空間上反映出的東盟各國(guó)經(jīng)濟(jì)、文化、社會(huì)發(fā)展和變遷,推斷其在歷史上的文化流變與經(jīng)濟(jì)發(fā)展的關(guān)系。東盟數(shù)字資源堆棧儲(chǔ)存了東盟各國(guó)主要城市的人口、經(jīng)濟(jì)發(fā)展指標(biāo)、文化建設(shè)、疫情概況等數(shù)據(jù)資源,用戶可以利用地區(qū)分布圖、地圖散點(diǎn)圖、連接地圖和三維地區(qū)柱狀圖等知識(shí)組織工具自行進(jìn)行觀測(cè)。例如,用戶想了解東盟十國(guó)和周邊重要國(guó)家人口增長(zhǎng)率可利用地球儀進(jìn)行呈現(xiàn),因?yàn)槠湟曈X效果具有較好的對(duì)比性和直觀性(見圖5)。
圖5 國(guó)家人口增長(zhǎng)率地理時(shí)空數(shù)據(jù)圖
東盟數(shù)字資源堆棧預(yù)判用戶應(yīng)用需求,將數(shù)據(jù)的時(shí)間屬性進(jìn)行存儲(chǔ)組合設(shè)計(jì)。用戶可以利用時(shí)序散點(diǎn)圖、極坐標(biāo)圖、熱力圖、動(dòng)態(tài)圖、周期圖、多系列三維柱狀圖、不同顏色形狀結(jié)合觀測(cè)的主題河流圖、自變量與因變量的回歸分析、基于數(shù)據(jù)算法的預(yù)測(cè)分析、跨庫(kù)數(shù)據(jù)的關(guān)聯(lián)融合等工具進(jìn)行時(shí)序觀察,觀測(cè)數(shù)據(jù)對(duì)象包含的規(guī)律、趨勢(shì)等信息,如東盟國(guó)家二氧化碳排放量對(duì)比即是如此(見圖6)。
圖6 東盟國(guó)家二氧化碳排放量前五名對(duì)比圖
東盟數(shù)字資源堆棧具備的異構(gòu)數(shù)據(jù)和多源數(shù)據(jù)的融合、計(jì)算、推理和可視化功能,可滿足用戶以下兩種需求:一是用戶對(duì)不同維度的聯(lián)合觀測(cè)需求。這需要更大的數(shù)據(jù)量以及不同屬性的碎片化數(shù)據(jù)重新進(jìn)行有效組合,形成多維關(guān)聯(lián)的綜合知識(shí)圖譜或者實(shí)時(shí)數(shù)據(jù)觀測(cè)系統(tǒng)。例如,用戶在追蹤特定事件進(jìn)展時(shí),往往要對(duì)網(wǎng)頁(yè)、微信、社交平臺(tái)、手機(jī)應(yīng)用、論壇、報(bào)刊、視頻、問(wèn)答、評(píng)論、廣播電視等媒體進(jìn)行碎片數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換以及多源融合,并實(shí)現(xiàn)時(shí)間范圍、媒體類型、情感屬性、媒體類別、發(fā)布地區(qū)、精準(zhǔn)度、信源等信息類別的自定義動(dòng)態(tài)追蹤,形成個(gè)性定制的可視化觀測(cè)界面以及多維度動(dòng)態(tài)信息語(yǔ)義分析。例如,“東南亞貿(mào)易”的多平臺(tái)信息發(fā)布實(shí)時(shí)統(tǒng)計(jì)及資源統(tǒng)一入口(見圖7),用戶可以點(diǎn)擊地圖中高亮城市呈現(xiàn)對(duì)應(yīng)地區(qū)、數(shù)據(jù)源的資源全文,在界面上對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行糾錯(cuò)降噪處理。
圖7 “東南亞貿(mào)易”的多平臺(tái)信息發(fā)布實(shí)時(shí)
二是影響因子分析。用戶對(duì)研究對(duì)象進(jìn)行多種維度跨庫(kù)綜合分析,以發(fā)現(xiàn)外在因素對(duì)研究事物發(fā)展的內(nèi)在影響。例如,新冠肺炎疫情與經(jīng)濟(jì)研究數(shù)據(jù)的多源融合(見圖8),研究對(duì)象是新冠肺炎疫情對(duì)經(jīng)濟(jì)的影響,用戶可自行組織疫情基本信息、人口流動(dòng)信息、經(jīng)濟(jì)影響信息3套基礎(chǔ)數(shù)據(jù),重構(gòu)新冠肺炎疫情與經(jīng)濟(jì)研究數(shù)據(jù)庫(kù):1)疫情基本信息從每日疫情動(dòng)態(tài)、疫情防控財(cái)政專項(xiàng)撥款情況、確診病例分布、確診病例活動(dòng)軌跡、醫(yī)療救治數(shù)量統(tǒng)計(jì)等數(shù)據(jù)反映;2)人口流動(dòng)信息包括各省份及城市的遷入遷出人口數(shù)據(jù);3)經(jīng)濟(jì)影響信息由單月主要經(jīng)濟(jì)數(shù)據(jù)環(huán)比表、單月國(guó)內(nèi)GDP、單月宏觀經(jīng)濟(jì)數(shù)據(jù)等數(shù)據(jù)組成。在這個(gè)研究數(shù)據(jù)的提供過(guò)程中,用戶需具備跨庫(kù)數(shù)據(jù)多維關(guān)聯(lián)的組織思路,同樣的數(shù)據(jù)重組原理還可以運(yùn)用于研究特定事件趨勢(shì)及傳播路徑等領(lǐng)域。
圖8 新冠肺炎疫情與經(jīng)濟(jì)研究數(shù)據(jù)的多源融合組織思路
基于在東盟信息資源重構(gòu)工作中面臨的實(shí)際問(wèn)題和挑戰(zhàn),建設(shè)完善的東盟信息資源服務(wù)保障體系,可從以下幾個(gè)方面展開。
研究單位和高校等信息服務(wù)機(jī)構(gòu)提供的東盟文獻(xiàn)信息資源需強(qiáng)調(diào)特色,避免重復(fù)建設(shè),不僅為實(shí)現(xiàn)自身的獨(dú)特服務(wù)優(yōu)勢(shì),還有助于為后期的建設(shè)方向制訂發(fā)展方針。東盟信息資源的組織與利用目前處于供需不平衡的階段,資源組織單位之間要協(xié)同創(chuàng)新,建立穩(wěn)定共贏的合作關(guān)系。組建跨學(xué)科、跨領(lǐng)域的研究團(tuán)隊(duì),提升東盟信息資源的整合能力,建設(shè)以科研單位、高校圖書館為依托的東盟信息服務(wù)保障平臺(tái),形成統(tǒng)一發(fā)布數(shù)據(jù)組織成果的機(jī)制,為東盟研究和國(guó)家重大戰(zhàn)略提供理性思考和精準(zhǔn)服務(wù)。
提升資源組織單位以及研究者的數(shù)據(jù)思維和數(shù)據(jù)分析處理能力。習(xí)近平總書記在主持國(guó)家大數(shù)據(jù)戰(zhàn)略第二次集體學(xué)習(xí)中強(qiáng)調(diào),“善于獲取數(shù)據(jù)、分析數(shù)據(jù)、運(yùn)用數(shù)據(jù),是領(lǐng)導(dǎo)干部做好工作的基本功”。信息資源的組織提供者以及研究用戶,對(duì)數(shù)據(jù)分析運(yùn)用的思維能力決定了數(shù)字人文技術(shù)在其研究領(lǐng)域的發(fā)揮能力,因此,數(shù)據(jù)思維和數(shù)字人文研究范式的推廣應(yīng)加入信息素養(yǎng)培訓(xùn)體系課程中。同時(shí),資源組織單位各行其政的現(xiàn)狀亟須改善,提高數(shù)字融合意識(shí),積極搭建交流平臺(tái),擴(kuò)寬溝通渠道,從資源內(nèi)容和數(shù)據(jù)結(jié)構(gòu)上加強(qiáng)統(tǒng)一融合,為后期數(shù)據(jù)清洗提供良好的數(shù)據(jù)環(huán)境和基礎(chǔ)。
信息資源最終是服務(wù)社會(huì)。2021年4月,《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》在“十三五”規(guī)劃的基礎(chǔ)上再次強(qiáng)調(diào)“加強(qiáng)公共數(shù)據(jù)開放共享”;而在“提高數(shù)字化政務(wù)服務(wù)效能”方面則提到要“加快構(gòu)建數(shù)字技術(shù)輔助政府決策機(jī)制”,這是大數(shù)據(jù)在推進(jìn)政府治理能力提升方面的重要作用。因此,東盟信息資源建設(shè)平臺(tái)應(yīng)貫徹應(yīng)用導(dǎo)向機(jī)制,預(yù)判與完善用戶的多元需求,增強(qiáng)人機(jī)交互與用戶二次開發(fā)效能,形成更為專業(yè)的知識(shí)組織形式,為東盟信息資源組織平臺(tái)的發(fā)展和完善提供決策參考。
本文將數(shù)字人文技術(shù)運(yùn)用于東盟信息資源組織應(yīng)用中。主要闡述:1)提供東盟信息資源數(shù)字人文堆棧搭建的思路,提出數(shù)據(jù)提供、語(yǔ)義聚合以及用戶服務(wù)三個(gè)層級(jí);2)介紹部分東盟信息資源數(shù)據(jù)的獲取渠道以及數(shù)據(jù)處理經(jīng)驗(yàn);3)提出用戶如何利用數(shù)據(jù)統(tǒng)計(jì)、文本分析、地理空間信息揭示、時(shí)序分析等可視化技術(shù)對(duì)信息資源進(jìn)行重構(gòu)的方法;4)為東盟信息資源服務(wù)保障體系提出建設(shè)性建議。
然而,數(shù)字人文技術(shù)在東盟信息服務(wù)中的應(yīng)用并非簡(jiǎn)單的技術(shù)問(wèn)題,它與東盟信息保障機(jī)構(gòu)的組織架構(gòu)、研發(fā)團(tuán)隊(duì)的技術(shù)水平息息相關(guān),這其中,哪些領(lǐng)域的信息資源更適合利用數(shù)字人文技術(shù)進(jìn)行深度開發(fā),也是我們今后進(jìn)行進(jìn)一步研究的方向。