陳博 陳建龍
關(guān)鍵詞:可視化標(biāo)引;自動(dòng)標(biāo)引;可視化自動(dòng)標(biāo)引;格薩爾
文獻(xiàn)標(biāo)引是針對(duì)文獻(xiàn)的情報(bào)內(nèi)容和特征,從目標(biāo)文獻(xiàn)中抽取檢索標(biāo)識(shí)的過程。當(dāng)前的標(biāo)引研究主要聚焦于關(guān)鍵詞標(biāo)引、分類標(biāo)引等方面,在標(biāo)引方法上以基于關(guān)鍵詞等文本信息的統(tǒng)計(jì)分析和語言分析為主。主題法是從內(nèi)容角度進(jìn)行文獻(xiàn)標(biāo)引和檢索的主要方法,主題標(biāo)引是文獻(xiàn)標(biāo)引工作的核心之一,其“通過主題詞及主題詞組配所構(gòu)成的主題標(biāo)識(shí),來揭示文獻(xiàn)的學(xué)科內(nèi)容”,在實(shí)踐中常與分類標(biāo)引互相補(bǔ)充。隨著全文檢索需求和相關(guān)技術(shù)的提升,文獻(xiàn)標(biāo)引相關(guān)研究與實(shí)踐也逐漸由文獻(xiàn)層深入到文獻(xiàn)內(nèi)容層。
可視化的認(rèn)知增強(qiáng)功能,能夠在人們找尋信息和理解信息時(shí)提高人們的認(rèn)知效率與認(rèn)知能力,減輕人們的信息壓力與信息負(fù)荷;可視化的語言文化功能,可基于視覺語言的特性,傳達(dá)信息中“不可言說的部分”,為觀察者提供更方便快捷的信息獲取方式,以及更全面直觀的信息內(nèi)容。
本文研究通過將文本挖掘與可視化技術(shù)結(jié)合,對(duì)文本中的主題相關(guān)信息與文獻(xiàn)章節(jié)、段落的關(guān)系進(jìn)行可視化呈現(xiàn),嘗試將標(biāo)引單元細(xì)化到文獻(xiàn)具體內(nèi)容,探索了一種新的可視化主題自動(dòng)標(biāo)引方法,并設(shè)計(jì)了可視化主題自動(dòng)標(biāo)引系統(tǒng)。該系統(tǒng)主要包括文本挖掘模塊、統(tǒng)計(jì)模塊、可視化展現(xiàn)模塊三大核心模塊和主題詞全文標(biāo)引數(shù)據(jù)庫,為用戶提供可視化、交互式的主題標(biāo)引和主題檢索途徑,幫助用戶直觀高效獲取信息。
1可視化主題自動(dòng)標(biāo)引方法
當(dāng)前的自動(dòng)標(biāo)引研究主要基于關(guān)鍵詞自動(dòng)標(biāo)引技術(shù),依靠關(guān)鍵詞來刻畫和描述文獻(xiàn)。隨著相關(guān)技術(shù)不斷發(fā)展,標(biāo)引效果也得到了提升,但關(guān)鍵詞文本所提供的信息量有限.而且無法體現(xiàn)其背后所指代的核心概念之間的關(guān)系;同時(shí),文獻(xiàn)的關(guān)鍵詞數(shù)量也十分有限,無法收入讀者需要的所有詞語。另外,傳統(tǒng)的自動(dòng)標(biāo)引均以文獻(xiàn)整體為標(biāo)引對(duì)象,以統(tǒng)計(jì)分析與語言分析為主要方法,近年來的文獻(xiàn)標(biāo)引工作逐漸深入到文獻(xiàn)內(nèi)容中,文獻(xiàn)標(biāo)引詞的發(fā)現(xiàn)、全文標(biāo)引方法的探究受到了許多學(xué)者的關(guān)注。
本文提出的可視化主題自動(dòng)標(biāo)引方法,可基于文本挖掘技術(shù),針對(duì)特定主題進(jìn)行文本內(nèi)容挖掘,發(fā)現(xiàn)更具文獻(xiàn)特征的主題詞.并將其在文獻(xiàn)中的分布情況進(jìn)行可視化呈現(xiàn)。在可視化圖像中以文本的章節(jié)或段落為橫坐標(biāo),以特定主題的主題詞為縱坐標(biāo),以圖形將主題詞在各章節(jié)、段落中的出現(xiàn)次數(shù)進(jìn)行可視化表示,來揭示特定主題下的主題詞在文本中的分布情況,可精確定位到主題詞所在的章節(jié)、段落,甚至句子,方便讀者和研究人員進(jìn)行主題詞的高效檢索,并輔助其發(fā)現(xiàn)主題間的潛在關(guān)系。讀者可通過上述視覺表現(xiàn)自主獲取文中的多元主題信息,并在直觀的視覺觀察和交互式探索中確定關(guān)鍵詞,直接定位到其所出現(xiàn)的具體位置,實(shí)現(xiàn)一種全新的基于可視化交互的文獻(xiàn)主題自動(dòng)標(biāo)引方法。
2可視化主題自動(dòng)標(biāo)引系統(tǒng)
本文嘗試將可視化技術(shù)引入文獻(xiàn)標(biāo)引工作,構(gòu)建可視化主題自動(dòng)標(biāo)引系統(tǒng),以實(shí)現(xiàn)精確到內(nèi)容的可視化文獻(xiàn)標(biāo)引。如圖1所示,該系統(tǒng)核心由三大模塊和章節(jié)信息數(shù)據(jù)庫構(gòu)成,三大模塊分別是用以實(shí)現(xiàn)數(shù)據(jù)文獻(xiàn)全文處理及主題詞自動(dòng)提取的文本挖掘模塊、基于用戶輸入和主題詞全文標(biāo)引數(shù)據(jù)庫的統(tǒng)計(jì)模塊,以及支撐用戶完成交互化操作的可視化展現(xiàn)模塊。
2.1實(shí)現(xiàn)數(shù)據(jù)文獻(xiàn)全文處理及主題詞自動(dòng)提取的文本挖掘模塊
要實(shí)現(xiàn)具體文獻(xiàn)的全文標(biāo)引.首先需要獲取相應(yīng)的全文數(shù)字文獻(xiàn)。對(duì)于可直接提取全文文本的數(shù)字文獻(xiàn),如TXT、Word、文本PDF等格式的數(shù)字文獻(xiàn),直接通過自然語言處理(Natural LanguageProcessing)來完成文本挖掘。對(duì)于紙質(zhì)文獻(xiàn),需要在文本挖掘之前進(jìn)行掃描前處理,獲取圖片形式的PDF全文.通過OCR(Optical Character Recog.nition)技術(shù)將PDF轉(zhuǎn)換為JSON文本。該文本包含語句所在PDF的文本內(nèi)容及位置信息.將其文本內(nèi)容轉(zhuǎn)換為TXT文本的數(shù)字文獻(xiàn),位置信息轉(zhuǎn)換為對(duì)應(yīng)的卷、章、頁、段、句等信息。
在完成全文文本信息提取后.進(jìn)入文獻(xiàn)標(biāo)引主題詞自動(dòng)提取和計(jì)算流程,主要包括4個(gè)技術(shù)環(huán)節(jié):1)利用分詞器進(jìn)行文本自動(dòng)分詞,分詞過程中引入通用的《現(xiàn)代漢語詞典》、文獻(xiàn)相關(guān)的領(lǐng)域詞典等外部詞典,幫助提升分詞器性能;2)通過支持向量機(jī)模型對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注,得到詞語的訶l生分類結(jié)果;3)基于最大熵模型完成命名實(shí)體識(shí)別,獲取在文獻(xiàn)中具有特定意義的實(shí)體,如人名、地名等;4)基于命名實(shí)體識(shí)別結(jié)果進(jìn)行特征詞計(jì)算.在當(dāng)前文獻(xiàn)中算出目標(biāo)詞的詞頻,再使用《人民日?qǐng)?bào)》數(shù)據(jù)集計(jì)算詞語的逆文本頻率指數(shù),進(jìn)而算出相應(yīng)的TF-IDF值,數(shù)值越大說明該主題詞對(duì)于本篇文獻(xiàn)的重要程度越高。
選取數(shù)值較高文獻(xiàn)主題詞的重要依據(jù)。經(jīng)由如上步驟,就可以根據(jù)標(biāo)引需求從數(shù)字文獻(xiàn)中挖掘并篩選出文獻(xiàn)主題詞。
基于上述的全文數(shù)字文獻(xiàn)和主題詞構(gòu)建起該文獻(xiàn)的主題詞全文標(biāo)引數(shù)據(jù)庫,為后續(xù)研究提供數(shù)據(jù)支持。
2.2搭建基于主題詞全文標(biāo)引數(shù)據(jù)庫的統(tǒng)計(jì)模塊
在主題詞全文標(biāo)引數(shù)據(jù)庫中.正文文本以句為基本單位儲(chǔ)存,由其構(gòu)建出包含卷、章、頁、段、句等的文獻(xiàn)層級(jí)結(jié)構(gòu)。以倒排庫形式構(gòu)建數(shù)據(jù)庫,可以從關(guān)鍵詞出發(fā)去定位數(shù)據(jù)庫中的文檔.快速獲取包含該詞的文檔列表,精確統(tǒng)計(jì)出其相應(yīng)的位置信息,及其在某一章節(jié)、段落中出現(xiàn)的頻率。
基于主題詞全文標(biāo)引數(shù)據(jù)庫的統(tǒng)計(jì)模塊.通過關(guān)鍵詞匹配的方法,匹配到用戶輸入的關(guān)鍵詞所在的句子,獲取其在文本的卷、章、頁、段、句的位置以及頻率信息,進(jìn)而完成數(shù)據(jù)統(tǒng)計(jì)。匹配過程中.系統(tǒng)將基于輸入的關(guān)鍵詞自動(dòng)輸出由數(shù)組矩陣的形式表示的關(guān)鍵詞分布情況,其中關(guān)鍵詞出現(xiàn)的詞頻可以章節(jié)或段落為單位進(jìn)行統(tǒng)計(jì)和呈現(xiàn),以實(shí)現(xiàn)關(guān)鍵詞在文本的卷、章、頁、段、句等各層級(jí)中的精準(zhǔn)定位。
2.3實(shí)現(xiàn)用戶交互式可視化展現(xiàn)模塊
確定待標(biāo)引的主題.以其包含的主題詞作為關(guān)鍵詞,通過統(tǒng)計(jì)模塊獲取相應(yīng)數(shù)據(jù)后,即可利用可視化工具ECharts中的散點(diǎn)圖模塊,生成相應(yīng)的可視化表示。在可視化圖像中以文本章節(jié)、段落,甚至句子為橫坐標(biāo),以主題詞為縱坐標(biāo),將主題詞在各章節(jié)和段落中的出現(xiàn)次數(shù)用大小不同的點(diǎn)進(jìn)行表示。具體主題詞在橫向和縱向空間的分布情況,能直觀地展示出其在文本中的分布規(guī)律及重要程度,也可揭示各主題詞之間的相關(guān)性與權(quán)重。
用戶可基于可視化呈現(xiàn)效果.根據(jù)其中圖形大小、共現(xiàn)位置等的視覺相關(guān)關(guān)系發(fā)現(xiàn)信息,利用可視化展現(xiàn)模塊支持的放大、點(diǎn)擊等交互式操作進(jìn)一步探索相關(guān)信息。交互過程中本模塊將根據(jù)用戶輸入反饋相應(yīng)的可視化分析結(jié)果,比如在點(diǎn)擊、放大主題詞所在章節(jié)、段落位置的節(jié)點(diǎn)后,系統(tǒng)將進(jìn)一步展現(xiàn)相關(guān)信息.讓用戶清晰獲取相關(guān)主題詞在各章節(jié)、段落中的出現(xiàn)情況,或通過系統(tǒng)直接定位到關(guān)鍵詞在章節(jié)段落數(shù)據(jù)庫中所在的具體位置,詳細(xì)呈現(xiàn)相應(yīng)的正文文本內(nèi)容信息。
3以《英雄格薩爾》為例的可視化主題自動(dòng)標(biāo)引
《格薩爾》是廣泛流傳于我國(guó)藏區(qū)的英雄史詩,素有“東方荷馬史詩”之美譽(yù),其篇幅宏大、情節(jié)復(fù)雜、版本多樣、說唱體特點(diǎn)鮮明、語言詞匯極具領(lǐng)域性,藝術(shù)文化價(jià)值巨大,文本處理難度也極高。自11世紀(jì)以來,越來越多的研究者和相關(guān)人員對(duì)其展開整理工作.隨著學(xué)科研究的深入,高效便捷地進(jìn)行全面的文獻(xiàn)研究成為了學(xué)科研究面臨的一大挑戰(zhàn)??梢暬黝}自動(dòng)標(biāo)引的方法,有助于優(yōu)化文獻(xiàn)的全文標(biāo)引結(jié)果,提升學(xué)科文獻(xiàn)檢索等相關(guān)研究與應(yīng)用的效果。從文獻(xiàn)內(nèi)容來看,史詩圍繞格薩爾展開,主要描述眾多人物在各個(gè)部落發(fā)生的事件,人物、地域宗族是文獻(xiàn)中的重要數(shù)據(jù),本文研究即以這兩大主題進(jìn)行自動(dòng)標(biāo)引探索。
3.1《英雄格薩爾》主題自動(dòng)標(biāo)引的數(shù)據(jù)準(zhǔn)備與預(yù)處理
本文選取降邊嘉措主編的《英雄格薩爾》作為史詩文本,先通過OCR技術(shù)對(duì)文獻(xiàn)圖片進(jìn)行文字識(shí)別,完成圖片到文本的自動(dòng)轉(zhuǎn)換,再經(jīng)人工校對(duì)得到3.95MB的全文文本數(shù)據(jù),其中正文部分包含5卷書、220個(gè)章節(jié)、1833頁、28444個(gè)段落和47571個(gè)句子,構(gòu)成了待標(biāo)引的數(shù)字文獻(xiàn)。
鑒于格薩爾領(lǐng)域存在大量領(lǐng)域性顯著的詞匯,文獻(xiàn)主題詞的選取過程較為復(fù)雜。首先利用Jieba分詞器以句為基本單位對(duì)文本進(jìn)行分詞.并在過程中添加《現(xiàn)代漢語詞典第5版》和《常見藏語人名地名詞典》以提升分詞效果,之后由手工驗(yàn)證分詞結(jié)果。接著使用哈工大LTP詞性標(biāo)注模型,通過支持向量機(jī)模型和863詞性標(biāo)注集對(duì)分詞結(jié)果進(jìn)行訶l生標(biāo)注,再手工篩選出人物和地域宗族主題詞匯。接下來對(duì)哈工大的LTP命名實(shí)體識(shí)別模型進(jìn)行訓(xùn)練,將《英雄格薩爾》(卷一)標(biāo)注為人名、地域與宗族名等8類,并將該文本按照9:1的權(quán)重分為訓(xùn)練集與測(cè)試集。根據(jù)50輪的最大熵模型訓(xùn)練結(jié)果來看,第29輪測(cè)試集調(diào)和平均值最高,用此輪模型對(duì)《英雄格薩爾》第二至五卷的分詞與詞性標(biāo)注結(jié)果進(jìn)行命名實(shí)體識(shí)別.將人名標(biāo)記為Nh,地名標(biāo)記為Ns。接下來計(jì)算人名、地域與宗族名相對(duì)于2000年1月至12月的《人民日?qǐng)?bào)》TF-IDF值,按照數(shù)值從高到低進(jìn)行詞語排序,再通過人工篩選就可得到文獻(xiàn)在人物、地域與宗族主題中的主題詞。
基于文本挖掘技術(shù)完成《英雄格薩爾》的數(shù)字文獻(xiàn)獲取和主題詞選取后.即可利用相關(guān)數(shù)據(jù)構(gòu)建主題詞全文標(biāo)引數(shù)據(jù)庫,配合文獻(xiàn)統(tǒng)計(jì)模塊和ECharts中的可視化模塊.以可視化的主題自動(dòng)標(biāo)引方法,從人物和地域宗族主題角度進(jìn)行主題自動(dòng)標(biāo)引的實(shí)踐探索。
3.2單一主題單個(gè)主題詞的可視化主題自動(dòng)標(biāo)引
分別從人物主題和地域與宗族主題中選取一個(gè)主題詞,以其為例對(duì)主題詞在全文章節(jié)中的出現(xiàn)情況.及其在某一章節(jié)段落中的出現(xiàn)情況進(jìn)行可視化主題自動(dòng)標(biāo)引研究。
根據(jù)統(tǒng)計(jì)模塊顯示.格薩爾王的王妃之一阿達(dá)娜姆在全文中共在64個(gè)章節(jié)里出場(chǎng)311次,是史詩中的一個(gè)重要人物.我們將其作為人物主題的示例進(jìn)行可視化主題自動(dòng)標(biāo)引研究。以章為單位,根據(jù)其在全文中的出現(xiàn)次數(shù)繪制出圖3,其中橫向坐標(biāo)對(duì)應(yīng)人物出現(xiàn)的章節(jié)位置,散點(diǎn)大小表示出現(xiàn)次數(shù)的多少。
觀察圖3可知.阿達(dá)娜姆自出場(chǎng)后就開始就持續(xù)、有規(guī)律地出現(xiàn)在文本中,其中最后幾章的詞頻顯著高于其他章節(jié)。統(tǒng)計(jì)模塊反饋的數(shù)據(jù)顯示,阿達(dá)娜姆在史詩尾聲的214~218章中詞頻突增,點(diǎn)擊該區(qū)域獲取主題詞出現(xiàn)段落的可視化表示,可對(duì)人物進(jìn)行深入了解。以第215章的出現(xiàn)段落分布為例,通過可視化主題自動(dòng)標(biāo)引結(jié)果,可觀察到人物在該章具體段落中的出現(xiàn)情況如圖4所示。
點(diǎn)擊人物在215章中首次出現(xiàn)的節(jié)點(diǎn),即可于標(biāo)引系統(tǒng)中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置檢索到句子:“過了七七四十九天,阿達(dá)娜姆的靈魂到了生死沙山山口,此時(shí)閻羅王已經(jīng)感應(yīng)到了有個(gè)非同尋常的人到了地獄中來”.說明與阿達(dá)娜姆相關(guān)的情節(jié)發(fā)生的地點(diǎn)轉(zhuǎn)到了地獄。由“阿達(dá)娜姆”在本章的密集分布,推測(cè)后續(xù)有大量情節(jié)與其相關(guān),點(diǎn)擊查看本章其他節(jié)點(diǎn),可知故事圍繞阿達(dá)娜姆在地獄接受審判展開,驗(yàn)證了推測(cè)。若想完整了解史詩塑造的人物,則可定位到其在全文中其他章節(jié)的節(jié)點(diǎn),獲取人物身份、關(guān)涉情節(jié)、人物結(jié)局等相關(guān)信息,通過直觀觀察和便捷的檢索交互即可較清晰地梳理出人物發(fā)展脈絡(luò)。
在地域與宗族主題中,我們選擇“財(cái)寶城”為例進(jìn)行分析.根據(jù)圖5所示的可視化分布結(jié)果來看.主題詞集中出現(xiàn)的位置大致在第100~110章,并且其詞頻在最后出現(xiàn)的章節(jié)激增。
選中財(cái)寶城的出現(xiàn)區(qū)域并放大,可清晰查看到其出現(xiàn)位置和次數(shù),如圖6所示,可知第108章是主題詞出現(xiàn)的核心章節(jié)。
點(diǎn)擊查看主題詞在第108章的段落分布情況如圖7所示,主題詞在該章節(jié)中的分布具有顯著的規(guī)律性,出現(xiàn)段落中的詞頻數(shù)量均衡,而且前半部分的出現(xiàn)間隔差異較小。
通過點(diǎn)擊段落分布圖節(jié)點(diǎn),定位到該章節(jié)中的具體句子.發(fā)現(xiàn)財(cái)寶城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7個(gè)位置的句子內(nèi)容均為“請(qǐng)攻下大食財(cái)寶城”,一方面揭示了本章情節(jié)以攻打城堡為主線:另一方面也由主題詞所在的唱詞部分體現(xiàn)出史詩文本說唱體的特點(diǎn)。
根據(jù)以上可視化主題自動(dòng)標(biāo)引結(jié)果可知,單一主題單個(gè)主題詞的可視化在揭示主題詞分布規(guī)律和主題詞在章節(jié)中的重要性方面效果顯著,與其對(duì)應(yīng)的主題自動(dòng)標(biāo)引在深入揭示主題詞相關(guān)的文本內(nèi)容、故事情節(jié)、人物發(fā)展,甚至文本語言特點(diǎn)等方面都有良好表現(xiàn)。
3.3單一主題多個(gè)主題詞的可視化主題自動(dòng)標(biāo)引
為從整體視角了解人物主題的情況,我們基于人物主題詞的章節(jié)出現(xiàn)數(shù)據(jù),以章為單位,對(duì)詞頻50以上的人物進(jìn)行研究??梢暬黝}自動(dòng)標(biāo)引顯示,人物在文本中的出場(chǎng)情況大致可分3種:全文貫穿型人物,如格薩爾、丹瑪、絨察查根,出現(xiàn)于史詩全篇,但各人物的出場(chǎng)頻率存在差異;區(qū)間出現(xiàn)型人物,如玉拉、白帳王,出現(xiàn)于特定章節(jié),主要與所處章節(jié)中的其他人物產(chǎn)生直接關(guān)聯(lián):孤立存在型人物,以隆納巴姜為代表,僅出現(xiàn)于單一章節(jié),體現(xiàn)出人物在史詩的整體故事和人物網(wǎng)絡(luò)中處于相對(duì)獨(dú)立的狀態(tài)。其中幾個(gè)代表人物的出場(chǎng)情況如圖8所示。
分布圖的橫向數(shù)據(jù)體現(xiàn)出領(lǐng)域人物在全文的出場(chǎng)情況,揭示了各人物在史詩全篇及各章節(jié)中的地位,以及人物與故事情節(jié)的相關(guān)性;縱向數(shù)據(jù)則可說明各人物間的共現(xiàn)情況,可基于此挖掘人物間的相關(guān)性,了解不同人物在同一章節(jié)中的重要程度。以圖7中的格薩爾和玉拉為例,雖然主人公格薩爾在史詩中占絕對(duì)核心地位,但從第63章到第70章的多個(gè)章節(jié)中,玉拉的出現(xiàn)詞頻顯著高于格薩爾,一定程度上揭示出玉拉在該部分的權(quán)重要高于格薩爾。
從地域和宗族主題的整體情況來看,我們以相同的方法對(duì)詞頻10以上的地域與宗族主題詞進(jìn)行出現(xiàn)章節(jié)的可視化主題自動(dòng)標(biāo)引.并選擇其中有代表性的主題詞展示如圖9所示。
圖9系統(tǒng)地呈現(xiàn)了各主題詞的分布情況.可幫助受眾快速建立對(duì)該主題的整體認(rèn)知,還可從多個(gè)主題詞的縱向分布情況進(jìn)行相關(guān)信息的挖掘。主題詞的共現(xiàn)位置一致性越高,其存在相關(guān)關(guān)系的可能性越大。我們重點(diǎn)對(duì)圖9共現(xiàn)位置高度一致的兩組主題詞進(jìn)行研究,挖掘財(cái)寶城與大食國(guó)、雪山國(guó)與達(dá)瑪拉雅國(guó)的相關(guān)信息。根據(jù)標(biāo)引定位的Book:2Chapter:103 Page:323 Paragraph:3977 Sentence:3內(nèi)容:“但按照預(yù)言中‘時(shí)值木虎年,去攻大食財(cái)寶城.為嶺地藏地辟財(cái)源的說法,該是征服大食國(guó)的時(shí)候了”,確認(rèn)財(cái)寶城與大食國(guó)存在歸屬關(guān)系?;谘┥絿?guó)和達(dá)瑪拉雅國(guó)的共現(xiàn)情況定位到的Book:4 Chapter:166 Page:16 Paragraph:123 Sen-tence:1和Sentence:2 Content:見收回赤谷部落如此輕松……想不動(dòng)刀槍使他們繼續(xù)向雪山國(guó)納貢。誰知第一個(gè)送信的使臣就碰了釘子.達(dá)瑪拉雅國(guó)拒絕投降。驗(yàn)證了雪山國(guó)與達(dá)瑪拉雅國(guó)的敵對(duì)關(guān)系。
如上所述,對(duì)單一主題多個(gè)主題詞的可視化主題自動(dòng)標(biāo)引,可以從整體視角掌握該主題中的主題詞分布情況,還可以對(duì)不同主題詞間的權(quán)重和相關(guān)關(guān)系進(jìn)行分析,并利用系統(tǒng)直觀便捷地獲取相關(guān)信息。
3.4多元主題多個(gè)主題詞的可視化主題自動(dòng)標(biāo)引
從多元視角對(duì)史詩進(jìn)行分析時(shí).可通過多元主題的可視化自動(dòng)標(biāo)引發(fā)現(xiàn)多維度視角下的新信息。我們匯總?cè)宋镏黝}和地域與宗族主題數(shù)據(jù).對(duì)其進(jìn)行可視化自動(dòng)標(biāo)引,得到多元主題詞的呈現(xiàn),本文從中選擇主題詞“霍爾、雅澤城、白帳王”進(jìn)行分析。
如圖10所示,“霍爾、雅澤城、白帳王”的出現(xiàn)位置一致性高,基于三者的共現(xiàn),可由自動(dòng)標(biāo)引系統(tǒng)精確定位到Book:2 Chapter:62 Page:42 Par.agraph:305 Sentence:2位置的“唐澤趕到那兒后,向梅乳澤說明了:‘嶺國(guó)大軍到霍爾以后.早就占領(lǐng)了雅澤城,格薩爾王已把白帳王消滅多時(shí)了.我已誠(chéng)心誠(chéng)意地向格薩爾投誠(chéng)”等,描述三者關(guān)系的句子,明確其間的層級(jí)和歸屬關(guān)系。可見,這一方法除了能提升文本內(nèi)容的標(biāo)引效果和讀者獲取信息的體驗(yàn)之外,還能發(fā)現(xiàn)多維度主題下主題詞間的隱含關(guān)系,對(duì)領(lǐng)域內(nèi)多層級(jí)的地理區(qū)域和部落宗族系統(tǒng)的構(gòu)建,以及人物與地域宗族關(guān)系網(wǎng)絡(luò)的梳理等起到輔助作用。
顯然,以可視化方式呈現(xiàn)主題詞的出現(xiàn)情況,能夠在簡(jiǎn)化信息獲取流程的同時(shí)提供比文字描述更多的信息,特別是隱含信息,進(jìn)而提升信息獲取的效率。將多元主題結(jié)合,多維度綜合主題詞信息進(jìn)行可視化,可直接觀察多主題內(nèi)容間的相關(guān)性。通過本文提出的可視化主題自動(dòng)標(biāo)引系統(tǒng),用戶可以從不同視角觀察文獻(xiàn)、獲取信息,并基于主題詞在全文的章節(jié)、段落、句子中的精確定位,快速進(jìn)行內(nèi)容檢索。
4結(jié)束語
本文研究將文本挖掘與可視化技術(shù)結(jié)合應(yīng)用于文獻(xiàn)標(biāo)引,提出了一種主題自動(dòng)標(biāo)引的方法?;谖谋就诰蚣夹g(shù)從文獻(xiàn)中自動(dòng)發(fā)現(xiàn)更具代表性的主題詞.構(gòu)建主題詞全文標(biāo)引數(shù)據(jù)庫.再引入可視化技術(shù),搭建可視化的主題自動(dòng)標(biāo)引系統(tǒng)。將此系統(tǒng)在格薩爾學(xué)科領(lǐng)域的人物主題和地域與宗族主題進(jìn)行標(biāo)引驗(yàn)證,其可視化呈現(xiàn)結(jié)果揭示了史詩中的主題相關(guān)內(nèi)容.實(shí)現(xiàn)了深入到文獻(xiàn)內(nèi)容層的自動(dòng)標(biāo)引,并以可視化的方式取得了比傳統(tǒng)標(biāo)引更直觀便捷的標(biāo)引效果.證實(shí)了可視化主題自動(dòng)標(biāo)引系統(tǒng)的可行性和有效性。
從信息服務(wù)角度看.這一主題自動(dòng)標(biāo)引方法以可視化呈現(xiàn)、交互式操作、內(nèi)容級(jí)定位的特點(diǎn)對(duì)傳統(tǒng)標(biāo)引方法進(jìn)行了革新,深入到文獻(xiàn)內(nèi)容對(duì)主題內(nèi)容進(jìn)行可視化標(biāo)引和展現(xiàn),實(shí)現(xiàn)到篇章、段落,甚至句子級(jí)的標(biāo)引定位。同時(shí),本文的主題自動(dòng)標(biāo)引驗(yàn)證系統(tǒng)在格薩爾領(lǐng)域的可視化驗(yàn)證表明,該系統(tǒng)可以幫助史詩讀者和研究人員以更高效精準(zhǔn)的方式進(jìn)行領(lǐng)域文獻(xiàn)內(nèi)容級(jí)的檢索與利用,還可以在豐富領(lǐng)域知識(shí)檢索、問答對(duì)話等相關(guān)應(yīng)用的同時(shí),提高格薩爾史詩的學(xué)習(xí)和學(xué)科研究效率,推動(dòng)學(xué)科發(fā)展。
本文研究囿于文章靜態(tài)呈現(xiàn)形式和篇幅限制,在研究結(jié)果的展現(xiàn)上僅截取了部分靜態(tài)的可視化圖像,在后續(xù)研究中需推進(jìn)搭建動(dòng)態(tài)交互系統(tǒng);在主題自動(dòng)標(biāo)引的可視化呈現(xiàn)上,除采用以章節(jié)為橫軸的散點(diǎn)圖外,還需擴(kuò)展到更豐富的視覺表達(dá)形式;在主題詞類型選取上,文章基于史詩文獻(xiàn)的題材特點(diǎn),針對(duì)人物、地域與宗族的主題詞展開了自動(dòng)提取和標(biāo)引工作,后續(xù)應(yīng)在更廣泛的主題領(lǐng)域中展開相關(guān)研究;在標(biāo)引方法上,研究?jī)H基于關(guān)鍵詞標(biāo)引展開,未來應(yīng)引入最新的自然語言處理技術(shù),深入挖掘關(guān)鍵詞背后的概念及相關(guān)概念知識(shí).以實(shí)現(xiàn)基于語義的知識(shí)標(biāo)引。