国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的地理環(huán)境時空數(shù)據(jù)隱含語義理解

2021-11-25 09:48:02張宏軍廖湘琳田江鵬
測繪學(xué)報 2021年10期
關(guān)鍵詞:戰(zhàn)場文檔時空

朱 杰,張宏軍,廖湘琳,田江鵬

1. 陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210002; 2. 73021部隊,浙江 杭州 315023; 3. 信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450001

理解戰(zhàn)場環(huán)境,是指作戰(zhàn)人員對戰(zhàn)場空間的理解,由空間、空間知識的表達方式,以及運用推理生成新知識的能力而構(gòu)成的認(rèn)知思維,一般通過心象、紙圖或者計算機等工具將戰(zhàn)場環(huán)境可視化,從而建立與環(huán)境可交互的思維活動[1]。在理解過程中,無論是作戰(zhàn)人員本身對空間的理解,還是不同人員之間的相互溝通,地圖、文本是記錄和傳輸戰(zhàn)場環(huán)境信息的最基本的兩種模態(tài),特別是作戰(zhàn)過程中產(chǎn)生大量的非結(jié)構(gòu)化信息,如各類作戰(zhàn)文書。文本是其最主要的載體之一,越來越多地成為一種主要信息媒介的數(shù)據(jù)模態(tài),是表達戰(zhàn)場環(huán)境信息的重要形式。然而,文本除了具有通用知識的內(nèi)涵和特點之外,還承載了描述戰(zhàn)場的時間、空間、事件和資源等豐富信息,具有特定的地理時空特征。戰(zhàn)場文本信息不僅包含了作戰(zhàn)任務(wù)語義信息,還蘊含了豐富的地理空間語義信息,表現(xiàn)為同一任務(wù)區(qū)域的空間數(shù)據(jù)隱含語義會隨著時間的不同而發(fā)生變化,相似任務(wù)主題的位置數(shù)據(jù)隱含語義也會隨著空間的不同而發(fā)生變化。由此,地理環(huán)境時空數(shù)據(jù)的隱含語義信息既存在時間上的變化,也存在空間上的變化。

面對大量的戰(zhàn)場文本數(shù)據(jù),以傳統(tǒng)的人工方式理解戰(zhàn)場環(huán)境信息已經(jīng)不能滿足高效、準(zhǔn)確的需求,如何利用人工智能的理論和方法,由機器對數(shù)據(jù)進行自動獲取、學(xué)習(xí)與解譯,從而輸出與人腦認(rèn)知思維相符的計算結(jié)果,是當(dāng)前戰(zhàn)場環(huán)境空間認(rèn)知和理解在大數(shù)據(jù)環(huán)境下所面臨的挑戰(zhàn)。自然語言處理技術(shù)的發(fā)展為文本數(shù)據(jù)理解提供了新的思路和方法,也為戰(zhàn)場環(huán)境數(shù)據(jù)理解提供了新的工具。如何從大量的戰(zhàn)場文本數(shù)據(jù)中獲取地理環(huán)境知識,如何利用機器學(xué)習(xí)技術(shù)挖掘與事件主題相關(guān)的地理環(huán)境時空語義信息,如何對不同時空主題進行管理、檢索和推理,這一系列問題,都是機器理解戰(zhàn)場環(huán)境數(shù)據(jù)過程中所要解決的關(guān)鍵問題。其中,如何融合事件主題對地理環(huán)境時空主題進行抽取與分析,成為戰(zhàn)場環(huán)境信息理解的核心問題之一。通過提取帶有地理空間標(biāo)識的文本主題來挖掘任務(wù)指定的實施作戰(zhàn)行動的區(qū)域空間信息及其對應(yīng)的意圖,獲取作戰(zhàn)行動模式轉(zhuǎn)換、任務(wù)事件焦點時空演變及地理環(huán)境效能變化等知識,為行動方案推薦、戰(zhàn)情趨勢預(yù)判、威脅目標(biāo)預(yù)警分析等軍事服務(wù)提供有力支撐。

本文立足現(xiàn)有研究基礎(chǔ),通過分析戰(zhàn)場文本數(shù)據(jù)句法結(jié)構(gòu),提出一種融合任務(wù)事件主題的地理環(huán)境時空主題模型,建立地理時空因素與事件主題之間的語義相關(guān)性計算方法。通過對文本信息中蘊含的時空分布、地理環(huán)境要素特征及影響效能等規(guī)律進行分析,考慮事件主題偏好對時空數(shù)據(jù)隱含語義信息的影響,建立事件主題與時空語義特征的聯(lián)合分布模型,自動發(fā)現(xiàn)時間、空間區(qū)域與事件主題之間的關(guān)聯(lián)關(guān)系,生成地理時空隱含的語義主題,以提高定位應(yīng)急事件時空信息的準(zhǔn)確性,為有效識別異常區(qū)域的分布規(guī)律提供支持。

1 相關(guān)研究工作

時空語義信息是表示現(xiàn)實事物所代表的時空概念和含義及其相互之間的關(guān)系,是數(shù)據(jù)在時空域上的解釋和邏輯表示,對于各類事件信息的挖掘有著關(guān)鍵作用[2-3]。戰(zhàn)場環(huán)境時空數(shù)據(jù)描述了戰(zhàn)場環(huán)境的時間和空間屬性,是戰(zhàn)場環(huán)境的基本組成要素,從不同粒度記錄了不同層次的戰(zhàn)場環(huán)境各要素的活動信息。理解戰(zhàn)場環(huán)境時空數(shù)據(jù)語義對于深挖戰(zhàn)場環(huán)境各要素作戰(zhàn)效能、提高作戰(zhàn)計劃推演評估精度、提升態(tài)勢推理與威脅估計效率有著關(guān)鍵作用。例如,利用數(shù)學(xué)方法描述地理實體、地理現(xiàn)象及其相互之間的時空關(guān)系,形式化描述戰(zhàn)場環(huán)境對聯(lián)合作戰(zhàn)活動影響的基本規(guī)律[4];利用全球空間立體網(wǎng)格剖分并對時空信息進行編碼,簡化復(fù)雜的時空運算以提高時空屬性定量表達的精確性[5];利用模板匹配與貝葉斯網(wǎng)絡(luò)相結(jié)合的推理算法處理高維時空數(shù)據(jù),建立有效推理模式以合理預(yù)估敵軍行為模式和作戰(zhàn)意圖[6]??傊瑴?zhǔn)確理解戰(zhàn)場環(huán)境時空語義信息對于戰(zhàn)場信息融合有著十分重要的意義,隨著戰(zhàn)場時空數(shù)據(jù)類型與體量持續(xù)增長及作戰(zhàn)應(yīng)用深入需求,將會越來越多地受到不同作戰(zhàn)領(lǐng)域的關(guān)注。

目前,隨著以深度學(xué)習(xí)為代表的人工智能技術(shù)的發(fā)展,從方法上,戰(zhàn)場環(huán)境時空數(shù)據(jù)語義理解由傳統(tǒng)的基于規(guī)則的模式匹配向基于信息識別與分類的自主學(xué)習(xí)發(fā)展,并在無人平臺、知識圖譜、輔助決策等方面取得了一定的研究進展。國內(nèi),文獻[7]針對現(xiàn)有無人自主平臺在復(fù)雜環(huán)境上認(rèn)知和理解不足,提出建立任務(wù)關(guān)聯(lián)環(huán)境模型形成持續(xù)自主學(xué)習(xí)模式,在不斷的數(shù)據(jù)交互中實現(xiàn)機器對環(huán)境的理解;文獻[8]通過構(gòu)建基于深度認(rèn)知神經(jīng)網(wǎng)絡(luò),從戰(zhàn)場情報中高效準(zhǔn)確地發(fā)現(xiàn)有價值信息,獲取多源情報隱含的關(guān)聯(lián)分析,從而提取滿足需求的可理解并利用的時空知識;文獻[9—10]從語義層面統(tǒng)一多源異構(gòu)的戰(zhàn)場環(huán)境數(shù)據(jù)資源,利用知識圖譜集成融合各類概念關(guān)系,提高時空知識整體認(rèn)知水平;文獻[11]將深度學(xué)習(xí)方法應(yīng)用于態(tài)勢理解,以用戶需求和作戰(zhàn)任務(wù)的綜合情境作為知識過濾約束條件,實現(xiàn)對相關(guān)語義知識的自動檢索,提高輔助決策的智能化程度[11]。國外,美軍從2007年提出“深綠計劃”開始,一直致力于計算機對戰(zhàn)場數(shù)據(jù)理解及智能化處理的研究,并在最新的《2017—2042年無人系統(tǒng)發(fā)展路線圖》中將語義理解和語義分析技術(shù)作為無人指揮信息系統(tǒng)關(guān)鍵技術(shù),包括自然文本、圖像、語音等各種類型載體的自動整合及生成,利用深度學(xué)習(xí)方法從戰(zhàn)場獲取的各類數(shù)據(jù)中抽取隱藏的有價值特征,用于模式識別、特征分類、關(guān)系挖掘及事件預(yù)測,實現(xiàn)從不確定信息中理解數(shù)據(jù)、分析結(jié)果和推理關(guān)系[12-13]。

從戰(zhàn)場文本中提取相關(guān)地理環(huán)境時空主題,是地理環(huán)境時空數(shù)據(jù)語義理解的首要解決問題。盡管上述文獻從不同角度利用時空數(shù)據(jù)處理與分析方法,闡述時空語義理解的相關(guān)技術(shù)和應(yīng)用,但是從時空主題角度研究戰(zhàn)場環(huán)境時空數(shù)據(jù)挖掘中的相關(guān)任務(wù),特別是對其隱含語義信息挖掘的相關(guān)工作尚未完善。目前,主題模型作為文本挖掘的重要數(shù)學(xué)模型,已廣泛應(yīng)用于遙感影像分類及檢索、地理信息分類與融合、位置軌跡數(shù)據(jù)挖掘及地理時空主題提取等方面[14-17],通過基于抽象文檔主題的統(tǒng)計模型研究了在不同主題分類下時空信息提取與時空事件發(fā)展規(guī)律并取得了一系列成果[18-21]。這也為地理環(huán)境時空主題挖掘提供了基礎(chǔ)模型。為了進一步研究任務(wù)事件與時空主題之間的相關(guān)性,挖掘影響事件主題特征的時空因素,獲取地理環(huán)境時空數(shù)據(jù)隱含語義信息,本文借鑒GIS領(lǐng)域研究者從融合地理位置及其相應(yīng)的區(qū)域環(huán)境特征語義出發(fā),按照不同時空語義變化條件,挖掘地理位置中的隱含語義信息。如,文獻[22]利用web日志提取公共主題來發(fā)現(xiàn)時空主題模式,分別通過給定位置生成的主題生命周期和主題快照的比較分析,發(fā)現(xiàn)主題模式的演變;文獻[23—24]從空間、時間和行為3個方面建立一個聯(lián)合概率模型,有效地應(yīng)用于社交網(wǎng)絡(luò)生成的與地理信息相關(guān)的文本信息主題發(fā)現(xiàn);文獻[25]考慮用戶位置的馬爾可夫性質(zhì),提出一種基于主題多樣性、地理多樣性的社交網(wǎng)絡(luò)文本數(shù)據(jù)的多樣性建模算法;文獻[26]結(jié)合移動位置數(shù)據(jù),提出一種新的位置和文本相結(jié)合的聯(lián)合模型,能有效地找到熱點位置和感興趣的區(qū)域,解決地理分布與主題建模之間關(guān)系問題。

2 方 法

地理環(huán)境時空數(shù)據(jù)隱含語義與文本主題密切相關(guān),并通過相關(guān)的主題特征詞匯進行表達。具體體現(xiàn)為:不同空間區(qū)域?qū)ζ浞秶鷥?nèi)的任務(wù)事件主題影響程度是不同的,通常與地理環(huán)境的軍事效能相關(guān),如不同地貌對機動任務(wù)的影響,反映在文本中由“越野機動”或者“道路機動”等相關(guān)功能性詞匯相組合進行描述,以表示山地或者平原區(qū)域;不同時間對其階段內(nèi)的任務(wù)事件主題也會產(chǎn)生不同的影響程度,如一日內(nèi)白天與夜晚對道路機動速度影響程度不同,一年內(nèi)雨季與非雨季對道路機動速度影響程度也不同。

因而,為了有效判別不同時空區(qū)域?qū)θ蝿?wù)事件主題的影響程度,挖掘時空數(shù)據(jù)的隱含語義,形成時空數(shù)據(jù)語義理解過程,主要采取如下的解決方法:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)主題計算等。如圖1所示。下面重點闡述數(shù)據(jù)主題計算過程:①分析戰(zhàn)場文本的句法結(jié)構(gòu),通過信息抽取的方法抽取主題要素,建立基于LDA的事件主題分類及其對應(yīng)的特征詞匯分布;②通過構(gòu)建基于事件的地理環(huán)境時空主題模型,將事件主題與空間、時間特征詞匯建立聯(lián)合分布,提高時空數(shù)據(jù)隱含語義獲取的準(zhǔn)確性;③基于支持向量機方法結(jié)合主題模型實現(xiàn)地理時空主題的實時分類,以滿足實時信息的主動發(fā)現(xiàn)需求。

2.1 基于句法分析的主題要素抽取

戰(zhàn)場文本數(shù)據(jù)是指戰(zhàn)場信息以文本形式進行描述和傳遞的各類數(shù)據(jù),包括各類命令、指示、計劃、方案、請求、報告等。為了從這些非結(jié)構(gòu)化信息中抽取出與地理環(huán)境信息相關(guān)的主題信息,首先對其進行句法分析,獲取主題要素的結(jié)構(gòu)組成及其語義特征。由于戰(zhàn)場文本在通常情況下都是按照軍用文書的格式進行編輯,因而其數(shù)據(jù)的語義結(jié)構(gòu)在一定程度上符合軍用文書的編寫規(guī)范,并具有以下幾個特征。

(1) 句法結(jié)構(gòu)相對固定。戰(zhàn)場文本基本上以陳述句為主,且句式簡短,其中復(fù)合句的形式也以簡單謂語構(gòu)成的并列復(fù)句為主,較少出現(xiàn)連詞構(gòu)成的復(fù)雜句式,如連貫復(fù)句、遞進復(fù)句等。

(2) 文本內(nèi)容層級易解。從內(nèi)容對象上,分為對象的靜態(tài)狀態(tài)描述(如部隊部署位置、時間等信息)和動態(tài)行為描述(如部隊行動路線、行為規(guī)劃等信息);從內(nèi)容詞義上,內(nèi)容描述按照文字字面意思組合而成,有利于人機理解。

(3) 語義描述明確無歧義。為了確保不同信息系統(tǒng)對戰(zhàn)場文本的一致性理解,文本語義描述必須是明確清晰,避免出現(xiàn)歧義現(xiàn)象。

圖1 地理環(huán)境時空數(shù)據(jù)隱含語義理解過程Fig.1 Latent semantic understanding process of geographical environment spatio-temporal data

從上述特征可以看出,在語法結(jié)構(gòu)上,戰(zhàn)場文本數(shù)據(jù)通過具有一定語法結(jié)構(gòu)的句子來描述事件發(fā)生過程,即“主語+謂語+(賓語+狀語+…)”;在語義表達上,戰(zhàn)場文本數(shù)據(jù)語義結(jié)構(gòu)由主體、行為關(guān)鍵詞、客體及相關(guān)屬性等主題語義要素組成。因此,可將其形式化描述為四元組模型,即:主題語義要素=〈主體,行為關(guān)鍵詞,客體,屬性〉。

其中,構(gòu)成主題語義要素中的每一項元素都可以與句中的詞組相對應(yīng),形成特征詞組與主題要素相關(guān)聯(lián)的模式。具體表示為:主語對應(yīng)事件發(fā)生的主體,一般由名詞、數(shù)量詞組合表示;謂語對應(yīng)事件發(fā)生的行為,一般由動詞表示;賓語對應(yīng)事件發(fā)生的客體,一般由名詞、數(shù)量詞組合表示;其他部分描述對應(yīng)事件發(fā)生的相關(guān)屬性,如時間、位置等,一般由名詞、代詞、介詞等組合表示,文本詞組主要以實詞構(gòu)成,較少出現(xiàn)虛詞。

采用正則表達式進一步將文本主題要素與詞組以字符串的形式相匹配,從而將文本語義轉(zhuǎn)換為詞義組合表達[27]。作為主題要素自動抽取的基本模式,以一個簡單句semPattern作為實例,使用正則表達式如下

semPattern=(^|)[(option_modifier|)subject_

noun|behkey_verb(|object_

noun)|attribute_phrase]

(+)(|$)

式中,subject_noun表示主體名詞;behkey_verb表示行為關(guān)鍵動詞;object_noun表示客體名詞;attribute_phrase表示屬性詞組;option_modifier表示修飾詞組;[]表示所必須組成要素;()表示可選項;“^”表示字符串序列開頭標(biāo)識;“|”表示語義匹配邏輯;“+”表示字符串表達式可多次匹配;“$”表示字符串序列結(jié)尾標(biāo)識。時空語義信息通常是以屬性詞組形式進行描述。由此可將attribute_phrase進一步分解為表示空間語義的where字符串和表示時態(tài)語義的when字符串,即

attribute_phrase=[at-where](|route-where)[|start-when](|end-when)

以某個文本片段為例:“2連于4月08日12時占領(lǐng)1號地域南側(cè)”,其相應(yīng)的正則表達式分解如下

semPattern=〈subject_noun:2連|behkey_verb:占領(lǐng)|object_noun:1號地域|at-where:南側(cè)|start-when:4月08日12時|attribute_phrase:于〉

2.2 基于LDA的任務(wù)事件主題分類

戰(zhàn)場文本數(shù)據(jù)內(nèi)涵豐富,但是語義主題比較明確。以作戰(zhàn)任務(wù)信息為例,任務(wù)事件內(nèi)容包括行動目的、行動對象、行動類型、時空信息及其他屬性信息,每一條信息又可以按照層次和尺度進行分解,歸類至不同執(zhí)行者,按照相應(yīng)的主題形成具體的行動序列。任務(wù)事件主題分類與文本分類相似,將任務(wù)事件映射為一篇文檔,任務(wù)中的意圖或者目的作為一個主題,每個事件的主體和客體對象關(guān)聯(lián)的屬性及其行為活動作為單詞。一個目的任務(wù)相當(dāng)于主體和客體對象完成行為過程的集合,包括任務(wù)執(zhí)行對象、地理環(huán)境對象、行為作用等,在文檔中映射為構(gòu)成上述事件主題要素特征的詞匯,如描述任務(wù)下達者、執(zhí)行者、行為以及區(qū)域、興趣點、位置、作用關(guān)系、時間等相關(guān)主題特征詞匯。

潛在的狄利克雷分布(latent Dirichlet allocation,LDA)模型是一個建立“文本-主題-詞匯”3層貝葉斯模型,通過主題分布與詞分布的概念,能夠?qū)⑽臋n轉(zhuǎn)換到主題空間進行分析,根據(jù)主題進行語義區(qū)分,從而獲得文檔在隱主題空間的表示,也就是既能將詞匯聚類成主題,也能將文檔聚類成多個主題[28-29]。

因此,使用LDA模型能夠抽取構(gòu)成主題要素的特征詞匯,并得到事件主題分布。具體方法是:①將戰(zhàn)場文本集合記作D(d1,d2,d3,…,dn),每一篇文檔d內(nèi)容可視為由不同任務(wù)事件主題混合組成,每個文檔按一定的概率分布表達多個主題,設(shè)目前按照任務(wù)主題區(qū)分獲取已知主題數(shù)為K;②在前述句法結(jié)構(gòu)分析基礎(chǔ)上,通過分詞、過濾、關(guān)鍵詞提取等步驟,生成描述主題要素的關(guān)鍵詞集W(w1,w2,w3,…,wn),每個主題按一定的概率分布選擇不同的詞匯進行表達,也就是由若干描述事件主題要素的詞匯構(gòu)成一個概率分布;③通過Gibbs采樣,由每個詞匯在不同的文檔中對應(yīng)不同的主題概率得到相應(yīng)主題分布,生成主題集Z(z1,z2,z3,…,zn),同時輸出基于主題集Z下的詞匯分布Wd。由概率圖來表示LDA模型實現(xiàn)過程,如圖2所示。

圖2中,空心圓部分表示潛在概率,wd,n表示文檔d中第n個詞匯概率,zd,n表示文檔d中第n個詞匯所對應(yīng)的主題概率,θd表示文檔d中主題分布概率,ψk表示組成主題k的詞匯分布概率,α表示文檔中主題分布的超參數(shù),β表示主題中單詞分布的超參數(shù);矩形框部分表示重復(fù)的過程,M表示文檔中詞匯個數(shù),Q表示文檔個數(shù),K表示文檔主題個數(shù),分別用于每個矩形框內(nèi)容重復(fù)的次數(shù)。由此,通過主題分布的采樣獲取任務(wù)事件主題z,通過基于主題z下詞匯的分布概率獲取詞匯w,并不斷地重復(fù)上述過程直至文檔主題對應(yīng)的所有詞匯生成完畢。

圖2 基于LDA模型的事件主題分布過程Fig.2 Event topic distribution process based on LDA model

利用OPTICS聚類方法[30],可對每個任務(wù)事件每個主題概率分布進行聚類分析,獲得相對集中的任務(wù)事件主題分類結(jié)果,與作戰(zhàn)任務(wù)類型相結(jié)合,將描述相似任務(wù)類型內(nèi)容的詞匯合并為一個大主題,形成具有層次結(jié)構(gòu)的事件主題分類。表1為部分相關(guān)主題的特征詞匯分布。

2.3 基于事件主題的地理環(huán)境時空主題模型

按照空間相關(guān)性原理,地物之間的相關(guān)性與距離有關(guān),距離越近,地物間相關(guān)性越大;反之,地物間相關(guān)性越小。在文本中由自然語言描述空間信息,利用詞匯之間的語義相似性來反映空間對象之間的相關(guān)性,由此通過聚類方法發(fā)現(xiàn)地理時空主題,即如果兩個詞匯語義對事件主題的描述很相似,那么它們極有可能屬于同一空間區(qū)域;如果兩個詞匯語義描述同一空間區(qū)域,那么它們就可被聚類為同一空間主題。

為了能夠有效獲取時空主題,每個文檔經(jīng)主題要素抽取后,形成由實體詞向量組與描述空間、時間、事件等主題特征的屬性詞向量組組成,即d={wd,rd,td,zd},其中wd表示文檔經(jīng)過分詞與實體抽取后形成的實體詞向量組;rd表示文檔中描述事件相關(guān)的空間特征屬性的詞向量,如事件發(fā)生位置的經(jīng)緯度;td表示文檔中描述事件相關(guān)的時間特征屬性的詞向量,如具體日期與時間點;zd表示文檔經(jīng)主題分類后描述事件主題特征屬性的詞向量。

表1 部分相關(guān)主題分類及其特征詞匯分布

利用LDA主題模型對上述詞向量建立聯(lián)合分布模型,通過對事件主題模型的改進,構(gòu)建地理時空主題模型。其思路是:①通過LDA模型將高維的“事件文本—時空特征”數(shù)據(jù)矩陣降維成“事件文本—主題—時空特征”低維數(shù)據(jù)矩陣,利用“文檔—主題—詞匯”3層貝葉斯模型計算“事件文本—主題”、“主題—時空特征”的分布并分別得到事件主題、空間主題及時間主題的多項分布參數(shù);②由主題分布參數(shù)計算每個事件文本對應(yīng)的時空主題概率方差并對其進行排序,獲得相應(yīng)的時空主題分布;③按照一定的閾值過濾不符合實際的主題,并對滿足閾值條件的主題記錄其對應(yīng)選擇的特征詞匯分布。由概率圖模型表示其實現(xiàn)過程如圖3所示。具體實現(xiàn)過程如下:

(1) 由設(shè)定超參數(shù)α0的Dirichlet分布,采樣得到文檔中事件主題z分布參數(shù)θ0。

圖3 時空主題模型實現(xiàn)過程Fig.3 Implementation process ofspatiotemporal topic model

(2) 由設(shè)定超參數(shù)β0的Dirichlet分布,采樣得到文檔中每個事件主題z=1,2,…,k對應(yīng)的實體詞的條件概率分布φz。

(3) 從空間域上,按照任務(wù)事件尺度,在全局條件下劃分任務(wù)執(zhí)行空間區(qū)域集R,R={r1,r2,…,rn},每個區(qū)域r內(nèi)包含地理環(huán)境要素空間屬性及其效能特征:①在位置特征上,采用基于經(jīng)緯度l(longitude,latitude)由位置均值向量μ和協(xié)方差矩陣ε構(gòu)成的高斯分布,由此形成具有軍事效能的局部地理主題分布,并對各自任務(wù)區(qū)域內(nèi)的事件主題產(chǎn)生影響;②由設(shè)定超參數(shù)η0的Dirichlet分布,采樣得到文檔中空間區(qū)域r的主題分布參數(shù)ηr;③由設(shè)定超參數(shù)γ0的Dirichlet分布,采樣得到文檔中每個事件主題對應(yīng)的區(qū)域R地理實體詞匯的條件概率分布λgeo。

(4) 從時間域上,文本中往往描述的是一個時間點,如以“年-月-日時:分:秒”格式描述事件相關(guān)的時間變量。為了避免這種離散時間造成跨度大小不一的問題,在時間特征上采用Beta分布,從Beta(δ0)中采樣得到每個事件主題z=1,2,…,k對應(yīng)的時間分布參數(shù)φz,以此描述不同事件主題時間連續(xù)變化的強度[31]。

(5) 從主題域上,一個文檔的主題由背景主題分布和區(qū)域主題分布共同影響,主題表達通過相應(yīng)的詞向量的語義進行描述,反映在事件文本上對應(yīng)事件主題分布和區(qū)域地理主題分布。對于每個事件主題z=1,2,…,k,由θ0、ηr、λgeo構(gòu)建主題多項式分布,從中抽取形成任務(wù)事件主題分布Zd和區(qū)域地理主題分布Zgeo。

(6) 依據(jù)事件主題分布Zd對應(yīng)實體詞的條件概率分布φz,與區(qū)域地理主題分布Zgeo對應(yīng)地理實體詞的條件概率分布λgeo,分別從其多項式分布中抽取相應(yīng)的詞匯w,并依據(jù)Beta(δ0)對應(yīng)的時間分布參數(shù)φz抽取相應(yīng)的時間詞匯t。

任務(wù)事件主題Zd所包含的地理時空詞匯W在語義上與區(qū)域地理主題分布Zgeo相關(guān)聯(lián),而區(qū)域地理主題分布Zgeo又從語義上反映了時空主題類型的區(qū)域分布,因此,這里依據(jù)任務(wù)事件主題Zd、區(qū)域地理主題分布Zgeo建立聯(lián)合分布概率P。引入上述時空主題模型中各元素求解相應(yīng)主題中潛在變量的詞匯分布W,使用歐拉公式可得如下依賴關(guān)系

(1)

式中,事件主題分布參數(shù)θ、區(qū)域空間主題分布參數(shù)η和實體詞匯主題分布參數(shù)φ計算公式如下[31],相應(yīng)的主題類型條件概率分布可基于主題分布參數(shù)進行求解

(2)

(3)

(4)

對于每個文檔,利用Gibbs采樣估計主題模型參數(shù),生成空間區(qū)域、位置、事件和詞匯的主題分布并分別滿足以下相應(yīng)的條件概率分布。

(1) 生成潛在的空間區(qū)域分布R,使之滿足

rd~p(rd|η0+ηz)

(5)

式中,η0滿足空間全局分布;ηz滿足任務(wù)事件主題空間區(qū)域分布,表示潛在的空間區(qū)域分布依賴于空間全局分布和任務(wù)事件主題區(qū)域分布。

(2) 生成位置分布L,使之滿足

ld~N(μr,εr)

(6)

式中,μ為位置均值向量;ε為協(xié)方差矩陣,表示每個位置依賴于潛在空間區(qū)域并服從高斯分布。

(3) 生成主題分布Z,使之滿足

zd~p(zd|θ0+θz+θgeo)

(7)

式中,θ0滿足主題全局分布;θz滿足事件主題分布;θgeo滿足區(qū)域地理主題分布,表示根據(jù)空間區(qū)域分布和位置分布,潛在主題分布依賴于事件主題和區(qū)域地理主題。

(4) 生成詞匯主題分布W,使之滿足

wd~p(wd|φ0+φgeo)

(8)

式中,φ0為全局事件主題參數(shù);φgeo為區(qū)域地理主題參數(shù),表示特征詞分布依賴于主題分布。

改進后的基于LDA模型計算時空主題分布算法過程如下所示。

算法1:基于LDA模型計算時空主題分布算法過程

輸入:文檔向量集合syggg00,主題數(shù)目k,超參數(shù)α0、β0、η0、γ0、δ0

輸出:多項分布參數(shù)θ、φ、η,主題類型分布{zd}以及對應(yīng)的詞分布{wd}

(1) 初始化參數(shù)。

(2) 主題采樣:

for all文檔m∈[1,M] do

for all單詞n∈[1,Nm] in 文檔m do

采樣Zm,n,使得Zm,n=k~multi(1/K)

更新相應(yīng)m,n計數(shù)

(3) Gibbs采樣:

for all文檔m∈[1,M] do

for all單詞n∈[1,Nm] in 文檔m do

更新相應(yīng)m,n計數(shù)

(4) 檢查收斂性,讀取主題分布參數(shù):

if 收斂且達到閾值then

歸一化參數(shù);

利用式(2)—式(4)讀取相應(yīng)的主題分布參數(shù)

(5) 基于上述參數(shù)計算主題分布及詞分布,分別滿足式(5)—式(8)。

2.4 基于支持向量機的實時主題分類

由于軍事語料標(biāo)注樣本的局限,為了能夠利用文本特征學(xué)習(xí)實現(xiàn)文本的主題檢測,采用監(jiān)督學(xué)習(xí)方式中的支持向量機(support vector machine,SVM)方法,在基于訓(xùn)練樣本的學(xué)習(xí)特征基礎(chǔ)上,建立機器學(xué)習(xí)模型,解決小樣本情況下的機器學(xué)習(xí)問題,從而當(dāng)新的任務(wù)事件文本輸入時,結(jié)合SVM通過主題模型判斷文本中對應(yīng)的地理時空主題類別,實現(xiàn)時空主題實時分類。

(1) 對已有的樣本數(shù)據(jù)按照主題分布的概率進行排序,找出文本集合中隱含的地理時空主題,將其作為已發(fā)現(xiàn)的主題。

(2) 利用SVM算法構(gòu)建時空主題分類模型,基于已發(fā)現(xiàn)的地理時空主題及其特征詞匯分布作為文檔樣本集,將構(gòu)建的聯(lián)合主題分布特征向量作為輸入。如下所示

(9)

式中,m為樣本個數(shù);x(i)、y(i)分別為樣本i輸入、輸出值;ωTx(i)+b=0為超平面;ξi為第i個樣本的松弛系數(shù);C為懲罰系數(shù)。

3 試驗與應(yīng)用分析

3.1 試驗數(shù)據(jù)

本文以某戰(zhàn)術(shù)訓(xùn)練場為研究區(qū)域,試驗數(shù)據(jù)集選用近年戰(zhàn)術(shù)演習(xí)導(dǎo)調(diào)系統(tǒng)采集獲得的文本數(shù)據(jù),包含690個計劃、2250條命令、695條指示、1035條報告等共4670篇文檔,如表2所示。位置數(shù)據(jù)采用的是該區(qū)域1∶5萬系列比例尺矢量地圖數(shù)據(jù),各類文本信息均包含位置、時間及相應(yīng)事件主題信息。

表2 文本數(shù)據(jù)源及其分類

對上述戰(zhàn)場文本數(shù)據(jù)內(nèi)容按要素進行標(biāo)注形成訓(xùn)練樣本語料庫,見表3。

3.2 試驗設(shè)計及精度評估

本試驗利用上述已有的文檔語料庫進行模型主題分類驗證。將文檔樣本集隨機分組,其中80%作為訓(xùn)練集,20%作為測試集,構(gòu)建主題模型輸入的文檔集D。采用perplexity[32]指標(biāo)計算戰(zhàn)場文本的時空主題數(shù)K。首先,設(shè)定K∈(4,120),利用80%的訓(xùn)練集計算此時的時空主題分布及其perplexity值域;其次,在訓(xùn)練集計算的時空主題分布基礎(chǔ)上,利用20%的測試集計算此時的時空主題分布及其perplexity值域;最后,基于perplexity分布曲線確定主題數(shù)K,同時通過交叉驗證,得到模型的準(zhǔn)確率。

表3 部分訓(xùn)練樣本語料片段示例

如圖4所示,試驗中perplexity指標(biāo)分布曲線按照主題數(shù)K的增加而不斷下降,且下降趨勢逐漸減小。當(dāng)K=4時,perplexity值最高,接近750;當(dāng)K在(4,40)區(qū)間時,perplexity值隨K值增加而迅速下降;當(dāng)K>40時,perplexity值隨K值增加趨于穩(wěn)定。由此,當(dāng)K=40時作為主題數(shù)臨界值,文本主題的可信度并未隨K值增加而明顯提高,因而,選擇主題數(shù)為40。

圖4 不同主題數(shù)量下困惑度比較Fig.4 Comparison of perplexity values with different topics

此時計算文本的時空主題分布概率,表4所示為部分主題類型及其所對應(yīng)空間對象的分布概率。同一主題下分布概率較高的空間對象突出了與事件主題緊密聯(lián)系的相關(guān)特征表達,從影響任務(wù)事件的效能特征上反映了時空主題類型。如主題6中“公路”“街區(qū)”“車站”“村莊”等空間實體類型,反映了道路機動相關(guān)時空主題;主題17中“高地”“樹林”“密灌”“沖溝”“沼澤地”等空間實體類型,反映了越野機動相關(guān)時空主題。

表4 不同時空主題類型對應(yīng)的部分空間實體對象分布

根據(jù)上述方法獲取樣本數(shù)據(jù)的分類精度,如表5所示。在3736個訓(xùn)練樣本中,3347個任務(wù)事件被提取主題分布,其中2881個樣本被正確提取時空主題,分類精確率為86.1%;在934個測試樣本中,819個任務(wù)事件被提取主題分布,其中702個樣本被正確提取時空主題,分類精確率為85.7%。由此,總體上說明該模型適合對戰(zhàn)場文本數(shù)據(jù)從任務(wù)事件主題中提取相關(guān)的時空主題分類。

3.3 應(yīng)用分析

為了驗證上述方法在實際應(yīng)用中的可行性與價值,將基于任務(wù)事件的地理環(huán)境時空主題模型對戰(zhàn)場文本數(shù)據(jù)進行主題信息抽取和語義相關(guān)性分析,應(yīng)用于時空主題趨勢及不同主題下時空分布特征分析,以驗證隱含語義理解方法的可行性,從而為數(shù)據(jù)挖掘自動化提供支撐。

表5 時空主題分類精度

3.3.1 時空主題趨勢分析

在上述樣本的基礎(chǔ)上對任務(wù)事件及地理時空主題信息進行抽取。選取某一個時間階段任務(wù)過程所包含的文本數(shù)據(jù)來計算不同主題所占的比例,隨著時間變化相應(yīng)的主題比例發(fā)生規(guī)律性變化,如圖5所示。線狀表示事件主題,點狀表示地理主題。從主題相關(guān)性角度,分析任務(wù)事件主題與時空主題之間存在的語義關(guān)聯(lián)性,發(fā)現(xiàn)地理環(huán)境對任務(wù)事件所具有的軍事效能;從主題發(fā)展趨勢角度,分析不同主題在時間軸上的分布,發(fā)現(xiàn)事件主題的發(fā)展過程規(guī)律。

圖5 不同主題隨時間變化所占比例發(fā)生變化Fig.5 Trend of proportion under different topics over time

(1) 主題相關(guān)性分析。 由圖5可以看出,每個任務(wù)事件主題關(guān)聯(lián)著若干個時空主題,每個時空主題又關(guān)聯(lián)著若干個空間實體對象。利用統(tǒng)一資源描述框架RDF來描述兩者的語義相關(guān)性,見表6。采用“主語—謂語—賓語”結(jié)構(gòu)描述“主體—語義關(guān)系—客體”,能夠清楚地陳述主題數(shù)據(jù)之間的對應(yīng)關(guān)系,從軍事效能上進一步表達時空主題隱含語義信息。

表6 部分事件主題與地理主題的語義關(guān)系

以任務(wù)事件主題“道路機動”為例,其關(guān)聯(lián)較密切的地理主題有“接近路”“地面障礙”“觀察與射界”,其中“接近路”與任務(wù)事件的相關(guān)度最大,空間實體對象“道路”相比“植被”“居民地”等對地理主題“接近路”影響要大,這與地理環(huán)境實體對任務(wù)影響效能結(jié)果是一致的。因此,一個任務(wù)事件主題隨著事件時間發(fā)展,事件發(fā)生區(qū)域地理主題的變化能夠反映事件發(fā)展不同階段所關(guān)注的時空對象。通過分析時空對象的主題相關(guān)性,能夠進一步從語義上解析時空數(shù)據(jù)里面隱含的主題知識。

(2) 主題發(fā)展趨勢分析。一個任務(wù)過程隨著事件時間發(fā)展可以分為若干個任務(wù)事件主題。如圖5中在4月21日05時00分至17時00分,共包括“隱蔽集結(jié)”“道路機動”“阻擊防御”等3個任務(wù)事件主題。分別統(tǒng)計每個主題在此期間所對應(yīng)的比例,發(fā)現(xiàn)9時之前以“隱蔽集結(jié)”主題為主,任務(wù)關(guān)注重點是如何利用從空中和地面免受觀察的地形要素,如植被與隱蔽配置,完成集結(jié)任務(wù);9時至13時以“道路機動”主題為主,任務(wù)關(guān)注重點是根據(jù)通路分析計算通道容量,分析利于武器裝備通過的機動走廊相關(guān)地形要素,完成機動任務(wù);13時之后以“阻擊防御”主題為主,任務(wù)關(guān)注重點是利用對特定武器部署位置有影響的、且具有防御能力的地形要素,構(gòu)建直瞄和間瞄武器射擊區(qū)域,避免受敵火力威脅區(qū)域地理環(huán)境,達成阻擊任務(wù)。結(jié)合時間信息,對應(yīng)時空主題分布分別從“隱藏配置”主題,“接近路”主題發(fā)展為“觀察與射界”主題,將整個任務(wù)過程分為3個階段,分別對應(yīng)任務(wù)事件的初期、發(fā)展期和結(jié)束期。因此,一個任務(wù)過程中包含不同的事件主題,能夠反映不同階段任務(wù)關(guān)注的重點,由時空主題關(guān)聯(lián)反映出區(qū)域地理環(huán)境變化特征,有助于進一步從不同角度預(yù)測任務(wù)發(fā)展進程。

以上對時空主題趨勢分析可以看出,隨著戰(zhàn)場位置與任務(wù)事件進展發(fā)生變化,地理環(huán)境時空主題也隨之發(fā)生改變。通過分析這些變化可以發(fā)現(xiàn)任務(wù)事件主題與時空主題之間的關(guān)系及發(fā)展趨勢,有助于發(fā)現(xiàn)事件的發(fā)展規(guī)律并研判地理環(huán)境對任務(wù)執(zhí)行的影響效能,利用不同的時空主題作出趨利避害的對策。

3.3.2 不同主題下時空分布特征

由于戰(zhàn)場文本數(shù)據(jù)中包含了豐富的位置信息,將每個任務(wù)事件主題與位置信息相關(guān)聯(lián),形成帶有主題屬性的點狀地理實體,對其在一定空間區(qū)域內(nèi)進行聚類分析,產(chǎn)生不同主題下的時空分布規(guī)律,從而為新事件的位置預(yù)測提供基礎(chǔ)。

選取上述任務(wù)過程所包含最主要的3個事件主題“集結(jié)”“機動”“防御”進行空間聚類分析,分別包含了115條、370條、406條位置信息文本。采用OPTICS聚類方法對上述主題關(guān)聯(lián)的位置信息進行分析,得到的聚類核心(十字表示)如圖6所示。

圖6 相關(guān)主題的空間聚類Fig.6 Spatial clustering of related topics

“集結(jié)”主題空間分布得到的聚類核心主要分布在區(qū)域A,與其相對應(yīng)地理主題可以發(fā)現(xiàn),該區(qū)域以“植被與隱藏配置”時空主題分布為主,與“植被”“居民地”等空間實體關(guān)聯(lián)較強,結(jié)合任務(wù)過程事件時間分布,與“早期”階段任務(wù)主體行為為達成隱蔽集結(jié)意圖是一致的;“機動”主題空間分布得到的聚類核心主要分布在區(qū)域B,與其相對應(yīng)地理主題可以發(fā)現(xiàn),該區(qū)域以“接近路”時空主題分布為主,與“道路”“居民地”等空間實體關(guān)聯(lián)較強,結(jié)合任務(wù)過程事件時間分布,與“發(fā)展期”階段任務(wù)主體行為為達成沿道路機動意圖是一致的;“防御”主題空間分布得到的聚類核心主要分布在區(qū)域C,與其相對應(yīng)地理主題可以發(fā)現(xiàn),該區(qū)域以“觀察與射界配置”時空主題分布為主,與“高地”“植被”等空間實體關(guān)聯(lián)較強,結(jié)合任務(wù)過程事件時間分布,與“結(jié)束期”階段任務(wù)主體行為為達成阻擊防御意圖是一致的。

從上述對不同主題下的空間數(shù)據(jù)聚類分析,能夠發(fā)現(xiàn)時空主題的空間分布特征受到事件主題的影響,并對事件的發(fā)展產(chǎn)生新的作用。當(dāng)新事件發(fā)生的時候,通過主題分類結(jié)合空間分析,預(yù)測事件可能影響的位置區(qū)域,從而有效作出趨利避害的對策。

4 結(jié) 語

戰(zhàn)場文本信息不僅直接反映戰(zhàn)場行為過程,還蘊含著豐富的區(qū)域地理時空語義信息,與地理環(huán)境變化密切相關(guān),并揭示了未來時空過程發(fā)展趨勢。本文以與任務(wù)事件相關(guān)的戰(zhàn)場文本數(shù)據(jù)為信息源,研究基于句法分析的主題要素抽取及事件主題分類方法,并通過主題模型分析地理時空主題與事件主題之間的隱含語義分布形態(tài),揭示區(qū)域地理時空主題與任務(wù)事件主題之間存在的相關(guān)性特征及在時序上的發(fā)展趨勢,反映了不同事件主題影響下的時空分布規(guī)律。由于本文選擇的數(shù)據(jù)源較為單一,盡管一定程度上能夠反映客觀趨勢,但是文本數(shù)據(jù)樣本數(shù)量上的不足使得主題隱含語義研究存在一定偏差。未來將結(jié)合不同類型戰(zhàn)場文本數(shù)據(jù),進一步深入挖掘多源文本數(shù)據(jù)中的語義信息,提高主題分類精度;同時,需要考慮不同尺度時空區(qū)域與不同等級任務(wù)對結(jié)果可能造成的影響,此外,還需考慮算法運行的效率對分類結(jié)果與精度的影響。

猜你喜歡
戰(zhàn)場文檔時空
跨越時空的相遇
戰(zhàn)場上的神來之筆
有人一聲不吭向你扔了個文檔
C-130:戰(zhàn)場多面手
鏡中的時空穿梭
貼秋膘還有三秒到達戰(zhàn)場
意林(2020年20期)2020-11-06 04:06:14
玩一次時空大“穿越”
基于RI碼計算的Word復(fù)制文檔鑒別
時空之門
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
左云县| 石首市| 大新县| 民勤县| 安宁市| 吉安市| 鄂尔多斯市| 磴口县| 钟祥市| 禄丰县| 翁牛特旗| 舞阳县| 柯坪县| 五家渠市| 五大连池市| 永平县| 迭部县| 玛纳斯县| 玉树县| 湾仔区| 石屏县| 定边县| 金阳县| 昆山市| 曲周县| 仁怀市| 新乡市| 杨浦区| 富民县| 忻州市| 临颍县| 拉孜县| 长治县| 宁津县| 临城县| 平湖市| 城固县| 宜兰市| 淳化县| 大渡口区| 雷山县|