陳洪雁,張大偉,楊歡,齊宏為
(北京跟蹤與通信技術(shù)研究所,北京100094)
近年來(lái),中國(guó)航天蓬勃發(fā)展,面對(duì)日益發(fā)達(dá)的航天軍事物聯(lián)網(wǎng)、航天大數(shù)據(jù),各類數(shù)字化信息資源不斷涌現(xiàn)和普及,快速獲取、深入挖掘和有效利用數(shù)字化、網(wǎng)絡(luò)化信息,正在成為促進(jìn)國(guó)防知識(shí)服務(wù)能力躍升的強(qiáng)有力手段。航天軍事涉及的知識(shí)層面繁多、知識(shí)結(jié)構(gòu)分散、知識(shí)獲取成本高、知識(shí)共享困難,目前的軍事管理平臺(tái)缺乏智慧知識(shí)大數(shù)據(jù)服務(wù)支撐?;跀?shù)字信息的知識(shí)獲取、知識(shí)加工、知識(shí)抽取及圖譜化知識(shí)服務(wù),已成為軍事知識(shí)服務(wù)能力的重要內(nèi)容,成為國(guó)防創(chuàng)新的新型能力基礎(chǔ)。
航天軍事涉及的知識(shí)領(lǐng)域包括軍事理論、軍事科技、航天科技、戰(zhàn)爭(zhēng)戰(zhàn)役實(shí)例及未來(lái)戰(zhàn)爭(zhēng)構(gòu)想等等,其內(nèi)容交錯(cuò)復(fù)雜,不可能將全部相關(guān)知識(shí)都記入人腦,也不可能依靠人類的計(jì)算和推理能力進(jìn)行快速判斷。深度機(jī)器學(xué)習(xí)模型能夠?qū)教燔娛骂I(lǐng)域龐大的知識(shí)進(jìn)行抽取與表示,知識(shí)推理能夠?qū)教燔娛轮R(shí)進(jìn)行快速推理,知識(shí)問(wèn)答能夠準(zhǔn)確地獲取航天軍事知識(shí)。本文面向航天軍事應(yīng)用,消除地域、時(shí)間、機(jī)構(gòu)及業(yè)務(wù)系統(tǒng)之間的邊界,結(jié)合以深度機(jī)器學(xué)習(xí)模型、知識(shí)推理、智能問(wèn)答、智能決策為核心的人工智能技術(shù),構(gòu)建現(xiàn)代軍事領(lǐng)域信息智能化的航天軍事專家智能知識(shí)服務(wù)系統(tǒng),作為軍事領(lǐng)域內(nèi)創(chuàng)新發(fā)展能力的關(guān)鍵組成部分,可以實(shí)現(xiàn)對(duì)航天軍事數(shù)據(jù)的智能統(tǒng)籌分析與知識(shí)推理,可以為業(yè)務(wù)人員提供全面的航天專家知識(shí)和決策數(shù)據(jù)支撐。
基于深度機(jī)器學(xué)習(xí)模型的軍事專家系統(tǒng)對(duì)各個(gè)領(lǐng)域的巨大戰(zhàn)略作用,目前國(guó)內(nèi)外都對(duì)深度機(jī)器學(xué)習(xí)模型展開了如火如荼的研究。在科技領(lǐng)域,科技部牽頭的科技知識(shí)組織體系建設(shè)項(xiàng)目是針對(duì)科研的科技深度機(jī)器學(xué)習(xí)模型,深度機(jī)器學(xué)習(xí)模型建設(shè)和應(yīng)用示范取得了豐碩成果。在國(guó)防領(lǐng)域的深度機(jī)器學(xué)習(xí)模型建設(shè)也悄然興起,但處于起步階段,規(guī)模比較小,僅限于滿足本部門或本單位使用。構(gòu)建深度機(jī)器學(xué)習(xí)模型的核心就是抽取三元組,三元組的抽取是深度機(jī)器學(xué)習(xí)模型構(gòu)建的關(guān)鍵性問(wèn)題。目前主流的抽取方式是基于規(guī)則與深度學(xué)習(xí)的方式,基于規(guī)則的抽取準(zhǔn)確率低,嚴(yán)重依賴工作人員定義大量規(guī)則。
隨著人工智能的飛速發(fā)展,自動(dòng)問(wèn)答已經(jīng)成為倍受關(guān)注且發(fā)展前景廣泛的研究方向。以深度問(wèn)答技術(shù)為核心的IBM Watson自動(dòng)問(wèn)答機(jī)器人在美國(guó)智力競(jìng)賽節(jié)目Jeopardy中戰(zhàn)勝人類選手,引起了業(yè)內(nèi)的巨大轟動(dòng)。由軍委裝備發(fā)展部、中國(guó)電子科技集團(tuán)有限公司與軍委裝備發(fā)展部中國(guó)電科聯(lián)合基金資助舉辦的中國(guó)電科X+AI系列全國(guó)第二屆“軍事智能·機(jī)器閱讀”挑戰(zhàn)賽,致力于顛覆以往情報(bào)整編工作以人工分析提煉為主的模式,逐步實(shí)現(xiàn)由機(jī)器替代繁瑣、重復(fù)性情報(bào)整編業(yè)務(wù)流程。已有自動(dòng)問(wèn)答技術(shù)大致可以分為三類:檢索式問(wèn)答、社區(qū)問(wèn)答、知識(shí)庫(kù)問(wèn)答,由于沒(méi)有三元組式結(jié)構(gòu)化的知識(shí)支撐,這三種方式都面臨著準(zhǔn)確率低與答非所問(wèn)的問(wèn)題,而且面臨著邏輯推理與知識(shí)推理的難點(diǎn)。
本文通過(guò)研究航天軍事領(lǐng)域三元組知識(shí)抽取,融合認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語(yǔ)言處理與語(yǔ)義Web、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等方向的交叉研究,構(gòu)建航天軍事深度機(jī)器學(xué)習(xí)模型,組織、管理和理解航天軍事領(lǐng)域海量信息。通過(guò)研究航天知識(shí)服務(wù)智能問(wèn)答與推理技術(shù),不僅能為航天軍事領(lǐng)域提供分析、推理、發(fā)現(xiàn)、洞察能力,同時(shí)可實(shí)現(xiàn)航天知識(shí)動(dòng)態(tài)、高效、直觀數(shù)據(jù)呈現(xiàn)效果。
通過(guò)研究航天軍事專家系統(tǒng)建設(shè)中的關(guān)鍵技術(shù):深度機(jī)器學(xué)習(xí)模型構(gòu)建、知識(shí)推理、智能問(wèn)答與決策支持技術(shù),基于構(gòu)建業(yè)務(wù)模型和決策支持模型庫(kù),通過(guò)多源、多類型數(shù)據(jù)融合構(gòu)建航天軍事專家系統(tǒng)模型架構(gòu),進(jìn)行數(shù)據(jù)分析、推理和關(guān)聯(lián),固化航天軍事專家系統(tǒng)業(yè)務(wù)應(yīng)用功能,通過(guò)多渠道為業(yè)務(wù)用戶提供即時(shí)、高效決策支持服務(wù),實(shí)現(xiàn)航天軍事專家智能知識(shí)服務(wù)系統(tǒng)的建設(shè)。
2.1.1 大數(shù)據(jù)采集與智能融合
航天軍事數(shù)據(jù)種類繁多、類型不統(tǒng)一、存儲(chǔ)方式不同,比如互聯(lián)網(wǎng)上的咨詢信息、檔案館中的產(chǎn)品資料,不同業(yè)務(wù)系統(tǒng)中存儲(chǔ)的產(chǎn)品資料、歷史會(huì)議資料、設(shè)備工藝或理論文獻(xiàn)資源等。如果要全面統(tǒng)一應(yīng)用,則需要規(guī)劃設(shè)計(jì)航天軍事知識(shí)庫(kù),進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)對(duì)齊和集中存儲(chǔ)。建立統(tǒng)一數(shù)據(jù)處理方法和標(biāo)準(zhǔn),統(tǒng)一存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)內(nèi),提供統(tǒng)一應(yīng)用。
2.1.2 三元組知識(shí)抽取與存儲(chǔ)
航天軍事數(shù)據(jù)中實(shí)體與關(guān)系有著多種類型,包括一個(gè)主實(shí)體對(duì)應(yīng)多個(gè)關(guān)系與多個(gè)客實(shí)體,多個(gè)主實(shí)體對(duì)應(yīng)一個(gè)關(guān)系與一個(gè)客實(shí)體,一個(gè)主實(shí)體與關(guān)系對(duì)應(yīng)多個(gè)客實(shí)體以及主實(shí)體與客實(shí)體重合類型。對(duì)數(shù)據(jù)中的知識(shí)進(jìn)行表示,需要從數(shù)據(jù)中抽取出三元組知識(shí),使用圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),用于后續(xù)進(jìn)行知識(shí)融合,構(gòu)建深度機(jī)器學(xué)習(xí)模型。
2.1.3 業(yè)務(wù)模型智能梳理與管理
航天軍事領(lǐng)域涉及的數(shù)據(jù)模型非常復(fù)雜,比如:組織架構(gòu)模型、理論知識(shí)模型、設(shè)備產(chǎn)品模型、業(yè)務(wù)流程模型或從業(yè)人員信息模型等,目前都分布在不同業(yè)務(wù)系統(tǒng)或人腦中,甚至都有些事物尚未模型化(例如:項(xiàng)目論證模型等)。研究并梳理決策支持應(yīng)用的關(guān)系模型、層次模型、網(wǎng)絡(luò)模型、規(guī)則模型,建立決策支持知識(shí)庫(kù),按深度機(jī)器學(xué)習(xí)模型架構(gòu)建立決策支持關(guān)聯(lián)關(guān)系,根據(jù)決策支持任務(wù)和特點(diǎn)確定決策支持知識(shí)粒度、維度與網(wǎng)狀關(guān)系結(jié)構(gòu),形成動(dòng)態(tài)網(wǎng)絡(luò)深度機(jī)器學(xué)習(xí)模型,為決策支持知識(shí)展示提供底層數(shù)據(jù)整合。
2.1.4 知識(shí)推理與智能問(wèn)答
航天軍事領(lǐng)域涉及的數(shù)據(jù)模型類型繁多、結(jié)構(gòu)復(fù)雜,需要研究并梳理業(yè)務(wù)模型類型,按模型的類型構(gòu)建深度機(jī)器學(xué)習(xí)模型關(guān)系。比如:理論方法深度機(jī)器學(xué)習(xí)模型、產(chǎn)品設(shè)備深度機(jī)器學(xué)習(xí)模型、空間結(jié)構(gòu)深度機(jī)器學(xué)習(xí)模型、應(yīng)急響應(yīng)深度機(jī)器學(xué)習(xí)模型等。業(yè)務(wù)模型知識(shí)庫(kù)支持新關(guān)系發(fā)現(xiàn)和新模型智能建議,支持動(dòng)態(tài)數(shù)據(jù)加載,可從指定的知識(shí)存儲(chǔ)介質(zhì)上直接抽取知識(shí),呈現(xiàn)航天軍事數(shù)據(jù)的表現(xiàn)狀態(tài)。
2.1.5 決策支持模型智能化
研究并梳理決策支持應(yīng)用的關(guān)系模型、層次模型、網(wǎng)絡(luò)模型、規(guī)則模型,建立決策支持知識(shí)庫(kù),按深度機(jī)器學(xué)習(xí)模型架構(gòu)建立決策支持關(guān)聯(lián)關(guān)系,根據(jù)決策支持任務(wù)和特點(diǎn)確定決策支持知識(shí)粒度、維度與網(wǎng)狀關(guān)系結(jié)構(gòu),形成動(dòng)態(tài)網(wǎng)絡(luò)深度機(jī)器學(xué)習(xí)模型,為決策支持知識(shí)展示提供底層數(shù)據(jù)整合,為航天軍事人員決策提供理論、數(shù)據(jù)上的專家支撐。
航天軍事專家智能知識(shí)服務(wù)系統(tǒng)的架構(gòu)主要包含基礎(chǔ)層、數(shù)據(jù)層、平臺(tái)層、應(yīng)用層、用戶層,支撐環(huán)境由數(shù)據(jù)采集同步、網(wǎng)絡(luò)傳輸、系統(tǒng)軟硬件組成,并且由基于業(yè)務(wù)、技術(shù)、管理等方面的標(biāo)準(zhǔn)規(guī)范體系、安全保障體系和運(yùn)維管理體系作為整體架構(gòu)上的支撐和保障。該系統(tǒng)的總體架構(gòu)如圖1所示。
圖1 系統(tǒng)的總體架構(gòu)圖
通過(guò)對(duì)航天軍事領(lǐng)域三元組知識(shí)的抽取、深度機(jī)器學(xué)習(xí)模型建設(shè)、知識(shí)推理、智能問(wèn)答、決策支持的深刻研究,將其應(yīng)用于航天軍事專家系統(tǒng)建設(shè),實(shí)現(xiàn)三庫(kù)、三渠道、一體系的統(tǒng)一應(yīng)用服務(wù)。
1)一體系是指航天軍事專家系統(tǒng)知識(shí)服務(wù)體系。
2)三渠道是指可視化數(shù)據(jù)展示、智能應(yīng)答數(shù)據(jù)展示和APP數(shù)據(jù)展示。
3)三庫(kù)是指多源多類型基礎(chǔ)知識(shí)庫(kù)、業(yè)務(wù)模型知識(shí)庫(kù)和決策支持模型知識(shí)庫(kù)。
上述三大指標(biāo)可以考核系統(tǒng)的多源數(shù)據(jù)處理能力,數(shù)據(jù)模型算法和處理能力及數(shù)據(jù)應(yīng)用展示能力。實(shí)現(xiàn)航天軍事專家系統(tǒng)的快速、便捷、精準(zhǔn)的知識(shí)服務(wù)應(yīng)用。
構(gòu)建深度機(jī)器學(xué)習(xí)模型的核心就是抽取三元組。三元組是對(duì)各種實(shí)體或概念及其關(guān)系的表示,表示形式為主實(shí)體(s)-關(guān)系(p)-客實(shí)體(o)?;谏疃葘W(xué)習(xí)的抽取三元組方式有兩種方案:一種是先抽取實(shí)體,然后構(gòu)建實(shí)體對(duì),最后對(duì)實(shí)體對(duì)進(jìn)行關(guān)系抽取。然而這種方式無(wú)法抽取一個(gè)實(shí)體對(duì)對(duì)應(yīng)多種關(guān)系的三元組;另一種是將整個(gè)三元組抽取作為整體的序列標(biāo)注,但這種設(shè)計(jì)不能很好地處理同時(shí)有多個(gè)主實(shí)體(s)、多個(gè)客實(shí)體(o)的情況,并且需要“就近原則”,而無(wú)一例外地,這些方法都不能解決主實(shí)體(s)、客實(shí)體(o)有重疊的情況。因此,為了解決航天軍事領(lǐng)域?qū)嶓w與關(guān)系一對(duì)多的情況,本文設(shè)計(jì)了基于深度學(xué)習(xí)的三元組抽取方式,可以覆蓋三元組抽取的所有類型。三元組知識(shí)抽取模型的設(shè)計(jì)圖如圖2所示。
圖2 三元組知識(shí)抽取模型示意圖
1)膨脹門卷積神經(jīng)網(wǎng)絡(luò)
在卷積處理上,這里的卷積不再使用傳統(tǒng)的卷積而是設(shè)計(jì)了一種膨脹卷積,用來(lái)增加感受野。當(dāng)輸入輸出維度一樣時(shí),膨脹門卷積神經(jīng)網(wǎng)絡(luò)可以加上殘差與注意力。它體現(xiàn)了信息的選擇性多通道傳輸。通過(guò)門機(jī)制使得卷積能夠像循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)有了記憶與忘記功能。最后的模型共使用了12層神經(jīng)網(wǎng)絡(luò),在實(shí)驗(yàn)過(guò)程中,這種新型的卷積相對(duì)傳統(tǒng)卷積準(zhǔn)確率有了極大提升。
2)基于概率圖的抽取
在抽取方式上,即先抽取主實(shí)體,然后基于主實(shí)體抽取客實(shí)體并進(jìn)行關(guān)系分類。此抽取方案極大地提升了三元組抽取效率,解決了深度機(jī)器學(xué)習(xí)模型構(gòu)建的關(guān)鍵性問(wèn)題,為深度機(jī)器學(xué)習(xí)模型構(gòu)建奠定了堅(jiān)實(shí)的基礎(chǔ)。
經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,這種三元組知識(shí)抽取模型可以很好地抽取航天軍事領(lǐng)域?qū)嶓w對(duì)應(yīng)多種關(guān)系的知識(shí),極大地提升了航天軍事深度機(jī)器學(xué)習(xí)模型構(gòu)建效率。
知識(shí)推理與智能問(wèn)答技術(shù)是通過(guò)系統(tǒng)智能化數(shù)據(jù)分析和推理,規(guī)劃設(shè)計(jì)業(yè)務(wù)場(chǎng)景,設(shè)置業(yè)務(wù)主題,應(yīng)用自然語(yǔ)言理解技術(shù)實(shí)現(xiàn)航天軍事專家系統(tǒng)智能服務(wù)。針對(duì)航天軍事領(lǐng)域知識(shí)體系龐大復(fù)雜,研究設(shè)計(jì)了適用于航天軍事領(lǐng)域的知識(shí)推理與智能問(wèn)答模型。
1)智能機(jī)器學(xué)習(xí)
采用機(jī)器自主學(xué)習(xí)、未知問(wèn)題自動(dòng)聚類、知識(shí)庫(kù)維護(hù)方便和針對(duì)問(wèn)題精準(zhǔn)化引導(dǎo)四步來(lái)實(shí)現(xiàn)智能機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)模型使用膨脹門卷積神經(jīng)網(wǎng)絡(luò),并且加上了殘差與注意力。模型共使用了五層DGCNN,問(wèn)句處理思路是先對(duì)問(wèn)句基于DGCNN進(jìn)行編碼,學(xué)習(xí)出句子的語(yǔ)義表達(dá)。再對(duì)句子進(jìn)行分類,識(shí)別出問(wèn)句的所屬類別,對(duì)問(wèn)句總體進(jìn)行整體劃分,提升問(wèn)句與答案的準(zhǔn)確匹配。然后對(duì)問(wèn)句進(jìn)行命名實(shí)體識(shí)別,識(shí)別出問(wèn)句包含的具體實(shí)體,輸入深度機(jī)器學(xué)習(xí)模型進(jìn)行知識(shí)推理。機(jī)器學(xué)習(xí)算法設(shè)計(jì)如圖3所示。
圖3 機(jī)器學(xué)習(xí)算法設(shè)計(jì)示意圖
2)智能分析
推理、分析、挖掘服務(wù)數(shù)據(jù)價(jià)值,驅(qū)動(dòng)業(yè)務(wù)決策,基于用戶的業(yè)務(wù)問(wèn)題及查詢請(qǐng)求書深度挖掘,基于認(rèn)知計(jì)算,從業(yè)務(wù)數(shù)據(jù)中獲得更深層的洞察。情感分類:從文本、語(yǔ)音中識(shí)別用戶情感,真正讀懂人心。敏感分析:超越關(guān)鍵字匹配,從語(yǔ)義實(shí)時(shí)分析敏感數(shù)據(jù)。會(huì)話分類:自動(dòng)為服務(wù)會(huì)話、專家業(yè)務(wù)及決策分析等數(shù)據(jù)打標(biāo)簽歸類,為業(yè)務(wù)人員提供精煉內(nèi)容,快速把握重點(diǎn)的知識(shí)服務(wù)。
航天軍事專家智能知識(shí)服務(wù)系統(tǒng)是航天軍事領(lǐng)域內(nèi)業(yè)務(wù)知識(shí)診斷、推理和知識(shí)發(fā)現(xiàn)的業(yè)務(wù)輔助決策系統(tǒng),目標(biāo)是為航天軍事領(lǐng)域的知識(shí)進(jìn)行統(tǒng)籌分析與推理,為工作人員提供即時(shí)、高效的航天專家知識(shí)與決策支持服務(wù)。航天軍事專家系統(tǒng)的知識(shí)抽取與知識(shí)推理及智能問(wèn)答是必要需求,深度機(jī)器學(xué)習(xí)模型技術(shù)的應(yīng)用則是最佳選擇,這三大指標(biāo)可以全面提升系統(tǒng)的多源數(shù)據(jù)處理能力,數(shù)據(jù)模型算法和處理能力及數(shù)據(jù)應(yīng)用展示能力,實(shí)現(xiàn)航天軍事專家系統(tǒng)的快速、便捷、精準(zhǔn)的知識(shí)服務(wù)應(yīng)用。
此外,由于航天軍事專家智能知識(shí)服務(wù)系統(tǒng)的知識(shí)是成體系的,由架構(gòu)層級(jí)指引,業(yè)務(wù)人員可以通過(guò)本系統(tǒng)進(jìn)行知識(shí)補(bǔ)充,為業(yè)務(wù)人員提供知識(shí)學(xué)習(xí)、知識(shí)共享、知識(shí)發(fā)現(xiàn)、聯(lián)合作戰(zhàn)等決策支撐服務(wù)。