王紅 楊蓉 郭靜
摘? 要: 針對(duì)航空安全事件RDF圖數(shù)據(jù)因果關(guān)系查詢中低匹配和無(wú)匹配的問(wèn)題,提出一種基于語(yǔ)義相似度和RDFS規(guī)則的重寫方法。該方法首先采用基于詞向量的語(yǔ)義相似度計(jì)算方法將用戶RDF三元組轉(zhuǎn)換為領(lǐng)域本體RDF三元組,然后依據(jù)RDFS規(guī)則對(duì)領(lǐng)域本體RDF三元組進(jìn)行關(guān)系擴(kuò)展重寫,最后將該方法應(yīng)用于航空安全事件因果關(guān)系的查詢。實(shí)驗(yàn)結(jié)果表明,該方法在查全率和查準(zhǔn)率方面取得明顯效果,能夠改善因果關(guān)系查詢中低匹配和無(wú)匹配的問(wèn)題,為解決航空安全事件因果關(guān)系的查詢問(wèn)題提供了方法支持。
關(guān)鍵詞: 因果關(guān)系查詢; 關(guān)系重寫; 航空安全事件; 語(yǔ)義相似度計(jì)算; 查詢效果分析; 查詢語(yǔ)句擴(kuò)展
中圖分類號(hào): TN919?34; TP391.1? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2019)16?0149?05
0? 引? 言
近年來(lái)非正常條件下的航空安全事件呈多元化趨勢(shì),包括大面積航班延誤、航空器危險(xiǎn)接近、航空器墜毀等,獲取航空安全事件的因果關(guān)系,分析事件的前因后果,對(duì)于航空安全事件的有效預(yù)防和應(yīng)急處理能力的提升具有重要的意義。在航空安全領(lǐng)域中,肖志偉等人提出了一種領(lǐng)域本體相關(guān)概念的語(yǔ)義相似度計(jì)算檢索方法,實(shí)現(xiàn)了領(lǐng)域本體的語(yǔ)義檢索;李林等人利用語(yǔ)義模式表達(dá)匹配算法找到用戶查詢的相關(guān)語(yǔ)義概念,實(shí)現(xiàn)了民航突發(fā)事件應(yīng)急案例的語(yǔ)義檢索;蔡偉偉等人提出了基于領(lǐng)域本體的分布式推理與查詢方法,實(shí)現(xiàn)了相似案例查詢;王雪君等人利用標(biāo)簽傳播算法將語(yǔ)義結(jié)構(gòu)密切的數(shù)據(jù)進(jìn)行多級(jí)劃分,實(shí)現(xiàn)了相似案例的查詢[1]。然而上述方法都是基于領(lǐng)域本體的查詢方法,用戶查詢關(guān)鍵詞和領(lǐng)域本體無(wú)法準(zhǔn)確映射,導(dǎo)致查詢過(guò)程中查準(zhǔn)率和查全率較低,出現(xiàn)低匹配和無(wú)匹配的問(wèn)題。
因查詢擴(kuò)展方法能夠有效提高查詢的查準(zhǔn)率和查全率,所以文中提出一種基于RDF重寫的查詢擴(kuò)展方法。重寫是數(shù)據(jù)庫(kù)查詢的一種優(yōu)化技術(shù),將查詢關(guān)鍵詞進(jìn)行擴(kuò)展并映射到本體的一種技術(shù)。重寫技術(shù)被廣泛應(yīng)用于數(shù)據(jù)庫(kù)查詢優(yōu)化中,如數(shù)據(jù)集成環(huán)境中的聚集查詢[2],挪威國(guó)家石油公司的數(shù)據(jù)查詢[3?5]。目前重寫技術(shù)的研究主要分為基于相似度的重寫和基于RDFS規(guī)則的重寫。其中,相似度計(jì)算方法包括向量空間模型(VSM)[6]、編輯距離方法[7]、基于詞向量與句法結(jié)構(gòu)的方法[8]和基于深度神經(jīng)網(wǎng)絡(luò)的計(jì)算方法[9]等。RDFS推理規(guī)則[10?11]是RDF數(shù)據(jù)推理中的核心部分,是推理研究中首選的規(guī)則集,基于RDFS規(guī)則的重寫是依據(jù)規(guī)則進(jìn)行領(lǐng)域本體RDF三元組的重寫。本文將重寫技術(shù)應(yīng)用于航空安全事件RDF圖數(shù)據(jù)的因果關(guān)系查詢,旨在解決低匹配和無(wú)匹配的問(wèn)題,為航空安全事件的因果關(guān)系分析提供有價(jià)值的信息。
1? 研究思路
基于重寫的航空安全事件因果關(guān)系查詢的研究思路如圖1所示。
1) 基于語(yǔ)義相似度計(jì)算的RDF概念和關(guān)系重寫。采用詞向量的方法,將用戶RDF三元組的主語(yǔ)、賓語(yǔ)和領(lǐng)域本體中的概念,謂語(yǔ)和本體中的關(guān)系進(jìn)行余弦相似度計(jì)算,選擇相似度高于閾值的概念和關(guān)系,將用戶RDF三元組的主語(yǔ)、賓語(yǔ)、謂語(yǔ)轉(zhuǎn)換為領(lǐng)域本體的概念、關(guān)系。
2) 基于RDFS規(guī)則的關(guān)系擴(kuò)展重寫。采用RDFS規(guī)則,通過(guò)對(duì)航空安全領(lǐng)域本體的模式數(shù)據(jù)進(jìn)行預(yù)處理,組織成四類數(shù)據(jù)集,獲得新的模式三元組數(shù)據(jù)。步驟1)中的領(lǐng)域本體RDF三元組,利用RDFS規(guī)則,實(shí)現(xiàn)本體概念、關(guān)系以及關(guān)系約束的重寫,獲得新的RDF三元組。
3) 航空安全事件因果關(guān)系的查詢。將上述方法應(yīng)用于航空安全事件RDF圖數(shù)據(jù)的因果關(guān)系查詢中,進(jìn)行實(shí)驗(yàn)對(duì)比,以查全率和查準(zhǔn)率作為評(píng)判標(biāo)準(zhǔn),驗(yàn)證重寫查詢的有效性。
2? 基于語(yǔ)義相似度和RDFS規(guī)則的重寫
基于語(yǔ)義相似度重寫和基于RDFS規(guī)則的重寫,可以將用戶原本單一的查詢語(yǔ)句擴(kuò)展成多個(gè)查詢語(yǔ)句。
2.1? 航空安全領(lǐng)域本體因果關(guān)系RDF圖數(shù)據(jù)的構(gòu)成
航空安全領(lǐng)域本體因果關(guān)系數(shù)據(jù)集來(lái)源于民航安全事故調(diào)查報(bào)告。根據(jù)中國(guó)民用航空局《民用航空器事故和飛行事故征候調(diào)查規(guī)定(CCAR395?R1)》中的規(guī)定,航空器事故是航空器飛行事故和航空器地面事故的總稱。在航空安全領(lǐng)域本體中,將航空安全事故的原因劃分為航空器故障致災(zāi)、環(huán)境原因致災(zāi)、人為因素致災(zāi)三大類,航空安全事故的最終結(jié)果劃分為航空器損壞、人員傷亡和地面設(shè)施損壞三大類。圖2給出了領(lǐng)域本體中的因果關(guān)系主要概念的構(gòu)成。其中,類別的下標(biāo)格式為“X,XX,XXX,……”,即第1位表示一級(jí)類別,2~3位表示二級(jí)類別,4~6位表示三級(jí)類別。
本文采用基于圖數(shù)據(jù)庫(kù)Neo4j的領(lǐng)域本體分布式存儲(chǔ)方法[12?13],可以最大限度地保持RDF數(shù)據(jù)的語(yǔ)義信息,也有利于對(duì)語(yǔ)義信息的查詢。其中一個(gè)存儲(chǔ)節(jié)點(diǎn)主要負(fù)責(zé)模式數(shù)據(jù)的存儲(chǔ)。
由于Key?value型的數(shù)據(jù)庫(kù)Redis查詢性能高并且支持持久化存儲(chǔ),因此,文中采用Redis數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)模式數(shù)據(jù)。圖3給出了航空安全領(lǐng)域本體部分RDF圖數(shù)據(jù),其中航空安全事件是由事件發(fā)生的時(shí)間和航班號(hào)組成。
2.3.2? 基于RDFS規(guī)則的重寫
基于RDFS規(guī)則的重寫是依據(jù)RDFS規(guī)則將領(lǐng)域本體RDF三元組重寫為新的RDF三元組。首先對(duì)模式數(shù)據(jù)進(jìn)行預(yù)處理,然后進(jìn)行RDFS規(guī)則匹配,實(shí)現(xiàn)領(lǐng)域本體RDF的重寫。實(shí)現(xiàn)過(guò)程如下:
1) 從Redis數(shù)據(jù)庫(kù)中讀取模式數(shù)據(jù),謂詞為domain,range,SubPropertyOf,SubClasssOf的三元組分別存放在domainData,rangeData,SubPropertyData,SubClassOfData數(shù)據(jù)集中。
2) 如果SubPropertyData數(shù)據(jù)集中,存在p rdfs: SubPropertyOf q && q rdfs: SubPropertyOf r,依據(jù)規(guī)則1,將p rdfs: SubPropertyOf r存放在SubPropertyData數(shù)據(jù)集中。
3) 如果SubClassOfData數(shù)據(jù)集中存在x rdfs: subClassOf y && y rdfs: subClassOf z,依據(jù)規(guī)則2,將x rdfs:subClassOf z存放在SubClassOfData數(shù)據(jù)集中。
4) 如果RDF三元組[t=s,p,o],謂語(yǔ)p[∈]SubPropertyOfData && p rdfs: SubPropertyOf q依據(jù)規(guī)則3,輸出[ti=s,q,o]。
5) 如果RDF三元組[t=s,p,o]和[ti=s,q,o],謂語(yǔ)p[∈]domainData && p rdfs:domain x或者謂語(yǔ)q[∈]domainData && q rdfs:domain x,依據(jù)規(guī)則4,輸出[tj=(s,type,x)];
6) 如果RDF三元組[t=s,p,o]和[ti=s,q,o],謂語(yǔ)p[∈]rangeData && p rdfs:range x或者謂語(yǔ)q[∈]rangeData && q rdfs:range x,依據(jù)規(guī)則5,輸出[tm=(o,type,x)];
7) 如果RDF三元組[t=s,p,o],[tj=(s,type,x)],[tm=(o,type,x)]的謂語(yǔ)是type時(shí),o[∈]SubClasssOfData && o rdfs:subClassOf y,x[∈]SubClasssOfData && o rdfs:subClassOf y,依據(jù)規(guī)則6,輸出[tn=(s,rdf:type,y)],[to=(o,rdf:type,y)]。到此重寫完成。
其中,步驟1)~3)為模式數(shù)據(jù)的預(yù)處理,步驟4)~7)依據(jù)RDFS規(guī)則對(duì)領(lǐng)域本體RDF三元組進(jìn)行重寫。
3? 航空安全事件因果關(guān)系查詢與效果分析
3.1? 航空安全事件因果關(guān)系查詢
若用戶RDF三元組[t1=(ei,type,si)],[t2=(ei,cause,ri)],[ei]表示突發(fā)事件,[si]表示事件原因,[ri]表示事件結(jié)果。首先將用戶RDF三元組重寫為航空安全領(lǐng)域本體RDF三元組,采用基于詞向量的語(yǔ)義相似度重寫方法,將[si]和[ri]分別和航空安全領(lǐng)域本體的概念進(jìn)行相似度計(jì)算,選擇相似度超過(guò)閾值β的概念進(jìn)行RDF三元組重寫,重寫后的三元組為[t1=(ei,type,soi)];[t2=(ei,cause,roi)]。其中,[soi]為領(lǐng)域本體中的事件原因、[roi]為領(lǐng)域本體中的事件結(jié)果。然后進(jìn)行基于RDFS規(guī)則的領(lǐng)域本體RDF三元組重寫,其中,[t2=(ei,cause,roi)]依據(jù)規(guī)則4和規(guī)則5可以重寫為[t3=(ei,type,sp)],[t4=(roi,type,rp)]。其中[sp],[rp]分別為謂詞“cause”的domain約束、range約束。[t1=(ei,type,soi)],[t3=(ei,type,sp)],[t4=(roi,type,rp)],依據(jù)規(guī)則6可以改寫為[t5=(ei,type,ssoi)],[t6=(ei,type,ssp)],[t7=(roi,type,rsp)]。其中[ssoi],[ssp],[rsp]分別是[soi],[sp],[rp]的子概念。圖4是基于RDF重寫的航空安全事件的因果關(guān)系查詢。
圖4? 基于RDF重寫的航空安全事件因果關(guān)系查詢
Fig. 4? Causality query of aviation security events
based on RDF rewriting
依據(jù)重寫后的一組RDF三元組從航空安全事件RDF圖數(shù)據(jù)集中搜索匹配的結(jié)果。以“航空器機(jī)頭故障”為例,查詢結(jié)果如表1所示。
3.2? 查詢效果與分析
查詢效果與詞向量存在重要的聯(lián)系。在詞向量訓(xùn)練過(guò)程中,對(duì)特征向量的維度size、相似度β值進(jìn)行對(duì)比試驗(yàn)。其中,P為查準(zhǔn)率;R為查全率;F1值的計(jì)算公式為[2×P×RP+R]。實(shí)驗(yàn)結(jié)果如表2所示。
表2所示的實(shí)驗(yàn)結(jié)果表明,當(dāng)size=300,β=0.90時(shí),F(xiàn)1值最高,此時(shí)的查詢效果最好。因此在航空安全事件RDF圖數(shù)據(jù)查詢實(shí)驗(yàn)中,設(shè)置參數(shù)size為300,β為0.90。
為驗(yàn)證重寫技術(shù)的有效性,依據(jù)事件原因和結(jié)果分別進(jìn)行查詢,與基于單純本體擴(kuò)展查詢方法進(jìn)行對(duì)比試驗(yàn),結(jié)果如表3所示?;谥貙懙牟樵兘Y(jié)果優(yōu)于基于單純本體擴(kuò)展查詢的方法。重寫查詢可以將用戶原本單一的查詢語(yǔ)句擴(kuò)展成多個(gè)查詢語(yǔ)句,提高了查詢的查全率和查準(zhǔn)率。
4? 結(jié)? 論
針對(duì)航空安全事件RDF圖數(shù)據(jù)因果關(guān)系查詢中低匹配和無(wú)匹配的問(wèn)題,提出一種基于語(yǔ)義相似度和RDFS規(guī)則的重寫技術(shù),對(duì)航空安全事件因果關(guān)系查詢進(jìn)行優(yōu)化。將該方法應(yīng)用到航空安全事件RDF圖數(shù)據(jù)因果關(guān)系查詢中,通過(guò)實(shí)驗(yàn)證明了該方法在查詢中的優(yōu)勢(shì),平均查準(zhǔn)率提高10%,平均查全率提高16%,可以改善因果關(guān)系查詢中低匹配和無(wú)匹配的問(wèn)題,從而為航空安全事件的預(yù)防和應(yīng)急處理提供有價(jià)值的信息。下一步可以考慮加入用戶的反饋信息和關(guān)鍵詞的權(quán)重,進(jìn)一步改善查詢的效果。
表3? 查詢性能對(duì)比
Table 3? Comparison of query performances
[事件查詢 因果關(guān)系 重寫查詢 本體擴(kuò)展查詢 P R P R 事件結(jié)果查詢 航空器故障 0.89 0.91 0.78 0.69 人為原因 0.80 0.88 0.72 0.77 環(huán)境原因 0.88 0.85 0.76 0.73 事件原因查詢 航空器損壞 0.84 0.95 0.75 0.69 人員傷亡 0.83 0.93 0.73 0.73 地面設(shè)施損壞 0.87 0.85 0.82 0.77 其他 0.85 0.80 0.69 0.65 ]
參考文獻(xiàn)
[1] 王紅,王雪君,楊蓉.基于圖劃分的領(lǐng)域本體RDF存儲(chǔ)方法[J].現(xiàn)代電子技術(shù),2018,41(24):141?145
WANG Hong, WANG Xuejun, YANG Rong. A domain ontology RDF storage method based on graph partitioning [J]. Modern electronics technique, 2018, 41(24): 141?145.
[2] 張曉剛,楊路明,潘久輝.數(shù)據(jù)集成環(huán)境下一種高效一致性聚集查詢[J].計(jì)算機(jī)學(xué)報(bào),2014(9):1936?1946.
ZHANG Xiaogang, YANG Luming, PAN Jiuhui. An efficient consistent aggregate query in data integration environment [J]. Chinese journal of computers, 2014(9): 1936?1946.
[3] BOTOEVA E, CALVANESE D, SANTARELLI V, et al. Beyond OWL 2 QL in OBDA: rewritings and approximations [C]// Proceedings of 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI Press, 2016: 921?928.
[4] KHARLAMOV E, HOVLAND D, JIMENEZRUIZ E, et al. Ontology based access to exploration data at Statoil [C]// Proceedings of? 14th International Semantic Web Conference. Bethlehem: [s.n.], 2015: 93?112.
[5] BAGOSI T, CALVANESE D, HARDI J, et al. The ontop framework for ontology based data access [J]. Communications in computer & information science, 2014, 480(1): 67?77.
[6] 馮高磊,高嵩峰.基于向量空間模型結(jié)合語(yǔ)義的文本相似度算法[J].現(xiàn)代電子技術(shù),2018,41(11):157?161.
FENG Gaolei, GAO Songfen. Text similarity algorithm combining semantics based on vector space model [J]. Modern electronics technique, 2018, 41(11): 157?161.
[7] 何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗(yàn)技術(shù)研究與應(yīng)用[J].飛行器測(cè)控學(xué)報(bào),2015,34(4):389?394.
HE Feng, GU Suolin, CHEN Yanhui. Text proofreading technology based on levenshtein distance similarity [J]. Journal of spacecraft TT & C technology, 2015, 34(4): 389?394.
[8] 李曉,解輝,李立杰.基于Word2vec的句子語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)科學(xué),2017,44(9):256?260.
LI Xiao, XIE Hui, LI Lijie. Research on sentence semantic similarity calculation based on word2vec [J]. Computer science, 2017, 44(9):? 256?260.
[9] 陳曉陽(yáng).基于深度學(xué)習(xí)的短文本語(yǔ)義相似度計(jì)算[D].北京:北京理工大學(xué),2015.
CHEN Xiaoyang. Short text semantic similarity calculation based on deep learning [D]. Beijing: Beijing Institute of Technology, 2015.
[10] 呂小玲,王鑫,馮志勇,等.MPPIE:基于消息傳遞的RDFS并行推理框架[J].計(jì)算機(jī)科學(xué)與探索,2016,10(4):451?465.
L? Xiaoling, WANG Xin, FENG Zhiyong, et al. MPPIE: RDFS parallel inference framework based on message passing [J]. Journal of frontiers of computer science & technology, 2016, 10(4): 451?465.
[11] MOHAMMAD F H, MCGLOTHLIN J P, MASUD M , et al. Heuristics?based query processing for large RDF graphs using cloud computing [J]. IEEE transactions on knowledge & data engineering, 2011, 23(9): 1312?1327.
[12] 王紅,張青青,蔡偉偉,等.基于Neo4j的領(lǐng)域本體存儲(chǔ)方法研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(8):2404?2407.
WANG Hong, ZHANG Qingqing, CAI Weiwei, et al. Research on storage method for domain ontology based on Neo4j [J]. Application research of computers, 2017, 34(8): 2404?2407.
[13] 宮法明,李翛然.基于Neo4j的海量石油領(lǐng)域本體數(shù)據(jù)存儲(chǔ)研究[J].計(jì)算機(jī)科學(xué),2018,45(z1):549?554.
GONG Faming, LI Xiaoran. Research on ontology data storage of massive oil field based on Neo4j [J]. Computer science, 2018, 45(S1): 549?554.