孫鄭煜 鄂海紅 宋美娜
摘 ?要: 為了解決醫(yī)學(xué)知識(shí)圖譜中知識(shí)重復(fù)、知識(shí)質(zhì)量良莠不齊、知識(shí)間關(guān)聯(lián)不夠明確等問題,本文提出了一種大數(shù)據(jù)驅(qū)動(dòng)下的醫(yī)學(xué)知識(shí)圖譜構(gòu)建方法,同時(shí)針對(duì)醫(yī)學(xué)知識(shí)圖譜集成、演進(jìn)、增強(qiáng)方面進(jìn)行圖譜知識(shí)融合和補(bǔ)全操作。然后,簡(jiǎn)單介紹醫(yī)學(xué)知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域的幾個(gè)重要應(yīng)用以及相關(guān)的人工智能技術(shù)的支持。最后,結(jié)合當(dāng)前我國醫(yī)學(xué)知識(shí)圖譜構(gòu)建技術(shù)面臨的重大挑戰(zhàn)和關(guān)鍵問題,對(duì)其發(fā)展前景進(jìn)行了展望。
關(guān)鍵詞: 醫(yī)學(xué)知識(shí)圖譜;知識(shí)融合;知識(shí)補(bǔ)全;大數(shù)據(jù)驅(qū)動(dòng)
中圖分類號(hào): TP391.1 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.003
本文著錄格式:孫鄭煜,鄂海紅,宋美娜,等. 基于大數(shù)據(jù)技術(shù)的醫(yī)學(xué)知識(shí)圖譜構(gòu)建方法[J]. 軟件,2020,41(01):1317
【Abstract】: In order to solve the problems of knowledge duplication, uneven quality of knowledge, and unclear correlation between knowledge, this paper proposes a big-data-driven construction method of medical knowledge graphs,and carry out the knowledge graphs fusion and completion operation in terms of the integration, evolution and enhancement of medical knowledge graphs. Then, this paper briefly introduces several important applications of medical knowledge graphs in medical field and the support of related artificial intelligence technology. Finally, this paper summarized challenges and major problems of medical knowledge graph, and prospected for future development.
【Key words】: Medical knowledge graphs; Knowledge fusion; Knowledge completion; Big data driven
0 ?引言
醫(yī)學(xué)知識(shí)圖譜的構(gòu)建主要是從非結(jié)構(gòu)化的數(shù)據(jù)中人工或自動(dòng)地提取實(shí)體、關(guān)系和屬性。由于醫(yī)學(xué)知識(shí)圖譜的研究成果將有助于推進(jìn)醫(yī)學(xué)數(shù)據(jù)自動(dòng)化和智能化處理,有著廣闊的應(yīng)用前景和社會(huì)價(jià)值,因此完善醫(yī)學(xué)知識(shí)圖譜的構(gòu)建已經(jīng)成為當(dāng)前的一個(gè)研究熱點(diǎn)?,F(xiàn)有的基于深度學(xué)習(xí)的知識(shí)圖譜融合與知識(shí)圖譜補(bǔ)全方法已經(jīng)取得了一定的成果,提升了融合和補(bǔ)全精度,降低了人工成本,加快了數(shù)據(jù)處理效率。但是在知識(shí)圖譜融合和知識(shí)圖譜補(bǔ)全領(lǐng)域中仍存在不少挑戰(zhàn)。
1 ?醫(yī)學(xué)知識(shí)圖譜研究現(xiàn)狀
本文主要針對(duì)面向大數(shù)據(jù)的醫(yī)學(xué)知識(shí)圖譜構(gòu)建的持續(xù)演進(jìn),研究面向大數(shù)據(jù)與人工智能的知識(shí)圖譜構(gòu)建流程,同時(shí)設(shè)想研究基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)融合、知識(shí)補(bǔ)全和動(dòng)態(tài)知識(shí)更新表示問題。
目前基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜融合、補(bǔ)全和動(dòng)態(tài)知識(shí)表示的相關(guān)研究還處于初級(jí)階段,在醫(yī)學(xué)知識(shí)圖譜演進(jìn)方向更未形成對(duì)應(yīng)技術(shù)體系。下面就醫(yī)學(xué)知識(shí)圖譜的研究現(xiàn)狀進(jìn)行詳細(xì)分析。
1.1 ?研究現(xiàn)狀
醫(yī)學(xué)知識(shí)數(shù)據(jù)集包括醫(yī)學(xué)術(shù)語集(本體庫)、醫(yī)學(xué)知識(shí)庫和醫(yī)學(xué)知識(shí)圖譜。
其中目前的醫(yī)學(xué)術(shù)語集(本體庫)為醫(yī)學(xué)知識(shí)庫構(gòu)建、醫(yī)學(xué)知識(shí)圖譜構(gòu)建提供了醫(yī)學(xué)專業(yè)術(shù)語、受限詞匯的分類和概念標(biāo)準(zhǔn)化工作,權(quán)威且涵蓋范圍廣,在數(shù)量和質(zhì)量上都有所保障,被醫(yī)療行業(yè)廣泛認(rèn)可。
在醫(yī)學(xué)知識(shí)庫方面,目前國內(nèi)外的醫(yī)學(xué)知識(shí)庫大多是基于某一??祁I(lǐng)域的,但醫(yī)學(xué)知識(shí)庫是以結(jié)構(gòu)化字段定義的方式存儲(chǔ)醫(yī)學(xué)知識(shí),缺乏豐富的結(jié)構(gòu)信息。而醫(yī)學(xué)知識(shí)圖譜是圖狀具有關(guān)聯(lián)性的知識(shí)集合,實(shí)際上是基于語義網(wǎng)的知識(shí)庫的形象化表示,重在抽取關(guān)系展示知識(shí)間的高關(guān)聯(lián)性和高結(jié)構(gòu)化的特征。由此醫(yī)學(xué)知識(shí)圖譜能夠包含更加豐富的關(guān)系層次和關(guān)系鏈接,顯著提升知識(shí)推理的精度及效果。
總體來說,大規(guī)模、多領(lǐng)域、跨語言的專科醫(yī)學(xué)知識(shí)圖譜構(gòu)建尚處于演進(jìn)發(fā)展、不斷增強(qiáng)階段,若要得到更完善的醫(yī)療知識(shí)圖譜,需要對(duì)不同的醫(yī)療本體庫、知識(shí)庫和圖譜進(jìn)行融合以及將尚未涵蓋的知識(shí)和不斷產(chǎn)生的新知識(shí)融合到已有的知識(shí)圖譜中。醫(yī)療知識(shí)圖譜的構(gòu)建必須是一個(gè)不斷迭代更新的過程。醫(yī)學(xué)知識(shí)圖譜演進(jìn)所需的知識(shí)融合、知識(shí)補(bǔ)全、動(dòng)態(tài)知識(shí)更新表示就變得迫切和亟需。
1.2 ?有效工具
目前知識(shí)圖譜普遍采用了語義網(wǎng)框架中RDF (Resource Description Framework,資源模式框架)模型來表示數(shù)據(jù)[1]。北京大學(xué)計(jì)算機(jī)所數(shù)據(jù)管理實(shí)驗(yàn)室研發(fā)了面向RDF知識(shí)圖譜的開源數(shù)據(jù)庫系統(tǒng)(通常稱為Triple Store)。不同于傳統(tǒng)基于關(guān)系數(shù)據(jù)庫的知識(shí)圖譜數(shù)據(jù)管理方法,gStore是直接開發(fā)面向RDF知識(shí)圖譜數(shù)據(jù)的Native的知識(shí)圖譜數(shù)據(jù)存儲(chǔ)和查詢系統(tǒng)(Native RDF圖數(shù)據(jù)庫系統(tǒng)),考慮RDF知識(shí)圖譜管理的特性,從數(shù)據(jù)庫系統(tǒng)的底層進(jìn)行優(yōu)化[1]。它維持了原始RDF知識(shí)圖譜的圖結(jié)構(gòu),數(shù)據(jù)模型是有標(biāo)簽、有向的多邊圖,每個(gè)頂點(diǎn)對(duì)應(yīng)著一個(gè)主體或客體。它將面向RDF的SPARQL查詢轉(zhuǎn)換為面向RDF圖的子圖匹配查詢,利用其所提出的基于圖結(jié)構(gòu)的索引(VS-tree)來加速查詢的性能[1]。
gStore支持復(fù)雜的SPARQL查詢及有效的增刪改操作,支持W3C定義的SPARQL 1.1標(biāo)準(zhǔn),包括含有Union、OPTIONAL、FILTER和聚集函數(shù)的查詢;支持有效的增刪改操作。同時(shí),gStore支持海量三元組規(guī)模的RDF知識(shí)圖譜的數(shù)據(jù)管理任務(wù),單機(jī)可以支持5Billion(五十億)三元組規(guī)模的RDF知識(shí)圖譜的數(shù)據(jù)管理任務(wù)。分布式版本支持百億邊規(guī)模的分布式可擴(kuò)展的部署模式[2]。由此非常有利于知識(shí)圖譜的優(yōu)化研究。
1.3 ?待解決問題
(1)由于不同醫(yī)療知識(shí)圖譜的知識(shí)來源廣泛,構(gòu)建目的和方式也不同,使得單個(gè)知識(shí)圖譜內(nèi)存在知識(shí)質(zhì)量低下、知識(shí)描述缺失等問題;不同知識(shí)圖譜間又存在知識(shí)大量重復(fù),異構(gòu)性強(qiáng)等問題,給實(shí)體對(duì)齊算法的精度提升帶來了困難。因此需要解決面向知識(shí)融合過程中信息缺失導(dǎo)致的實(shí)體對(duì)齊精度不高的問題。
(2)隨著醫(yī)學(xué)知識(shí)圖譜不斷地發(fā)展,越來越多大規(guī)模的醫(yī)學(xué)知識(shí)圖譜被構(gòu)建出來。且知識(shí)圖譜的規(guī)模不斷增長(zhǎng),知識(shí)對(duì)齊算法的計(jì)算復(fù)雜度會(huì)呈現(xiàn)二次增長(zhǎng),因此,面向大規(guī)模醫(yī)學(xué)知識(shí)圖譜的高效處理問題有著重要的研究意義。
(3)醫(yī)學(xué)知識(shí)圖譜作為一種復(fù)雜的多關(guān)系圖,含有豐富的圖結(jié)構(gòu)信息。而傳統(tǒng)知識(shí)圖譜補(bǔ)全的方法由于只考慮三元組的內(nèi)部信息,而造成補(bǔ)全精度不高的問題。因此,如何更高效的利用圖結(jié)構(gòu)信息是進(jìn)一步擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)方法在知識(shí)圖譜補(bǔ)全應(yīng)用的關(guān)鍵點(diǎn)。
(4)當(dāng)前動(dòng)態(tài)知識(shí)圖譜僅利用節(jié)點(diǎn)本身的結(jié)構(gòu)信息,未能利用動(dòng)態(tài)變化過程中的時(shí)序信息,造成表示精確度不高的問題;未考慮節(jié)點(diǎn)對(duì)相鄰節(jié)點(diǎn)的傳播影響,造成誤差在時(shí)間序列中不斷積累,從而影響最終表示,這是信息變化傳播不充分的問題;同時(shí),在更新知識(shí)圖譜時(shí),每次改變都需要對(duì)全局節(jié)點(diǎn)全部進(jìn)行訓(xùn)練,造成更新代價(jià)大的問題。
2 ?大數(shù)據(jù)驅(qū)動(dòng)下醫(yī)學(xué)知識(shí)圖譜構(gòu)建
通過對(duì)大量的參考文獻(xiàn)進(jìn)行閱讀、分析以及總結(jié),將醫(yī)學(xué)知識(shí)圖譜構(gòu)建的全流程總結(jié)為五個(gè)核心流程:醫(yī)學(xué)數(shù)據(jù)采集、醫(yī)學(xué)知識(shí)抽取、知識(shí)融合、構(gòu)建圖譜、知識(shí)更新。 在醫(yī)學(xué)領(lǐng)域知識(shí)圖譜構(gòu)建過程中存在著與之相對(duì)應(yīng)的大數(shù)據(jù)處理流程,包括數(shù)據(jù)源與數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)更新、以及支撐醫(yī)學(xué)知識(shí)圖譜構(gòu)建全生命周期的數(shù)據(jù)存儲(chǔ)。
下面簡(jiǎn)單歸納概括醫(yī)學(xué)知識(shí)圖譜構(gòu)建過程中使用的大數(shù)據(jù)技術(shù)。醫(yī)學(xué)知識(shí)圖譜的數(shù)據(jù)主要來自網(wǎng)絡(luò),通過爬蟲技術(shù)把信息抓取到HDFS或MySQL中,其他醫(yī)學(xué)數(shù)據(jù)源(如部分標(biāo)準(zhǔn)醫(yī)學(xué)數(shù)據(jù)庫等)通過Sqoop導(dǎo)入HDFS或MySQL中,然后使用MapReduce、Spark等技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,處理后的數(shù)據(jù)導(dǎo)入Hive、Hbase等,最后使用Java、HiveQL、R及Spark等進(jìn)行數(shù)據(jù)分析與展示[3]。詳細(xì)的圖譜構(gòu)建中大數(shù)據(jù)技術(shù)的使用將滲透在后文圖譜構(gòu)建生命周期的各個(gè)環(huán)節(jié)之中。
2.1 ?醫(yī)學(xué)數(shù)據(jù)采集
如今,醫(yī)療信息技術(shù)飛速發(fā)展,醫(yī)學(xué)數(shù)據(jù)數(shù)量急速增加,同時(shí)還有新知識(shí)不斷產(chǎn)生,需要利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)源與數(shù)據(jù)采集。醫(yī)學(xué)數(shù)據(jù)源主要分為三類,包括非結(jié)構(gòu)化的文本數(shù)據(jù),半結(jié)構(gòu)化的表格、網(wǎng)頁以及部分醫(yī)療信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。由于構(gòu)建醫(yī)學(xué)數(shù)據(jù)圖譜所需的數(shù)據(jù)大多來源于網(wǎng)絡(luò),所以需要借助爬蟲來獲取,本文擬采用的方法是基于Scrapy[4]框架實(shí)現(xiàn)爬蟲,獲取網(wǎng)絡(luò)上的醫(yī)學(xué)數(shù)據(jù)信息。此外,除了完成原始數(shù)據(jù)的采集,在數(shù)據(jù)采集過程中還通過一種基于百科類網(wǎng)站爬蟲的同義實(shí)體擴(kuò)充方法,構(gòu)建一個(gè)準(zhǔn)確且豐富的醫(yī)學(xué)同義詞庫,以輔助實(shí)現(xiàn)知識(shí)融合中的實(shí)體鏈接[5]。
醫(yī)學(xué)數(shù)據(jù)信息種類繁多,存儲(chǔ)方式不一,因此采集來的醫(yī)學(xué)數(shù)據(jù)信息有可能存在知識(shí)錯(cuò)誤或者知識(shí)描述缺失等問題,尤其是對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),這些來源于網(wǎng)絡(luò)的純文本數(shù)據(jù)通常需要使用自然語言處理(Natural Language Processing,NLP)技術(shù)進(jìn)行預(yù)先處理。為了解決醫(yī)學(xué)數(shù)據(jù)中可能出現(xiàn)的問題,需要用到ETL技術(shù)(數(shù)據(jù)抽取、轉(zhuǎn)換、加載),而Hive作為一個(gè)可靠的ETL工具,在高效性、擴(kuò)展性、容錯(cuò)性等方面的表現(xiàn)特別突出,進(jìn)行數(shù)據(jù)預(yù)處理將原始數(shù)據(jù)轉(zhuǎn)換為適合對(duì)其進(jìn)行分析的數(shù)據(jù)模式對(duì)于保證數(shù)據(jù)質(zhì)量起到了非常關(guān)鍵的作用[6],這個(gè)步驟是是基于Hive完成的,是從數(shù)據(jù)采集向信息抽取的過渡流程。
Hive是基于Hadoop的數(shù)據(jù)倉庫工具,通過Hive可以使用傳統(tǒng)的RDBMS的SQL語法來實(shí)現(xiàn)就HDFS的數(shù)據(jù)的ETL和數(shù)據(jù)模型的構(gòu)建。并且Hive也支持Spark的計(jì)算引擎接口和分析展示的R包接口(RHive)來獲取Hive構(gòu)建好的模型表及邏輯。
2.2 ?醫(yī)學(xué)知識(shí)抽取
醫(yī)學(xué)知識(shí)抽取通過人工或自動(dòng)化技術(shù)從半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取出可用的知識(shí)單元,這對(duì)應(yīng)著大數(shù)據(jù)技術(shù)中的數(shù)據(jù)處理,實(shí)際上就是基于Spark完成醫(yī)學(xué)數(shù)據(jù)非(半)結(jié)構(gòu)化向結(jié)構(gòu)化的轉(zhuǎn)化。
原始數(shù)據(jù)采集完成進(jìn)入HDFS后可能存在諸多問題,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[6],可以基于Spark調(diào)用機(jī)器學(xué)習(xí)模型完成實(shí)體、關(guān)系、屬性的抽取完成醫(yī)學(xué)數(shù)據(jù)非(半)結(jié)構(gòu)化向結(jié)構(gòu)化的轉(zhuǎn)化。Spark是在進(jìn)行大規(guī)模數(shù)據(jù)處理時(shí)的高效引擎,Spark數(shù)據(jù)計(jì)算在內(nèi)存中完成,有效地解決了實(shí)時(shí)性問題[7]。同時(shí),Spark可以很好地和不同的數(shù)據(jù)源進(jìn)行整合,比如HDFS、HBase、Cassandra、S3等,充分利用Spark計(jì)算引擎的特性[7]。
非(半)結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化的本質(zhì)其實(shí)就是通過自然語言處理技術(shù),從網(wǎng)絡(luò)數(shù)據(jù)中大量的純文本內(nèi)容完成實(shí)體抽取、關(guān)系抽取和屬性抽取。
(1)實(shí)體抽取從文本數(shù)據(jù)集中識(shí)別提取出命名實(shí)體,如醫(yī)學(xué)文本中的疾病名、藥物名、癥狀名等。
(2)關(guān)系抽取提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,例如醫(yī)學(xué)中的疾病臨床表現(xiàn)、疾病多發(fā)人群等,通過這些關(guān)系將一系列離散的醫(yī)學(xué)實(shí)體聯(lián)系起來形成網(wǎng)狀的知識(shí)結(jié)構(gòu),從而解決醫(yī)學(xué)實(shí)體間語義鏈接的問題。
(3)屬性抽取則是從多種數(shù)據(jù)源中采集醫(yī)學(xué)實(shí)體的屬性信息來構(gòu)造醫(yī)學(xué)實(shí)體的屬性列表,實(shí)現(xiàn)對(duì)醫(yī)學(xué)實(shí)體的完整勾畫。例如藥品的屬性包括適應(yīng)癥、不良反應(yīng)、禁忌和慎用等。
基于Hive完成數(shù)據(jù)處理和基于Spark完成醫(yī)學(xué)數(shù)據(jù)非(半)結(jié)構(gòu)化向結(jié)構(gòu)化的轉(zhuǎn)化就可以得到較為完備的醫(yī)學(xué)數(shù)據(jù)。
2.3 ?知識(shí)融合
由于醫(yī)學(xué)數(shù)據(jù)庫中的知識(shí)來源復(fù)雜,存在知識(shí)質(zhì)量良莠不齊、不同數(shù)據(jù)源知識(shí)重復(fù)、知識(shí)間關(guān)聯(lián)關(guān)系模糊等問題。知識(shí)融合就是完成對(duì)不同來源的知識(shí)在同一框架規(guī)范下進(jìn)行數(shù)據(jù)整合、消歧、加工、推理驗(yàn)證、更新等操作,對(duì)數(shù)據(jù)進(jìn)行剔粗取精,增強(qiáng)知識(shí)庫內(nèi)部的邏輯性和表達(dá)能力。知識(shí)融合的三個(gè)關(guān)鍵部分是實(shí)體對(duì)齊、實(shí)體鏈接和關(guān)系推演。
(1)實(shí)體對(duì)齊用于消除異構(gòu)數(shù)據(jù)中的實(shí)體沖突、指向不明等不一致問題,醫(yī)學(xué)實(shí)體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問題[8],例如西藥頭孢哌酮鈉,通用名稱為頭孢哌酮鈉,商品名稱可以為先抗、先鋒必素、頭孢氧哌唑、先鋒必、先鋒哌酮、氧哌羥苯唑、頭孢菌素鈉、先鋒哌唑酮、先鋒松等,因此實(shí)體對(duì)齊是醫(yī)學(xué)知識(shí)融合中非常重要的一步。
(2)實(shí)體鏈接的主要作用是利用醫(yī)學(xué)知識(shí)庫中的實(shí)體對(duì)從醫(yī)療大數(shù)據(jù)的文本中獲取的實(shí)體指代進(jìn)行消歧,然后將對(duì)應(yīng)的醫(yī)學(xué)實(shí)體鏈接到醫(yī)學(xué)知識(shí)庫中的對(duì)應(yīng)實(shí)體。
(3)關(guān)系推演的主要目標(biāo)是將從醫(yī)學(xué)大數(shù)據(jù)文本中獲取的實(shí)體關(guān)系動(dòng)態(tài)擴(kuò)展到知識(shí)庫中,有助于提高醫(yī)學(xué)知識(shí)庫的時(shí)新性、覆蓋能力等,實(shí)現(xiàn)關(guān)系的擴(kuò)充。
根據(jù)是否使用標(biāo)記數(shù)據(jù),知識(shí)融合方法可以分為有監(jiān)督方法和無監(jiān)督方法[9]。有監(jiān)督方法是從標(biāo)記數(shù)據(jù)中學(xué)習(xí)模型以進(jìn)行實(shí)體對(duì)齊,主要分為基于屬性比較的方法、基于聚類的方法和主動(dòng)學(xué)習(xí)方法。無監(jiān)督方法僅依靠少量種子集或不依靠種子集就可完成模型的學(xué)習(xí),主要分為傳統(tǒng)的無監(jiān)督方法和知識(shí)嵌入方法。
針對(duì)上文提出的醫(yī)學(xué)知識(shí)圖譜構(gòu)建過程中待解決的有關(guān)知識(shí)融合的科學(xué)問題,本文提出了相應(yīng)的解決方向設(shè)想。擬采用基于高效圖神經(jīng)網(wǎng)絡(luò)的知識(shí)融合模型來解決知識(shí)融合過程中信息缺失導(dǎo)致的實(shí)體對(duì)齊精度不高的問題和大規(guī)模醫(yī)學(xué)知識(shí)圖譜的高效處理問題。
2.4 ?圖譜構(gòu)建
圖譜構(gòu)建就是基于之前得到的關(guān)系型數(shù)據(jù)庫模式轉(zhuǎn)換成圖數(shù)據(jù)庫模式。下圖是一個(gè)簡(jiǎn)單的關(guān)于糖尿病所構(gòu)建的醫(yī)學(xué)知識(shí)圖譜,圖中簡(jiǎn)單表示出了實(shí)體以及實(shí)體與實(shí)體之間的關(guān)系,如糖尿病臨床表現(xiàn)為多飲、多食、多尿、疲乏無力等,糖尿病多發(fā)于老年人群體。
2.5 ?知識(shí)存儲(chǔ)更新與補(bǔ)全
數(shù)據(jù)存儲(chǔ)與更新支撐著醫(yī)學(xué)知識(shí)圖譜構(gòu)建的整個(gè)生命周期,在數(shù)據(jù)的更新過程中可以將數(shù)據(jù)劃分為四個(gè)等級(jí)。其中,采集來的原始醫(yī)學(xué)數(shù)據(jù)是一級(jí)數(shù)據(jù),經(jīng)過Hive處理過的三元組數(shù)據(jù)是二級(jí)數(shù)據(jù),Hive作為一個(gè)數(shù)據(jù)倉庫的客戶端工具,本身是不保存數(shù)據(jù)的,它所操作的表數(shù)據(jù)都存放在HDFS中[10]。構(gòu)建出的醫(yī)學(xué)圖譜的實(shí)體、關(guān)系、靜態(tài)屬性以及動(dòng)態(tài)屬性是三級(jí)數(shù)據(jù),圖譜更新后的更新類型及三元組數(shù)據(jù)是四級(jí)數(shù)據(jù)[5],其變遷流程以及存儲(chǔ)位置如下圖所示。
知識(shí)圖譜補(bǔ)全是通過預(yù)測(cè)出三元組中缺失的部分,從而使知識(shí)圖譜變得更加完整。知識(shí)圖譜補(bǔ)全可以分為實(shí)體預(yù)測(cè)以及關(guān)系預(yù)測(cè)任務(wù)。靜態(tài)知識(shí)圖譜補(bǔ)全是補(bǔ)全已知實(shí)體之間的隱含關(guān)系或補(bǔ)全存在于知識(shí)圖譜中的實(shí)體屬性。動(dòng)態(tài)知識(shí)圖譜補(bǔ)全是能夠建立知識(shí)圖譜與外界的關(guān)聯(lián),從而擴(kuò)大知識(shí)圖譜的實(shí)體集、關(guān)系集以及三元組集。利用靜態(tài)知識(shí)圖譜補(bǔ)全可以對(duì)知識(shí)圖譜中的實(shí)體屬性和關(guān)系進(jìn)行補(bǔ)全;現(xiàn)有的動(dòng)態(tài)知識(shí)圖譜補(bǔ)全能對(duì)新增實(shí)體的知識(shí)圖譜中的數(shù)據(jù)進(jìn)行更新。
針對(duì)上文提出的醫(yī)學(xué)知識(shí)圖譜構(gòu)建過程中待解決的有關(guān)醫(yī)學(xué)知識(shí)圖譜補(bǔ)全的科學(xué)問題,本文提出了相應(yīng)的解決方向設(shè)想。采用結(jié)合對(duì)抗學(xué)習(xí)和注意力機(jī)制的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)知識(shí)補(bǔ)全模型來解決知識(shí)圖譜補(bǔ)全精度不高和結(jié)構(gòu)信息利用不合理問題,采用基于共享權(quán)重機(jī)制多關(guān)系圖神經(jīng)網(wǎng)絡(luò)知識(shí)圖譜補(bǔ)全模型來解決動(dòng)態(tài)知識(shí)圖譜表示不精確、信息變化傳播不充分和更新代價(jià)大的問題。
3 ?醫(yī)學(xué)知識(shí)圖譜的應(yīng)用
知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域的應(yīng)用有助于提高醫(yī)療智能化的水平,目前醫(yī)學(xué)知識(shí)圖譜主要應(yīng)用于臨床決策支持系統(tǒng)、醫(yī)療智能語義搜索引擎、醫(yī)療問答系統(tǒng)[11]、醫(yī)學(xué)知識(shí)科普等方面。
3.1 ?醫(yī)學(xué)知識(shí)推理
人工智能技術(shù)的發(fā)展和應(yīng)用,提高了醫(yī)學(xué)知識(shí)圖譜的構(gòu)建效率和知識(shí)推理的準(zhǔn)確率。醫(yī)學(xué)知識(shí)圖譜必須處理大量重復(fù)矛盾的醫(yī)學(xué)信息,例如即使對(duì)于相同的疾病,醫(yī)生也要根據(jù)患者病情狀況作出不同的診斷[12],給出不同的解決方案,人工智能擁有從海量數(shù)據(jù)中挖掘有用信息的天然優(yōu)勢(shì),知識(shí)推理注重知識(shí)與方法的選擇和運(yùn)用,能夠推斷出缺失事實(shí)完成對(duì)問題的求解[8]。
3.2 ?應(yīng)用分析
利用醫(yī)學(xué)知識(shí)圖譜可以輔助醫(yī)療行業(yè)進(jìn)行大數(shù)據(jù)分析與決策,根據(jù)患者癥狀以及檢查結(jié)果等數(shù)據(jù)自動(dòng)生成診斷和治療方案,供醫(yī)學(xué)專業(yè)人員參考,同時(shí)還可以對(duì)醫(yī)生的診療方案進(jìn)行智能化分析,有效減少誤診情況的發(fā)生[11]。
同時(shí),從醫(yī)學(xué)知識(shí)圖譜中檢索并查詢相關(guān)的實(shí)體對(duì)、實(shí)體關(guān)系及屬性進(jìn)行擴(kuò)展查詢[11],從而改善醫(yī)療信息搜索和查詢結(jié)果的準(zhǔn)確性,可以實(shí)現(xiàn)以自然語言形式為用戶提供準(zhǔn)確的問題的解答,輔助患者在就診前得到相關(guān)的醫(yī)學(xué)知識(shí)科普,幫助患者找到合適的醫(yī)生,同時(shí)還可以一定程度上避免由于醫(yī)學(xué)知識(shí)專業(yè)性強(qiáng)、醫(yī)患信息溝通困難而導(dǎo)致的醫(yī)患關(guān)系緊張,可有效改善患者就醫(yī)體驗(yàn), 提高后續(xù)醫(yī)療服務(wù)的精準(zhǔn)度和效率與患者就診滿意度[13]。
4 ?展望
知識(shí)圖譜具有強(qiáng)大的語義處理和開放獲取能力,是對(duì)語義網(wǎng)和知識(shí)庫的改造和升華。醫(yī)學(xué)知識(shí)圖譜將醫(yī)學(xué)知識(shí)與知識(shí)圖譜結(jié)合起來,推動(dòng)醫(yī)學(xué)數(shù)據(jù)的智能化和自動(dòng)化處理[14],定會(huì)為醫(yī)療行業(yè)的發(fā)展帶來新的契機(jī)。
知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域的應(yīng)用為醫(yī)療行業(yè)帶來了新的機(jī)遇,同時(shí)也帶帶來了一系列挑戰(zhàn)。目前,醫(yī)學(xué)知識(shí)圖譜構(gòu)建的關(guān)鍵關(guān)節(jié)還面臨著一些巨大的困難和挑戰(zhàn)。例如,目前的應(yīng)用于醫(yī)學(xué)文本抽取的算法普遍存在著準(zhǔn)確性低、限制條件多、擴(kuò)展性差等問題,醫(yī)學(xué)知識(shí)來源的多樣性導(dǎo)致醫(yī)學(xué)實(shí)體在不同的數(shù)據(jù)源中存在嚴(yán)重的多源指代問題,動(dòng)態(tài)醫(yī)學(xué)知識(shí)圖譜表示不準(zhǔn)確、信息變化傳播不充分和更新代價(jià)大的問題,如何利用醫(yī)學(xué)知識(shí)圖譜可視化為醫(yī)生尋求最佳的診療展示方案使病人理解展示結(jié)果也是一個(gè)挑戰(zhàn)。
醫(yī)學(xué)知識(shí)圖譜是大數(shù)據(jù)、人工智能與醫(yī)學(xué)的結(jié)合,在未來必將成為醫(yī)療行業(yè)與大數(shù)據(jù)智能研究的熱點(diǎn)和前沿問題。
參考文獻(xiàn)
[1] gStore團(tuán)隊(duì). gStore系統(tǒng)使用手冊(cè)[OL]. (2019-07-29) [2019-10-11]. http://gstore-pku. com/pcsite/index.html.
[2] 北京大學(xué)王選計(jì)算機(jī)研究所. gStore是什么?[OL]. (2019- 06-06) [2019-10-11]. http://gstore-pku.com/pcsite/index.html.
[3] 張魁, 張粵磊, 劉未昕, 吳茂貴. 自己動(dòng)手做大數(shù)據(jù)系統(tǒng)[M]. 北京: 電子工業(yè)出版社, 2016: 22.
[4] Guogang Zhang. Python Network Source Automatic Evaluation System[A]. Proceedings of 2016 4th International Conference on Electrical & Electronics Engineering and Computer Science (ICEEECS 2016)[C]. (Computer Science and Electronic Technology International Society), 2016: 5.
[5] 王寧. 基于Web的領(lǐng)域知識(shí)圖譜構(gòu)建平臺(tái)的研究與實(shí)現(xiàn)[D]. 北京: 北京郵電大學(xué), 2019: 36-42.
[6] 張魁, 張粵磊, 劉未昕, 吳茂貴. 自己動(dòng)手做大數(shù)據(jù)系統(tǒng)[M]. 北京: 電子工業(yè)出版社, 2016: 152-154.
[7] 張魁, 張粵磊, 劉未昕, 吳茂貴. 自己動(dòng)手做大數(shù)據(jù)系統(tǒng)[M]. 北京: 電子工業(yè)出版社, 2016: 281-282.
[8] 賈辛洪. 醫(yī)學(xué)知識(shí)圖譜構(gòu)建技術(shù)與研究進(jìn)度[OL]. (2019- 08-21)[2019-10-11]. http://blog.csdn.net/jiaxinhong/article/details/ 81865768.
[9] Guan S, Jin X, Jia Y, et al. Self-learning and embedding based entity alignment[C]//2017 IEEE International Conference on Big Knowledge (ICBK). IEEE, 2017: 33-40.
[10] 張魁, 張粵磊, 劉未昕, 吳茂貴. 自己動(dòng)手做大數(shù)據(jù)系統(tǒng)[M]. 北京: 電子工業(yè)出版社, 2016: 217.
[11] 侯夢(mèng)薇, 衛(wèi)榮, 陸亮, 蘭欣, 蔡宏偉. 知識(shí)圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J]. 計(jì)算機(jī)研究與發(fā)展, 2018, 55(12): 2587-2599.
[12] 袁凱琦, 鄧揚(yáng), 陳道源, 張冰, 雷凱. 醫(yī)學(xué)知識(shí)圖譜構(gòu)建技術(shù)與研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(07): 1929-1936.
[13] 修曉蕾, 吳思竹, 崔佳偉, 鄔金鳴, 錢慶. 醫(yī)學(xué)知識(shí)圖譜構(gòu)建研究進(jìn)展[J]. 中華醫(yī)學(xué)圖書情報(bào)雜志, 2018, 27(10): 33-39.
[14] 劉雷. 臨床診斷決策需要知識(shí)圖譜的“供養(yǎng)”[J]. 張江科技評(píng)論, 2019(04): 34-36.
[15] 吳運(yùn)兵, 陰愛英, 林開標(biāo), 余小燕, 賴國華. 基于多數(shù)據(jù)源的知識(shí)圖譜構(gòu)建方法研究[J]. 福州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 45(03): 329-335.
[16] 楊林朋, 董一超, 趙祖桉, 崔雪寧, 劉新奎. 我國醫(yī)學(xué)信息學(xué)領(lǐng)域的研究現(xiàn)狀及其可視化分析[J]. 中國衛(wèi)生產(chǎn)業(yè), 2019, 16(22): 160-164.
[17] 李紅艷, 皇甫慧慧. 基于知識(shí)圖譜的全科醫(yī)生研究可視化分析與展望[J]. 中國全科醫(yī)學(xué), 2019, 22(27): 3387-3394.
[18] 郁小玲, 張鐵山, 吳彤, 等. 基于兩位一體的中文電子病歷命名實(shí)體識(shí)別[J]. 中國衛(wèi)生信息管理雜志, 2017, 14(4): 552-556.
[19] 康準(zhǔn), 王德軍. 基于知識(shí)圖譜的生物學(xué)科知識(shí)問答系統(tǒng)[J]. 軟件, 2018, 39(02): 7-11.
[20] 王雪鵬, 劉康, 何世柱, et al. 基于網(wǎng)絡(luò)語義標(biāo)簽的多源知識(shí)庫實(shí)體對(duì)齊算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2017(03): 169-179.
[21] 林海倫, 王元卓, 賈巖濤, 張鵬, 王偉平. 面向網(wǎng)絡(luò)大數(shù)據(jù)的知識(shí)融合方法綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(01): 1-27.
[22] 擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索[J]. 王秋月, 覃雄派, 曹巍, 覃飆. 計(jì)算機(jī)應(yīng)用. 2016(04)
[23] 朱國丞. 基于大數(shù)據(jù)平臺(tái)的知識(shí)圖譜存儲(chǔ)訪問系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 東南大學(xué), 2018.
[24] 張龍斌. 面向成果轉(zhuǎn)化的知識(shí)圖譜研究及應(yīng)用[D]. 杭州電子科技大學(xué), 2018.
[25] 李涓子, 侯磊. 知識(shí)圖譜研究綜述[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 40(03): 454-459.
[26] 方陽, 趙翔, 譚真, 楊世宇, 肖衛(wèi)東. 一種改進(jìn)的基于翻譯的知識(shí)圖譜表示方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2018, 55(01): 139-150.
[27] 聶莉莉, 李傳富, 許曉倩, 朱川川, 徐志鵬, 武紅利. 人工智能在醫(yī)學(xué)診斷知識(shí)圖譜構(gòu)建中的應(yīng)用研究[J]. 醫(yī)學(xué)信息學(xué)雜志, 2018, 5(6): 7-12.
[28] 阮彤, 孫程琳, 王昊奮, 方之家, 殷亦超. 中醫(yī)藥知識(shí)圖譜構(gòu)建與應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志, 2016, 37(4): 8-13.