馮鑫 李雪 閆月 李佳培 劉夢(mèng)瑤 吳曄
摘要:[目的/意義]突發(fā)公共衛(wèi)生事件嚴(yán)重危及全球社會(huì)公眾的生命健康。實(shí)現(xiàn)信息資源對(duì)突發(fā)事件的智能存儲(chǔ)、查詢和知識(shí)組織與輸出等,對(duì)應(yīng)急領(lǐng)域科研數(shù)據(jù)集成共享與領(lǐng)域知識(shí)管理具有重要的參考意義。[方法/過程]選取CNKI和WOS為檢索平臺(tái),對(duì)突發(fā)公共衛(wèi)生事件進(jìn)行檢索,爬取有效數(shù)據(jù),利用文獻(xiàn)計(jì)量軟件對(duì)抽取的知識(shí)數(shù)據(jù)進(jìn)行加工、融合,并對(duì)高頻詞匯、文獻(xiàn)作者和機(jī)構(gòu)進(jìn)行聚類可視化分析,將知識(shí)實(shí)體、屬性及關(guān)系存儲(chǔ)于Neo4j圖數(shù)據(jù)庫(kù)中,建立知識(shí)實(shí)體之間的復(fù)雜聯(lián)系,進(jìn)而搭建突發(fā)公共衛(wèi)生事件數(shù)據(jù)平臺(tái)模型。[結(jié)果/結(jié)論]應(yīng)急事件智慧平臺(tái)是一個(gè)以信息資源為基礎(chǔ),對(duì)來(lái)自不同領(lǐng)域的信息進(jìn)行處理,通過內(nèi)部實(shí)體的篩選與融合構(gòu)建的面向大眾的知識(shí)數(shù)據(jù)共享資源平臺(tái),該平臺(tái)可以上下交互實(shí)現(xiàn)信息資源流動(dòng),切實(shí)發(fā)揮信息資源對(duì)應(yīng)急管理工作的作用。
關(guān)鍵詞:突發(fā)公共衛(wèi)生事件? ?應(yīng)急服務(wù)? ?知識(shí)實(shí)體? ?2019新型冠狀病毒
分類號(hào):G203
DOI:10.13266/j.issn.2095-5472.2020.016
引用格式:馮鑫, 李雪, 閆月, 等. 基于知識(shí)實(shí)體的突發(fā)公共衛(wèi)生事件數(shù)據(jù)平臺(tái)構(gòu)建研究[J/OL]. 知識(shí)管理論壇, 2020, 5(3): 175-190[引用日期]. http://www.kmf.ac.cn/p/211/.
1? 引言
突發(fā)公共衛(wèi)生事件,是指突然發(fā)生,造成或者可能造成社會(huì)公眾健康嚴(yán)重?fù)p害的重大傳染病疫情、群體性不明原因疾病、重大食物和職業(yè)中毒以及其他嚴(yán)重影響公眾健康的事件,如當(dāng)前熱點(diǎn)事件——新型冠狀病毒肺炎(以下簡(jiǎn)稱“新冠”)。2020年1月30日晚,世界衛(wèi)生組織(以下簡(jiǎn)稱“世衛(wèi)組織”)總干事譚德賽在日內(nèi)瓦舉行新聞發(fā)布會(huì),聲明新型冠狀病毒感染的肺炎疫情已構(gòu)成國(guó)際關(guān)注的突發(fā)公共衛(wèi)生事件。新冠的爆發(fā)已轟動(dòng)全國(guó)乃至全世界,疫情的肆意蔓延以及進(jìn)一步惡化將造成嚴(yán)重的經(jīng)濟(jì)沖擊和社會(huì)影響,威脅著世界人民的生命健康。
世界衛(wèi)生組織在發(fā)布會(huì)上表示,在習(xí)近平主席親自指揮、親自部署疫情防控的組織下,中方始終堅(jiān)持公開透明原則,及時(shí)發(fā)布信息,快速識(shí)別病毒并分享基因序列,采取果斷有力的措施控制疫情傳播。這些不僅是對(duì)本國(guó)人民生命健康的高度負(fù)責(zé),更是對(duì)全球疾病防控的大力支持。此外,在本次疫情中,中國(guó)采取的大量防控措施遠(yuǎn)遠(yuǎn)超出國(guó)際應(yīng)對(duì)突發(fā)事件的相關(guān)要求,為各國(guó)防疫工作設(shè)立了新標(biāo)桿。就目前來(lái)看,中國(guó)的疫情已得到了有效控制,但是國(guó)際的蔓延是對(duì)各國(guó)家的又一個(gè)挑戰(zhàn)。世衛(wèi)組織每日疫情報(bào)告顯示,截至歐洲中部時(shí)間2020年6月12日10時(shí)(北京時(shí)間16時(shí)),中國(guó)以外新冠確診病例較前一日增加136 565例,達(dá)到7 325 851例;中國(guó)以外死亡病例較前一日增加49 25例,達(dá)到413 649例。全球范圍內(nèi),新冠確診病例較前一日增加136 572例,達(dá)到7 410 510例;死亡病例較前一日增加4 925例,達(dá)到418 294例。面對(duì)突發(fā)公共衛(wèi)生事件的嚴(yán)峻形勢(shì),必須采取預(yù)防為主、防治結(jié)合的舉措,加強(qiáng)聯(lián)防聯(lián)控,制定完善的應(yīng)對(duì)計(jì)劃。習(xí)總書記在改革完善重大疫情防控救治體系中提到,國(guó)家鼓勵(lì)運(yùn)用大數(shù)據(jù)、人工智能、云計(jì)算等數(shù)字技術(shù),在疫情監(jiān)測(cè)分析、病毒溯源、防控救治、資源調(diào)配等方面更好地發(fā)揮其支撐作用[1]。
因此,有必要縝密調(diào)研國(guó)內(nèi)外突發(fā)公共衛(wèi)生事件的研究現(xiàn)狀,抽取復(fù)雜抽象的多維數(shù)據(jù),以實(shí)體、關(guān)系和屬性的方式將專業(yè)知識(shí)實(shí)體關(guān)聯(lián)化和可視化,并基于精準(zhǔn)全面知識(shí)實(shí)體來(lái)構(gòu)建應(yīng)急智慧數(shù)據(jù)平臺(tái)。通過搭建平臺(tái),從低密度的數(shù)據(jù)中提取有價(jià)值的信息進(jìn)行及時(shí)共享和智慧分享,使得相關(guān)信息的獲取變得方便迅速且高效,最終實(shí)現(xiàn)智能搜索和智能推薦幫助多類型用戶快速精準(zhǔn)地收集信息,利用信息資源制定應(yīng)急防控措施,對(duì)于減少突發(fā)公共衛(wèi)生事件造成的損失具有重要現(xiàn)實(shí)意義。
2? 相關(guān)研究
科研學(xué)術(shù)機(jī)構(gòu)可以通過其自身職能和特點(diǎn)支持和響應(yīng)公共衛(wèi)生對(duì)策,做出信息管理和績(jī)效評(píng)估。A. L. Dunlop等通過回顧2001年9月11日至2009年2月1日的文獻(xiàn)和互聯(lián)網(wǎng)報(bào)告,提出了學(xué)術(shù)機(jī)構(gòu)作為社會(huì)災(zāi)害響應(yīng)的一部分,提供的服務(wù)和資源可以減少事件的不良后果、降低其發(fā)生的可能性,從而有助于提高社區(qū)的抗災(zāi)能力[2]。N. A. Vielot等對(duì)于合并公共衛(wèi)生防范和應(yīng)急管理的作用是否可以完善應(yīng)急計(jì)劃和提高響應(yīng)的效率和效力這一問題,在美國(guó)北卡羅來(lái)納州的6個(gè)縣進(jìn)行采訪,討論產(chǎn)生的機(jī)遇和挑戰(zhàn)[3]。J. Hu等研究建立了具有公共衛(wèi)生管理職能的農(nóng)村應(yīng)急管理常設(shè)機(jī)構(gòu),完善了應(yīng)急管理機(jī)制的全過程,加大了對(duì)農(nóng)村公共衛(wèi)生的投資力度,構(gòu)建了具有充足應(yīng)急資源儲(chǔ)備的體系[4]。S. Zhong等基于傳統(tǒng)的云計(jì)算在應(yīng)急服務(wù)中存在延遲等缺陷,提出了構(gòu)建一種基于邊緣計(jì)算模型的緊急救援體系結(jié)構(gòu),并在此基礎(chǔ)上提供一個(gè)資源調(diào)度模型,從而使其具有良好的調(diào)度時(shí)間和較低的成本[5]。
國(guó)內(nèi)學(xué)者也對(duì)公共突發(fā)事件的資源建設(shè)進(jìn)行了深入分析。在突發(fā)事件應(yīng)急情報(bào)資源保障方面,柯丹倩對(duì)國(guó)內(nèi)外突發(fā)事件驅(qū)動(dòng)的應(yīng)急決策情報(bào)現(xiàn)狀進(jìn)行了綜述分析,為后續(xù)研究做出鋪墊[6]。張永領(lǐng)等將情景分析引入到評(píng)價(jià)模型,對(duì)應(yīng)急資源的保障能力進(jìn)行全方位評(píng)價(jià),從而使評(píng)價(jià)結(jié)果更接近實(shí)際需求[7]。在實(shí)現(xiàn)應(yīng)急信息資源共享、完善應(yīng)急管理方面,郭陸生等通過構(gòu)建目錄,為應(yīng)急信息資源提供統(tǒng)一的標(biāo)準(zhǔn)體系,實(shí)現(xiàn)了信息資源與應(yīng)急服務(wù)的銜接,為應(yīng)急信息資源跨部門共享與相互服務(wù)提供了便利[8]。屈騰佼等對(duì)中國(guó)2003-2018年重特大突發(fā)公共衛(wèi)生事件案例和相關(guān)衛(wèi)生應(yīng)急管理文獻(xiàn)進(jìn)行歸納分析,闡述了中國(guó)衛(wèi)生應(yīng)急管理現(xiàn)狀[9]。在應(yīng)急決策和信息融合方面,李品等實(shí)現(xiàn)了智庫(kù)活動(dòng)與情報(bào)研究?jī)?nèi)部的融合,構(gòu)建了支持智庫(kù)活動(dòng)的情報(bào)流程并協(xié)助智庫(kù)產(chǎn)品產(chǎn)生的情報(bào)體系[10]。操玉杰等對(duì)應(yīng)急決策信息需求與大數(shù)據(jù)環(huán)境下可獲得的應(yīng)急信息進(jìn)行對(duì)比,構(gòu)建以應(yīng)急數(shù)據(jù)模型為橋梁、面向應(yīng)急決策的信息融合服務(wù)整體框架;逐層剖析數(shù)據(jù)層、語(yǔ)義層和服務(wù)層應(yīng)急信息融合中的具體問題,提出了相應(yīng)的信息融合實(shí)現(xiàn)路徑。該研究結(jié)論有助于指導(dǎo)突發(fā)事件大數(shù)據(jù)融合系統(tǒng)構(gòu)建,也為面向決策的信息分析提供了實(shí)踐參考依據(jù)[11]。
綜上所述,現(xiàn)有的研究成果充分說明,在信息化時(shí)代應(yīng)急信息資源對(duì)應(yīng)對(duì)突發(fā)公共衛(wèi)生事件有著不可或缺的作用,而目前還沒有相關(guān)學(xué)者對(duì)應(yīng)急資源進(jìn)行知識(shí)實(shí)體的構(gòu)建。因此,本文的研究將從中國(guó)知網(wǎng)(CNKI)和WOS(Web of Science)中提取知識(shí)實(shí)體,基于知識(shí)實(shí)體之間的關(guān)系建立知識(shí)實(shí)體圖,然后在數(shù)據(jù)庫(kù)底層進(jìn)行邏輯推理,把突發(fā)公共衛(wèi)生事件相關(guān)的知識(shí)體系系統(tǒng)化地展示給用戶,通過知識(shí)實(shí)體圖輔助科普領(lǐng)域大數(shù)據(jù)的分析與決策,使應(yīng)急資源的組織更加高效,從而提供更加精準(zhǔn)的服務(wù)。
3? 研究對(duì)象與數(shù)據(jù)來(lái)源
本文對(duì)國(guó)內(nèi)中國(guó)知網(wǎng)和國(guó)外WOS進(jìn)行主題檢索。首先,在中國(guó)知網(wǎng)學(xué)術(shù)期刊總庫(kù)檢索中,采用高級(jí)檢索的方式,選擇的檢索字段為“關(guān)鍵詞”,檢索詞為“突發(fā)公共衛(wèi)生事件”,限定論文為SCI、EI核心期刊,采集時(shí)間段為2010年到2020年,剔除無(wú)關(guān)文獻(xiàn)后得到檢索結(jié)果為416篇。其次,在Web of Science全文數(shù)據(jù)庫(kù)檢索中,選擇Web of Science核心合集,檢索文章的主題為“public health emergencies”,限定文獻(xiàn)類型為Article OR Review,索引為SCI-EXPANDED、SSCI、A&HCI,語(yǔ)種為英語(yǔ),采集時(shí)間段為2010年到2020年,剔除無(wú)關(guān)文獻(xiàn)后得到的檢索結(jié)果為949篇。獲取相關(guān)數(shù)據(jù)后,采用可視化的方法,從文獻(xiàn)數(shù)量、引文數(shù)量、作者和機(jī)構(gòu)對(duì)比等方面分析,通過科學(xué)計(jì)量指標(biāo),對(duì)突發(fā)公共衛(wèi)生事件進(jìn)行量化分析。
4? 知識(shí)實(shí)體的提取
4.1? 知識(shí)實(shí)體提取方法
科研論文中的關(guān)鍵詞表征了一項(xiàng)科研成果的核心研究?jī)?nèi)容,是檢索知識(shí)的重要依據(jù)。本研究利用文獻(xiàn)計(jì)量可視化工具Citespace對(duì)中外文相關(guān)主題數(shù)據(jù)集進(jìn)行計(jì)量統(tǒng)計(jì),析出核心關(guān)鍵詞作為知識(shí)節(jié)點(diǎn)之一,析出核心專家與研究機(jī)構(gòu)作為節(jié)點(diǎn)之一。以關(guān)鍵詞“突發(fā)公共衛(wèi)生事件”為主要對(duì)象,搭建知識(shí)實(shí)體的主要框架;對(duì)文檔內(nèi)容進(jìn)行分析,以自動(dòng)提取的關(guān)鍵詞為對(duì)象,建立關(guān)聯(lián)度強(qiáng)的知識(shí)實(shí)體;進(jìn)行用戶關(guān)聯(lián)分析,挖掘潛在的知識(shí)關(guān)聯(lián),并將普遍關(guān)聯(lián)的知識(shí)實(shí)體應(yīng)用于科普平臺(tái)搭建,對(duì)科普用戶進(jìn)行科普知識(shí)個(gè)性化推薦。以構(gòu)建知識(shí)實(shí)體的應(yīng)急資源平臺(tái)為出發(fā)點(diǎn),從科普知識(shí)實(shí)體抽取,到實(shí)體關(guān)系構(gòu)建,知識(shí)實(shí)體可視化,最終實(shí)現(xiàn)信息共享、智能查詢、智能推薦等功能,提高科普信息的利用率。
本研究利用關(guān)鍵詞共現(xiàn)聚類形成網(wǎng)絡(luò),中文數(shù)據(jù)集聚類如圖1所示,共計(jì)8個(gè)聚類單元,分別為:突發(fā)公共衛(wèi)生事件、學(xué)生保健服務(wù)、傳染病、重大突發(fā)公共衛(wèi)生事件、大數(shù)據(jù)、公共危機(jī)預(yù)警、delphi法、水痘。外文數(shù)據(jù)集聚類如圖2所示,共計(jì)7個(gè)聚類,分別為resilience、ebola、synthetic cannabinoids、radiological、emergency preparedness、quarantine、practice guidelines。
4.2? 機(jī)構(gòu)發(fā)文量分析
統(tǒng)計(jì)各個(gè)機(jī)構(gòu)的發(fā)文量,得到主要研究機(jī)構(gòu)名單。在Citespace中選擇節(jié)點(diǎn)Institution,每個(gè)節(jié)點(diǎn)的時(shí)間切片選擇Top50的點(diǎn)節(jié)點(diǎn)標(biāo)簽分別分析國(guó)內(nèi)與國(guó)外的機(jī)構(gòu)發(fā)文量,得到發(fā)文量統(tǒng)計(jì)表和機(jī)構(gòu)研究合作圖。
表1是2010年到2020年國(guó)內(nèi)突發(fā)公共衛(wèi)生事件機(jī)構(gòu)的發(fā)文量排名前十的統(tǒng)計(jì)表,排名前三的機(jī)構(gòu)分別是武漢大學(xué)信息管理學(xué)院(10篇)、江蘇省疾病預(yù)防控制中心(7篇)、哈爾濱醫(yī)科大學(xué)衛(wèi)生管理學(xué)院社會(huì)醫(yī)學(xué)教研室(5篇),這3所機(jī)構(gòu)的發(fā)文量都超過了5篇。表2研究的是從2010年到2020年期間國(guó)外突發(fā)公共衛(wèi)生事件機(jī)構(gòu)的發(fā)文量排名。從統(tǒng)計(jì)表的年份看出,國(guó)內(nèi)外突發(fā)公共衛(wèi)生事件機(jī)構(gòu)的發(fā)文量大部分處于這10年間的前5年,說明各大機(jī)構(gòu)對(duì)突發(fā)公共衛(wèi)生事件領(lǐng)域涉及時(shí)間都很早。
圖3是國(guó)內(nèi)突發(fā)公共衛(wèi)生事件的機(jī)構(gòu)合作圖,本圖是利用Citespace對(duì)國(guó)內(nèi)的機(jī)構(gòu)合作進(jìn)行可視化分析得到的。根據(jù)節(jié)點(diǎn)半徑大小得出,武漢大學(xué)信息管理學(xué)院是這些機(jī)構(gòu)中發(fā)文量最多的機(jī)構(gòu),其次是江蘇省疾病預(yù)防控制中心,哈爾濱醫(yī)科大學(xué)衛(wèi)生管理學(xué)院社會(huì)醫(yī)學(xué)教研室緊隨其后。但之間的合作卻寥寥無(wú)幾。相比之下武漢大學(xué)信息資源研究中心與排名第一的武漢大學(xué)信息管理學(xué)院的合作更多一些。從這些機(jī)構(gòu)發(fā)文量的分布來(lái)看,發(fā)文機(jī)構(gòu)遍布全國(guó)各地,說明我國(guó)對(duì)突發(fā)公共衛(wèi)生事件的研究機(jī)構(gòu)地理分布比較均勻,可以做到按照本區(qū)域公共衛(wèi)生的特點(diǎn)進(jìn)行區(qū)域研究,但國(guó)內(nèi)尚未形成比較深入和密集的跨區(qū)域跨機(jī)構(gòu)研究局面。
近幾年隨著突發(fā)公共衛(wèi)生事件逐漸被重視,國(guó)外的一些機(jī)構(gòu)也對(duì)此領(lǐng)域研究下足了功夫。表2是國(guó)外研究機(jī)構(gòu)突發(fā)事件發(fā)文量排名前十的統(tǒng)計(jì)表,是基于Web of Science近10年的機(jī)構(gòu)發(fā)文量統(tǒng)計(jì)。其中Ctr Dis Control & Prevent(美國(guó)疾病預(yù)防控制中心)的總發(fā)文量達(dá)到了88篇,WHO(世界衛(wèi)生組織)39篇、Harvard Univ(哈佛大學(xué))34篇、Minist Hlth(沙特阿拉伯衛(wèi)生部)24篇、CDC(疾病預(yù)防控制中心)23篇。
圖4是利用Citespace對(duì)Web of science核心合集中突發(fā)公共衛(wèi)生事件文獻(xiàn)可視化,得到的國(guó)外機(jī)構(gòu)合作的可視化分析圖,線的粗細(xì)表示機(jī)構(gòu)之間的聯(lián)系,節(jié)點(diǎn)的大小表示機(jī)構(gòu)發(fā)文頻次的高低。圖中線條節(jié)點(diǎn)都緊密聯(lián)系在一起,說明國(guó)外的各大機(jī)構(gòu)之間的合作力度較強(qiáng)。
4.3? 作者發(fā)文量分析
在Citespace中選擇Author,時(shí)間切片選擇Top50的點(diǎn),選擇Thresholding為(2,1,20),設(shè)置節(jié)點(diǎn)參數(shù)發(fā)文量為至少3篇。分析2010年-2020年的作者發(fā)文量,設(shè)置年份間隔為1,得到圖5;分析2010年-2020年的作者發(fā)文量,將設(shè)置年份間隔為1,得到圖6。
表3是經(jīng)Citespace統(tǒng)計(jì)分析得出發(fā)文量排名前十的作者統(tǒng)計(jì)表,可以看出吳群紅在這10年的發(fā)文總量達(dá)到10篇,安璐7篇,劉靜5篇,郝艷華5篇。說明這些科研人員在突發(fā)公共衛(wèi)生事件的研究領(lǐng)域做出了較大貢獻(xiàn)。
用Citespace對(duì)作者進(jìn)行可視化分析后得出國(guó)內(nèi)作者合作分析圖(見圖5),其中顏色隨發(fā)表時(shí)間由深變淺。本圖顯示發(fā)表2篇文獻(xiàn)以上的專家名稱,節(jié)點(diǎn)半徑越大,名字字體越大,代表作者發(fā)表的文獻(xiàn)數(shù)量越多。連接線越密集說明作者之間的合作越緊密。在圖中,黃色代表淺色,結(jié)合表3可以得知安璐是2016年開始涉及突發(fā)事件領(lǐng)域,并且發(fā)文成果可觀,對(duì)此領(lǐng)域做出了貢獻(xiàn)。
表4是WOS中2010-2020年期間排名前十的作者統(tǒng)計(jì)。從表中可以看出發(fā)文最多的是FREDERICK M(7篇),其研究方向是預(yù)防醫(yī)學(xué)與衛(wèi)生學(xué)。其次是ELENA SAVOIA(5篇),主要從事預(yù)防醫(yī)學(xué)、公共衛(wèi)生和定量方法研究;DANIEL J BARNETT(5篇)主要專業(yè)是急診醫(yī)學(xué);LAINIE RUTKOW(5篇)主要采用法律、定性和定量的研究方法,對(duì)公共衛(wèi)生法律和政策進(jìn)行研究。
圖6顯示了WOS中作者的分布。如圖所示,節(jié)點(diǎn)越大表示作者發(fā)文量越多,節(jié)點(diǎn)年輪的顏色變化反映了作者活躍的不同時(shí)期。從圖中可以看出,這些作者的聯(lián)系并不緊密,發(fā)文量前三名的作者幾乎沒有合作關(guān)系,都在以獨(dú)自的思維方式去進(jìn)行研究。
4.4? 突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體構(gòu)建
4.4.1? 知識(shí)實(shí)體圖相關(guān)概念
知識(shí)實(shí)體圖,又稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形。用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制并顯示知識(shí)及其相互聯(lián)系。其本質(zhì)就是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò),富含實(shí)體、概念及關(guān)系,是大規(guī)模數(shù)據(jù)知識(shí)表示的方法之一。
知識(shí)實(shí)體可以存儲(chǔ)總結(jié)不斷迭代的知識(shí)、規(guī)則、元數(shù)據(jù)等多類型的數(shù)據(jù)或者融合結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù),可以利用它來(lái)分析關(guān)系復(fù)雜的多維數(shù)據(jù)。知識(shí)實(shí)體圖主要有兩種存儲(chǔ)方式:一種是基于RDF[12]的存儲(chǔ),一種是基于圖數(shù)據(jù)庫(kù)的存儲(chǔ)。RDF以三元組方式來(lái)存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫(kù)一般以屬性圖為基本的表示形式,實(shí)體和關(guān)系可以包含屬性,這樣更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景,它們之間的主要區(qū)別就是RDF中的一個(gè)重要設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布及共享,而圖數(shù)據(jù)庫(kù)則把重點(diǎn)放在了高效的圖查詢和搜索上。圖7和圖8就是基于Neo4j[13]圖數(shù)據(jù)庫(kù)做出的知識(shí)實(shí)體圖。
Neo4j是目前使用率最高的圖數(shù)據(jù)庫(kù),以描述實(shí)體的屬性與實(shí)體間的關(guān)系為主,用圖的形式存儲(chǔ)。它擁有自己的數(shù)據(jù)庫(kù)存儲(chǔ),支持320億的關(guān)系節(jié)點(diǎn)和640億的屬性。Neo4j擁有活躍的社區(qū),查詢效率高,但缺點(diǎn)為分布式存儲(chǔ)實(shí)現(xiàn)代價(jià)高,更新速度慢。Neo4j也是一種非關(guān)系型數(shù)據(jù)庫(kù),它用“節(jié)點(diǎn)”和“關(guān)系”來(lái)存儲(chǔ)數(shù)據(jù)與數(shù)據(jù)間的關(guān)聯(lián),由于不需要固定的schema,可以隨項(xiàng)目發(fā)展擴(kuò)展節(jié)點(diǎn)上的屬性。
本研究以CNKI和WOS提取的數(shù)據(jù)集中的主要關(guān)鍵詞、研究者和機(jī)構(gòu)聚類名稱,作為實(shí)體節(jié)點(diǎn)名稱。全部融合考慮以上知識(shí)節(jié)點(diǎn)后,將突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體分為5部分,即突發(fā)公共衛(wèi)生級(jí)別、防控措施、傳染病、專家和機(jī)構(gòu)。然后定義實(shí)體與實(shí)體、實(shí)體與屬性之間的關(guān)系,用CREATE語(yǔ)句創(chuàng)建節(jié)點(diǎn)、屬性和關(guān)系。最后,我們將所有命名的實(shí)體及實(shí)體關(guān)系導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù),得到圖7突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體圖和圖8新冠在中西醫(yī)研究方面知識(shí)融合實(shí)體圖兩個(gè)重要知識(shí)實(shí)體圖。
4.4.2? 突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體的構(gòu)建
圖7是突發(fā)公共衛(wèi)生事件的知識(shí)實(shí)體圖,由節(jié)點(diǎn)和邊構(gòu)成的,其中圓圈代表一個(gè)節(jié)點(diǎn),即知識(shí)實(shí)體中的實(shí)體,實(shí)體之間的邊代表屬性與節(jié)點(diǎn)的關(guān)系,關(guān)系可以用箭頭來(lái)表示方向,兩端對(duì)應(yīng)開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)。在節(jié)點(diǎn)上加一個(gè)或多個(gè)標(biāo)簽表示實(shí)體的分類,和一個(gè)鍵值對(duì)集合來(lái)表示實(shí)體關(guān)系屬性外的其他屬性,這時(shí)關(guān)系也可以附帶額外屬性。我們一般都是將實(shí)體的property-value(屬性值)表示在圖中,由于屬性和節(jié)點(diǎn)分開儲(chǔ)存,其屬性可以用MARCH命令和WHERE子句來(lái)迅速實(shí)現(xiàn)查詢,部分節(jié)點(diǎn)屬性如表5所示。
突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體圖是根據(jù)圖1和圖2的關(guān)鍵詞聚類分析、圖3和圖5的作者合作分析以及圖4和圖6的機(jī)構(gòu)合作分析來(lái)創(chuàng)建的,它的兩個(gè)一級(jí)知識(shí)實(shí)體分別為“突發(fā)公共衛(wèi)生事件”與“Public health emergencies”,用最大的圈來(lái)展示且設(shè)置為藍(lán)色,中英兩個(gè)一級(jí)實(shí)體的設(shè)定是為后續(xù)知識(shí)實(shí)體在中外文兩方面同時(shí)展開增長(zhǎng)做好準(zhǔn)備工作。根據(jù)上文的關(guān)鍵詞聚類可視化分析,本文把突發(fā)公共衛(wèi)生事件分為五大部分:突發(fā)公共衛(wèi)生事件級(jí)別、防控措施、傳染病、專家和機(jī)構(gòu),將這5個(gè)實(shí)體與“突發(fā)公共衛(wèi)生事件”的實(shí)體的關(guān)系屬性設(shè)為“INCLUDE”,即是“屬于”上一級(jí)的下位類。《國(guó)家突發(fā)公共衛(wèi)生事件應(yīng)急預(yù)案》第1.3條第2項(xiàng)規(guī)定,根據(jù)突發(fā)公共衛(wèi)生事件性質(zhì)、危害程度、涉及范圍,突發(fā)公共衛(wèi)生事件可劃分為特別重大(Ⅰ級(jí))、重大(Ⅱ級(jí))、較大(Ⅲ級(jí))和一般(Ⅳ級(jí))四級(jí)[14],“特別重大”用紅色表示、“重大”用橙色表示、“較大”用黃色表示、“一般”用綠色表示,設(shè)置這4個(gè)實(shí)體節(jié)點(diǎn)與“突發(fā)公共衛(wèi)生事件級(jí)別”實(shí)體節(jié)點(diǎn)的關(guān)系屬性為“SORT(分類)”。在防控措施方面,我國(guó)積極做到了“應(yīng)急管理”“衛(wèi)生應(yīng)急”“疫情防控”和“防治”,這4個(gè)實(shí)體的聚類程度和實(shí)踐意義都比較強(qiáng),用綠色的節(jié)點(diǎn)表示。突發(fā)公共衛(wèi)生事件最嚴(yán)重的事件就是“傳染病”,其中對(duì)人類造成巨大危害的有“新冠”“Sars”“水痘”等。今年爆發(fā)的“新冠”使我國(guó)多個(gè)城市做出了一級(jí)響應(yīng),所以用紅色圈重點(diǎn)標(biāo)識(shí)。根據(jù)上文作者發(fā)文統(tǒng)計(jì)表和機(jī)構(gòu)發(fā)文統(tǒng)計(jì)表,將專家和機(jī)構(gòu)發(fā)文量的前三名放進(jìn)知識(shí)實(shí)體庫(kù)中分別用紫紅色和藍(lán)色表示。
對(duì)于國(guó)外部分的知識(shí)實(shí)體建設(shè),本文主要根據(jù)聚類結(jié)果將“Public health emergencies”事件分為三部分,第一部分為“Emergency”,包括ebola、radiological、novel coronavirus和quarantine等,第二部分和第三部分分別為“Expers”和“Institutions”,根據(jù)國(guó)外作者發(fā)文統(tǒng)計(jì)表將作者FREDERICK M、ELENA SAVOIA和DANIEL J BARNETT等和國(guó)外機(jī)構(gòu)發(fā)文機(jī)構(gòu)加入知識(shí)實(shí)體。
4.4.3? 突發(fā)公共衛(wèi)生事件的節(jié)點(diǎn)屬性
表5是突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體圖部分節(jié)點(diǎn)屬性的展列,屬性是描述節(jié)點(diǎn)或邊的性質(zhì),可以用鍵值對(duì)(key-value)[15]來(lái)表示。Neo4j在創(chuàng)建屬性時(shí)分為兩部分Property-name(屬性名稱)和Property-value(屬性的值)兩部分,同一屬性名可對(duì)應(yīng)多個(gè)屬性值。突發(fā)公共衛(wèi)生事件知識(shí)實(shí)體屬性表(見表5),表頭是由節(jié)點(diǎn)的ID、3個(gè)屬性名稱和其對(duì)應(yīng)的屬性值構(gòu)成的。其中,知識(shí)節(jié)點(diǎn)的ID是在創(chuàng)建節(jié)點(diǎn)時(shí)自動(dòng)形成,且ID是唯一的。屬性表的第一列的元素是每個(gè)節(jié)點(diǎn)的ID,第二、四、六列是指對(duì)每個(gè)節(jié)點(diǎn)設(shè)置的屬性名稱(P1_name、P2_name、P3_name),第三、五、七列分別是其前一列的屬性值(P1_value、P2_value、P3_value)。一般情況下,節(jié)點(diǎn)有多個(gè)屬性時(shí),系統(tǒng)會(huì)自動(dòng)選擇name屬性的屬性值在圖上顯示,如:Person:person{age:20,sex:”woman”,name:”Lisa”},最終在圖中顯示的是“Lisa”。將表5第二列的屬性名稱對(duì)應(yīng)的屬性值顯示在圖7中。除圖中顯示的屬性值,屬性表將所有含有下位類的節(jié)點(diǎn)及部分子節(jié)點(diǎn)的所有屬性都羅列出來(lái)了,如ID為4003的屬性名keyword對(duì)應(yīng)的屬性值是突發(fā)公共衛(wèi)生事件,屬性名search range檢索量對(duì)應(yīng)的屬性值為1278,屬性名from來(lái)源對(duì)應(yīng)屬性值為中國(guó)知網(wǎng)。
4.4.4? 知識(shí)實(shí)體查詢
Neo4j圖數(shù)據(jù)庫(kù)通過Cypher[16]語(yǔ)言實(shí)現(xiàn)對(duì)圖的查詢操作。在圖形數(shù)據(jù)庫(kù)Neo4j中,圖遍歷查詢的速度是一個(gè)獨(dú)立于遍歷數(shù)據(jù)量大小的常數(shù),僅當(dāng)需要訪問某節(jié)點(diǎn)或關(guān)系時(shí),圖形數(shù)據(jù)庫(kù)Neo4j才會(huì)對(duì)其進(jìn)行遍歷并返回節(jié)點(diǎn)。當(dāng)使用Cypher語(yǔ)句MATCH匹配正則表達(dá)式時(shí),Cypher語(yǔ)句是一個(gè)描述性的圖查詢語(yǔ)言,會(huì)自動(dòng)調(diào)用內(nèi)置的遍歷搜索算法遍歷訪問,不需要人為指定遍歷搜索方式,即可遍歷得到整張圖。
圖8是對(duì)圖7使用Cypher查詢語(yǔ)句得到的網(wǎng)絡(luò)圖,是參考《新型冠狀病毒肺炎文獻(xiàn)整理及研究概述》[17]和《基于中醫(yī)經(jīng)典理論探討新型冠狀病毒肺炎的防治》[18],對(duì)新冠展開的中西醫(yī)藥學(xué)的診斷、治療和預(yù)防研究的概括總結(jié)。其查詢語(yǔ)句是:
MATCH和RETURN是Cypher的關(guān)鍵字;Sara是變量用來(lái)保存節(jié)點(diǎn);sara是標(biāo)簽;r1,r2,r3代表節(jié)點(diǎn)之間的關(guān)系;n1,n2,n3是指與上一位節(jié)點(diǎn)關(guān)系為“IN”的所有節(jié)點(diǎn)。當(dāng)實(shí)行第一段語(yǔ)句時(shí),查詢得到一個(gè)名為“新型冠狀病毒”的紅色節(jié)點(diǎn);隨后執(zhí)行到“n1”時(shí),經(jīng)數(shù)據(jù)庫(kù)查詢顯示“中醫(yī)藥學(xué)”和“西醫(yī)藥學(xué)”兩個(gè)節(jié)點(diǎn)(用紫色表示);執(zhí)行到“n2”時(shí),查詢得到“中醫(yī)藥學(xué)”和“西醫(yī)藥學(xué)”兩個(gè)節(jié)點(diǎn)的所有下位類一一診斷、治療和預(yù)防(用藍(lán)色表示節(jié)點(diǎn));執(zhí)行完整個(gè)語(yǔ)句時(shí),才查詢出圖8內(nèi)包含的所有節(jié)點(diǎn),并且只有實(shí)行RETURN返回語(yǔ)句,才會(huì)將這些節(jié)點(diǎn)顯示在圖中(見圖8)。
該知識(shí)實(shí)體是站在中西醫(yī)角度分別從不同方面對(duì)新冠展開研究,歸納總結(jié)出新冠的相關(guān)結(jié)論,不僅促進(jìn)了人們對(duì)新冠的深入了解,而且有利于充分發(fā)揮醫(yī)療系統(tǒng)在診斷治療中的作用,便于更好地制定防控措施及救援方案。因此次疫情的影響范圍廣泛,全球各地的科研人員對(duì)COVID-19的病毒來(lái)源、傳播途徑、疫情預(yù)測(cè)、診斷和治療等各個(gè)方面展開研究,從陳瑩[19]等的可視化研究中可以看出國(guó)內(nèi)外對(duì)新冠的重視,相信在科研人員的努力下能夠早日攻克難關(guān)。
5? 基于知識(shí)實(shí)體的應(yīng)急突發(fā)公共衛(wèi)生事件數(shù)據(jù)平臺(tái)構(gòu)建
如前文所述,知識(shí)實(shí)體圖是對(duì)物理世界的符號(hào)表達(dá),描述現(xiàn)實(shí)事件中存在的一些概念以及它們之間的聯(lián)系[20]。應(yīng)急資源平臺(tái)基于知識(shí)實(shí)體圖而構(gòu)建,采用自底向上的運(yùn)作模式。搭建基于知識(shí)實(shí)體的應(yīng)急資源平臺(tái),以突發(fā)公共衛(wèi)生事件為基礎(chǔ),挖掘當(dāng)前新冠疫情內(nèi)部以及突發(fā)事件之間的多元化關(guān)系,可視化地展現(xiàn)給用戶,可以使得信息的獲取變得方便迅速且高效。用戶通過智能搜索和智能推薦能夠快速精準(zhǔn)地收集信息,更好地利用信息資源做好應(yīng)急防控措施。
如圖9所示,應(yīng)急資源平臺(tái)包含數(shù)據(jù)層、知識(shí)庫(kù)構(gòu)建、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)應(yīng)用層四部分。
第一部分?jǐn)?shù)據(jù)層位于平臺(tái)的最底層,主要包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換及標(biāo)準(zhǔn)化,經(jīng)過數(shù)據(jù)處理后得到的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)作為構(gòu)建知識(shí)實(shí)體庫(kù)的數(shù)據(jù)源。在該層次掌握國(guó)內(nèi)外有關(guān)突發(fā)公共衛(wèi)生事件的研究現(xiàn)狀,進(jìn)行邏輯推理,從大數(shù)據(jù)中分析突發(fā)公共衛(wèi)生事件的規(guī)律,讓事物的發(fā)展變得有跡可循,從而形成搭建知識(shí)平臺(tái)底層的架構(gòu)。
原始數(shù)據(jù)按照數(shù)據(jù)的結(jié)構(gòu)化程度可以劃分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),是存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),主要通過關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。半結(jié)構(gòu)化數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)的一種形式,雖不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括關(guān)于某一類應(yīng)急突發(fā)事件所有格式的辦公文檔、文本、圖片、HTML、各類報(bào)表、圖像和音頻、視頻信息等。
第二部分為知識(shí)實(shí)體構(gòu)建,位于數(shù)據(jù)層的上方,包括知識(shí)抽取、實(shí)體對(duì)齊和知識(shí)設(shè)計(jì),是平臺(tái)的重要組成,有著承上啟下的作用。通常一個(gè)知識(shí)圖譜的構(gòu)成包括實(shí)體集(實(shí)體的個(gè)數(shù))、關(guān)系集(關(guān)系的數(shù)目)以及對(duì)應(yīng)的三元組。本體構(gòu)建模塊中主要是對(duì)突發(fā)公共衛(wèi)生事件概念表達(dá),用抽象的概念表達(dá)真實(shí)的存在,是一個(gè)迭代的過程。借助本體的約束來(lái)規(guī)范實(shí)體、關(guān)系以及實(shí)體屬性之間的聯(lián)系,可以有效解決“信息孤島”的現(xiàn)象,形成本體化的知識(shí)表達(dá)。
本文提取了突發(fā)公共衛(wèi)生事件的實(shí)體和關(guān)系,用實(shí)體、屬性、屬性值這樣的三元組來(lái)表達(dá)事實(shí)。首先搭建出“突發(fā)公共衛(wèi)生事件”和“public health emergencies”兩個(gè)一級(jí)知識(shí)實(shí)體,再根據(jù)中國(guó)知網(wǎng)和WOS文獻(xiàn)中關(guān)鍵詞、作者和機(jī)構(gòu)聚類的數(shù)據(jù),劃分出下一級(jí)的知識(shí)實(shí)體,完成了知識(shí)實(shí)體的構(gòu)建。之后分析突發(fā)公共衛(wèi)生事件的節(jié)點(diǎn)屬性,通過屬性值刻畫出實(shí)體之間的內(nèi)在特性,用關(guān)系來(lái)連接兩個(gè)實(shí)體,深入挖掘內(nèi)部聯(lián)系。
在該過程中,知識(shí)抽取涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。本文從原始的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中,即從國(guó)內(nèi)的中國(guó)知網(wǎng)和國(guó)外的WOS檢索到的關(guān)于突發(fā)公共衛(wèi)生事件的相關(guān)文獻(xiàn)中,提取關(guān)鍵詞、作者和機(jī)構(gòu)等關(guān)鍵知識(shí)實(shí)體,把排名前十的文獻(xiàn)作者和機(jī)構(gòu)進(jìn)行梳理統(tǒng)計(jì),將匯聚的實(shí)體知識(shí)加以規(guī)范,完成本體模塊模型構(gòu)建,利用Citespace可視化軟件進(jìn)行初步知識(shí)展示。獲取到實(shí)體、關(guān)系以及實(shí)體的屬性信息后,接下來(lái)要將這些碎片化的信息進(jìn)行融合,進(jìn)行知識(shí)實(shí)體消歧、共指消解,它的過程有實(shí)體鏈接,適用于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)通過信息抽取提取出來(lái)的數(shù)據(jù);知識(shí)合并,主要對(duì)結(jié)構(gòu)化數(shù)據(jù)(如外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù))進(jìn)行處理。
第三部分為數(shù)據(jù)存儲(chǔ)層,位于知識(shí)實(shí)體庫(kù)的上層,其構(gòu)建基于知識(shí)實(shí)體庫(kù)的實(shí)體數(shù)據(jù)。在知識(shí)實(shí)體有大量數(shù)據(jù)的復(fù)雜的情況下,就會(huì)顯得傳統(tǒng)的關(guān)系數(shù)據(jù)存儲(chǔ)方式有些低效耗時(shí),因此使用圖數(shù)據(jù)庫(kù)在查詢工作中會(huì)明顯提升工作效率,更易于圖查詢和搜索。
在該層次提取新冠的知識(shí)實(shí)體,從中醫(yī)藥學(xué)和西醫(yī)藥學(xué)兩個(gè)方面劃分知識(shí)實(shí)體,歸納新冠的相關(guān)結(jié)論。把最底層的數(shù)據(jù)轉(zhuǎn)化為具有決策價(jià)值的信息,將有價(jià)值的信息沉淀下來(lái)與人的知識(shí)體系融合,形成一個(gè)完整的知識(shí)體系。用圖的形式存儲(chǔ),選擇圖數(shù)據(jù)庫(kù)Neo4j作為描述實(shí)體屬性與實(shí)體之間關(guān)系的存儲(chǔ)介質(zhì)。在Neo4j圖數(shù)據(jù)庫(kù)中建立節(jié)點(diǎn)、關(guān)系、屬性等,形成知識(shí)圖譜,就可以進(jìn)行下一步的查詢了。
將數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上,基于圖的搜索,具有完全事務(wù)管理功能,可以很好地支撐動(dòng)態(tài)數(shù)據(jù)特性的應(yīng)用需求。根據(jù)本體模塊對(duì)應(yīng)的相關(guān)概念建立于實(shí)體數(shù)據(jù)之間的關(guān)系,實(shí)現(xiàn)概念的實(shí)體、關(guān)系、屬性的知識(shí)實(shí)體可視化。
第四部分?jǐn)?shù)據(jù)應(yīng)用層位于平臺(tái)的頂端,是平臺(tái)的最終形式,主要面向?qū)ο笥衅胀ù蟊?、政府工作人員、醫(yī)務(wù)工作者、科研人員、教育教學(xué)者等,是一種基于知識(shí)為用戶提供服務(wù)的智慧搜索引擎,能夠結(jié)合生活實(shí)際,通過一般規(guī)律找到解決問題的方法,實(shí)現(xiàn)從了解問題到明白如何解決問題的轉(zhuǎn)變。智能查詢應(yīng)急防控和智能搜索突發(fā)事件等功能的實(shí)現(xiàn),便于用戶更加精準(zhǔn)有效地得到自己需要的知識(shí),為應(yīng)急救援決策提供切實(shí)可行的應(yīng)對(duì)策略。在大數(shù)據(jù)的支撐下,利用知識(shí)實(shí)體圖實(shí)現(xiàn)搜索結(jié)果的可視化、體系化,使知識(shí)體系構(gòu)成網(wǎng)狀節(jié)點(diǎn),展現(xiàn)更加精準(zhǔn)的信息。應(yīng)急事件大數(shù)據(jù)平臺(tái)不是簡(jiǎn)單的數(shù)據(jù)輸入和輸出,而是一個(gè)以信息資源為基礎(chǔ),對(duì)來(lái)自不同領(lǐng)域的信息進(jìn)行處理,通過內(nèi)部實(shí)體的篩選與融合構(gòu)建的面向大眾的共享資源平臺(tái)。
6? 結(jié)語(yǔ)與思考
應(yīng)急突發(fā)事件下,信息資源的高效利用對(duì)事件的處理影響是巨大的,而資源的不充分利用會(huì)成為有限資源的一種浪費(fèi)。利用大數(shù)據(jù)實(shí)現(xiàn)從簡(jiǎn)單信息服務(wù)到知識(shí)服務(wù)的提升是必然的,所以利用大數(shù)據(jù)技術(shù)挖掘、分析有用的數(shù)據(jù),對(duì)資源進(jìn)行充分有效的利用變得尤為重要。本文以疫情防控和突發(fā)公共衛(wèi)生事件為基礎(chǔ),研究經(jīng)歷了以下階段:①搜集相關(guān)資料,建立基于知識(shí)實(shí)體的突發(fā)衛(wèi)生公共事件平臺(tái)搭建思路;②在中國(guó)知網(wǎng)和WOS數(shù)據(jù)庫(kù),分別以“突發(fā)公共衛(wèi)生事件”“public health emergencies”關(guān)鍵詞進(jìn)行高級(jí)檢索;③通過構(gòu)建知識(shí)實(shí)體,深入主題進(jìn)行闡述,挖掘當(dāng)前新冠疫情內(nèi)部以及突發(fā)事件之間的多元化關(guān)系;④對(duì)基于知識(shí)實(shí)體的應(yīng)急大數(shù)據(jù)的構(gòu)建進(jìn)行細(xì)化,將問題延伸。在此基礎(chǔ)上構(gòu)建應(yīng)急資源平臺(tái),發(fā)揮信息化對(duì)輔助疫情診斷、創(chuàng)新醫(yī)療模式、提升服務(wù)效率等方面的作用,從而做好疫情發(fā)現(xiàn)、防控和應(yīng)急處置工作。
基于知識(shí)圖譜構(gòu)建應(yīng)急資源平臺(tái),在理論層面,將知識(shí)實(shí)體的理論方法應(yīng)用于智庫(kù)的建設(shè),且此知識(shí)實(shí)體是不斷擴(kuò)充和生長(zhǎng)的,不僅豐富智慧數(shù)據(jù)平臺(tái)建設(shè)的知識(shí)實(shí)體方法理論,也有效地解決了數(shù)據(jù)平臺(tái)的生命力和持續(xù)性的問題;在應(yīng)用層面,依靠權(quán)威的文獻(xiàn)數(shù)據(jù)庫(kù)平臺(tái)來(lái)獲取知識(shí)實(shí)體,可以使信息獲取變得方便迅速且高效,且對(duì)于多年來(lái)發(fā)生的一系列公共衛(wèi)生突發(fā)事件進(jìn)行實(shí)體提取,可以在同類型事件下查詢到可借鑒的預(yù)防、治療、應(yīng)對(duì)等方法,為公共衛(wèi)生事件應(yīng)急決策提供了有力支撐。
現(xiàn)階段知識(shí)實(shí)體的構(gòu)建在我國(guó)還處于發(fā)展初期,許多技術(shù)及知識(shí)獲取的算法還有待改善和發(fā)展。然而要特別指出的是,突發(fā)公共衛(wèi)生事件數(shù)據(jù)平臺(tái)的構(gòu)建是一個(gè)復(fù)雜的過程,其中會(huì)涉及到不同的環(huán)境背景、主體、文化以及運(yùn)行機(jī)制等。本文構(gòu)建的基于知識(shí)實(shí)體的應(yīng)急事件大數(shù)據(jù)平臺(tái)僅僅是一個(gè)模型,現(xiàn)有的研究數(shù)量有一定的局限,面對(duì)多變難掌握的環(huán)境因素,相關(guān)結(jié)論需要進(jìn)一步驗(yàn)證與完善,理論與實(shí)踐并重,人文與技術(shù)相融合。在下一步規(guī)劃設(shè)想中,將會(huì)增加更多的數(shù)據(jù)集,構(gòu)建基于知識(shí)實(shí)體的應(yīng)急事件大數(shù)據(jù)平臺(tái),應(yīng)用于不同領(lǐng)域,有效應(yīng)對(duì)不同類型的突發(fā)事件。
參考文獻(xiàn):
[1] 習(xí)近平.全面提高依法防控依法治理能力 健全國(guó)家公共衛(wèi)生應(yīng)急管理體系[J].當(dāng)代廣西, 2020(5): 4-5.
[2] DUNLOP A L, LOGUE K M, BELTRAN G, et al. Role of academic institutions in community disaster response since September 11, 2001[J]. Disaster medicine and public health preparedness, 2011, 5(3): 218-226.
[3] VIELOT N A, HORNEY JENNIFER A. Can merging the roles of public health preparedness and emergency management increase the efficiency and effectiveness of emergency planning and response?[J]. International journal of environmental research and public health, 2014, 11(3): 2911-2921.
[4] HU JIAXIANG, CHEN CHAO, KUAI TINGTING. Improvement of emergency management mechanism of public health crisis in rural China: a review article[J]. Iranian journal of public health, 2018, 47(2): 156-165.
[5] ZHONG S, HE T, LI M, et al. An emergency resource scheduling model based on edge computing[M]// Artificial Intelligence for Communications and Networks. Cham: Springer, 2019.
[6] 柯丹倩.國(guó)內(nèi)外突發(fā)事件驅(qū)動(dòng)的應(yīng)急決策情報(bào)研究現(xiàn)狀及展望[J].現(xiàn)代情報(bào), 2015, 35(8): 12-16.
[7] 張永領(lǐng), 陳璐.基于情景分析的應(yīng)急資源保障能力評(píng)價(jià)模型研究[J].中國(guó)安全科學(xué)學(xué)報(bào), 2014, 24(12): 151-157.
[8] 郭路生, 劉春年, 李瑞楠.面向公眾服務(wù)的應(yīng)急信息資源目錄體系的構(gòu)建研究[J].圖書館學(xué)研究, 2016(7): 41-49, 23.
[9] 屈騰佼, 谷仕艷, 李萌竹, 等.中國(guó)衛(wèi)生應(yīng)急管理發(fā)展現(xiàn)狀及面臨挑戰(zhàn)[J].中國(guó)公共衛(wèi)生管理, 2019(4): 433-435.
[10] 李品, 許林玉, 楊建林.面向智庫(kù)服務(wù)的情報(bào)研究[J].情報(bào)學(xué)報(bào), 2020, 39(2): 135-147.
[11] 操玉杰, 李綱, 毛進(jìn), 等.大數(shù)據(jù)環(huán)境下面向決策全流程的應(yīng)急信息融合研究[J].圖書情報(bào)知識(shí), 2018(5): 95-104.
[12] 項(xiàng)靈輝, 顧進(jìn)廣, 吳鋼.基于圖數(shù)據(jù)庫(kù)的RDF數(shù)據(jù)分布式存儲(chǔ)[J].計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(11): 35-39.
[13] 林啟勝, 王磊, 周喜, 等.基于圖數(shù)據(jù)庫(kù)的文獻(xiàn)檢索方法優(yōu)化與實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī), 2017, 34(10): 63-67.
[14] 畜牧水產(chǎn).國(guó)家突發(fā)公共衛(wèi)生事件應(yīng)急預(yù)案[J.中國(guó)食品衛(wèi)生雜志, 2006, 18(4): 366-373.
[15] 林楓.分布式鍵值對(duì)存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:華南理工大學(xué), 2017.
[16] 張鳳軍.基于Neo4j圖數(shù)據(jù)庫(kù)的社交網(wǎng)絡(luò)數(shù)據(jù)的研究與應(yīng)用[D].長(zhǎng)沙:湖南大學(xué), 2016.
[17] 賈明, 王虹, 宋春利, 等.新型冠狀病毒肺炎文獻(xiàn)整理及研究概述[J].陜西醫(yī)學(xué)雜志, 2020, 49(3): 259-263, 266.
[18] 趙鋼, 曹瑩瑩, 于文慧, 等.基于中醫(yī)經(jīng)典理論探討新型冠狀病毒肺炎的防治[J].江蘇中醫(yī)藥, 2020, 52(4): 38-42.
[19] 陳瑩, 郭怡博, 郭然, 等.基于文獻(xiàn)計(jì)量學(xué)的新型冠狀病毒肺炎(COVID-19)研究可視化分析[J].中國(guó)中藥雜志, 2020, 45(10): 2239-2248.
[20] 劉嶠, 李楊, 段宏, 等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.
作者貢獻(xiàn)說明:
馮? 鑫:數(shù)據(jù)收集與分析,實(shí)驗(yàn)驗(yàn)證;
李? 雪:理論構(gòu)建,論文撰寫;
閆? 月:數(shù)據(jù)收集與分析,實(shí)驗(yàn)驗(yàn)證,論文撰寫;
李佳培:結(jié)論分析,論文指導(dǎo);
劉夢(mèng)瑤:語(yǔ)言潤(rùn)色,論文修改與最終版本修訂;
吳? 曄:結(jié)論分析,論文指導(dǎo)。
Study on Construction of Emergent Public Health Event Data Platform Based on Knowledge Entity
Feng Xin1? ?Li Xue2? ?Yan Yue2? ?Li Jiapei 1? ?Liu Mengyao1? ?Wu Ye3,4
1Management College, Hebei GEO University, Shijiazhuang 050031
2Huaxin College of Hebei Geo University, Shijiazhuang 050031
3Computational Communication Research Center, Beijing Normal University, Zhuhai 519087
4School of Journalism and Communication, Beijing Normal University, Beijing 100875
Abstract: [Purpose/significance] The public health emergencies endanger social public life health around global seriously. The realization of information resources for the intelligent storage, query, and knowledge of emergency organization and output has important reference significance for the integration sharing of scientific research data and knowledge management in emergency field. [Method/process] This paper selected the China Knowledge Network and Web of Science as the retrieval platform. Set health emergencies as the search conditions to crawl valid data, and used literature measurement software to extract knowledge data processing and fusion, and did cluster visualization analysis of the high frequency vocabulary, the author of the literature, and institutions. Then the knowledge entity, attribute and relation were stored in the Neo4j graph database, and the complex relation between knowledge entities was established, finally built the public health emergencies data platform model. [Result/conclusion] Emergency event wisdom platform is a knowledge data sharing resource platform facing the public which is based on the information resources. It can processes the information from different areas, and is built by the screening and fusion of internal entity. The platform can realize information resources flow by upper and lower interaction, to play the role of information resources of emergency management work.
Keywords: public health emergencies? ? emergency service? ? knowledge entity? ? COVID-19