嚴(yán) 越 鄭 靜 林德南 呂 果 倪士光 袁克虹
(清華大學(xué)深圳國際研究生院深圳 518055) (深圳市醫(yī)學(xué)信息中心深圳 518000) (清華大學(xué)深圳國際研究生院深圳 518055)
腦卒中是常見腦血管疾病,俗稱“中風(fēng)”,由腦部血管突然破裂或血管阻塞引起,對(duì)應(yīng)國際疾病分類ICD-10標(biāo)準(zhǔn)編碼號(hào)為I64.X04。從全球范圍看,我國卒中終生風(fēng)險(xiǎn)及卒中引發(fā)疾病負(fù)擔(dān)位居世界第1,風(fēng)險(xiǎn)高達(dá)39.3%[1]。從國內(nèi)角度看,腦卒中是我國成年人致死、致殘首位病因,具有發(fā)病率高、致殘率高、死亡率高、復(fù)發(fā)率高、經(jīng)濟(jì)負(fù)擔(dān)高的特點(diǎn),伴發(fā)病年輕化、普遍化等不良趨勢(shì)[2]。病患確診腦卒中后,通常只能控制難以根治。因此需要充分發(fā)揮基層醫(yī)護(hù)人員作用,做好評(píng)估篩查,有效規(guī)避卒中風(fēng)險(xiǎn),做到“早預(yù)防,早治療”[3]。但是腦卒中危險(xiǎn)因素預(yù)測(cè)與及時(shí)監(jiān)控困難,基層醫(yī)護(hù)人員對(duì)此缺乏工具。針對(duì)腦卒中高危人群的篩查常用ABCD2,美國國立衛(wèi)生研究院卒中量表(National Institute of Health Stroke Scale,NIHSS),Rankin, Barthel量表等[4],但復(fù)雜、耗時(shí)耗力;FAST等評(píng)價(jià)方法[5]較簡單但難以滿足需求。目前尚缺乏對(duì)我國或亞洲人種族危險(xiǎn)因素綜合排序研究,也未定量考慮危險(xiǎn)因素間的耦合關(guān)系。
2.1.1 總體思路 首先對(duì)相關(guān)實(shí)體和關(guān)系進(jìn)行定義,綜合數(shù)據(jù)源給出第1層(頂層)實(shí)體節(jié)點(diǎn);其次在領(lǐng)域知識(shí)幫助下歸納抽取頂層實(shí)體之間關(guān)系;再次對(duì)每個(gè)實(shí)體向下抽取節(jié)點(diǎn),用共詞分析法[6]、半監(jiān)督機(jī)器學(xué)習(xí)方法[7]進(jìn)行文本挖掘以確定節(jié)點(diǎn),直到能夠獲取實(shí)體屬性為止[8]。腦卒中防治醫(yī)學(xué)節(jié)點(diǎn)(Prevention Entity, PE)指腦卒中疾病在防治方面可唯一標(biāo)識(shí)的醫(yī)學(xué)實(shí)體或?qū)傩裕ǔ3霈F(xiàn)在文本數(shù)據(jù)、電子病歷、調(diào)研結(jié)果表單等各種渠道中。實(shí)體節(jié)點(diǎn)的父節(jié)點(diǎn)必須為實(shí)體或主題節(jié)點(diǎn),子節(jié)點(diǎn)可為實(shí)體或?qū)傩浴DX卒中防治醫(yī)學(xué)關(guān)系(Prevention Relationship, PR)表示不同腦卒中防治醫(yī)學(xué)實(shí)體或?qū)傩蚤g發(fā)生的事實(shí)關(guān)系,可表示為PR(PEi,PEj)或PR(PEi,PAi),其中PEi,PEj為腦卒中防治醫(yī)學(xué)實(shí)體,PAi為腦卒中防治醫(yī)學(xué)屬性。
2.1.2 概念層構(gòu)建 首先定義頂層主題詞、整合并篩選高頻主題,總結(jié)出6方面主題詞并將其作為腦卒中防治知識(shí)圖譜概念層的頂層實(shí)體節(jié)點(diǎn),分別為患者實(shí)體、危險(xiǎn)因素實(shí)體、篩查手段實(shí)體、健康指導(dǎo)實(shí)體、癥狀表現(xiàn)實(shí)體與預(yù)防方式實(shí)體。將危險(xiǎn)因素作為知識(shí)圖譜核心實(shí)體,整理出9種腦卒中防治醫(yī)學(xué)關(guān)系類型:has、instance of、attribute of、take、control、influence、improve、test、lead。大致可分為跨層與同層兩種,見表1、圖1。
表1 9種腦卒中防治醫(yī)學(xué)關(guān)系
圖1 腦卒中防治知識(shí)圖譜概念層結(jié)構(gòu)
2.1.3 節(jié)點(diǎn)提取路徑 除頂層外的節(jié)點(diǎn)都需由文本挖掘識(shí)別與命名。針對(duì)不同數(shù)據(jù)類型采取不同處理方式,見圖2。對(duì)文獻(xiàn)采用共詞分析法[6]挖掘危險(xiǎn)因素實(shí)體及內(nèi)在聯(lián)系;對(duì)病例和調(diào)研結(jié)果等采用表單解析法[9]挖掘?qū)嶓w。最后對(duì)挖掘到的實(shí)體進(jìn)行匯總與篩選,逆向剔除不合語言規(guī)則的危險(xiǎn)因素[10]并請(qǐng)專家把關(guān)。
圖2 節(jié)點(diǎn)提取實(shí)現(xiàn)路徑
2.2.1 數(shù)據(jù)預(yù)處理 (1)數(shù)據(jù)采集。為保證圖譜內(nèi)容專業(yè)全面,數(shù)據(jù)來源涵蓋電子病歷與調(diào)研結(jié)果、學(xué)術(shù)論文與醫(yī)療教材、政府報(bào)告與規(guī)范指南3類。采用愛愛醫(yī)專業(yè)醫(yī)學(xué)平臺(tái)獲取有效病例54則,中國知網(wǎng)(China National Knowledge Infrastructure,CNKI)獲取學(xué)術(shù)期刊文獻(xiàn)1 222篇,調(diào)研有效問卷數(shù)量共計(jì)257份,獲取人民衛(wèi)生出版社《神經(jīng)病學(xué)》第8章腦血管疾病以及醫(yī)生培訓(xùn)的腦卒中癥狀識(shí)別及院前急救教材6份,近3年中國腦卒中防治報(bào)告及14份規(guī)范指南。(2)數(shù)據(jù)清洗。用文本整理器整合格式、實(shí)現(xiàn)大小寫與全半角轉(zhuǎn)換等。構(gòu)建用戶字典使摘要分詞結(jié)果更準(zhǔn)確[11],共導(dǎo)入機(jī)器和手工匯聚形成的406條用戶字典幫助機(jī)器進(jìn)行分詞。爬取1 208條常用中文停用詞,通過機(jī)器學(xué)習(xí)最終建立包含1 555條詞條的停用詞表庫,剔除對(duì)挖掘無意義的詞語[12]。
2.2.2 挖掘特征詞 (1)構(gòu)建共詞矩陣。清洗后得到474個(gè)待處理詞,詞頻篩選后得到249條高頻詞。采用Ochiia系數(shù)將每個(gè)數(shù)值都除以與之相關(guān)的兩個(gè)關(guān)鍵詞總頻次開放的乘積,用Transport函數(shù)進(jìn)行轉(zhuǎn)秩,得到相似矩陣。為降低統(tǒng)計(jì)誤差,將危險(xiǎn)因素相似矩陣轉(zhuǎn)化為表示兩詞間差異程度的相異矩陣,數(shù)值大說明代表詞間距離大、相似度低。(2)文本挖掘。采用自下而上的合成聚類初步判定代表詞間關(guān)聯(lián)程度,再用主成分分析法確定最少能反映原始數(shù)據(jù)的公共因子,碎石圖結(jié)果保留45個(gè)特征值大于1的因子。對(duì)旋轉(zhuǎn)后的主成分因子載荷系數(shù)矩陣調(diào)用Abs函數(shù)求其絕對(duì)值,篩選大于0.5對(duì)命名有幫助的主成分命名因子。(3)篩選及輸出候選特征詞。因疾病及藥物醫(yī)學(xué)術(shù)語詞性構(gòu)成規(guī)則難以總結(jié),故采用逆向語言規(guī)則法[10],過濾不能作為危險(xiǎn)因素實(shí)體的噪音詞語,如方位詞、連接詞等。以可干預(yù)危險(xiǎn)因素為例的部分節(jié)點(diǎn)梳理結(jié)果,見表2。
表2 以可干預(yù)危險(xiǎn)因素為例的部分節(jié)點(diǎn)梳理
2.2.3 存儲(chǔ)與可視化 Neo4j在乳腺癌等醫(yī)學(xué)知識(shí)圖譜[13]的繪制中已被驗(yàn)證適用于生物醫(yī)學(xué)領(lǐng)域,數(shù)據(jù)存儲(chǔ)到Neo4j后共得到節(jié)點(diǎn)165個(gè)、關(guān)系168條。關(guān)鍵危險(xiǎn)因素權(quán)重以屬性方式存儲(chǔ),見圖3。
圖3 知識(shí)圖譜整體可視化效果
3.1.1 多可干預(yù)危險(xiǎn)因素耦合作用模型 腦卒中疾病規(guī)律尚未完全探明,依賴作用的未知性增大致病因素模糊度。利用圖譜所挖掘的典型危險(xiǎn)因素,構(gòu)建多可干預(yù)危險(xiǎn)因素耦合作用模型,見圖4。模型從疾病因素、生活方式和其他方面因素考慮子系統(tǒng)之間相互作用。
圖4 多可干預(yù)危險(xiǎn)因素耦合作用模型
3.1.2 影響因子 從知識(shí)圖譜節(jié)點(diǎn)中歸納出表現(xiàn)力好、影響突出的9個(gè)因素:在生活方式層次下的節(jié)點(diǎn)有F11(吸煙)、F12(酗酒)、F13(飲食不當(dāng));疾病因素層次下的節(jié)點(diǎn)有F21(高血壓)、F22(糖尿病)、F23(心臟病);其他因素層次下的節(jié)點(diǎn)有F31(心理狀況)、F32(經(jīng)濟(jì)狀況)、F33(教育程度)。
3.1.3 相互作用矩陣 在矩陣主對(duì)角線上放置所有腦卒中風(fēng)險(xiǎn)影響因子,其值表示該風(fēng)險(xiǎn)因子會(huì)對(duì)腦卒中風(fēng)險(xiǎn)產(chǎn)生影響的程度。多個(gè)影響因子相互耦合作用則放置在次對(duì)角線位置,其值表示因素之間耦合作用對(duì)我國居民患腦卒中風(fēng)險(xiǎn)的影響程度,見圖5。
圖5 相互作用矩陣
關(guān)系矩陣中的Pi,j表示第i個(gè)風(fēng)險(xiǎn)影響因子單獨(dú)對(duì)腦卒中致病的影響,根據(jù)式(1)-(3)計(jì)算影響整體或個(gè)體腦卒中風(fēng)險(xiǎn)性的第i個(gè)影響因子權(quán)重k。其中,n表示腦卒中風(fēng)險(xiǎn)的主要影響因子數(shù)量;SR(i) 表示風(fēng)險(xiǎn)因子i自身風(fēng)險(xiǎn)系數(shù)和與對(duì)其他影響因子產(chǎn)生耦合作用的系數(shù)之和;SC(i)則表示風(fēng)險(xiǎn)因子i自身風(fēng)險(xiǎn)系和與其他因子對(duì)i因子產(chǎn)生耦合作用的系數(shù)之和。再據(jù)式(4)進(jìn)一步計(jì)算整體或個(gè)人的可控危險(xiǎn)因素程度。Vi表示某個(gè)腦卒中風(fēng)險(xiǎn)因子i參數(shù)的值:Ui=Pi,i/(max-min)。SD是根據(jù)多個(gè)影響因子計(jì)算得到的用于評(píng)價(jià)腦卒中患病風(fēng)險(xiǎn)性的無量綱數(shù)值,稱為可干預(yù)因素下的腦卒中評(píng)價(jià)系數(shù)[14]。
(1)
其中:
(2)
(3)
最后:
(4)
采用專家半定量取值法分別對(duì)節(jié)點(diǎn)間不對(duì)等耦合作用打分,獲得9×9相互作用矩陣。按照可控危險(xiǎn)因素影響作用大小和強(qiáng)烈程度劃分為5級(jí),采用無量綱數(shù)值0-4來定量表達(dá)無影響、弱影響、中等影響、強(qiáng)影響和極強(qiáng)影響作用。通過醫(yī)院專家打分,每個(gè)數(shù)值分別表示可控危險(xiǎn)因素i作用于可控危險(xiǎn)因素j而對(duì)整體腦卒中患病風(fēng)險(xiǎn)產(chǎn)生的影響。計(jì)算影響整體腦卒中患病風(fēng)險(xiǎn)性的第i個(gè)可控危險(xiǎn)因素的權(quán)重k,見表3。根據(jù)式(4)得到居民總體SD值為0.044 22,屬中等風(fēng)險(xiǎn)范圍,可作個(gè)人腦患卒中風(fēng)險(xiǎn)的基準(zhǔn)參考。構(gòu)建模糊層次分析模型不僅能對(duì)群體情況作出判斷,還能預(yù)測(cè)個(gè)人腦卒中風(fēng)險(xiǎn),將群體或個(gè)人腦卒中評(píng)價(jià)系數(shù)SD值等距分為極弱風(fēng)險(xiǎn)、弱風(fēng)險(xiǎn)、中等風(fēng)險(xiǎn)、強(qiáng)風(fēng)險(xiǎn)和極強(qiáng)風(fēng)險(xiǎn)5個(gè)等級(jí),依照等級(jí)規(guī)范及時(shí)采取防治措施。
表3 腦卒中可干預(yù)危險(xiǎn)因素權(quán)重及排序
4.1.1 最易影響其他可控危險(xiǎn)因素 即酗酒,不僅其自身對(duì)于腦卒中有極強(qiáng)影響作用,還會(huì)誘發(fā)高血壓、心臟病等嚴(yán)重疾病,而這些疾病本身也是腦卒中發(fā)病的重要危險(xiǎn)因素,故會(huì)造成負(fù)面效果極強(qiáng)的多因素耦合作用。
4.1.2 最易被其他因素所影響因素 即高血壓,故高血壓防控需要從多方面入手。心理狀況是作用最明顯的腦卒中可控危險(xiǎn)因素,一方面其對(duì)吸煙、飲酒等不良生活習(xí)慣因素產(chǎn)生作用,另一方面腦卒中急性發(fā)病與此高度相關(guān)。從數(shù)據(jù)與病例中屢次出現(xiàn)的“情緒激動(dòng)時(shí)起病”可知不能忽視心理健康,建議學(xué)會(huì)調(diào)節(jié)情緒、降低壓力,在需要時(shí)尋求情感支持。
從相互作用角度將危險(xiǎn)因素分成3類:SR>SC、SR≈SC、SR 本文初步構(gòu)造面向腦卒中防治的知識(shí)圖譜,集成多種疾病相關(guān)知識(shí)資源,有效地將龐雜數(shù)據(jù)資源轉(zhuǎn)化為結(jié)構(gòu)化、可視化知識(shí)。進(jìn)而提出一種便于推廣的風(fēng)險(xiǎn)預(yù)測(cè)模型,綜合模糊層次分析法和耦合理論優(yōu)點(diǎn),能綜合考慮、定量描述危險(xiǎn)因素相互作用關(guān)系,提出將危險(xiǎn)因素按SR與SC分類,而非單方面強(qiáng)調(diào)對(duì)疾病因素管控。面向知識(shí)圖譜構(gòu)建的風(fēng)險(xiǎn)評(píng)估模型可成為普通群眾自查風(fēng)險(xiǎn)的有效工具和基層醫(yī)護(hù)人員診斷的輔助工具。 知識(shí)圖譜逐步與醫(yī)療領(lǐng)域結(jié)合,能夠解決當(dāng)前醫(yī)療電子數(shù)據(jù)龐雜、知識(shí)管理困難的問題。國內(nèi)乳腺癌、乙肝等少數(shù)疾病已經(jīng)開始嘗試構(gòu)建知識(shí)圖譜[13,15-17],但構(gòu)建方法與標(biāo)準(zhǔn)不統(tǒng)一、真實(shí)數(shù)據(jù)應(yīng)用較少[18-19]。中文醫(yī)學(xué)知識(shí)圖譜起步較晚,在覆蓋疾病種類、數(shù)據(jù)質(zhì)量等方面仍有發(fā)展空間,應(yīng)加強(qiáng)與國外醫(yī)學(xué)圖譜的連接[20]。腦卒中等高危疾病研究有待加強(qiáng)[21],需進(jìn)一步探索醫(yī)學(xué)知識(shí)的自動(dòng)提取技術(shù)[9]。應(yīng)發(fā)揮知識(shí)圖譜精準(zhǔn)快速查詢普及防治知識(shí)的優(yōu)勢(shì),成為腦卒中互答、診斷輔助等系統(tǒng)的基礎(chǔ)[22-23],服務(wù)于基層臨床評(píng)估。腦卒中發(fā)病年輕化、普遍化等不良趨勢(shì)逐漸顯現(xiàn),快速節(jié)奏與壓力對(duì)青壯年人群生活方式產(chǎn)生的負(fù)面影響需加強(qiáng)重視。各年齡階段人群均需做好腦卒中防治工作,在群體基礎(chǔ)上針對(duì)個(gè)人情況進(jìn)行調(diào)整,從根源進(jìn)行防治。5 結(jié)論
5.1 主要研究成果
5.2 未來研究方向