王華瓊 錢歸平 田 雨 秦愛紅 楊 帆 楊 攀
1(浙江傳媒學院媒體工程學院 浙江 杭州 310018) 2(浙江大學生物醫(yī)學工程與儀器科學學院 浙江 杭州 310027) 3(浙江大學醫(yī)學院附屬杭州市第一人民醫(yī)院 浙江 杭州 310006)
公眾健康意識的增強、政策紅利的驅動、解決老齡化問題的需要,使家庭醫(yī)療保健場景變得越來越普及[1-2]。然而,健康意識的增強和醫(yī)學知識的欠缺,這一矛盾使得家庭醫(yī)療很難真正大范圍的普及,這也是造成“有病就去大醫(yī)院”“小病大看”等不良就醫(yī)習慣的根本原因。如何通過計算機軟件或者服務使公眾獲取有效的醫(yī)學知識是家庭醫(yī)療領域亟待解決的問題。臨床實踐大多以經(jīng)驗和推論為主,隨著信息技術在醫(yī)療領域的深入發(fā)展,電子病歷系統(tǒng)在各個醫(yī)療機構中已經(jīng)普及,臨床經(jīng)驗以文檔或結構化數(shù)據(jù)的形式被存儲起來。目前已有很多研究致力于從健康醫(yī)療數(shù)據(jù)中總結經(jīng)驗,輔助臨床決策支持[3-6]。
健康醫(yī)療數(shù)據(jù)分為院內數(shù)據(jù)與院外數(shù)據(jù)兩種類型。院內數(shù)據(jù)由電子病歷系統(tǒng)等院內醫(yī)療信息系統(tǒng)采集并存儲,是目前醫(yī)學數(shù)據(jù)研究的主要對象,在質量和規(guī)模上具有競爭力[7-10]。院內數(shù)據(jù)的缺點體現(xiàn)在其隱私安全問題和信息壁壘問題。因此,基于院內數(shù)據(jù)分析的結果主要服務于本地機構的臨床決策支持。院外數(shù)據(jù)以前主要集中在智能硬件設備的檢測數(shù)據(jù)和政府收集的個人健康檔案。伴隨互聯(lián)網(wǎng)技術在日常醫(yī)療場景中的滲透,人們越來越習慣于在互聯(lián)網(wǎng)上求助和分享臨床經(jīng)驗,因此互聯(lián)網(wǎng)上積累了大量的、開放的網(wǎng)絡醫(yī)學數(shù)據(jù)。隨著丁香園、知乎和微醫(yī)等國內網(wǎng)站的流量快速增長,在搜索引擎中檢索高血壓、糖尿病等常見疾病,搜索結果都已經(jīng)超過了1億條。網(wǎng)絡數(shù)據(jù)規(guī)模龐大、增長快速,而且其數(shù)據(jù)的開放性能夠更加便捷地服務于公眾。因此,本文探索基于互聯(lián)網(wǎng)醫(yī)學數(shù)據(jù)的臨床決策支持方法,目的是為公眾在家庭治療和日常保健中提供決策參考。
互聯(lián)網(wǎng)上醫(yī)學數(shù)據(jù)以文本形式為主,來源復雜且缺乏整合,質量參差不一。如何從網(wǎng)絡文本中挖掘出有效信息并進行知識表達是擬解決的重點和難點。醫(yī)學術語繁多復雜,采用傳統(tǒng)的中文分詞方法根本無法從本文中發(fā)現(xiàn)醫(yī)學關鍵信息。針對上述問題,本文引入語義技術構建醫(yī)學知識模型,明確診療方案中的關鍵信息要素以支撐中文分詞,最終從文本中提煉出可為公眾提供決策參考的診療建議。
院內數(shù)據(jù)可以直接從電子病歷系統(tǒng)的數(shù)據(jù)庫中導出結構化數(shù)據(jù),面向多源異構系統(tǒng)時采用語義技術進行數(shù)據(jù)的標準化和統(tǒng)一化處理,語義技術在院內數(shù)據(jù)分析領域已有大量的研究經(jīng)驗[11-15]。面向互聯(lián)網(wǎng)中的醫(yī)學數(shù)據(jù),涉及到數(shù)據(jù)獲取、整合和分析,整個過程更加復雜。首先需要明確數(shù)據(jù)來源并主動獲取。由于單獨一個平臺數(shù)據(jù)量有限,需要從多個平臺中獲取數(shù)據(jù)。不同的平臺其網(wǎng)頁結構組織方式存在明顯的差異,數(shù)據(jù)采集的方式也不同。數(shù)據(jù)采集過程通過基于Python的主題網(wǎng)絡爬蟲來實現(xiàn)。
本文通過主題網(wǎng)絡爬蟲獲取面向某一種疾病的相關醫(yī)學數(shù)據(jù),預設主題關鍵詞和待爬取的URL列表作為種子,對檢索關鍵詞得到的結果頁面進行解析,從中分離出新的URL列表,進一步獲取URL列表對應的網(wǎng)頁內容保存到本地。
由于各個網(wǎng)站平臺的網(wǎng)頁組織形式不同,將其分為靜態(tài)頁面和動態(tài)頁面兩種類型。不同類型的頁面,數(shù)據(jù)爬取過程呈現(xiàn)明顯的差異,需要加載不同的Python第三方庫。
靜態(tài)頁面以丁香園平臺為例,使用瀏覽器在丁香園網(wǎng)站搜索“濕疹”,查看搜索結果,找到約12 982條結果,分頁顯示,每頁顯示15個結果,每條結果鏈接到一個獨立的頁面。對于靜態(tài)頁面,頁面編號通常作為參數(shù)包含在URL之中,根據(jù)攜帶頁面編號參數(shù)的URL可獲取到每個結果頁面的內容,進一步分離目標URL獲取詳細信息作為文本語料庫的內容。靜態(tài)頁面的數(shù)據(jù)獲取較為簡單,直接使用Requests對象的Get方法可獲取對應URL的頁面內容,主要的難點在于對網(wǎng)頁HTML結構的分析。在丁香園網(wǎng)站中,所有的搜索結果都位于class屬性值為“main-item j-main-it”的div標簽之中,而目標URL的位置是由div.h3.a標簽的href屬性所決定的。每個平臺都有自己獨立的頁面組織結構,數(shù)據(jù)獲取過程需要對頁面進行解析。本文利用了Python庫BeautifulSoup和lxml來進行網(wǎng)頁解析,提取目標URL。
動態(tài)頁面的內容是隨著時間、環(huán)境或者用戶操作的結果動態(tài)改變的,通過Requests對象從頁面中Get的方式只能獲取到第一次加載的頁面內容,頁面信息有限。對于此類網(wǎng)頁,首先通過Selenium對象模擬瀏覽器的頁面交互操作,進而獲取動態(tài)頁面的數(shù)據(jù)。以知乎平臺為例,首次加載時,頁面只顯示了最新的28個結果,需要多次模擬瀏覽器的下拉操作,盡可能多地讓頁面下載數(shù)據(jù)到瀏覽器端。接著再利用BeautifulSoup庫進行頁面解析,提取目標URL。
無論是靜態(tài)頁面還是動態(tài)頁面,在此步驟中要完成的是分析網(wǎng)站類型和網(wǎng)頁結構,盡可能地獲取到所有與主題相關的結果并保存到本地。
網(wǎng)絡爬蟲方式通過URL讀取并保存網(wǎng)頁,得到的網(wǎng)頁結果以HTML文本形式保存,待進一步提取出有效文本,并進行中文文本分析。傳統(tǒng)的中文分詞方法無法識別復雜的醫(yī)學術語,更別說提煉出關鍵診療信息。因此,本文引入了語義技術來解決這一問題,通過構建疾病知識圖譜的方法生成自定義詞典,進而輔助中文文本分析。
語義網(wǎng)為數(shù)據(jù)的共享和重用提供了通用框架。在語義網(wǎng)中,網(wǎng)絡內容被表達為自然語言,不僅易于被人們理解,而且易于被機器處理,使得信息的發(fā)現(xiàn)、共享和集成更加智能[16-18]。語義技術包括了描述知識圖譜的網(wǎng)絡本體語言(Web Ontology Language,OWL)、支持語義推理的語義網(wǎng)規(guī)則語言(Semantic Web Rule Language,SWRL)、Jena語義網(wǎng)框架等。隨著近幾年知識圖譜的快速發(fā)展,語義技術在語言開發(fā)、工具開發(fā)、標準建立等方面都取得了顯著的進步,并實現(xiàn)了在工業(yè)、物流、醫(yī)學等領域的應用[19-23]。
將語義技術應用于醫(yī)學知識建模,構建面向疾病的知識圖譜,明確定義疾病診療方案實例,細化疾病診療過程中的關鍵要素。這些關鍵要素將作為網(wǎng)頁文本分詞自定義詞典的重要組成部分,為從文本數(shù)據(jù)中提取關鍵診療信息提供基礎。
為有效地表達面向疾病的診療方案,本文基于本體編輯工具Protégé構建疾病Disease、診斷Diagnosis和診療方案CarePlan對應的類,基于本體模型添加疾病、診斷、診療方案的實例和屬性,并為各屬性賦值以建立實例間的關系。
以急性闌尾炎為例,AcuteAppendicitis是疾病類Disease的一個實例,通過數(shù)據(jù)屬性hasICD_10Code設定其ICD10編碼為DN00114,中文標簽“急性闌尾炎”,在Protégé中實例定義如圖1所示。
圖1 疾病類中名稱為AcuteAppendicitis的實例
AppendectomyCP是診療方案類CarePlan的一個實例,用來記錄疾病AcuteAppendicitis的診療方案。圖2中列出了急性闌尾炎的常規(guī)診療方案,其中包含了明確的關鍵診療環(huán)節(jié),例如化驗項血常規(guī)(Cell Broadcast Center,CBC)、注射項青霉素(Penicillin)和手術項闌尾切除術(Appendectomy)等。
圖2 急性闌尾炎的診療方案實例
本體模型的優(yōu)勢還體現(xiàn)在其智能性上,基于語義技術實現(xiàn)的本體模型支持語義推理,有助于結合患者實例數(shù)據(jù)生成個性化的疾病診療建議。例如急性闌尾炎患者術后需要使用抗生素藥物,若患者對于青霉素(實例名稱Penicillin)過敏,那么使用左氧氟沙星(實例名稱Levofloxacin)替代,對應的SWRL規(guī)則定義如下:
Patient(?p) ^ CarePlan(?cp) ^ OrderEvent(?x) ^
hasCP(?p, ?cp) ^ hasOrderEvent(?cp, ?x) ^
hasStandardInjectionDrug(?x, ?drug1) ^
hasSubstitute(?drug1, ?drug2) ^
hasAllerge(?p, ?drug1)
→hasInjectionDrug(?x, ?drug2)
對規(guī)則的解釋如下:某一個病人p采用診療方案cp,診療方案中包含一條醫(yī)囑事件x,該醫(yī)囑事件包含標準注射用藥drug1,它有一種替換藥物drug2。即在正常情況下,醫(yī)囑事件x采用注射藥物drug1。如果病人p對注射用藥drug1過敏,那么醫(yī)囑事件x采用注射用藥drug2。
規(guī)則是支撐語義推理的關鍵,推理引擎采用了Jena推理引擎的OWLReasoner推理器,能夠基于OWL本體模型生成推理模型,為診療方案抽取提供專業(yè)術語詞典。
疾病知識圖譜的構建對文本分析來說非常重要。對于每個疾病種類,只有明確了其中的關鍵診療環(huán)節(jié),才能為文本分詞提供準確的自定義詞典。
氫化可的松和可的松是兩種不同的糖皮質激素,氫化可的松的抗炎作用是可的松的1.25倍。由于“氫化可的松”的文本包含了“可的松”,無法通過檢索和計算網(wǎng)頁中藥物名稱出現(xiàn)的頻率來統(tǒng)計這兩種藥物的使用頻率。在這種情況下,無法通過統(tǒng)計來獲取關鍵診療信息,必須先對網(wǎng)頁文本進行分詞。中文文本的分詞過程借助了Jieba庫。
Jieba是用于文本分析的主流Python第三方生態(tài)庫,其分詞原理是利用一個中文詞庫,將帶分詞的內容與分詞詞庫進行比對,通過圖結果和動態(tài)規(guī)劃方法找到最大概率的詞組。除了分詞,Jieba庫還提供了自定義中文詞典的功能,使用此功能可支持對醫(yī)學專用語的識別。Jieba分詞支持三種模式:(1) 精準分詞模式將句子精確地劃分,不產生冗余詞組,適用于文本分析;(2) 全模式切分句子中所有可能的詞組組合,但存在冗余;(3) 搜索引擎模式在精準模式的基礎上對長詞再次切分以提高召回率。綜上分析,本文使用精準模式對文本庫中的網(wǎng)頁文本進行分詞,通過1.2節(jié)構建的疾病知識圖譜中的實例設置自定義詞表。
經(jīng)過自定義詞典的建立和Jieba庫中文分詞,得到了所有網(wǎng)頁文本的詞語列表。接著基于統(tǒng)計學的方法,對知識模型中定義的醫(yī)學知識術語進行詞頻統(tǒng)計。
疾病知識圖譜準確描述了關鍵診療環(huán)節(jié)的定義、屬性和關系,基于此得到的自定義詞表中包含了對關鍵診療環(huán)節(jié)的多種表達方式,例如診療藥物“糠酸莫米松乳膏”,常見的表達有糠酸莫米松、艾洛松和糠酸等。疾病可能有多種診療方案,對于嬰幼兒濕疹,存在多種外用藥物。在濕疹患者的家庭護理診療過程中,需要對藥物進行選擇,通過詞頻統(tǒng)計來表示藥物的使用率。假定對于疾病D存在n種激素類藥物可供選擇,每種激素類藥物在數(shù)據(jù)中可能存在m種不同的表達方式,每種表達方式在互聯(lián)網(wǎng)數(shù)據(jù)中出現(xiàn)的頻次為xi,j(i=1,2,…,m;j=1,2,…,n)。那么,某種激素類藥物在文章中的詞頻計算式表示為:
(1)
綜上,使用1.1節(jié)主題網(wǎng)絡爬蟲獲取網(wǎng)頁醫(yī)學文本,通過1.2節(jié)構建的疾病知識圖譜中的實例設置自定義詞表,在1.3節(jié)中基于自定義詞表利用Jieba庫精準模式對文本庫中的網(wǎng)頁文本進行中文分詞和詞頻統(tǒng)計,最終生成各個診療環(huán)節(jié)的概率分布,進而為公眾提供輔助家庭診療的臨床決策支持。基于疾病知識圖譜的中文文本分詞和知識發(fā)現(xiàn)過程如圖3所示。
圖3 基于疾病知識圖譜的文本分詞和知識發(fā)現(xiàn)過程
濕疹是一種慢性炎癥瘙癢性皮膚病,具有發(fā)病率高、病程長和易反復的特點,通常需要長期治療。近年來嬰幼兒濕疹的發(fā)病率更是逐年上升,對患者及家屬造成了嚴重的困擾[24-25]。
根據(jù)衛(wèi)生部發(fā)布的蕁麻疹臨床路徑,其治療周期一般為7天,糖皮質激素藥物局部外用是治療輕中度濕疹的主要手段,過程中同時使用抗過敏藥物、消炎藥物來輔助治療。常見的糖皮質激素包括糠酸莫米松、氫化可的松、可的松和倍他米松等;抗過敏藥物包括美能、撲爾敏片等;消炎外用藥物主要是百多邦。其中:氫化可的松、倍他米松等是激素類藥物的主要成分;美能、撲爾敏片和百多邦是常見藥物的別名。醫(yī)學領域術語繁多,單就藥物的稱謂,每種藥物包含藥物名稱、主要成分和別名。而且,這些詞都不屬于常用詞,直接使用傳統(tǒng)分詞方法根本無法有效識別這些信息。
濕疹的診療方案中涉及到了多種藥物,表1中列出了常見的5種激素類藥物、4種抗過敏藥物和1種抗生素消炎藥物,其中各列分別給出了藥物名稱、主要成分、主要別名和類型。因為部分藥物存在多個別名,表格中只列舉了其中一種最常見的別名。
表1 濕疹常用藥物列表
由于病程長、易反復和嬰幼兒常發(fā)的特性,濕疹的診療過程主要依賴于家庭護理。藥物種類繁多、難以選擇是濕疹家庭護理中現(xiàn)存的主要問題。因此,本文選擇濕疹的用藥建議作為實驗案例,來說明如何利用醫(yī)學知識模型與互聯(lián)網(wǎng)數(shù)據(jù)來提煉有效診療信息,生成面向濕疹患者的診療關鍵要素,并統(tǒng)計結果為家庭護理和治療提供決策支持。面向濕疹疾病的家庭醫(yī)療咨詢決策支持過程如圖4所示。
圖4 面向濕疹疾病的家庭醫(yī)療咨詢決策支持過程
目前國內熱門的親子網(wǎng)站主要有育兒網(wǎng)、丁香園、19樓親子論壇等,根據(jù)數(shù)據(jù)量規(guī)模,選取丁香園、知乎、育兒網(wǎng)和19樓四個平臺作為數(shù)據(jù)來源目標網(wǎng)站。在這四個平臺中輸入“濕疹”關鍵詞進行檢索,各個平臺給出的檢索結果列表列出了“濕疹”相關的文章或者問診信息。由于各個平臺的網(wǎng)頁結構存在明顯的差異,需要對網(wǎng)頁HTML結構進行解析,編寫面向各個平臺的網(wǎng)絡爬蟲從這些異構平臺收集數(shù)據(jù)。
對于丁香園、育兒網(wǎng)和19樓三個平臺,檢索結果以靜態(tài)頁面方式組織,通過遍歷訪問每個頁面獲取頁面中每篇文章的鏈接進行訪問并獲取詳細數(shù)據(jù);對于知乎平臺,檢索結果以動態(tài)頁面方式組織,通過selenium來模擬瀏覽器下拉操作,動態(tài)加載數(shù)據(jù)并獲取鏈接信息進行訪問。
由于部分平臺限制了開放的數(shù)據(jù)量,例如19樓論壇中只開放了最新的50頁數(shù)據(jù),根據(jù)每頁20篇文章的限制,最終用戶能夠查閱的文章數(shù)量為1 000篇。因此,基于“濕疹”關鍵詞,從各個平臺獲取的頁面數(shù)量是有限的。表2中詳細列出了網(wǎng)站名稱、URL地址、通過網(wǎng)絡爬蟲獲取的目標網(wǎng)頁數(shù)量。需要說明的是,目標網(wǎng)頁中除了正文之外,還包含了大量的評論和回復信息。
表2 平臺名稱、URL地址、爬蟲采集到的目標網(wǎng)頁數(shù)量
構建一個良好的醫(yī)學知識模型是實現(xiàn)文本分析關鍵信息提取的基礎?;谛l(wèi)生部發(fā)布的蕁麻疹臨床路徑,分析路徑結構和內容,明確診療過程中的關鍵信息要素;針對關鍵信息要素,采用知識工程方法構建面向濕疹的本體模型,定義類和屬性。
在此基礎上,為濕疹定義Eczema疾病實例,基于濕疹診療過程中的關鍵信息要素,構建診療方案實例EczemaCP。濕疹知識圖譜中,診療方案實例與藥物實例的關聯(lián)如圖5所示,其中前綴CP是診療方案(care plan)的簡寫,是整個本體模型命名空間的名稱。
圖5 濕疹知識圖譜中診療方案實例與藥物實例的關聯(lián)
圖5最上方的框體中列出了診療方案實例EczemCP和它的三個重要屬性。對象屬性usedforDisease的值說明該實例適用病癥為疾病Eczema;數(shù)據(jù)屬性hasDuration的值代表該實例治療周期為7天;對象屬性hasOrderEvert包含了多個屬性值,每個屬性值代表了濕疹診療過程中的一個關鍵診療環(huán)節(jié),例如HormonesEvent、AntiallergicEvent和AntibioticsEvent分別代表激素藥物治療、抗過敏藥物治療和抗生素藥物治療,均屬于醫(yī)囑類型中的處方類實例。每個醫(yī)囑實例又擁有自己的屬性,通過hasRelatedTerm對象屬性關聯(lián)到具體的藥物。例如,激素藥物治療實例HormonesEvent關聯(lián)到的藥物實例包括Momeiasone、Hydrocortisone、Desonide、Triancinolone和Betamethasone,分別對應到表1中列出的五種常見激素藥物。每個藥物實例通過定義其label屬性和comment屬性,設置了藥物的中文名稱、主要成分名稱和別名。圖5下方框體給出了Momeiasone藥物實例在Protégé工具中的定義。
基于濕疹知識圖譜的實體關系,執(zhí)行語義推理,完成is_a、sub_class等關系的繼承和匹配,生成濕疹知識庫推理模型?;跐裾钪R推理模型中的實體關系,使用如下所示的SPARQL語句即可獲取濕疹診療方案實例EczemaCP相關藥物的醫(yī)學術語信息。
SELECT ?object
WHERE {
CP:EczemaCP CP:hasOrderEvent ?order
?order CP:hasRelatedTerm ?drug
?drug rdfs:label ?object
}
基于2.1節(jié)和2.2節(jié)的實驗結果,分別得到了目標網(wǎng)頁文件和濕疹知識圖譜?;诰W(wǎng)頁文件和濕疹知識圖譜提取和統(tǒng)計濕疹診療方案的過程說明如下:
(1) 通過SPARQL語義檢索,從濕疹知識圖譜中獲取各個藥物實例的label和comment屬性值,導出作為分詞的中文自定義詞典,此時自定義詞表中包含了藥物的名稱、成分和別名等醫(yī)學術語信息。
(2) 對網(wǎng)頁文件預處理,通過正則表達式提取所有中文文本,過濾掉網(wǎng)頁標簽等元素。
(3) 使用Jieba庫的load_userdict方法加載步驟(1)中的中文自定義詞典,使用精準分詞lcut方法對步驟(2)中的中文文本進行分詞。
(4) 為提升統(tǒng)計效率,根據(jù)中文停用詞表進行停用詞過濾,并將最終結果保存到文件中。
(5) 基于中文分詞結果,基于統(tǒng)計學的方法統(tǒng)計各醫(yī)學術語出現(xiàn)的頻次。使用文件的readline方法讀取步驟(4)中生成的結果文件,將讀取的分詞結果使用count方法進行統(tǒng)計。
表3中列出了濕疹常用藥物的頻次統(tǒng)計結果。第1列為藥物類型;第2列是藥物在知識庫中的實例名稱,從濕疹知識圖譜藥物實例的label屬性值中讀取藥物的主要成分以及別名;第3列是各藥物實例的合計頻次統(tǒng)計結果,其值等于成分頻次和別名頻次的總和。
表3 濕疹常用藥物的頻次統(tǒng)計結果
通過式(1)按類別統(tǒng)計激素類藥物、抗過敏類藥物中每種藥物的詞頻,進而分析各類別藥物中哪些藥物的受關注度或者使用率更高,計算結果如圖6所示。
(a) 激素類藥物 (b) 抗過敏類藥物圖6 按類統(tǒng)計每種藥物的詞頻
基于表3和圖6的實驗結果,可以得出以下結論:
(1) 激素類藥物中,尤卓爾的頻次最高,合計461次,約占所有激素類藥物的56%,其次為艾洛松,合計217次,約占所有激素類藥物的27%,這兩種激素類藥物的頻次遠遠高于其他激素類藥物。
(2) 抗過敏藥物中,撲爾敏片出現(xiàn)的詞頻最高,占82%。合計頻次32次,整體上來看所有抗過敏藥物出現(xiàn)的頻次遠低于激素類藥物,表明在激素類藥物作為濕疹主要治療手段的前提下,抗過敏藥物配合使用的頻率比較低。
(3) 抗生素藥物主要考察了百多邦這一種藥物,出現(xiàn)頻次82次,可以看出,相對于抗過敏藥物,百多邦作為抗生素消炎藥物,更常配合激素類藥物共同使用。
這些結論對于為藥物選擇困擾的公眾來說,將提供直觀、友好的建議,為最終診療方案的確定提供臨床決策支持。
相對于院內數(shù)據(jù),互聯(lián)網(wǎng)上的醫(yī)學數(shù)據(jù)通常包含有更多的日常保健、護理等非處方類診療信息。對于濕疹而言,除了藥物治療之外,日常護膚也是主要的診療手段,對應到濕疹知識圖譜中的SkinCareEvent實例,屬于非處方類醫(yī)囑。護膚產品的選擇對于診療結果有十分重要的作用。目前市場上常見的護膚品牌主要有加州寶寶(California Baby)、強生(Johnson and Johnson)、妙思樂(Mustela)、絲塔芙(Cetaphil)和郁美凈(YMJ)等,將這些品牌的護膚產品定義在醫(yī)囑實例SkinCareEvent對應的醫(yī)學術語之中,通過自定義詞典進行分詞并統(tǒng)計其頻次,得到結果如圖7所示。
圖7 濕疹護膚品牌的頻次統(tǒng)計結果
從結果來看,國產品牌郁美凈在網(wǎng)頁文本中出現(xiàn)的頻次最高,合計877次,占所有品牌頻次的75%??梢姽妼τ趪a品牌郁美凈作為濕疹護膚產品是非常認可的態(tài)度。在國外品牌中,絲塔芙的頻次統(tǒng)計結果141次是最高的。
另外,在對各平臺分詞結果的統(tǒng)計過程中發(fā)現(xiàn):不同的網(wǎng)站平臺,用戶使用藥品名稱的習慣呈現(xiàn)明顯的差異。對于19樓論壇而言,相對于成分,用戶更加傾向于使用別名,例如,氫化可的松乳膏,用戶使用別名尤卓爾的概率是96.7%,使用成分氫化可的松的概率僅為3.3%;對于知乎平臺,用戶更能接受使用成分來代替藥品名稱,同樣是氫化可的松乳膏,用戶使用別名尤卓爾的概率是60.8%,使用成分氫化可的松的概率為39.2%,遠高于其他互聯(lián)網(wǎng)平臺使用成分的概率。
本文以濕疹的用藥建議為例,來說明如何通過疾病知識圖譜的類和實例定義生成分詞所需的自定義詞典,解決醫(yī)學術語繁多復雜難以進行分詞的問題。濕疹的診療方案相對于其他疾病來說較為簡單,選擇其作為實驗示例的原因主要有兩方面:(1) 當前互聯(lián)網(wǎng)上的數(shù)據(jù)有限,對于像急性闌尾炎這類相對復雜的疾病,依賴手術等院內治療手段,數(shù)據(jù)更多地記錄在電子病歷系統(tǒng)之中,公眾在互聯(lián)網(wǎng)上求助和分享的需求也不高,相關的醫(yī)學數(shù)據(jù)較少;(2) 基于互聯(lián)網(wǎng)醫(yī)學數(shù)據(jù)的輔助診療方法主要面向家庭診療的需求,適用于像濕疹這樣慢性、病程長和易復發(fā)的疾病,其診療方案以藥物和日常護理為主,而且通常存在藥物產品種類多難以選擇的問題。因此,本文方法并不局限于濕疹這一種疾病,對于慢性病、老年人日常保健也能提供對應的輔助診療支持。
各個平臺對于開放數(shù)據(jù)的數(shù)量限制是基于互聯(lián)網(wǎng)數(shù)據(jù)分析方法的一項局限。對于主流的微博、19樓和育兒網(wǎng)等平臺,運營時間長,平臺內部已經(jīng)積累了大量的數(shù)據(jù),但是開放給公眾的數(shù)據(jù)非常有限。例如微博、19樓只開放了最新的50頁數(shù)據(jù),育兒網(wǎng)只開放最新的100頁數(shù)據(jù)。這個數(shù)據(jù)量能夠支撐用戶的日常查閱,卻不足以支撐大數(shù)據(jù)分析的統(tǒng)計挖掘。為解決這一問題,需要定期運行網(wǎng)絡爬蟲程序,將更新的數(shù)據(jù)及時保存到數(shù)據(jù)庫中。
相對于醫(yī)院內部的臨床數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)的劣勢主要體現(xiàn)在數(shù)據(jù)的質量問題。網(wǎng)絡數(shù)據(jù)依賴于病人對疾病治療方案的描述,通常缺少統(tǒng)一的規(guī)范,對診療環(huán)節(jié)的描述不夠清晰、完整。這也是本文中引入語義技術應用于文本分析過程的重要原因,后續(xù)將進一步考慮文本中的情感因素,提高分析結果的準確度,并結合患者特征數(shù)據(jù),充分利用語義推理功能提高家庭醫(yī)療輔助決策的個性化支持。當前狀態(tài)下,從網(wǎng)絡數(shù)據(jù)中提煉出面向某一個疾病的完整診療方案還缺少必要的原始數(shù)據(jù)支撐,本文探索性地先從中提取關鍵診療信息例如用藥信息,來輔助家庭醫(yī)療中的臨床決策支持。
相對于院內數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)的優(yōu)勢主要在于其開放性和日益增長的特性。這些數(shù)據(jù)公開在網(wǎng)絡之上,能夠更好地被公眾查閱、使用,而不涉及患者隱私的披露問題。基于互聯(lián)網(wǎng)數(shù)據(jù)的研究更加側重于數(shù)據(jù)的統(tǒng)計結果,而非獨立的個體數(shù)據(jù)。本文方法是對基于互聯(lián)網(wǎng)數(shù)據(jù)提取輔助診療方案的探索性嘗試,提供了一個基礎的技術框架。從當前各個平臺的“濕疹”數(shù)據(jù)量來看,還不足以達到大數(shù)據(jù)的級別。隨著信息技術的發(fā)展及互聯(lián)網(wǎng)應用的進一步普及,互聯(lián)網(wǎng)上的醫(yī)療數(shù)據(jù)必將越來越多,也越來越規(guī)范。這部分數(shù)據(jù)將是對臨床數(shù)據(jù)的重要補充,為輔助醫(yī)學發(fā)展做出貢獻。例如實驗結果中提到的護理品牌頻次分析,這些非處方數(shù)據(jù)無法從院內系統(tǒng)中獲取,卻可以通過互聯(lián)網(wǎng)平臺得到,是對臨床診療方案的重要補充和擴展。另外,互聯(lián)網(wǎng)上的醫(yī)學相關數(shù)據(jù)可能更早地暴露流感等輿情,進而在疫情監(jiān)控、抑郁癥預警等方面做出貢獻。
通過構建疾病知識圖譜明確關鍵診療環(huán)節(jié),為中文文本分詞提供自定義詞典,根據(jù)分詞結果統(tǒng)計關鍵診療環(huán)節(jié)在互聯(lián)網(wǎng)醫(yī)學數(shù)據(jù)中的頻次,最終為家庭醫(yī)療場景提供臨床決策支持。本文將網(wǎng)絡爬蟲技術、語義技術、分詞和統(tǒng)計方法相結合,從互聯(lián)網(wǎng)數(shù)據(jù)中發(fā)現(xiàn)診療規(guī)律、提煉治療路徑,提出一種基于互聯(lián)網(wǎng)醫(yī)學數(shù)據(jù)輔助診療的技術方法,是對院內數(shù)據(jù)挖掘的有效補充和拓展,為建立醫(yī)學大數(shù)據(jù)科研輔助分析引擎打下基礎,將在家庭醫(yī)療領域發(fā)揮重要的作用。