尹梓名,孫大運,胡曉暉,孔祥勇,黃正行
1(上海理工大學(xué) 醫(yī)療器械與食品學(xué)院,上海 200093)2(上海市浦東新區(qū)浦南醫(yī)院 脊柱外科,上海 200125)3(浙江大學(xué) 生物醫(yī)學(xué)工程與儀器科學(xué)學(xué)院,杭州 310007) E-mail:weisskopf@hotmail.com
在世界衛(wèi)生組織(World Health Organization,WHO)的定義中,骨質(zhì)疏松癥是一種以骨量減少、骨組織微結(jié)構(gòu)破壞、骨骼脆性增加和易發(fā)生骨折的全身性疾病[1,2].考慮到骨質(zhì)疏松性骨折和骨強度密切相關(guān),美國國立衛(wèi)生研究院(National Institutes of Health,NIH)將骨質(zhì)疏松定義為一種以骨強度降低致使肌體患骨折危險性增加為特征的疾病[3].其表現(xiàn)為骨密度降低和骨蛋白濃度的變化.骨質(zhì)疏松癥會影響全身骨骼,導(dǎo)致骨折風(fēng)險增加,且沒有明顯的預(yù)兆.隨著年齡的增加,骨密度降低,骨折風(fēng)險增加,若不及時發(fā)現(xiàn)和治療,導(dǎo)致病情加重和死亡率增加.
常見的骨質(zhì)疏松性骨折發(fā)生在髖部、脊椎、腕部等部位,且年齡是判斷骨質(zhì)疏松癥的重要因素之一,在50歲以后,骨質(zhì)疏松癥的發(fā)病率顯著增加[4].骨質(zhì)疏松癥可根據(jù)其病因分為原發(fā)性和繼發(fā)性.原發(fā)性骨質(zhì)疏松癥多發(fā)病于絕經(jīng)后婦女群體,繼發(fā)性骨質(zhì)疏松癥是由于疾病或藥物等原因所致[5],臨床上以內(nèi)分泌代謝疾病、結(jié)締組織疾病、腎臟疾病、消化道疾病等為主,可能發(fā)生在任何群體身上.骨質(zhì)疏松癥的發(fā)病率高,前期沒有明顯的癥狀和警示信號,第一個明顯癥狀往往是骨折.正因為這些原因,人們意識到自己患有骨質(zhì)疏松時,往往已經(jīng)是晚期,所以骨質(zhì)疏松癥又被稱為“無聲的流行病”,及時的預(yù)測骨質(zhì)疏松癥顯得尤為重要.
在骨質(zhì)疏松癥的診斷中,X射線可以觀察到骨骼的輪廓和內(nèi)部結(jié)構(gòu),但其識別能力較低,只有當(dāng)骨量丟失30%才能發(fā)現(xiàn);從單光子骨礦物質(zhì)密度(Bone Mineral Density,BMD)測定儀、雙光子BMD測定儀、定量CT檢查,到目前通用的雙能X線BMD測試儀(Dual Energy X-ray Absorptiometry,DXA)等方法也可以測量骨量[2].DXA被認(rèn)為是黃金標(biāo)準(zhǔn),但即使在大多數(shù)發(fā)達(dá)國家,使用這種設(shè)備的機會仍然不足[6].所以,對骨質(zhì)疏松的診斷還較為困難.同時,骨質(zhì)疏松癥的治療成本較高,造成了重大的經(jīng)濟(jì)損失.根據(jù)世界范圍的預(yù)測,目前髖部骨折的費用中,男性為36億美元,女性為190億美元,到2050年,預(yù)計男性為140億美元,女性為730億美元[7].
2017年7月,國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中提到,應(yīng)深化人工智能在智能醫(yī)療領(lǐng)域的應(yīng)用,推廣應(yīng)用人工智能診療新模式、新手段,建立快速精準(zhǔn)的智能醫(yī)療體系.隨著醫(yī)療信息化的快速發(fā)展,電子病歷和健康檔案的實行,產(chǎn)生了大量的數(shù)據(jù)信息.通過人工智能技術(shù)與醫(yī)療大數(shù)據(jù)的結(jié)合,可以提升醫(yī)療衛(wèi)生服務(wù)能力,解決醫(yī)療資源緊缺等問題.例如:人工智能技術(shù)通過對海量的醫(yī)學(xué)文獻(xiàn)、病例數(shù)據(jù)和診斷方案進(jìn)行快速學(xué)習(xí),可以分析出數(shù)據(jù)之間的隱含關(guān)系;通過對醫(yī)學(xué)影像的智能分析,能夠準(zhǔn)確的進(jìn)行特征提取,定位病灶,從而輔助醫(yī)生進(jìn)行預(yù)測、診斷[8].
本文旨在對人工智能在骨質(zhì)疏松癥中的應(yīng)用進(jìn)行綜述,通過對相關(guān)研究所涉及的技術(shù)、方法等進(jìn)行系統(tǒng)討論,使讀者了解人工智能相關(guān)技術(shù)在骨質(zhì)疏松領(lǐng)域的應(yīng)用現(xiàn)狀和存在問題.本文結(jié)構(gòu)如下:首先對常用醫(yī)學(xué)人工智能技術(shù)進(jìn)行了介紹,包括基于啟發(fā)式知識的方法和常用的基于機器學(xué)習(xí)的方法;然后從骨質(zhì)疏松癥的危險因素分析、風(fēng)險預(yù)測和識別診斷三方面,對人工智能技術(shù)在骨質(zhì)疏松癥中應(yīng)用的相關(guān)研究做了回顧總結(jié);最后,對其現(xiàn)存的局限性做了總結(jié)并對未來發(fā)展進(jìn)行了展望.
將人工智能技術(shù)應(yīng)用在醫(yī)學(xué)領(lǐng)域,主要有兩種方式:基于啟發(fā)式知識的方法和基于機器學(xué)習(xí)的方法.
基于啟發(fā)式知識的方法主要應(yīng)用于構(gòu)建醫(yī)學(xué)專家系統(tǒng),依賴于存儲在知識庫中的專家知識和 推理引擎中的推理技術(shù),像專家一樣對病情進(jìn)行診斷.主要包含規(guī)則推理、框架推理和基于臨床指南模型的推理等方法.
2.1.1 規(guī)則推理
規(guī)則是一種特定領(lǐng)域的知識表達(dá),它封裝了用于決策的邏輯流程.在基于產(chǎn)生式規(guī)則的系統(tǒng)中,每一個知識單元是一個單獨的IF-THEN邏輯語句,推理引擎評估可用的數(shù)據(jù)和語句,選擇下一個執(zhí)行的語句.產(chǎn)生式規(guī)則的格式是IF-THEN語句:
IF(condition) THEN (action)
(condition)代表一條邏輯語句,如果為真,就執(zhí)行(action).Condition部分也稱作語句的左手邊(left-hand side,LHS),Action部分被稱為右手邊(right-hand side,RHS).Condition 可以是一個簡單的、與單個可用數(shù)據(jù)值的比較,也可以是一個復(fù)雜的布爾邏輯語句,如:IF 紅斑AND 化膿AND NOT 腺病,THEN 結(jié)論“病毒性咽炎”.基于產(chǎn)生式規(guī)則的推理由匹配、選擇和執(zhí)行組成一個不斷重復(fù)的環(huán).
2.1.2 框架推理
框架是把某一特殊時間或?qū)ο蟮乃兄R存儲在一起的一種復(fù)雜的數(shù)據(jù)結(jié)構(gòu).框架通常由描述事物的各個方面的槽組成,每個槽描述對象的某一方面的特性.槽由槽名和槽值組成,同一個槽有多種類型的槽值,每種類型成為槽值的一個側(cè)面.每個槽可以擁有若干個側(cè)面,而每個側(cè)面可以包含若干個值.框架如何設(shè)計取決于具體問題.一般來說,在實際應(yīng)用中,使用一個框架是不夠的,必須同時使用多個框架,并組成框架系統(tǒng).框架是一種通用的知識表達(dá)形式,目前關(guān)于如何建立框架還沒有統(tǒng)一的方法論,通常是根據(jù)具體問題具體分析.基于框架的系統(tǒng)的優(yōu)點是具有良好的繼承性、結(jié)構(gòu)化和自然性,以及推理靈活多變.它的不足之處主要在于它不善于表達(dá)過程性知識,而臨床診斷恰恰是具有創(chuàng)造性的思維過程,所以基于框架的系統(tǒng)在實際中應(yīng)用的例子并不多.
2.1.3 基于臨床指南模型的推理
在臨床實踐中,臨床指南作為一系列診斷標(biāo)準(zhǔn)的集合可用于指導(dǎo)臨床診斷.從20世紀(jì)90年代中后期一直到21世紀(jì)初,隨著臨床指南研究的發(fā)展,出現(xiàn)了許多以臨床指南為建模對象的模型和方法,稱為計算機可解釋的指南(computer-interpretable guideline,CIG),比較著名的有Asbru[9],PROforma[10],EON[11],GLIF[12],SAGE[13]等,并涌現(xiàn)出一大批根據(jù)這些模型開發(fā)的專家系統(tǒng),如ATHENA[14],PRODIGY[15]等.這些指南模型各有偏重,GLIF方法關(guān)注指南的標(biāo)準(zhǔn)化,PROforma關(guān)注于執(zhí)行方面,Asbru關(guān)注于復(fù)雜時間計劃的表達(dá)和可視化,EON關(guān)注于支持指南開發(fā)和執(zhí)行的架構(gòu)的開發(fā).這種基于臨床指南模型構(gòu)建專家系統(tǒng)的方法本質(zhì)上也是構(gòu)建專家系統(tǒng)的方法.與傳統(tǒng)專家系統(tǒng)相比,它只是在構(gòu)建思路上稍有不同.它不將診斷視為一個單獨的事件,而是將其視為一個持續(xù)的、從收集體征數(shù)據(jù),檢查檢驗,重新評估數(shù)據(jù),直到足夠確信度的結(jié)論并采取治療措施的過程.它在知識的表達(dá)方式上并不用基于符號的方法,而是將其抽象成一個個的流程圖.在診斷的過程中,基于CIG的專家系統(tǒng)提示醫(yī)生收集各種信息,然后將形式化的指南知識和最新的病人臨床數(shù)據(jù)進(jìn)行匹配,最后提供基于特定病人的建議,影響醫(yī)生的臨床行為.
上述幾類專家系統(tǒng)在各自的應(yīng)用場景下取得了一定的效果,但是有相當(dāng)一部分系統(tǒng)只是停留在評估階段,并未在臨床上獲得廣泛的接受.拋開系統(tǒng)應(yīng)用設(shè)計層面的問題,最主要的原因就是專家系統(tǒng)中的知識相對于醫(yī)療的復(fù)雜性來說還是過于簡單.醫(yī)學(xué)是一個相當(dāng)復(fù)雜的體系,存有大量科學(xué)無法論證的不確定性,很難進(jìn)行完全的醫(yī)學(xué)知識表達(dá),并且傳統(tǒng)推理技術(shù)還無法模擬醫(yī)生診斷和治療的決策過程.比如在臨床信息缺失的情況下,臨床醫(yī)生可以憑借豐富的醫(yī)學(xué)經(jīng)驗,依據(jù)不完整、不夠精確的臨床信息進(jìn)行推理,確定臨床診斷并提出治療方案,但上述專家系統(tǒng)卻在這方面無法與醫(yī)生相比,在不確定的情況下難以進(jìn)行準(zhǔn)確的分析和推理.另外一種常見的情況是,由于疾病的復(fù)雜性和人的個體差異,很多疾病會出現(xiàn)非典型癥狀,依據(jù)啟發(fā)式方法構(gòu)建的專家系統(tǒng)很難處理這部分情況,從而判斷錯誤.
常用在骨質(zhì)疏松領(lǐng)域的機器學(xué)習(xí)方法,包括Logistics回歸、決策樹、隨機森林,人工神經(jīng)網(wǎng)絡(luò)、支持向量機、集成學(xué)習(xí)以及最新的深度學(xué)習(xí)技術(shù).
2.2.1 Logistics回歸
Logistic回歸(Logistics Regression,LR)[16]是一種機器學(xué)習(xí)技術(shù),常用于數(shù)據(jù)挖掘、醫(yī)療診斷等領(lǐng)域.例如分析疾病的危險因素,并根據(jù)危險因素預(yù)測疾病發(fā)生的概率.LR是分析二進(jìn)制醫(yī)學(xué)數(shù)據(jù)的黃金標(biāo)準(zhǔn)方法,因為它不僅提供預(yù)測結(jié)果,而且產(chǎn)生附加信息,例如診斷比值比.在流行病學(xué)研究中,Logistics回歸模型有兩個基本用途,篩選與應(yīng)變量有聯(lián)系的自變量和控制混雜因素.公式(1)是簡單的Logistics回歸方程,其中g(shù)(x)=w0+w1x1+…+wnxn,wn是變量xn的權(quán)值.圖1是簡單的邏輯回歸模型.
(1)
圖1 邏輯回歸模型Fig.1 Logistic regression model
2.2.2 決策樹
決策樹(Decision Tree,DT)[17]是一種歸納學(xué)習(xí)算法,其利用一組無規(guī)則、無次序的實例推理出有效的分類規(guī)則,從而對數(shù)據(jù)進(jìn)行分類.決策樹先通過訓(xùn)練集進(jìn)行學(xué)習(xí),得到一個測試函數(shù),然后根據(jù)不同的權(quán)值建立樹的分支,即葉子節(jié)點,在每個葉子節(jié)點下又建立層次節(jié)點和分支,藉此生成決策樹.決策樹以樹狀圖的形式表示預(yù)測結(jié)果,比較直觀.常用的決策樹算法包括ID3和C4.5等.ID3算法根據(jù)信息理論,采用劃分后樣本集的不確定性作為衡量劃分好壞的標(biāo)準(zhǔn),在每個分葉
圖2 決策樹模型Fig.2 Decision tree model
節(jié)點選取時,選擇信息增益最大的屬性作為測試屬性.C4.5是對ID3算法的改進(jìn)和擴(kuò)展,其用信息增益率來選擇屬性,克服了ID3在選擇屬性時偏向選擇取值多的屬性的不足,當(dāng)屬性值空缺時,通過使用不同的修剪技術(shù)以避免樹的過擬合[18].圖2是簡單的決策樹模型.
2.2.3 隨機森林
隨機森林(Random Forest,RF)[19]通過自助法重采樣技術(shù),從訓(xùn)練集中重復(fù)隨機抽取k個分類樹組成隨機森林.新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定.其實質(zhì)是對決策樹算法的一種改進(jìn),將多個決策樹合并在一起,每棵樹的建立依賴于一個獨立抽取的樣品.隨機森林中的每棵樹具有相同的分布,分類誤差取決于每一顆樹的分類能力和他們之間的相關(guān)性.特征選擇采取隨機的方法去分裂每一個節(jié)點,然后比較不同情況下產(chǎn)生的誤差.能夠檢測到的內(nèi)在估計誤差、分類能力和相關(guān)性決定選擇特征的數(shù)目.單棵樹的分類能力可能很小,但在隨機產(chǎn)生大量的決策樹后,一個測試樣品可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類[20].
2.2.4 神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種非線性映射方法,屬于隱式數(shù)學(xué)處理方法,不需要建立數(shù)學(xué)模型,是由網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)概括出的知識,以多組權(quán)值及閥值的方式存儲與各個神經(jīng)元中,從而構(gòu)建網(wǎng)絡(luò)知識,利用該知識來評估或預(yù)測相關(guān)因素的結(jié)果[21].在神經(jīng)網(wǎng)絡(luò)應(yīng)用于骨質(zhì)疏松癥的診斷中,需要建立診斷分類的神經(jīng)網(wǎng)絡(luò)模型,利用神經(jīng)網(wǎng)絡(luò)對已有的數(shù)據(jù)集進(jìn)行訓(xùn)練,并用測試集對其進(jìn)行仿真測試,再對未知的病情進(jìn)行診斷分析,以得到較為準(zhǔn)確的分類結(jié)果.
圖3 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Artificial neural network model
在人工神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中,無需人為確定權(quán)重,可以減少診斷過程的人為因素,從而提高診斷的靠靠性,使診斷結(jié)果更有效、更客觀,有助于有效的降低骨質(zhì)疏松診斷的誤診率和漏診率[22].圖3是簡單的人工神經(jīng)網(wǎng)絡(luò)模型.
2.2.5 支持向量機
支持向量機(Support Vector Machine,SVM)基于核函數(shù)的分類方法,聯(lián)合多個參數(shù)值,在非線性空間利用支持向量機分類算法,能夠?qū)崿F(xiàn)有效的數(shù)據(jù)分類,得到非線性分類邊界[23].神經(jīng)網(wǎng)絡(luò)根據(jù)經(jīng)驗風(fēng)險最小化原則(Empirical risk minimization,ERM)來訓(xùn)練學(xué)習(xí),而支持向量機則根據(jù)結(jié)構(gòu)風(fēng)險最小化原則(Structural Risk Minimization,SRM)提高學(xué)習(xí)的泛化能力,避免了神經(jīng)網(wǎng)絡(luò)存在的“過學(xué)習(xí)”問題[24].支持向量機在圖像處理、文本分類等領(lǐng)域應(yīng)用廣泛.但是,對于輸入變量較多、樣本集較大的情況下,支持向量機的計算復(fù)雜性和空間復(fù)雜性會急劇增加,導(dǎo)致訓(xùn)練時間長、耗用內(nèi)存資源大.通??蓮膬蓚€方面來解決,一種是訓(xùn)練算法的改進(jìn),如SMO、CSVM等;另一種是通過簡化訓(xùn)練數(shù)據(jù)集來降低計算復(fù)雜性[25].圖4是簡單的支持向量機模型示意圖.
圖4 支持向量機模型示意圖Fig.4 Support vector machine model
2.2.6 集成學(xué)習(xí)
集成學(xué)習(xí)(Ensemble Learning,EL)是當(dāng)下機器學(xué)習(xí)的熱門研究方向之一.通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),以取得比單個分類器更好的效果,有時也被稱為多分類器系統(tǒng)(multi-classifier system)、基于委員會的學(xué)習(xí)(committee-based learning)等[26].一般來說,單一的算法在某方面存在缺陷,當(dāng)處理復(fù)雜問題時,這些缺陷變得特別明顯和關(guān)鍵,例如其數(shù)據(jù)通常具有高度復(fù)雜性、不完整性的問題.在單個算法無法滿足實際診斷的需求的時候,多種不同算法的組合可以實
圖5 集成學(xué)習(xí)模型示意圖Fig.5 Ensemble learning model
現(xiàn)缺陷的互相彌補,保證機器學(xué)習(xí)的質(zhì)量和效率,有效的降低骨質(zhì)疏松預(yù)測、診斷的誤診率和漏診率.通常通過模型的可靠性、多樣性、準(zhǔn)確性等來判斷集成模型的優(yōu)劣.圖5是簡單的集成模型示意圖.
2.2.7 深度學(xué)習(xí)
深度學(xué)習(xí)(Deep Learning)是機器學(xué)習(xí)的新領(lǐng)域,旨在通過構(gòu)建多隱含層的模型和大量的訓(xùn)練集數(shù)據(jù)來學(xué)習(xí)更有效的特征,從而提高分類或預(yù)測的準(zhǔn)確性[27].與傳統(tǒng)的淺層學(xué)習(xí)相比,深度學(xué)習(xí)具有以下特點:一是特征學(xué)習(xí),其可以根據(jù)不同的應(yīng)用自動從海量的數(shù)據(jù)中學(xué)習(xí)到所需的高級特征表示,更能表達(dá)數(shù)據(jù)的內(nèi)在信息;二是深層結(jié)構(gòu),深度學(xué)習(xí)模型結(jié)構(gòu)深,通常具有5層甚至更多層的隱含層節(jié)點,包含更多的非線性變換,使得擬合復(fù)雜模型的能力大大提高;三是無監(jiān)督學(xué)習(xí),模型通過數(shù)據(jù)內(nèi)在的一些特征和聯(lián)系將數(shù)據(jù)自動分類[28].通過在訓(xùn)練過程中加入無監(jiān)督學(xué)習(xí)作為預(yù)訓(xùn)練,使得深度學(xué)習(xí)模型相比人工神經(jīng)網(wǎng)絡(luò)具有更好的分類能力.
人工智能在骨質(zhì)疏松中的應(yīng)用,根據(jù)其在骨質(zhì)疏松癥中的作用目的,可以分別從骨質(zhì)疏松癥的危險因素分析、風(fēng)險預(yù)測、識別和診斷等方面分析.
研究表明,影響骨質(zhì)疏松的危險因素復(fù)雜多樣.例如,肥胖[29]、體重指數(shù)(BMI)[30]、脂質(zhì)分布[31-34]等都有可能是影響骨質(zhì)疏松癥的危險因素.確定骨質(zhì)疏松癥的危險因素,可以制定更有效的、有針對性的預(yù)防方案,以及根據(jù)危險因素對骨質(zhì)疏松進(jìn)行預(yù)測或診斷.這些都有待于利用人工智能技術(shù)進(jìn)行精確分析和預(yù)測.
利用人工智能技術(shù)可以有效地分析影響骨質(zhì)疏松癥的危險因素,為此,很多學(xué)者進(jìn)行了大量的工作.2005年,Akkus Z 等基于多元二元回歸,來確定骨質(zhì)疏松的危險因素,并評估骨質(zhì)疏松的風(fēng)險變量.這項研究表明,低水平的膳食鈣攝入、體育活動、教育和更年期延長是我們?nèi)巳旱凸敲芏蕊L(fēng)險的獨立預(yù)測因子,適量的膳食鈣攝入,結(jié)合日常體育鍛煉,提高教育水平,降低產(chǎn)次,延長母乳喂養(yǎng)時間,有助于骨骼健康[35].G Huang等基于多元回歸,分析危險因素與骨質(zhì)疏松之間的關(guān)系.結(jié)果顯示,骨質(zhì)疏松的主要危險因素,男性是年齡,女性是絕經(jīng)后的持續(xù)時間[36].2006年,Chiu JS等基于人工神經(jīng)網(wǎng)絡(luò)對骨質(zhì)疏松癥的危險因素做了研究,認(rèn)為影響骨質(zhì)疏松癥的主要危險因素包括:人口學(xué)特征、人體測量和臨床資料(性別、年齡、體重、身高、體重指數(shù)、絕經(jīng)后狀況、咖啡消費)[37].陳湘定等基于人工神經(jīng)網(wǎng)絡(luò),對影響骨密度的12個因素進(jìn)行分析,結(jié)果表明,性別影響因素最大,身高、體重、年齡的作用均比基因的作用強,在基因中雌激素受體α基因作用很強,而骨鈣素(BGP)基因的作用最弱[38].2009年,C.Ordó?ez等基于支持向量機模型,研究影響骨質(zhì)疏松癥的危險因素,研究顯示飲食生活習(xí)慣身高、體重、體重指數(shù)(BMI)、暴露于陽光下、鈣的攝入量、蛋白質(zhì)的攝入量、懷孕次數(shù)、膽固醇水平、碳水化合物的攝入量、脂肪、維生素D、鉀、鈉等的因素,影響絕經(jīng)后婦女的骨質(zhì)疏松癥[39].2012年,X Ma等基于Logistics回歸,分析動物性食物與骨質(zhì)疏松的關(guān)系.單因素回歸分析顯示與骨質(zhì)疏松相關(guān)的因素有年齡、出生數(shù)、肥胖、受過高等教育、高收入、蔬菜和牛肉;多因素Logistic回歸分析顯示,雞蛋可增加骨質(zhì)疏松癥的風(fēng)險,牛肉和蔬菜可降低骨質(zhì)疏松癥的風(fēng)險[40].2013年,Anastassopoulos等采用人工神經(jīng)網(wǎng)絡(luò)和遺傳算法的混合算法對骨質(zhì)疏松癥的危險因素進(jìn)行分析.結(jié)果表明更年期、年齡、酒精攝入量是重要的危險因素[41].2015年,Quan Liu等在老年髖骨骨折的危險性預(yù)測研究中,基于人工神經(jīng)網(wǎng)絡(luò)分析其危險因素,同時證明男性模型比女性模型的危險因素少,具有更好的分類性能[42].2016年,李茂蓉等基于Logistics回歸,分析絕經(jīng)后非糖尿病婦女骨質(zhì)疏松癥影響因素,單因素Logistics回歸分析顯示,年齡、文化程度、產(chǎn)次、體質(zhì)指數(shù)(BMI)、血清堿性磷酸酶(ALP)是骨質(zhì)疏松的可能影響因素,多因素Logistics回歸顯示高齡、高ALP是中老年絕經(jīng)后婦女骨質(zhì)疏松發(fā)病的可能影響因素[43].表1是有關(guān)骨質(zhì)疏松癥的危險因素分析的相關(guān)研究總結(jié).
表1 有關(guān)骨質(zhì)疏松癥危險因素分析的相關(guān)研究總結(jié)
Table 1 Summary of related studies on risk factors of osteoporosis
時間作者工具目的2005Akkus Z 等Logistics回歸危險因素分析2005G Huang等Logistics回歸危險因素分析2006Chiu JS等ANN識別、危險因素分析2006陳湘定等ANN危險因素分析2009C.Ordó?ez等SVM預(yù)測BMD、危險因素分析2012X Ma等Logistics回歸危險因素分析2013Anastassopoulos等ANN+GA危險因素分析2015Quan Liu等ANNS預(yù)測、危險因素分析2016李茂蓉等Logistics回歸危險因素分析
注釋:ANN(人工神經(jīng)網(wǎng)絡(luò))、ANNS(集成人工神經(jīng)網(wǎng)絡(luò))、SVM(支持向量機)、GA(遺傳算法)
從以上的研究中可以看出,在對骨質(zhì)疏松的危險因素進(jìn)行分析的過程中,Logistics回歸是最常用的機器學(xué)習(xí)算法.影響骨質(zhì)疏松的最常見的危險因素包括性別、年齡、體重、教育程度、產(chǎn)次等臨床參數(shù).同時可以發(fā)現(xiàn),在骨質(zhì)疏松癥的危險因素分析中,男性和女性存在差異性,對于男性來說,最重要的影響因素是年齡,而女性的絕經(jīng)時間影響力較大.
在骨質(zhì)疏松癥的風(fēng)險預(yù)測中,我們從對骨質(zhì)疏松癥的預(yù)測和對骨密度的預(yù)測兩方面進(jìn)行研究.
3.2.1 對骨質(zhì)疏松癥的預(yù)測
骨質(zhì)疏松癥早期的癥狀不明顯,不易被發(fā)現(xiàn),嚴(yán)重時容易導(dǎo)致骨質(zhì)疏松性骨折,這常常對患者的生活質(zhì)量產(chǎn)生顯著地負(fù)面影響,造成較大的經(jīng)濟(jì)損失,甚至威脅生命.因此骨質(zhì)疏松癥的早期診斷和預(yù)防是社會的重要醫(yī)學(xué)問題[44].如果可以對骨質(zhì)疏松癥進(jìn)行預(yù)測,就可以根據(jù)預(yù)測結(jié)果判斷,是否需要進(jìn)一步診斷,也避免了額外的花費和影像輻射危險.世界衛(wèi)生組織骨折風(fēng)險評估工具(FRAX)[45]和Garvan骨折風(fēng)險計算器[46],都被用來評估髖骨骨折的風(fēng)險.也有很多研究從人工智能方向入手,對骨質(zhì)疏松癥進(jìn)行預(yù)測.2005年,Wang等基于人工神經(jīng)網(wǎng)絡(luò)和決策樹的混合集成模型,對女性骨質(zhì)疏松癥進(jìn)行預(yù)測.結(jié)果顯示,集成模型相比單一模型具有較高的多樣性,有效的提高了預(yù)測的精度.然而,由于訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)和決策樹模型之間的差異性不夠高,無法顯著提高集成模型的性能,需進(jìn)一步提高其多樣性[6].同年,2005年,Sadatsafavi等采用人工神經(jīng)網(wǎng)絡(luò)對伊朗絕經(jīng)后婦女骨質(zhì)疏松癥進(jìn)行預(yù)測.結(jié)果表明,人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測性能高于傳統(tǒng)的回歸方法和目前公認(rèn)的決策規(guī)則[47].2008年,Chin-Ming Hong等基于模糊神經(jīng)網(wǎng)絡(luò),對骨質(zhì)疏松癥進(jìn)行預(yù)測.結(jié)果顯示,采用骨質(zhì)疏松危險因素問卷而不是其他侵入性方法或?qū)嶒炇覝y量來預(yù)測骨質(zhì)疏松癥,不僅可以顯著降低大規(guī)模篩查的成本,而且可以加快篩查過程[48].2010年,Mantzaris等基于概率神經(jīng)網(wǎng)絡(luò)(PNN)和學(xué)習(xí)向量量化(LVQ)神經(jīng)網(wǎng)絡(luò)來評估骨質(zhì)疏松癥的風(fēng)險,研究結(jié)果表明,PNN的正確率為96.58%,優(yōu)于LVQ的96.03%[49].2010年,G Anastassopoulos等基于概率神經(jīng)網(wǎng)絡(luò)(PNNS),評估骨質(zhì)疏松癥的風(fēng)險[50].2012年,支英杰等基于決策樹、人工神經(jīng)網(wǎng)絡(luò)、Logistic回歸模型,對絕經(jīng)后婦女的嚴(yán)重骨質(zhì)疏松癥預(yù)測進(jìn)行研究.通過比較三者的ROC曲線,發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)和Logistics回歸的擬合度較好,說明在嚴(yán)重骨質(zhì)疏松癥的預(yù)測研究中,可以考慮人工神經(jīng)網(wǎng)絡(luò)和Logistics回歸[51].同年,孫鳳等基于多變量Logistics回歸模型,對骨質(zhì)疏松癥進(jìn)行預(yù)測[52].2013年,Tae Keun Yoo等基于流行的機器學(xué)習(xí)模型,對骨質(zhì)疏松癥進(jìn)行預(yù)測,并將其與四種傳統(tǒng)的臨床決策工具:骨質(zhì)疏松自評工具(OST)、骨質(zhì)疏松風(fēng)險評估工具(ORAI)、簡單計算骨質(zhì)疏松風(fēng)險評估(SCORE)和骨質(zhì)疏松風(fēng)險指數(shù)(OSIRIS)進(jìn)行比較.結(jié)果顯示,在將年齡、身高、體重、體重指數(shù)、絕經(jīng)時間、母乳喂養(yǎng)時間、雌激素治療、高脂血癥、高血壓、骨關(guān)節(jié)炎和糖尿病等作為變量輸入的情況下,支持向量機模型優(yōu)于其他模型[53].2014年,李超等基于神經(jīng)網(wǎng)絡(luò)和支持向量機的集成模型,對原發(fā)性骨質(zhì)疏松癥進(jìn)行識別.結(jié)果顯示,集成模型充分利用神經(jīng)網(wǎng)絡(luò)非線性映射、自適應(yīng)、泛化能力和容錯能力強,以及支持向量機分類可靠度高,推廣性強的優(yōu)點,其識別誤差小于單一模型[54].同年,方驍然等基于支持向量機模型,通過常規(guī)的體檢參數(shù),對骨質(zhì)疏松癥進(jìn)行預(yù)測[55].2015年,Quan Liu等基于BP神經(jīng)網(wǎng)絡(luò),通過74個輸入變量,對老年髖骨骨折的危險性進(jìn)行預(yù)測.結(jié)果表明,人工神經(jīng)網(wǎng)絡(luò)在處理多輸入變量的復(fù)雜醫(yī)學(xué)模型方面是有效的.同時證明,男性模型比女性模型具有更好的性能,因為男性病例的復(fù)雜度低[42].同年,YC Juan等建立基于遺傳算法的集成分類器,采用健康檢查資料,預(yù)測骨質(zhì)疏松癥[56].2016年,E Tejaswini等基于人工神經(jīng)網(wǎng)絡(luò),利用年齡、性別、身高、體重、受傷或手術(shù)史、藥物史、運動和相關(guān)的醫(yī)學(xué)問題,對骨質(zhì)疏松癥進(jìn)行預(yù)測[57].2017年,TP Ho-Le等基于人工神經(jīng)網(wǎng)絡(luò),通過年齡、骨密度、臨床因素和生活方式因素,對絕經(jīng)后骨質(zhì)疏松癥患者,患髖部骨折進(jìn)行預(yù)測.研究表明,當(dāng)BMD和非BMD因子結(jié)合訓(xùn)練的模型,預(yù)測準(zhǔn)確度為87%,ROC曲線下面積(AUC)為0.94,該模型比單獨使用BMD或非BMD因子訓(xùn)練的模型分類效果好[58].
3.2.2 對骨密度的預(yù)測
目前骨質(zhì)疏松的主要識別特征——低骨密度(BMD),主要通過雙能X射線吸收法(DEXA)、定量超聲(QUS)、定量計算機斷層攝影(QCT)等方法進(jìn)行測量.這些方法所用的儀器設(shè)備非常昂貴,難以在貧窮國家廣泛推廣;且存在諸如X射線之類的輻射,影響人體健康.所以如果可以對骨密度值進(jìn)行預(yù)測,則可以避免不必要的花費和健康人群的輻射影響.2003年,E.I.Mohamed等基于人工神經(jīng)網(wǎng)絡(luò),將人體測量數(shù)據(jù)(性別、年齡、體重、身高、體重指數(shù)、腰臀比和四個皮褶厚度之和)作為獨立輸入變量輸入人工神經(jīng)網(wǎng)絡(luò),可用于預(yù)測和估計特定部位的BMD值[59].2009年,C.Ordó?ez等基于支持向量機,研究骨密度和飲食及生活習(xí)慣的關(guān)系,并對骨密度值進(jìn)行預(yù)測.同時結(jié)果表明,額外的鈣攝入,適當(dāng)?shù)谋┞队陉柟庀?體重控制,有規(guī)律的體育活動和足夠的熱量攝入是減少絕經(jīng)后婦女骨量損失的主要因素[39].2011年,FJDC Juez等基于人工神經(jīng)網(wǎng)絡(luò),通過營養(yǎng)習(xí)慣和生活方式,對骨密度進(jìn)行預(yù)測.同時為了減少輸入變量的數(shù)量,使用遺傳算法處理原始變量,通過僅考慮重要變量的神經(jīng)網(wǎng)絡(luò)模型,預(yù)測絕經(jīng)后婦女的骨密度[60].2017年,M Shioji等基于人工神經(jīng)網(wǎng)絡(luò),通過年齡、體重、身高、絕經(jīng)年齡、月經(jīng)初潮年齡、絕經(jīng)后持續(xù)時間、BMI、體脂百分比、脂肪質(zhì)量、瘦體重、腰椎(L2-L4)或股骨BMD值,對絕經(jīng)后婦女骨密度值及骨丟失率進(jìn)行預(yù)測[61].
從以上相關(guān)研究可以看出,在骨質(zhì)疏松癥或者骨密度的預(yù)測中,一般使用臨床問診、常規(guī)體檢參數(shù)等不需要花費過多金錢和過多儀器檢測得來的數(shù)據(jù),對骨密度或者骨質(zhì)疏松癥進(jìn)行預(yù)測,從而判斷受試者是否需要進(jìn)一步全面的診斷,降低醫(yī)療費用和患者被輻射的風(fēng)險.表2是有關(guān)骨質(zhì)疏松癥預(yù)測的相關(guān)研究總結(jié).
骨質(zhì)疏松癥的特征是骨礦物質(zhì)含量的異常丟失,從而導(dǎo)致非創(chuàng)傷性骨折或骨結(jié)構(gòu)變形的趨勢.因此,準(zhǔn)確估計骨密度已成為確定骨質(zhì)疏松癥狀態(tài)和在骨質(zhì)疏松癥治療中患者隨訪研究的最重要的診斷方法.但是許多研究表明骨密度不足以預(yù)測骨質(zhì)疏松性骨折的可能性,其他因素,如骨小梁的微觀結(jié)構(gòu)和載荷分布對骨質(zhì)疏松性骨折有顯著影響.以下,我們通過研究者分析所用數(shù)據(jù)源的不同類型來對相關(guān)研究進(jìn)行回顧.
3.3.1 以問題量表為數(shù)據(jù)源
在不接受醫(yī)學(xué)影像檢查的情況下,通過問題量表、常規(guī)體檢參數(shù)等,可以對骨質(zhì)疏松癥進(jìn)行識別.
如:2006年,Chiu JS等基于人工神經(jīng)網(wǎng)絡(luò),通過人口學(xué)特征、人體測量和臨床資料(性別、年齡、體重、身高、體重指數(shù)、絕經(jīng)后狀況、咖啡消費),對老年骨質(zhì)疏松癥進(jìn)行識別[37].2011年,程若珠等基于BP神經(jīng)網(wǎng)絡(luò),通過性別、身高、體重、臨床癥狀問診、胸腰椎及股骨頸骨密度,對骨質(zhì)疏松癥進(jìn)行識別[22].2013年,Sung Kean Kim等基于支持向量機模型,通過年齡、身高、體重、體重指數(shù)、絕經(jīng)時間、母乳喂養(yǎng)時間、雌激素治療、高血壓、高脂血癥、糖尿病和骨關(guān)節(jié)炎等,對絕經(jīng)后婦女骨質(zhì)疏松癥進(jìn)行識別,并與傳統(tǒng)的臨床決策工具——骨質(zhì)疏松癥自我評估工具(OST)進(jìn)行了對比.通過對比建立的SVM模型能更準(zhǔn)確的區(qū)分骨質(zhì)疏松癥婦女和對照婦女,年齡和體重與骨質(zhì)疏松的發(fā)展密切相關(guān)[62].2016年,Pedrassani等基于J48決策樹模型,通過年齡段、先前骨折、先前骨折數(shù)目、先前股骨頸骨折、先前脊柱骨折、先前前臂骨折、先前t肋骨,藥物使用,更年期,鈣的使用,激素替代療法,甲狀腺藥物的使用,子宮切除術(shù),卵巢切除術(shù),診斷,體重指數(shù)(BMI),體重和三度肥胖等,對骨質(zhì)疏松癥進(jìn)行識別[63].
表2 有關(guān)骨質(zhì)疏松癥風(fēng)險預(yù)測的相關(guān)研究總結(jié)
Table 2 Summary of related research on prediction of osteoporosis
時間作者工具目的2003E.I.Mohamed等ANN預(yù)測BMD2005M.Sadatsafavi等ANN預(yù)測2005Wenjia Wang等ANN+DT預(yù)測2008Chin-Ming Hong等FNN預(yù)測2009C.Ordó?ez等SVM預(yù)測BMD、危險因素分析2010G Anastassopoulos等PNNS預(yù)測2010Mantzaris等PNN、LVQ預(yù)測2011FJDC Juez等ANN預(yù)測BMD2012支英杰等ANN、DT、Lo-gistics回歸預(yù)測2012孫鳳等Logistics回歸預(yù)測2013Tae Keun Yoo等SVM、RF、ANN、Logistics回歸預(yù)測2014方驍然等SVM預(yù)測2014Theodors Lliou等ANN、SVM、RF等預(yù)測2014李超等ANN+SVM預(yù)測2015YC Juan等GA預(yù)測2015Quan Liu等ANNS預(yù)測、危險因素分析2016E Tejaswini等ANN預(yù)測2017M Shioji等ANN預(yù)測BMD和骨丟失率2017TP Ho-Le等ANN預(yù)測髖骨骨折
注釋:ANN(人工神經(jīng)網(wǎng)絡(luò))、SVM(支持向量機)、DT(決策樹)、FNN(模糊神經(jīng)網(wǎng)絡(luò))、PNNS(集成概率神經(jīng)網(wǎng)絡(luò))、GA(遺傳算法)、RF(隨機森林)、LVQ(學(xué)習(xí)矢量量化)等
3.3.2 以醫(yī)學(xué)影像為數(shù)據(jù)源
醫(yī)學(xué)影像是醫(yī)學(xué)檢測中的常用手段,在骨質(zhì)疏松癥的診斷中,我們可以通過特定部位(髖關(guān)節(jié)、腕關(guān)節(jié)、椎體等)的醫(yī)學(xué)影像,觀察其紋理、結(jié)構(gòu)等,來進(jìn)行識別.2005年,AM Badawi等基于模糊邏輯和神經(jīng)網(wǎng)絡(luò),對骨質(zhì)疏松癥進(jìn)行識別.結(jié)果顯示,該模型的診斷效率為97%,可以很好地識別骨質(zhì)疏松癥[64].2007年,Chen等基于人工神經(jīng)網(wǎng)絡(luò),選取以下參數(shù)作為輸入:三個骨密度參數(shù)(股骨頸、全身、L2L4脊柱)、三個分形參數(shù)(最小、平均、最大)和年齡,對骨質(zhì)疏松患者進(jìn)行判別,達(dá)到81.66%的正確分類,相比之下,傳統(tǒng)的分類方法只能達(dá)到72%的正確分類[65].2008年,Moua Meneses等基于多層感知神經(jīng)網(wǎng)絡(luò),應(yīng)用于顯微斷層圖像、X射線成像、骨識別中,對骨質(zhì)疏松癥進(jìn)行識別[66].第二年,作者基于人工神經(jīng)網(wǎng)絡(luò)對圖像像素進(jìn)行分類,對人骨小梁結(jié)構(gòu)進(jìn)行定量分析.結(jié)果表明,盡管骨小梁結(jié)構(gòu)復(fù)雜,但人工神經(jīng)網(wǎng)絡(luò)在圖像像素的識別和定量分析以及圖像的特征相容性方面是成功的[67].2010年,R.Jennane等基于遺傳算法,通過髖關(guān)節(jié)顯微CT圖像,對骨質(zhì)疏松癥進(jìn)行識別[68].同年,Zhi Gao等基于C4.5決策樹模型,對骨小梁顯微CT影像中提取的特征進(jìn)行分類,以識別骨質(zhì)疏松癥[69].2012年,Harrar K等基于多層感知(MLP)神經(jīng)網(wǎng)絡(luò),通過骨結(jié)構(gòu)的五個特征:年齡、骨礦物質(zhì)含量(BMC)、骨礦物質(zhì)密度(BMD)、分形赫斯特指數(shù)(H.)和共流紋理特征(CoEn),來對骨質(zhì)疏松癥進(jìn)行早期診斷.研究結(jié)果顯示,MLP可以達(dá)到97%的正確估計,優(yōu)于貝葉斯網(wǎng)絡(luò)的86%,Logistics回歸的96%[70].同年,Istanbullu,M等基于人工神經(jīng)網(wǎng)絡(luò)和支持向量機,通過計算機斷層掃描圖片,來識別骨質(zhì)疏松癥,ANN的準(zhǔn)確率為70%,SVM的準(zhǔn)確率為86%[71].2013年,Yan Xu等基于支持向量機和k-近鄰(KNN),通過顯微CT圖像進(jìn)行骨質(zhì)疏松診斷.研究選擇的圖像特征,包括骨體積/總?cè)莘e(BV/TV)、骨表面/骨體積(BS/BV)、骨小梁數(shù)目(Tb.N)和體積拓?fù)浞治?VTA)的其他四個特征.結(jié)果顯示SVM模型的分類效果優(yōu)于KNN模型,同時除了選擇的特征外,圖像紋理特征也有助于骨質(zhì)疏松的識別[72].同年,Sapthagirivasan等基于支持向量機模型,從髖關(guān)節(jié)的影像信息中提取骨小梁特征,以識別低骨密度的受試者[73].D.S.Li等基于支持向量機,通過體積拓?fù)浞治鰪娘@微CT圖像中獲得骨密度(BMD)以及與骨小梁(TB)結(jié)構(gòu)相關(guān)的四個參數(shù),識別骨質(zhì)疏松癥[4].2014年,周珂等基于度量學(xué)習(xí)和支持向量機的集成模型,通過對骨質(zhì)疏松紋理進(jìn)行分析,來識別骨質(zhì)疏松癥.結(jié)果顯示,基于度量的SVM模型比單獨使用度量學(xué)習(xí)和SVM 的識別率高,而且分類結(jié)果穩(wěn)定,在臨床影像中應(yīng)用可以盡快對患者進(jìn)行確診和盡早治療[74].2015年,Tafraouti等基于支持向量機模型,對從X射線影像中提取的特征進(jìn)行分類,來識別骨質(zhì)疏松癥[75].2016年,劉健基于支持向量機,對顯微CT影響進(jìn)行自動分類,診斷骨質(zhì)疏松疾病[76].同年,2016年,N Kilic等基于隨機子空間方法和隨機森林(RSM-RF)集成模型,對骨質(zhì)疏松癥進(jìn)行識別[77].2017年,蔡潔等將從骨小梁圖像中提取出的紋理特征和形狀特征相結(jié)合,用支持向量機、K-最近鄰分類算法和線性判別分析方法,對骨質(zhì)疏松癥進(jìn)行識別.結(jié)果表明,紋理參數(shù)和性狀特征結(jié)合是,模型分類準(zhǔn)確性比用一種參數(shù)的分類準(zhǔn)確性高[78].同年,Muatapha Aouache等基于模糊決策樹(FDT)模型,通過對頸椎影像識別,對骨質(zhì)疏松癥進(jìn)行識別[79].Reshmalakshmi C等基于模糊專家系統(tǒng)和常規(guī)X射線圖像處理技術(shù)的集成模型,通過臨床影像,對骨質(zhì)疏松癥進(jìn)行識別.結(jié)果顯示,該集成模型有助于診斷骨質(zhì)疏松和骨量減少[80].Yassine Nasser等提出了一種基于深度學(xué)習(xí)的骨質(zhì)疏松癥診斷新方法[81].
在通過醫(yī)學(xué)影像骨質(zhì)疏松的識別中,除了對特定部位的醫(yī)學(xué)影像進(jìn)行研究,也可通過牙科醫(yī)學(xué)影像來判斷骨質(zhì)疏松.據(jù)調(diào)查,絕經(jīng)后婦女進(jìn)行骨質(zhì)疏松癥診斷的比例很低[82],但有很多機會去牙科所進(jìn)行口腔護(hù)理和治療,每年拍攝大量的牙科全景影像(日本約1200萬,美國約1700萬)用于診斷和治療牙科疾病,如齲齒和牙周病,但沒有用于非牙科的診斷[83],從牙科全景影像中提取的平層寬度和形狀進(jìn)行重新分類,對骨質(zhì)疏松癥進(jìn)行診斷,具有較好的敏感性和特異性.2007年,Arifin等基于模糊神經(jīng)網(wǎng)絡(luò)(FNN),通過絕經(jīng)后婦女的牙科全景影像,對骨質(zhì)疏松癥進(jìn)行識別.結(jié)果表明,FNN結(jié)合皮質(zhì)寬度和形狀可用于牙科臨床骨質(zhì)疏松癥患者的鑒別[84].2008年,Sooyeul Lee等基于支持向量機,使用X光影像,結(jié)合BMDS參數(shù),區(qū)分骨質(zhì)疏松骨折和非骨折組,并與僅適用BMDS的參數(shù)對比,檢測骨質(zhì)疏松骨折的靈敏度和特異性顯著增加[67].2012年,M S Kavitha等基于支持向量機,通過牙科全景影像上關(guān)于下頜骨皮質(zhì)寬度,對低骨密度的絕經(jīng)后婦女進(jìn)行識別[85].2013年,KM Subash等基于凝聚層級聚類(HAC)和支持向量機的集成模型,對牙齒的全景影像進(jìn)行分類,對骨質(zhì)疏松癥進(jìn)行識別[86].2014年,Suprijanto 等基于支持向量機,通過牙齒全景影像,對骨質(zhì)疏松癥進(jìn)行識別[87].2016年,MS Kavitha等基于混合遺傳算法(GSF)模糊分類器,利用牙科數(shù)字影像,對骨質(zhì)疏松癥進(jìn)行識別,進(jìn)一步將混合GSF分類器的性能與單個遺傳算法(GA)和粒子群優(yōu)化(PSO)模糊分類器的性能進(jìn)行了比較.結(jié)果顯示,使用混合GSF分類器對低骨密度和骨質(zhì)疏松癥的識別性較好[88].2018年,D.Devikanniga等基于蝶形優(yōu)化的人工神經(jīng)網(wǎng)絡(luò),通過數(shù)字牙科全景攝影的下頜皮質(zhì)骨和小梁骨屬性,結(jié)合人口統(tǒng)計學(xué)屬性,來識別骨質(zhì)疏松癥和正常人[89].
從以上的研究中可以看出,對于骨質(zhì)疏松癥的識別,可以通過臨床問題量表、骨密度值、以及相關(guān)醫(yī)學(xué)影像等進(jìn)行識別.單獨的骨密度值不足以對骨質(zhì)疏松癥進(jìn)行準(zhǔn)確識別,醫(yī)學(xué)影像中提取骨骼的紋理特征、分形特征等參數(shù),以及受試者的臨床問診、生活習(xí)慣等參數(shù)也對骨質(zhì)疏松的識別有很大的幫助.所以,合理的將臨床問診、醫(yī)學(xué)影像等參數(shù)相結(jié)合,運用合適的人工智能算法可以提高分類模型的性能.表3是有關(guān)人工智能在骨質(zhì)疏松癥識別診斷的相關(guān)研究總結(jié).
1)缺乏標(biāo)準(zhǔn)的公共數(shù)據(jù)集.因為骨質(zhì)疏松領(lǐng)域沒有標(biāo)準(zhǔn)的公共數(shù)據(jù)集,所以每個研究者研究所用的數(shù)據(jù)都是自己收集的不同數(shù)據(jù)集.這些數(shù)據(jù)集具有地域、性別、人種等限制因素,使得訓(xùn)練模型特異性、正確性等性能受到影響.同時,這也導(dǎo)致由不同研究者提出的人工智能算法間不能直接進(jìn)行診斷性能的比較,無法評估相互之間算法的優(yōu)劣.
2)研究所用的數(shù)據(jù)集規(guī)模較小.在已有的研究中,模型所使用的訓(xùn)練集的規(guī)模都比較小(圖6是上述所列研究中采用不同訓(xùn)練集容量的分布統(tǒng)計),可以看到0-100例數(shù)據(jù)占據(jù)了研究數(shù)目中的絕大多數(shù),約有53%,3500-4000例數(shù)據(jù)的研究僅占4%,并且沒有4000例以上的研究.以這樣的數(shù)據(jù)規(guī)模生成的模型無法充分逼近疾病診斷的真實情況,存在局限性,也無法達(dá)到令臨床醫(yī)生滿意的診斷效果.骨質(zhì)疏松領(lǐng)域缺乏高質(zhì)量的大數(shù)據(jù)集.
表3 有關(guān)骨質(zhì)疏松癥識別診斷的相關(guān)研究總結(jié)
Table 3 Summary of related research on identification of osteoporosis
時間作者工具目的2005AM Badawi等Logistics回歸+ANN識別2006Chiu JS等ANN識別、危險因素分析2007CL Benhamou等ANN識別2007Arifin等FNN識別2008Moua Meneses等ANN識別2008Sooyeul Lee等SVM識別2009Moua Meneses等ANN識別2010R.Jennane等GA識別2010Zhi Gao等C4.5識別2011程若珠等ANN識別2012Harrar K等MLP、貝葉斯、Logistics回歸識別2012Istanbullu,M等ANN、SVM識別2012M S Kavitha等SVM識別2013Yan Xu等SVM、KNN識別2013Sung Kean Kim等SVM識別2013Sapthagirivasan等SVM識別2013D.S.Li等SVM識別2013G Anastassopoulos等ANN+GA識別、危險因素分析2013KM Subash等HAC+SVM識別2014Suprijanto 等SVM識別2014周珂等度量學(xué)習(xí)+SVM識別2015Tafraouti等SVM識別2016Xinghu Yu等ANN識別2016MS Kavitha等GSF識別2016劉健SVM識別2016Pedrassani等J48識別2016N Kilic等RSM+RF識別2017蔡潔等SVM、KNN識別2017M.Aouache等FDT識別2017Yassine Nasser等深度學(xué)習(xí)識別2018D.Devikanniga等ANN識別
注釋:GSF(混合遺傳群模糊分類器)、RSM(隨機子空間)、FDT(模糊決策樹)、HAC(凝聚層級聚類)、MLP(多層感知器)
3)算法模型自身的局限性.一般來說,單一的算法在某方面存在缺陷,當(dāng)處理復(fù)雜問題時,這些缺陷變得特別明顯和關(guān)鍵.在處理骨質(zhì)疏松癥的問題時,危險因素復(fù)雜、多樣,單一的模型展現(xiàn)的性能受到限制,不能很好的滿足骨質(zhì)疏松應(yīng)用需求.例如,人工神經(jīng)網(wǎng)絡(luò)作為一種非線性的映射方法,被廣泛應(yīng)用的同時,其也存在缺陷.比如,所取的樣本的數(shù)量和質(zhì)量很大程度上影響神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)性能、網(wǎng)絡(luò)層數(shù)、與此同時,隱含層神經(jīng)元的數(shù)量的選取也影響整個網(wǎng)絡(luò)的學(xué)習(xí)能力和效率等[90].傳統(tǒng)的BP算法隨應(yīng)用廣泛,但存在易出現(xiàn)極值、收斂速度慢等問題.支持向量機(SVM)是一種新的機器學(xué)習(xí)技術(shù),根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤的識別任意樣本的能力)之間尋求最佳折中,以獲得最好的推廣能力.但SVM存在核函數(shù)難求解,且需要大量存儲空間來計算函數(shù)的二次規(guī)劃的不足[91].所以將多種算法融合,揚長避短,形成新的算法來解決骨質(zhì)疏松癥領(lǐng)域的問題是很多研究者采用的重要方法.
圖6 采用不同訓(xùn)練集容量的研究分布圖Fig.6 Research distribution map with different training set capacity
4)缺少時間維度的分析.目前對于骨質(zhì)疏松癥的預(yù)測和診斷的相關(guān)研究,僅針對單一病例某一個時間點進(jìn)行判斷,缺少時間維度的數(shù)據(jù).但實際在臨床中,不同時間點的癥狀對于預(yù)測疾病未來發(fā)展以及日后的治療方案的確定非常重要.如果能在積累臨床案例時,注意追蹤某個人一段時間內(nèi)的數(shù)據(jù),那么這樣的案例數(shù)目積累到一定程度,將更有利于患者的未來骨質(zhì)疏松的預(yù)測.
1)建立標(biāo)準(zhǔn)的公共數(shù)據(jù)庫.公共數(shù)據(jù)庫中的數(shù)據(jù)可供全球的骨質(zhì)疏松研究者利用.公共數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)具備種類多樣、樣本量大等特點,還要充分考慮多地區(qū)間人種的差異.不同的地區(qū)的不同人群可以建立常模數(shù)據(jù)和異常數(shù)據(jù).通過對其進(jìn)行模型的訓(xùn)練,可以更好的適應(yīng)受試者多樣的特點.為建立標(biāo)準(zhǔn)數(shù)據(jù)庫,本文對相關(guān)研究中所用的骨質(zhì)疏松癥相關(guān)危險因素進(jìn)行了總結(jié),如表4所示.
2)多種算法深層次結(jié)合.在單個算法無法滿足實際診斷的需求時,多種不同算法的組合可以實現(xiàn)算法缺陷的互相彌補,保證器學(xué)習(xí)的質(zhì)量和效率,有效的降低骨質(zhì)疏松癥預(yù)測、診斷的誤診率和漏診率.目前,集成模型以及多種算法融合的混合智能算法是一種研究趨勢,一些學(xué)者已經(jīng)開展了相關(guān)的研究工作[88].
3)深度學(xué)習(xí)技術(shù)在骨質(zhì)疏松上的應(yīng)用.近年來,深度學(xué)習(xí)在圖像識別等領(lǐng)域取得了巨大的成功.在醫(yī)療領(lǐng)域,深度學(xué)習(xí)得到了很大的關(guān)注,例如對惡性腫瘤、肺部結(jié)節(jié)等疾病的學(xué)影像進(jìn)行處理分析,來輔助醫(yī)生做診斷.骨質(zhì)疏松癥的診斷也依賴醫(yī)學(xué)影像,所以深度學(xué)習(xí)與骨質(zhì)疏松影像也會得到很好地結(jié)合,從而提高其診斷的準(zhǔn)確性.
4)多模態(tài)數(shù)據(jù)分析.骨質(zhì)疏松的預(yù)測非常復(fù)雜,需要醫(yī)生綜合多方面的臨床信息綜合判斷.如果研究僅以單一數(shù)據(jù)源進(jìn)行分析,數(shù)據(jù)源所提供的信息往往有局限性,也不符合臨床實際.所以多模態(tài)數(shù)據(jù)的綜合分析是骨質(zhì)疏松癥人工智能未來研究的一大趨勢.尤其是利用人工智能方法在臨床數(shù)據(jù)、量表數(shù)據(jù)、影像數(shù)據(jù)的基礎(chǔ)上再加入基因組學(xué)數(shù)據(jù)的分析,目前這方面的研究并不多,但已經(jīng)有部分學(xué)者開始了這方面的研究[38].
表4 相關(guān)研究所用危險因素
Table 4 Risk factors used in relevant research
骨密度值圖像參數(shù)臨床因素1.股骨頸骨密度2.全身骨密度3.L2-L4脊柱的骨4.密度5.腰椎骨密度6.胸椎骨密度1.骨體積/總?cè)莘e(BV/TV)2.骨表面/骨體積(BS/BV)3.骨小梁數(shù)目(Tb.N)4.分形參數(shù)5.紋理特征6.牙科全景照片上關(guān)于下頜骨皮質(zhì)寬度1.種族2.教育3.職業(yè)4.婚姻5.月收入6.性別7.年齡8.體重9.身高10.體重指數(shù)11.腰臀比12.四個皮褶厚度之和13.絕經(jīng)后狀態(tài)14.母乳喂養(yǎng)時間15.月經(jīng)初潮年齡16.雌激素使用17.咖啡攝入量18.蛋白質(zhì)攝入量19.酒精攝入量20.膽固醇水平21.碳水化合物的攝入量22.脂肪攝入量23.維生素D攝入量24.鉀、鈉的攝入量25.鈣的攝入量26.骨折歷史27.抗高血壓藥物使用28.更年期持續(xù)時間29.糖皮質(zhì)激30.甲狀腺藥物的使用31.高血壓32.高血脂33.糖尿病34.骨關(guān)節(jié)炎35.心臟病史36.骨質(zhì)疏松性肝病37.癌性白內(nèi)障38.慢性呼吸道疾病39.便秘40.子宮切除術(shù)41.卵巢切除術(shù)42.骨痛43.足根痛44.腰膝酸軟45.下肢拘攣46.盜汗47.少氣懶言48.畏寒肢冷49.夜尿頻50手足心熱51.健忘52.握力53.飲食習(xí)慣54.生活習(xí)慣55.體育鍛煉56.懷孕次數(shù)57.出生或流產(chǎn)兒童數(shù)58.腰椎T值59.股骨T值60.大家族病史62.吸煙史
本文主要回顧了人工智能技術(shù)在骨質(zhì)疏松癥中的應(yīng)用.研究發(fā)現(xiàn),人工智能技術(shù)在骨質(zhì)疏松癥的預(yù)測、識別、以及危險因素分析中,相對于傳統(tǒng)方法,都有較好的性能.基于人工智能技術(shù),在骨質(zhì)疏松癥的預(yù)測中,通過臨床問卷和常規(guī)體檢參數(shù),對骨密度或者骨質(zhì)疏松性骨折進(jìn)行預(yù)測,有助于受試者減少疾病花費和過多的輻射暴露;在骨質(zhì)疏松癥的識別中,通過對問題量表或者醫(yī)學(xué)影像對其進(jìn)行診斷,提高了模型的分類準(zhǔn)確性;在骨質(zhì)疏松癥的危險因素分析中,Logistics回歸被廣泛的應(yīng)用.與此同時,人工智能技術(shù)在骨質(zhì)疏松癥中的應(yīng)用,依然存在很多的局限性,如:缺乏標(biāo)準(zhǔn)的公共數(shù)據(jù)庫、算法本身的局限性等.但隨著人工智能技術(shù)的不斷發(fā)展,如深度學(xué)習(xí)等技術(shù)的不斷深入研究,其在骨質(zhì)疏松癥中的應(yīng)用也會更加廣泛.