趙曉陽, 許樹林, 潘為領, 唐慧勇, 張守波
(中國人民解放軍第960醫(yī)院淄博醫(yī)療區(qū), 山東 淄博, 255300)
膝關節(jié)骨性關節(jié)炎(KOA)是常見的慢性退行性骨關節(jié)病,以疼痛和功能障礙為特征[1-2]。KOA嚴重影響患者生活質量,給其家庭和社會造成嚴重的經(jīng)濟負擔[3]。KOA準確分期可避免患者病程的快速進展[4]。目前,骨關節(jié)炎(OA)常用的3種分期方法[5-6]中, Kellgren-Lawrence (KL)分期使用最廣泛,其結果與疼痛及功能障礙相關,且術前KL分期能預測手術成功率。但人工分期不僅耗時,還會因個人主觀偏倚存在差異。傳統(tǒng)人工智能模型的建立需要大量的專家和資源,普通醫(yī)師難以獲得。近年來,谷歌、百度等集團提供了公共人工智能云平臺,使普通醫(yī)師能夠在沒有人工智能經(jīng)驗的情況下建立人工智能模型。但關于公共人工智能平臺對KOA自動分期效果的研究較少。故本研究探討利用公共人工智能平臺對KOA嚴重程度自動分期的可行性。
骨關節(jié)炎倡議(OAI)是有關KOA研究的公共數(shù)據(jù)庫,其可供公眾調閱使用。拍攝X線片: 由2名訓練有素的肌骨放射學醫(yī)師使用KL系統(tǒng)[7-9]對每張X線片的每個關節(jié)進行分期。如有分歧,則由第3位醫(yī)師協(xié)議解決,最終公布的為共識結果。
本研究下載了一組按照KL分期完成分組的數(shù)據(jù)。訓練模型最多時使用了其中5 777個關節(jié)X線片,并在訓練過程中進行了不同數(shù)據(jù)集的多次訓練,以求獲得最佳的模型方案,模型訓練在百度公共人工智能平臺EasyDL(https: //ai.baidu.com/easydl/)中進行。該平臺提供免費的人工智能培訓、評估和基于圖像的預測、分類。該平臺計算能力出色,每個模型都可在20 min內完成訓練并進行自我評估[11-14]。平臺分別隨機選擇圖像進行訓練,并使用約為上傳數(shù)據(jù)集30%的數(shù)據(jù)進行自我評估。之后,平臺返回本研究模型整體的準確率、F1-score、精確率、召回率以及按照每一個KL分期的F1-score, 用以評價模型價值。訓練過程中,本研究通過調整圖像數(shù)據(jù)集,訓練了多個迭代版本,最終得到效果最好的模型。其中不同的訓練集以OAtrain加不同下標命名,例如OAtrain 5.0, 各版本所用訓練及測試數(shù)據(jù)集詳情見表1。
為了判斷OAI(作為標準)、人工智能模型和單個醫(yī)師之間的評分一致性,本研究選取了2名高年資放射科副主任醫(yī)師進行KL評分(在應用KL評分系統(tǒng)方面具有多年經(jīng)驗)。然后按照KL分期,從每個KL等級分別隨機選擇10張X線照片,構成總量為50張圖像的測試集(命名為50-test), 以供上述醫(yī)生評分。
表1 訓練及測試數(shù)據(jù)集詳細信息
50-test: 圖像與訓練數(shù)據(jù)集均無重復。
訓練使用的圖像格式為PNG, 分辨率為299像素×299像素。利用多個不同的數(shù)據(jù)集和多個訓練參數(shù)進行組合訓練,得到多個迭代版本。
使用F1-score和加權Kappa系數(shù)進行效能評估,其可反映整體及每個KL分類的效能,而且其他關于KL分期的研究中也使用了該參數(shù),使得本研究能夠與之進行比較。F1-score對某類別而言為精確率和召回率的調和平均數(shù),范圍為0~1, 其中1表示完全一致。對于多類分類,平臺及本研究分別計算每個分類的F1-score, 并對結果進行平均。Kappa系數(shù)的大小用來衡量2種方法的一致程度,Kappa系數(shù)越大說明2種結果越一致,若Kappa≥0.75, 說明結果一致性較好,若Kappa<0.40, 說明缺乏一致性[14]。
使用SPSS 26.0及Python 3.8軟件進行數(shù)據(jù)分析,計算加權Kappa系數(shù)、準確率、召回率和F1-score, 并對結果進行直接比較。
以OAI的分期結果為標準,在百度公共人工智能平臺,經(jīng)過多次迭代訓練,各版本效能結果顯示, 5級V4版本效能最好,其中F1-score為0.72, 準確率為0.73, 見圖1、表2。
圖1 5級V4版本平臺整體評估結果截圖
表2 各版本效能統(tǒng)計
對于50-test測試子集,本研究2位醫(yī)師的F1-score和準確率分別為0.63和0.64。模型對該測試子集的F1-score為0.69,準確率為0.70。模型對單個KL分期0期、3期和4期的F1-score超過了醫(yī)師,而醫(yī)師的KL分期為2期的F1-score更高,另外對KL分期為1期的F1-score兩者相等。這些結果可與THOMAS K A等[10]報告的F1-score進行直接比較。同時,因為子集包含來自每個KL分類的相等數(shù)量的圖像,所以這些得分結果可以直接與ANTONY J等[12]研究中報告的加權F1-score進行比較。見表3。
表3 在KL分期系統(tǒng)中醫(yī)師及各模型效能比較
KL分期系統(tǒng)中2期特別重要,因為在使用KL分期系統(tǒng)進行隊列選擇時,其經(jīng)常被用作確定OA發(fā)病率的閾值[10]。為了評估模型,確定OA發(fā)病率模型的效能,本研究將0期和1期的KL評分合并到一個類別中,并將2期、3期和4期的KL評分合并到另一個類別中。本研究對此在百度人工智能平臺中重新訓練了相應的模型,該模型的總體F1-score和準確率均達到了0.91, 而針對50-test測試子集, F1-score為0.89, 準確率為0.90。2位醫(yī)師對此效能的得分為F1-score為0.87, 準確率為0.88。見表4。
平臺測試集準確率原始數(shù)據(jù)為 308/424, 完整測試集準確率原始數(shù)據(jù)為2 890/4 090。
表4 在發(fā)病率判斷中醫(yī)師及各模型效能比較
在以OAI為標準一致性評估時,在50-test測試子集中醫(yī)師的加權Kappa系數(shù)為0.76, 此測試子集的模型獲得的加權Kappa系數(shù)為0.82, 模型對完整測試集的加權Kappa系數(shù)為0.82, 與THOMAS K A等[10]報告的0.86及TIULPIN A等[13]研究模型的最佳Kappa系數(shù)0.83相近,見表5。
表5 評價者與金標準一致性比較
在評估評價者之間一致性時,醫(yī)師與模型之間的加權Kappa系數(shù)分別為0.75和0.74。醫(yī)師之間的加權Kappa系數(shù)為0.76, 略低于THOMAS K A等[10]報告中的醫(yī)師間加權Kappa系數(shù)0.79, 高于RIDDLE D等[15]報告中最一致的2個評價者之間的Kappa系數(shù)0.65, 見表6。
表6 不同研究醫(yī)師間一致性比較
目前, KOA的發(fā)病率日益增高,而其診斷和分期依據(jù)主要為影像學檢查結果,因此進行準確的影像學分期,對KOA的治療和預后有重要意義。本研究利用公共人工智能平臺建立模型,實現(xiàn)對KOA的自動分期,并取得了良好的效果。
從本研究訓練的模型的表現(xiàn)來看,無論是對KOA按照KL分期系統(tǒng)進行5期分期,還是在KOA發(fā)病率的判斷上,本研究模型均取得較好的效能,許多表現(xiàn)達到甚至超過了本研究的高年資醫(yī)師。本研究針對KL分期系統(tǒng)的整體效能達到F1-score為0.72, 準確率為0.73, 與之前研究中THOMAS K A等[10]模型的F1-score(0.70)、準確率(0.71)相近。在發(fā)病率模型測試中,本研究模型F1-score為0.91, 優(yōu)于THOMAS K A等[10]報道的0.87, 說明本模型在發(fā)病率判斷中的表現(xiàn)較優(yōu)。在各項一致性評估中,本研究的模型加權Kappa系數(shù)為0.82, 略低于THOMAS K A等[10]報告的0.86及TIULPIN A等[13]研究模型的最佳Kappa系數(shù)0.83, 但仍可表明其具有較好的一致性,與之前的研究差異較小。
本研究提出的臨床醫(yī)師利用公共人工智能平臺訓練模型和利用X線片對KOA進行自動KL分期具有可行性和一定的優(yōu)越性。首先,由于模型是在云平臺上自動、迅速地進行訓練,因此其在普通個人的計算機上便可運行,不需要專門的、價格高昂的計算機設備及人工智能專業(yè)知識儲備。本研究在百度公共人工智能平臺所建立的模型的效能可以達到甚至超出經(jīng)驗豐富的醫(yī)師的評估效能。其次,既往研究往往依賴于手動標注,對圖像進行標注可能會增加噪聲和錯誤的發(fā)生,并且需要額外的時間和人力成本。而本研究模型只需上傳圖片數(shù)據(jù)即可,其操作簡單、便捷,即使毫無人工智能經(jīng)驗的醫(yī)師也可進行操作。既往研究往往需要大量的原始圖片數(shù)據(jù),比如THOMAS K A等[10]研究總共使用了40 280張圖像,而本研究最終使用1 445張圖像進行模型訓練,且取得了與其模型相當?shù)男芙Y果。本研究還發(fā)現(xiàn),提高模型訓練效果的重要因素除增大數(shù)據(jù)量,還需每個子分類的數(shù)據(jù)量相當,這一點百度公共人工智能平臺在訓練時也進行了相應提示。在本研究模型訓練過程中,子分類數(shù)據(jù)量比例失調的數(shù)據(jù)集得到的結果更好,且選擇AutoDL Transfer算法,在訓練時間及效果上均具有良好表現(xiàn),推薦在訓練模型時選擇此算法。
本研究使用的公共人工智能模型本質上是一個分類器,平臺可以根據(jù)本研究提供的不同類別的圖像進行模型訓練。因此,公共人工智能平臺的潛能不僅限于本研究范圍內,在其他醫(yī)療領域范圍同樣具有巨大潛能。隨著越來越多的公共人工智能平臺出現(xiàn),更多的基層普通醫(yī)師可以獲得人工智能服務。本研究認為,公共人工智能平臺將促進醫(yī)學和人工智能的共同發(fā)展。本研究仍具有一定局限性。首先,本研究使用相對較小的訓練數(shù)據(jù)集來訓練模型,隨著訓練數(shù)據(jù)集的增加,模型的性能可能會被影響。其次,本研究將模型性能與僅使用50張圖像進行測試的醫(yī)師的評估結果進行比較,醫(yī)師測試樣本相對較小,結果可能存在偏差。此外,本研究模型是針對標準的膝關節(jié)X線片設定,對一些特殊體位或不標準位置的圖像的分類效果無法判斷。
綜上所述,本研究使用公共人工智能平臺進行模型訓練,利用X線圖像進行KOA的自動KL分期,具有可行性和優(yōu)越性,為利用人工智能平臺進行臨床研究與工作提供了良好依據(jù)。