陳磊,陳蓉,張紅星,華木星,王芳
隨著我國(guó)人民生活水平不斷提升和老齡化問(wèn)題日趨嚴(yán)重,心血管疾病發(fā)病率和死亡率逐年上升,尤其是農(nóng)村和貧困地區(qū)[1]。低密度脂蛋白膽固醇(LDL-C)濃度增高是動(dòng)脈粥樣硬化發(fā)生發(fā)展的重要危險(xiǎn)因素[2],但是我國(guó)的血脂異常管理不容樂(lè)觀,且患病率持續(xù)增高[3],普及LDL-C 濃度測(cè)定對(duì)預(yù)防以動(dòng)脈粥樣硬化為主的心血管疾病有積極意義。測(cè)量LDL-C 濃度的方法包括直接測(cè)定法和公式法。直接測(cè)定法結(jié)果較為準(zhǔn)確,但會(huì)增加一定醫(yī)療開支。公式法計(jì)算LDL-C 濃度不受血清狀態(tài)影響,適合非空腹或高脂血癥人群估計(jì)LDL-C 濃度,且能節(jié)約一定醫(yī)療資源,但傳統(tǒng)公式法計(jì)算LDL-C 濃度尤其在高甘油三酯(TG)和低LDL-C 水平時(shí)計(jì)算值與實(shí)測(cè)值差異較大[4],并且國(guó)際上常用的傳統(tǒng)公式都是基于歐美人群數(shù)據(jù),在我國(guó)應(yīng)用有一定局限性。人工智能是以高等數(shù)學(xué)為基礎(chǔ)、利用計(jì)算機(jī)的優(yōu)勢(shì)解決此類用一個(gè)或幾個(gè)復(fù)雜公式尚不能完全概括其結(jié)論的問(wèn)題,其預(yù)測(cè)結(jié)果往往優(yōu)于單純經(jīng)驗(yàn)或單一數(shù)學(xué)公式推導(dǎo)的結(jié)論。本研究選用人工智能中的極限樹回歸(ETR)模型推導(dǎo)LDL-C 濃度,與指南推薦方法進(jìn)行比較,旨在尋找適合預(yù)測(cè)LDL-C 濃度的最佳方法。
研究對(duì)象:收集云南省阜外心血管病醫(yī)院自2017 年9 月至2021 年11 月期間,測(cè)定過(guò)血清總膽固醇(TC)、TG、LDL-C、高密度脂蛋白膽固醇(HDL-C)的118 449 例樣本。樣本由住院和體檢患者組成,男性居多,包含各型高脂血癥患者和表觀健康人。刪除有缺失值數(shù)據(jù)條目。因TC 呈正態(tài)分布,以TC 為基準(zhǔn),計(jì)算TC 均數(shù)和標(biāo)準(zhǔn)差后隨機(jī)抽取均數(shù)±1×標(biāo)準(zhǔn)差范圍內(nèi)2/3 的數(shù)據(jù)、重復(fù)采集均數(shù)±2×標(biāo)準(zhǔn)差至均數(shù)±3×標(biāo)準(zhǔn)差內(nèi)數(shù)據(jù)4 遍、重復(fù)采集均數(shù)±3×標(biāo)準(zhǔn)差以外的數(shù)據(jù)6 遍用以調(diào)整數(shù)據(jù)權(quán)重,最后獲得106 989 例樣本。本研究采用的試驗(yàn)符合國(guó)家制定的涉及人的生物醫(yī)學(xué)研究倫理標(biāo)準(zhǔn)和世界醫(yī)學(xué)協(xié)會(huì)最新修訂的《赫爾辛基宣言》的要求。
血脂測(cè)定:所有樣本均嚴(yán)格按照說(shuō)明書要求和標(biāo)準(zhǔn)操作規(guī)程采用生化分析儀(貝克曼庫(kù)爾特AU680,美國(guó))和配套原裝試劑進(jìn)行測(cè)定。TC 用酶法,HDL-C 用直接法,LDL-C 用直接法,TG 用甘油磷酸氧化酶-過(guò)氧化物酶法。獲取數(shù)據(jù)期間所有試劑未更換品牌。
LDL-C 濃度計(jì)算公式:將血脂由mmol/L 轉(zhuǎn)換為mg/dl(TC、HDL-C 和LDL-C:1 mmol/L=38.66 mg/dl;TG:1 mmol/L=88.60 mg/dl)進(jìn)行分析,計(jì)算結(jié)果采用單精度浮點(diǎn)數(shù);分別用Friedewald 公式(LDL-F公式)[5]、Martin/Hopkins 公式(LDL-M 公式)[6]、Sampson 公式(LDL-S 公式)[7]計(jì)算LDL-C 濃度,計(jì)算方法見表1。
表1 LDL-C 濃度計(jì)算公式
模型構(gòu)建:用Python 3.9 語(yǔ)言,調(diào)用sklearn 庫(kù)。將最后獲得的106 989 例樣本,以80%(85 591 例樣本)隨機(jī)數(shù)據(jù)集作為訓(xùn)練集構(gòu)建預(yù)測(cè)LDL-C 濃度的ETR 模型(LDL-ETR 模型),剩下20%(21 398例樣本)數(shù)據(jù)作為測(cè)試集測(cè)試模型性能,并用于與其他公式進(jìn)行對(duì)比。輸入模型的參數(shù)包括:年齡、性別及上述試劑實(shí)際測(cè)定的TG、TC 和HDL-C 濃度值;輸出參數(shù)為實(shí)際測(cè)定的LDL-C 濃度值。用網(wǎng)格搜索尋找最佳超參數(shù)(交叉驗(yàn)證5 次,用擬合優(yōu)度作為評(píng)分標(biāo)準(zhǔn)),為避免過(guò)擬合,盡量控制極限樹數(shù)目小于100;最后獲得擬合優(yōu)度得分較高的、較好的超參數(shù)組合為:最大特征數(shù)=0.99,最大葉子節(jié)點(diǎn)數(shù)=32 767.00,極限樹子樹數(shù)量=96.00。結(jié)果中的比較數(shù)據(jù)均來(lái)源于測(cè)試集(共計(jì)21 398 例數(shù)據(jù))。
統(tǒng)計(jì)學(xué)方法:采用SPSS 26.0 軟件進(jìn)行統(tǒng)計(jì)分析。正態(tài)分布的定量資料用均數(shù)±標(biāo)準(zhǔn)差表示,非正態(tài)分布的定量資料用中位數(shù)(P25,P75)表示,定性資料用率表示。LDL-ETR 模型或LDL-M、LDL-S、LDL-F 公式的計(jì)算值與LDL-C 實(shí)測(cè)值的相關(guān)性用Pearson 相關(guān)性分析評(píng)估。按TG 濃度分層,LDL-ETR模型與LDL-M、LDL-S、LDL-F 公式之間的邏輯錯(cuò)誤比較和一致性比較用卡方檢驗(yàn),模型或公式的計(jì)算值與LDL-C 實(shí)測(cè)值的差值比較用隨機(jī)區(qū)組設(shè)計(jì)的方差分析,兩兩比較用t檢驗(yàn)。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
共入選118 449 例樣本,所有樣本對(duì)應(yīng)患者中位年齡為48.25(36.00,61.00)歲,男性66 582 例(56.21%),TG、TC、HDL-C 及LDL-C 濃度見表2。
表2 樣本臨床資料(n=118 449)
用擬合優(yōu)度來(lái)表示擬合好壞,不確定度用標(biāo)準(zhǔn)差表示預(yù)測(cè)值與實(shí)測(cè)值相比變異的大小,結(jié)果顯示LDL-ETR 模型的擬合優(yōu)度和不確定度均優(yōu)于3 個(gè)公式法(表3)。
表3 LDL-ETR 模型與3 個(gè)公式法的擬合優(yōu)度和不確定度比較
對(duì)LDL-ETR 模型預(yù)測(cè)值和實(shí)測(cè)值進(jìn)行相關(guān)性分析,同時(shí)與3 個(gè)公式法進(jìn)行比較,結(jié)果顯示LDL-ETR 模型和3 個(gè)公式法計(jì)算值與實(shí)測(cè)值均有良好的相關(guān)性,相關(guān)性由高到低依次為L(zhǎng)DL-ETR 模型(r=0.9970)、LDL-M 公式(r=0.9907)、LDL-S 公式(r=0.9776)、LDL-F 公式(r=0.9615),P均<0.001(圖1)。
圖1 LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C 濃度實(shí)測(cè)值的相關(guān)性
LDL-ETR 模型回歸曲線與原始樣本回歸曲線高度重合,相關(guān)度最高,能較好地預(yù)測(cè)LDL-C 濃度;LDL-M 公式僅次于LDL-ETR 模型,在LDL-C濃度約小于189.30 mg/dl 時(shí),LDL-C 殘留風(fēng)險(xiǎn)較大;LDL-S 公式和LDL-F 公式在LDL-C 濃度分別小于210.77 mg/dl 和288.30 mg/dl 時(shí),低估了LDL-C 濃度,且估計(jì)值精度較差。
按不同TG 濃度分層(TG 濃度范圍0.89~885.11 mg/dl),對(duì)LDL-ETR 模型預(yù)測(cè)值和LDL-C 實(shí)測(cè)值的相關(guān)性做了比較。結(jié)果顯示,當(dāng)TG <400 mg/dl 時(shí),LDL-ETR 模型預(yù)測(cè)值和實(shí)測(cè)值相關(guān)性較優(yōu),具體見圖2。
圖2 不同TG 濃度下LDL-ETR 模型預(yù)測(cè)值與LDL-C 濃度實(shí)測(cè)值的相關(guān)性
LDL-ETR 模型預(yù)測(cè)值與LDL-C 濃度實(shí)測(cè)值的差值為(-0.00±3.50)mg/dl,優(yōu)于LDL-M 公式[(-5.41±7.43)mg/dl]、LDL-S 公式[(-6.80±10.91)mg/dl]和LDL-F 公式[(-10.06±13.90)mg/dl],F(xiàn)>4.67、P均<0.001。
按不同TG 濃度分層(TG 濃度范圍0.89~885.11 mg/dl),比較LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C 濃度實(shí)測(cè)值差值大?。簾o(wú)論在TG≥50 mg/dl 時(shí) 或TG<50 mg/dl 時(shí),LDL-ETR 模型的差值均是優(yōu)于3 個(gè)公式。3 個(gè)公式間比較,當(dāng)TG<50 mg/dl 時(shí),LDL-F 公式最優(yōu),當(dāng)TG≥50 mg/dl時(shí),LDL-M 公式最優(yōu)。具體見表4。
表4 不同TG 濃度下LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C 濃度實(shí)測(cè)值差值的比較
為觀察不同TG 濃度對(duì)模型或公式的干擾情況,繪制模型或公式的差值分布圖(圖3)。通過(guò)對(duì)圖3比較,可以發(fā)現(xiàn)TG 對(duì)LDL-ETR 模型基本無(wú)干擾;高TG 濃度對(duì)LDL-S 公式,尤其是LDL-F 公式計(jì)算產(chǎn)生負(fù)干擾。
圖3 不同TG 濃度下LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C 濃度實(shí)測(cè)值差值分布圖
將LDL-C 濃度實(shí)測(cè)值正負(fù)6.8%(基于生物學(xué)變異的總允許誤差的最佳限)范圍內(nèi)的計(jì)算值標(biāo)記為“一致”,超過(guò)該范圍標(biāo)記為“高估”,低于該范圍標(biāo)記為“低估”。
按不同TG 濃度分層(TG 濃度范圍0.89~885.11 mg/dl),比較LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C 濃度實(shí)測(cè)值的一致性。相同TG 濃度分層下模型與公式之間一致性兩兩比較差異均有統(tǒng)計(jì)學(xué)意義(χ2>17.08,P<0.001,α=0.0083),具體見表5。
表5 不同TG 濃度下LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C 濃度實(shí)測(cè)值的一致性比較[例(%)]
在測(cè)試集總體21 398 例樣本中,LDL-ETR 模型中有20 101 例樣本(93.94%)與實(shí)測(cè)值一致,459例樣本(2.15%)被低估,838 例樣本(3.92%)被高估;LDL-M 公式、LDL-S 公式和LDL-F 公式低估了近一半的樣本(43.02%、46.85%和54.42%),具體見圖4。
圖4 LDL-ETR 模型預(yù)測(cè)值及3 個(gè)公式法計(jì)算值與LDL-C濃度實(shí)測(cè)值的一致性比較
表6 LDL-ETR 模型與3 個(gè)公式法預(yù)測(cè)LDL-C 濃度的邏輯錯(cuò)誤率比較[例(%)]
如果(HDL-C 濃度+LDL-C 濃度)>TC 濃度,稱之為邏輯錯(cuò)誤,是計(jì)算LDL-C 中不可避免的錯(cuò)誤。我們對(duì)LDL-ETR 模型和三種公式法LDL-C 濃度預(yù)測(cè)值的邏輯錯(cuò)誤進(jìn)行了比較,結(jié)果顯示LDL-ETR模型邏輯錯(cuò)誤率較低,為0.04%,僅次于LDL-M公式的0.02%,二者差異無(wú)統(tǒng)計(jì)學(xué)意義(χ2=1.92,P=0.17,α=0.0083);LDL-F 公式邏輯錯(cuò)誤率最高。
為了進(jìn)一步評(píng)價(jià)LDL-ETR 模型的預(yù)測(cè)效果,我們通過(guò)繪制學(xué)習(xí)曲線(圖5),觀察不同訓(xùn)練集大小下擬合優(yōu)度得分情況,發(fā)現(xiàn)測(cè)試集曲線和訓(xùn)練集曲線隨數(shù)據(jù)量增加逐漸收斂,二者擬合優(yōu)度得分均較高,訓(xùn)練集曲線相對(duì)穩(wěn)定;因此,LDL-ETR 模型預(yù)測(cè)結(jié)果適用于相同檢驗(yàn)系統(tǒng)的其他樣本。
圖5 學(xué)習(xí)曲線
本研究通過(guò)一種基于人工智能的建模方法成功建立了一種全新的推導(dǎo)LDL-C 濃度的方法(LDLETR 模型),結(jié)果顯示,相比傳統(tǒng)的公式法,LDLETR 模型能更好地預(yù)測(cè)LDL-C 濃度,幾乎不受TG干擾,與LDL-C 濃度實(shí)測(cè)值一致性較好,邏輯錯(cuò)誤率較低;通過(guò)學(xué)習(xí)曲線繪圖,證明該模型對(duì)除建模數(shù)據(jù)外的其它患者LDL-C 濃度也具有相似的預(yù)測(cè)能力,模型適用性強(qiáng)。
ETR 模型是基于人工智能技術(shù)的建模方法之一。自1966 年Hunt 等[8]提出了決策樹算法后,該算法不斷完善,進(jìn)而產(chǎn)生了隨機(jī)森林樹和ETR 等模型。ETR 模型的特點(diǎn)在于使用全樣本隨機(jī)分配權(quán)重隨機(jī)分割,采用信息熵尋找最優(yōu)劃分;此模型依賴于計(jì)算機(jī)和計(jì)算機(jī)程序。而諸如LDL-F 的公式法,公式組成相對(duì)較為簡(jiǎn)單;LDL-M 公式在LDL-F 公式基礎(chǔ)上進(jìn)行了相對(duì)較為復(fù)雜的分類討論,但是相對(duì)于計(jì)算機(jī)模型而言,復(fù)雜度有限。本研究在模型構(gòu)建過(guò)程中共納入118 449 例樣本,建模前調(diào)整高TC和低TC 的權(quán)重,建模過(guò)程中以TC 作為重要分類變量,HDL-C、TG、年齡、性別依次作為次要分類變量,通過(guò)預(yù)測(cè)LDL-C 濃度的概率,對(duì)可能的LDL-C 濃度求均值,實(shí)現(xiàn)對(duì)LDL-C 的濃度預(yù)測(cè);該方法為國(guó)內(nèi)外首次報(bào)道使用。Singh 等[9]用隨機(jī)森林樹建立Weill Cornell 模型預(yù)測(cè)LDL-C,也證明了人工智能技術(shù)在預(yù)測(cè)LDL-C 方面的優(yōu)勢(shì),但與Singh 等研究不同的是,本研究納入了性別和年齡,而且,訓(xùn)練樣本量(106 989 例;初始樣本量:118 449 例)遠(yuǎn)大于Weill Cornell 模型初始樣本量(17 500 例)。此外,數(shù)據(jù)集調(diào)整權(quán)重后才導(dǎo)入模型進(jìn)行訓(xùn)練,使得預(yù)測(cè)結(jié)果與LDL-C 實(shí)測(cè)值擬合程度更佳,這也正是本研究所用LDL-ETR 模型的優(yōu)勢(shì)。
LDL-F 公式自1972 年Friedewald 推導(dǎo)后,至今仍在國(guó)外廣泛應(yīng)用,國(guó)內(nèi)部分醫(yī)院也以該方法作為參考或直接出具報(bào)告,但因高TG 對(duì)該公式影響較為明顯,限制了其在非空腹和高脂血癥人群中的應(yīng)用。此后,我國(guó)的吳秀茹等[10]、張林等[11]和胡柏成 等[12]及國(guó)外的Martin 等[6]、Sampson 等[7]和Singh 等[9]先后提出了新的修正公式或模型計(jì)算LDL-C 濃度?!稓W洲心臟病學(xué)會(huì)臨床實(shí)踐中心血管疾病預(yù)防指南》[13]推薦:在TG ≥50 mg/dl 且TG<400 mg/dl 時(shí)使用LDL-F 公式來(lái)計(jì)算LDL-C,而該范圍之外的LDL-C 應(yīng)該采用LDL-M 公式或LDL-S 公式。但是,這類公式在我國(guó)應(yīng)用較為局限:一方面,以我國(guó)學(xué)者為代表的LDL-C 計(jì)算公式未經(jīng)大量樣本驗(yàn)證(研究樣本不超過(guò)200 例),且修正公式建立時(shí)間較久遠(yuǎn),而以LDL-S 公式為代表的公式較新,缺乏公式性能評(píng)價(jià);另一方面,以LDL-M 公式為代表的公式需要單獨(dú)寫程序調(diào)用調(diào)整因子表;最重要的是,目前國(guó)內(nèi)外許多公式尚不能較好地避免高TG 對(duì)LDL-C 計(jì)算結(jié)果的影響。本研究建立的LDL-ETR 模型直接用Python 編寫,準(zhǔn)備好環(huán)境可以直接調(diào)用,與實(shí)驗(yàn)室信息系統(tǒng)通信方便;當(dāng)TG 為0.89~885.11 mg/dl 濃度范圍內(nèi),模型對(duì)LDL-C 濃度的預(yù)測(cè)效果都優(yōu)于目前的公式法,致LDL-C 殘留風(fēng)險(xiǎn)最低;訓(xùn)練模型樣本量大于除LDL-M 公式以外的其它公式。
此外,我們也對(duì)常用公式法在本研究中的表現(xiàn)與現(xiàn)有研究進(jìn)行比較,結(jié)果顯示LDL-M 公式低估LDL-C 濃度的風(fēng)險(xiǎn)較低(共計(jì)43.02%的樣本被低估),在TG ≥50 mg/dl 和TG<400 mg/dl 優(yōu)于其他公式,與Sajja 等[14]、Kang 等[15]和蔡紅軍等[16]的研究一致,而且在TG ≥400 mg/dl 時(shí),仍然是僅次于LDL-ETR 的最佳公式,該結(jié)果與Rees 等[17]的研究一致。而當(dāng)TG<50 mg/dl 時(shí),本研究顯示LDL-F 公式優(yōu)于其他公式,但LDL-F 公式預(yù)測(cè)LDL-C 相關(guān)性較低、不確定度較高,LDL-C 殘留風(fēng)險(xiǎn)較大,與Ga?ko[18]的研究、歐洲指南基本一致。
本研究的不足之處在于,樣本數(shù)據(jù)主要來(lái)自云南地區(qū)且為單中心研究,不同中心可能因民族、海拔和儀器、試劑品牌不同導(dǎo)致該模型預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果有差異。將來(lái),如能進(jìn)一步擴(kuò)大血脂數(shù)據(jù)集進(jìn)行多中心研究,將會(huì)進(jìn)一步提高LDL-ETR 模型的可靠性,擴(kuò)大LDL-ETR 模型的適用范圍,為臨床應(yīng)用提供可能。
綜上所述,本研究基于云南地區(qū)人群建立了一種以人工智能技術(shù)推導(dǎo)LDL-C 濃度的新方法,該模型的應(yīng)用可以節(jié)約LDL-C 濃度檢測(cè)費(fèi)用;當(dāng)然,對(duì)于有疑問(wèn)的LDL-C 濃度實(shí)測(cè)值結(jié)果,例如LDL-C濃度測(cè)定受儀器、試劑、標(biāo)本狀態(tài)影響時(shí),通過(guò)與該模型預(yù)測(cè)值進(jìn)行對(duì)照,可以提醒檢驗(yàn)人員注意對(duì)異常結(jié)果進(jìn)行解釋或重測(cè)。本研究建立的模型能節(jié)約一定醫(yī)療資源,同時(shí)不影響動(dòng)脈硬化性心血管疾病的診斷,適合較為廣泛地應(yīng)用。
利益沖突:所有作者均聲明不存在利益沖突