王瑩
摘要:[目的] 基于醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)構(gòu)建乳腺惡性腫瘤預(yù)測(cè)模型。[方法] 收集某綜合性三甲醫(yī)院2016年至2021年所有門(mén)診和住院乳腺惡性腫瘤患者的醫(yī)學(xué)檢驗(yàn)數(shù)據(jù),并通過(guò)大數(shù)據(jù)技術(shù)處理形成機(jī)器學(xué)習(xí)數(shù)據(jù)源。采用邏輯回歸二分類和支持向量機(jī)兩種算法分別構(gòu)建乳腺惡性腫瘤預(yù)測(cè)模型。[結(jié)果] 邏輯回歸二分類預(yù)測(cè)模型的AUC為0.923,F(xiàn)1-Score為0.875;支持向量機(jī)預(yù)測(cè)模型的AUC為0.957,F(xiàn)1-Score為0.912。[結(jié)論] 綜合評(píng)估結(jié)果顯示,基于醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù)構(gòu)建的預(yù)測(cè)模型具有較高準(zhǔn)確率,可以有效識(shí)別乳腺惡性腫瘤患者。因此,該模型有望成為乳腺惡性腫瘤的一種微創(chuàng)、低成本、快捷有效的篩查手段。
關(guān)鍵詞:醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù);乳腺惡性腫瘤;邏輯回歸二分類;支持向量機(jī);預(yù)測(cè)模型
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)08-0035-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
1 概述
乳腺惡性腫瘤(breast malignant tumor,BMT) 是女性患者中常見(jiàn)的惡性腫瘤,也是全球女性患者癌癥相關(guān)死亡的一個(gè)主要因素[1]。由于乳腺癌是常見(jiàn)的乳腺惡性腫瘤,其中患者比例占乳腺惡性腫瘤的90%以上,通過(guò)普及乳腺癌篩查以及提高相應(yīng)診療水平實(shí)現(xiàn)了乳腺癌患者生存率的顯著提升。現(xiàn)階段乳腺癌篩查的主要方法是乳腺X線檢查和超聲檢查,這兩種方法對(duì)早期病灶敏感性低,需要結(jié)合細(xì)胞學(xué)或病理學(xué)結(jié)果才能確診[2]。近年來(lái)全球乳腺癌發(fā)病率急劇上升,早診斷、早治療對(duì)患者生存率的提高有極其重要的意義。
臨床方面需要尋找一種簡(jiǎn)單、便捷的檢查方法對(duì)BMT實(shí)施早期診斷、監(jiān)測(cè)病情、評(píng)價(jià)療效以及預(yù)后。腫瘤標(biāo)志物為惡性腫瘤細(xì)胞或宿主對(duì)腫瘤的刺激反應(yīng)而產(chǎn)生的物質(zhì),涵蓋蛋白質(zhì)、酶類、激素、神經(jīng)遞質(zhì)及癌基因產(chǎn)物等。腫瘤標(biāo)志物存在于患者的血液、體液、細(xì)胞或組織中,可采用生物化學(xué)、免疫學(xué)及分子生物學(xué)等方法測(cè)定,腫瘤標(biāo)志物的指標(biāo)異常升高通常早于其影像學(xué)改變,而且其取材方便,創(chuàng)傷小,適用于對(duì)高危人群的篩查或腫瘤患者的療效評(píng)估[3]。目前臨床用于療效評(píng)估的成熟生物靶向標(biāo)志物相對(duì)有限,因而探索易獲得標(biāo)本(外周血、胸腹水等)中腫瘤標(biāo)志物檢測(cè)的方法,將會(huì)為患者帶來(lái)較大的便利和益處[4]?;颊呔驮\過(guò)程中產(chǎn)生了較多數(shù)量的醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)。但臨床醫(yī)生通常只關(guān)注部分重要的異常參數(shù),而忽視其他醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)以及醫(yī)學(xué)實(shí)驗(yàn)室參數(shù)間的相互關(guān)系,導(dǎo)致醫(yī)學(xué)實(shí)驗(yàn)室數(shù)據(jù)的價(jià)值利用率較低[5]。由于異常增殖的腫瘤細(xì)胞隨著血液進(jìn)入人體各個(gè)組織、器官,在全身各部位會(huì)有不同的表現(xiàn),分泌的細(xì)胞因子及各種功能蛋白均會(huì)導(dǎo)致相應(yīng)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)產(chǎn)生變化,即使數(shù)據(jù)處于正常參考值范圍內(nèi),但數(shù)據(jù)之間相互的關(guān)系也可能發(fā)生改變,普通人工篩查模式無(wú)法察覺(jué)數(shù)據(jù)之間的潛在關(guān)系。采用人工智能算法對(duì)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以發(fā)現(xiàn)數(shù)據(jù)之間潛在的關(guān)聯(lián)關(guān)系[6]。因此,基于醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)對(duì)BMT進(jìn)行預(yù)測(cè)不但可以實(shí)現(xiàn)早診斷、早治療,提升患者的生存率,還可以大幅降低BMT篩查的門(mén)檻以減輕社會(huì)經(jīng)濟(jì)負(fù)擔(dān)。
2 材料和方法
2.1 材料
從某綜合性三甲醫(yī)院的實(shí)驗(yàn)室信息管理系統(tǒng)(LIS) 和醫(yī)院信息系統(tǒng)(HIS) 中提取了2016年10月1日至2021年09月30日的全量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)(140 616 701條記錄)及診斷結(jié)果。數(shù)據(jù)庫(kù)字段包括患者ID、年齡、性別、就診類別(門(mén)診或住院)、檢驗(yàn)日期、檢驗(yàn)項(xiàng)目編碼、檢驗(yàn)結(jié)果和診斷結(jié)果。
2.2 方法
1) 醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)治理。通過(guò)在大數(shù)據(jù)平臺(tái)上對(duì)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)進(jìn)行行列轉(zhuǎn)置,實(shí)現(xiàn)所有患者在同一日期的所有檢驗(yàn)項(xiàng)目處于同一行,不同患者的同一檢驗(yàn)項(xiàng)目結(jié)果處于同一列。將140 616 701條記錄的全量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)轉(zhuǎn)化為1 338列、4 903 891行的大數(shù)據(jù)寬表,轉(zhuǎn)置模式如圖1所示。
統(tǒng)計(jì)每一個(gè)檢驗(yàn)項(xiàng)目對(duì)應(yīng)的數(shù)據(jù)類型、數(shù)據(jù)量以及臟數(shù)據(jù)分布狀況,并確定數(shù)據(jù)標(biāo)準(zhǔn)。根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換或清理,刪除各種錯(cuò)誤數(shù)據(jù)和無(wú)效數(shù)據(jù),采用零填充缺失數(shù)據(jù)。在對(duì)每個(gè)檢驗(yàn)項(xiàng)目制定處理規(guī)則的基礎(chǔ)上,形成計(jì)算機(jī)腳本實(shí)現(xiàn)自動(dòng)化處理。
2) 醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)開(kāi)發(fā)。醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)開(kāi)發(fā)包括數(shù)據(jù)獲取、數(shù)據(jù)歸一化和特征抽象。
數(shù)據(jù)獲取:從4 903 891條記錄的診斷結(jié)果中檢索獲得26 102例BMT患者相關(guān)記錄,形成BMT樣本數(shù)據(jù)。從4 903 891條記錄的診斷結(jié)果中檢索獲得19 841條普通體檢人員相關(guān)記錄作為BMT對(duì)照數(shù)據(jù)。
數(shù)據(jù)歸一化:Y=(X-Fmin) /(Fmax-Fmin),式中,F(xiàn)max和Fmin分別為每一個(gè)數(shù)據(jù)庫(kù)字段中的最大值和最小值,X是字段中待歸一化的值,Y為X的歸一化結(jié)果,實(shí)現(xiàn)數(shù)值數(shù)據(jù)壓縮到[0,1]區(qū)間,從而去除字段的量綱,提高機(jī)器學(xué)習(xí)算法的收斂速度。
特征抽象:選擇全部1 361個(gè)檢驗(yàn)項(xiàng)目作為特征列,選擇診斷結(jié)果為目標(biāo)列,其中診斷結(jié)果為“乳腺癌”或“乳腺惡性腫瘤”置為“1”,其他診斷結(jié)果置為“0”,形成機(jī)器學(xué)習(xí)數(shù)據(jù)源。
3) 機(jī)器學(xué)習(xí)算法。本研究采用邏輯回歸二分類(logistic regression,LR)和支持向量機(jī)(support vector machine,SVM) 兩種機(jī)器學(xué)習(xí)算法。
由于LR算法產(chǎn)生的模型構(gòu)造簡(jiǎn)單、結(jié)果簡(jiǎn)單易懂,在醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用。LR模型可以用數(shù)學(xué)公式直觀描述,假設(shè) P 為某一事件發(fā)生的概率,其取值范圍為[0, 1],則該事件不發(fā)生的概率為1-P,對(duì)P/(1–P) 取自然對(duì)數(shù)為 ln(P/(1–P)),記為 logitP, logitP 的取值范圍為(–∞, +∞) 。以P 作為因變量,構(gòu)建線性回歸方程:
log itP =a+b1x1 + +bm xm (1)
對(duì)方程變換,進(jìn)而得到:
P=exp(a+b1x1 + +bm xm) /(1+exp(a+b1x1 + +bm xm))? (2)
該模型即為L(zhǎng)R模型,其中a 為常數(shù),bi (i=1, …, m)為邏輯回歸系數(shù)[7]。
SVM的基本思想是通過(guò)構(gòu)建一個(gè)超平面,實(shí)現(xiàn)對(duì)正、負(fù)例的完全分開(kāi)。由于客觀上可能存在無(wú)數(shù)個(gè)能夠?qū)崿F(xiàn)對(duì)正、負(fù)例完全分開(kāi)的超平面,需要利用間隔最大化求分離超平面得到唯一解[8]。
4) 機(jī)器學(xué)習(xí)業(yè)務(wù)流程。機(jī)器學(xué)習(xí)業(yè)務(wù)流程包括數(shù)據(jù)拆分、訓(xùn)練預(yù)測(cè)模型、預(yù)測(cè)測(cè)試數(shù)據(jù)以及預(yù)測(cè)結(jié)果評(píng)估。數(shù)據(jù)拆分模塊按照預(yù)設(shè)比例將機(jī)器學(xué)習(xí)數(shù)據(jù)源隨機(jī)拆分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分。例如,并行采用LR和SVM兩種算法對(duì)同一機(jī)器學(xué)習(xí)數(shù)據(jù)源分別訓(xùn)練。其中,LR數(shù)據(jù)拆分模塊采用訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)7:3的比例隨機(jī)拆分機(jī)器學(xué)習(xí)數(shù)據(jù)源,SVM數(shù)據(jù)拆分模塊采用訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)8:2的比例隨機(jī)拆分機(jī)器學(xué)習(xí)數(shù)據(jù)源。LR數(shù)據(jù)拆分模塊拆出的訓(xùn)練數(shù)據(jù)導(dǎo)入LR訓(xùn)練模塊經(jīng)過(guò)計(jì)算生成LR預(yù)測(cè)模型。LR數(shù)據(jù)拆分模塊拆出的測(cè)試數(shù)據(jù)和LR預(yù)測(cè)模型分別導(dǎo)入LR預(yù)測(cè)模塊實(shí)現(xiàn)LR預(yù)測(cè)模型對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)?;诓⑿械腟VM算法的操作步驟與LR算法相同。LR預(yù)測(cè)模塊和SVM預(yù)測(cè)模塊的預(yù)測(cè)結(jié)果分別導(dǎo)入各自對(duì)應(yīng)的混淆矩陣模塊和二分類評(píng)估模塊,評(píng)估LR預(yù)測(cè)模型和SVM預(yù)測(cè)模型的預(yù)測(cè)水平。業(yè)務(wù)流程如圖2所示。
5) 預(yù)測(cè)模型評(píng)估指標(biāo)。預(yù)測(cè)模型評(píng)估采用混淆矩陣和二分類評(píng)估兩種方法。混淆矩陣為可視化預(yù)測(cè)工具,包括真陽(yáng)性(true positive, TP) 、假陽(yáng)性(false positive, FP) 、假陰性(false negative, FN) 、真陰性(true negative, TN) 等4項(xiàng)。其中,混淆矩陣的每一列代表一個(gè)類的預(yù)測(cè)情況,每一行表示一個(gè)類的實(shí)際樣本情況,如圖3所示。評(píng)估項(xiàng)包括準(zhǔn)確率、精確率、召回率、F1-Score,相應(yīng)的計(jì)算公式如下:
準(zhǔn)確率=[TP+TNTP+TN+FP+FN]
精確率=[TPTP+FP]
召回率=[TPTP+FN]
F1-Score=[2*TP2*TP+FP+FN]
二分類評(píng)估采用F1-Score和受試者工作特征曲線下面積(Area Under Curve, AUC) 兩項(xiàng)評(píng)估指標(biāo)。其中,AUC數(shù)值處于[0, 1]之間,大于0.5則表示預(yù)測(cè)模型具有一定的區(qū)分能力,越接近1則預(yù)測(cè)模型的區(qū)分能力越強(qiáng)。
3 結(jié)果
3.1 LR二分類預(yù)測(cè)模型及預(yù)測(cè)水平評(píng)估
1) LR二分類預(yù)測(cè)模型。LR二分類預(yù)測(cè)模型包括1 361項(xiàng)特征列(檢驗(yàn)項(xiàng)目)的權(quán)重,其中權(quán)重前15項(xiàng)如表1所示。
其中,項(xiàng)目編碼為檢驗(yàn)項(xiàng)目的唯一標(biāo)識(shí),權(quán)重表示檢驗(yàn)項(xiàng)目在LR預(yù)測(cè)模型中的系數(shù),權(quán)重?cái)?shù)值越大,該檢驗(yàn)項(xiàng)目與對(duì)應(yīng)診斷結(jié)果的相關(guān)性越大。
2) LR二分類預(yù)測(cè)模型混淆矩陣評(píng)估?;煜仃噷?duì)LR二分類預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析,評(píng)估結(jié)果如表2所示。其中,陽(yáng)性樣本預(yù)測(cè)的準(zhǔn)確率、精確率、召回率、F1-Score評(píng)估結(jié)果均高于75%,表明LR二分類預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確性高,具有較好的可用性。
3) LR二分類預(yù)測(cè)模型二分類評(píng)估結(jié)果。二分類評(píng)估對(duì)LR二分類預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析,如表3所示,AUC和F1-Score的結(jié)果均高于0.800。這表明LR二分類預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確性高,具有較好的可用性。
3.2 SVM預(yù)測(cè)模型預(yù)測(cè)水平評(píng)估
1) SVM預(yù)測(cè)模型混淆矩陣評(píng)估?;煜仃噷?duì)SVM預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析,評(píng)估結(jié)果如表4所示。其中,陽(yáng)性樣本的準(zhǔn)確率、精確率、召回率、F1-Score評(píng)估結(jié)果均高于80%,表明SVM預(yù)測(cè)模型具有較高的預(yù)測(cè)準(zhǔn)確性。
2) SVM預(yù)測(cè)模型二分類評(píng)估結(jié)果。二分類評(píng)估對(duì)SVM預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析,評(píng)估結(jié)果如表5所示。其中,AUC和F1-Score的結(jié)果均高于0.900,表明模型的預(yù)測(cè)準(zhǔn)確性高,具有較好的可用性。
通過(guò)LR二分類和SVM兩種機(jī)器學(xué)習(xí)算法對(duì)同一機(jī)器學(xué)習(xí)數(shù)據(jù)源進(jìn)行并行訓(xùn)練、預(yù)測(cè)以及預(yù)測(cè)結(jié)果評(píng)估,經(jīng)過(guò)這2種不同機(jī)器學(xué)習(xí)算法的相互驗(yàn)證,驗(yàn)證了基于醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)構(gòu)建的BMT預(yù)測(cè)模型具有較高的預(yù)測(cè)水平。
4 討論
限于篇幅,僅以紅細(xì)胞體積分布寬度(red cell distribution width,RDW) 、嗜堿性粒細(xì)胞(basophilic granulocyte ratio,BASO) 等部分檢驗(yàn)項(xiàng)目為例進(jìn)行分析。研究發(fā)現(xiàn),權(quán)重排名第1的RDW,張璐璐等人[9]的研究發(fā)現(xiàn)乳腺癌組的RDW高于健康對(duì)照組,說(shuō)明RDW與乳腺癌存在一定的相關(guān)性。而排名第4的BASO,高鷹等人[10]的研究發(fā)現(xiàn)BASO升高可增加女性良性乳腺結(jié)節(jié)的發(fā)病風(fēng)險(xiǎn),而良性乳腺疾病又會(huì)增加乳腺癌的發(fā)病風(fēng)險(xiǎn)。權(quán)重排名第6的平均紅細(xì)胞體積(erythrocyte mean corpuscular volume,MCV) ,謝曉琳等人[11]的研究發(fā)現(xiàn)乳腺癌組患者的MCV明顯高于對(duì)照組,其差異具有統(tǒng)計(jì)學(xué)意義。權(quán)重排名第10的乙型肝炎病毒核心抗體(HBcAb) ,Lin-Jie Lu等人[12]的研究表明乳腺癌患者的HBcAb陽(yáng)性率明顯高于對(duì)照組,因此,暴露于乙型肝炎病毒感染可能是乳腺癌的一個(gè)危險(xiǎn)因素,可能與中國(guó)女性乳腺癌發(fā)病高峰年齡較早有關(guān)。權(quán)重排名第十五的尿糖(glucose in urine,GLU) ,李軍濤等人[13]發(fā)現(xiàn)伴有糖尿病的乳腺癌患者的腫瘤復(fù)發(fā)、轉(zhuǎn)移率相對(duì)高于血糖正常的乳腺癌患者,研究表明糖尿病可能是增加乳腺癌復(fù)發(fā)、轉(zhuǎn)移的一個(gè)危險(xiǎn)因素。
本研究基于醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù)采用LR二分類和SVM兩種ML算法構(gòu)建BMT預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明預(yù)測(cè)水平較高,具有可行性。通過(guò)LR二分類預(yù)測(cè)模型可以直觀地展示醫(yī)學(xué)檢驗(yàn)項(xiàng)目與BMT診斷結(jié)果的關(guān)聯(lián)關(guān)系,不僅印證了國(guó)內(nèi)外相關(guān)研究結(jié)果,而且為進(jìn)一步研究提供了潛在的方向。考慮到BMT的復(fù)雜性,本研究用機(jī)器學(xué)習(xí)算法對(duì)既往醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)進(jìn)行計(jì)算建模,還需要更多的醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)來(lái)優(yōu)化。未來(lái)將持續(xù)治理數(shù)據(jù)、優(yōu)化算法,提升模型的預(yù)測(cè)能力,使其成為一種方便、快捷、簡(jiǎn)單的BMT預(yù)測(cè)手段,真正能夠大規(guī)模用于臨床篩查。
參考文獻(xiàn):
[1] YU Z P,TANG S L,MA H B,et al.Association of serum adiponectin with breast cancer[J].Medicine,2019,98(6):e14359.
[2] 黎立喜,馬飛.乳腺癌篩查和早期診斷的血液生物學(xué)標(biāo)志物[J].國(guó)際腫瘤學(xué)雜志,2021,48(2):109-112.
[3] 李林海.常見(jiàn)腫瘤標(biāo)志物的臨床應(yīng)用及進(jìn)展[J].中華檢驗(yàn)醫(yī)學(xué)雜志,2016,39(12):995-998.
[4] 沈胤晨,韓曉紅.外周血腫瘤標(biāo)志物的篩選策略及臨床應(yīng)用[J].中華檢驗(yàn)醫(yī)學(xué)雜志,2013,36(11):961-964.
[5] 郭杰,劉海東,韋琴,等.基于檢驗(yàn)大數(shù)據(jù)的結(jié)直腸癌風(fēng)險(xiǎn)預(yù)測(cè)模型建立與驗(yàn)證[J]. 中華檢驗(yàn)醫(yī)學(xué)雜志, 2021(10): 914-920.
[6] 王正,王金申,劉志,等.基于人體血液學(xué)檢測(cè)的機(jī)器學(xué)習(xí)輔助泌尿系腫瘤篩查[J]. 泌尿外科雜志(電子版), 2017(04): 9-14.
[7] 牟冬梅,任珂.三種數(shù)據(jù)挖掘算法在電子病歷知識(shí)發(fā)現(xiàn)中的比較[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016(6):102-109.
[8] 任麗,劉洋洋,童瑩,曹雪虹,等.乳腺腫瘤超聲圖像的多特征提取及分類研究[J].中國(guó)醫(yī)療器械雜志, 2020(4): 294-301.
[9] 張璐璐,劉蕓,段文冰,等.乳腺癌患者部分外周血指標(biāo)的變化及腫瘤標(biāo)志物的診斷價(jià)值[J].中國(guó)醫(yī)藥,2018,13(3):421-425.
[10] 高鷹,魏瑋,樊娜,等.外周血嗜堿性粒細(xì)胞水平升高與女性良性乳腺結(jié)節(jié)發(fā)病風(fēng)險(xiǎn)的關(guān)聯(lián):基于乳腺超聲隊(duì)列研究[J].現(xiàn)代腫瘤醫(yī)學(xué),2021,29(21):3755-3760.
[11] 謝曉琳,陽(yáng)小群,李夢(mèng)璐,等.乳腺癌患者血液學(xué)指標(biāo)和臨床特征分析[J].海南醫(yī)學(xué),2019,30(2):186-188.
[12] LU L J,ADHIKARI V P,ZHAO C X,et al.Clinical study on the relationship between hepatitis B virus infection and risk of breast cancer:a large sized case-control and single center study in southwest of China[J].Oncotarget,2017,8(42):72044-72053.
[13] 李軍濤,張恒偉,郭旭輝,等.高糖對(duì)人乳腺癌細(xì)胞體外侵襲能力的影響[J].中華醫(yī)學(xué)雜志,2013,93(2):89-92.
【通聯(lián)編輯:唐一東】