夏淑潔 ,蔡 晶 ,雷黃偉 ,詹 杰 ,周智慧 ,李燦東
(1.福建中醫(yī)藥大學(xué)中醫(yī)證研究基地,福州 350122;2.福建省中醫(yī)健康狀態(tài)辨識(shí)重點(diǎn)實(shí)驗(yàn)室,福州 350122;3福建中醫(yī)藥大學(xué)中西醫(yī)結(jié)合學(xué)院,福州 350122)
中醫(yī)診斷的核心是辨證論治。證是疾病發(fā)生發(fā)展過程中某階段內(nèi)外環(huán)境綜合的本質(zhì)反映,它可通過相應(yīng)的癥狀、體征等表現(xiàn)出來,并不同程度地揭示病因、病位、病性、病勢等內(nèi)容,此即“有諸于內(nèi),并形諸外”,故說證候?yàn)榇龠M(jìn)中醫(yī)藥現(xiàn)代化的關(guān)鍵問題之一。而隨著西醫(yī)學(xué)研究的不斷深入,研究者們發(fā)現(xiàn)人體是一個(gè)復(fù)雜的巨系統(tǒng),證候具有非線性、多維性、復(fù)雜性的特點(diǎn)。傳統(tǒng)憑個(gè)人經(jīng)驗(yàn)的辨證方法往往帶有一定的主觀性和不確定性,這也限制著中醫(yī)的進(jìn)一步傳承與發(fā)展。多元統(tǒng)計(jì)方法是針對多個(gè)因素對結(jié)果的單獨(dú)及聯(lián)合作用的一種數(shù)理統(tǒng)計(jì)方法,可定量并綜合分析事物間復(fù)雜關(guān)系,因此符合中醫(yī)診斷的研究特點(diǎn)。本文現(xiàn)對常見的多元統(tǒng)計(jì)分析方法及其在中醫(yī)診斷研究中的應(yīng)用做進(jìn)一步剖析。
logistic回歸屬于概率型的非線性回歸,是研究二分類(可擴(kuò)展到多分類)觀察結(jié)果與影響因素之間關(guān)系的一種多變量分析方法[1]。流行病學(xué)研究中,主要用來分析疾病與各危險(xiǎn)因素之間的關(guān)系,如胃癌的發(fā)生與吸煙、飲食、不良習(xí)慣等的關(guān)系。logistic回歸中自變量既可以是連續(xù)的,也可以是分類的,通過分析可得到自變量的權(quán)重,從而得出事件發(fā)生的可能危險(xiǎn)因素。此外,還可用于發(fā)生某病或某種情況的概率預(yù)測。logistic回歸按因變量的取值可分為二分類與多分類兩種;按研究設(shè)計(jì)類型可分為非條件和條件logistic回歸分析兩種,前者適用于隊(duì)列研究和成組病例對照研究的資料分析,后者則用于配比設(shè)計(jì)的病例對照研究的資料分析[2-3]。
因中醫(yī)數(shù)據(jù)具有高度非線性的特點(diǎn),該方法多用于證的分類識(shí)別過程中醫(yī)主次癥狀的研究,也常與其他數(shù)理統(tǒng)計(jì)學(xué)方法合用,以確定中醫(yī)辨證分型。王偉杰等[4]在前瞻性、多中心的橫斷面觀察性研究方法基礎(chǔ)上,運(yùn)用logistic回歸分析類風(fēng)濕關(guān)節(jié)炎癥狀、舌脈與常見中醫(yī)證候之間的關(guān)系,得到了本病6個(gè)常見證候中與診斷相關(guān)的主要癥狀表現(xiàn),為臨床辨證提供了客觀依據(jù)。趙娜等[5]對413例亞健康失眠患者進(jìn)行多元logistic回歸及判別分析,其中,logistic回歸提取陰虛火旺型特征癥狀10個(gè),并建立中醫(yī)證型預(yù)測模型,且預(yù)測模型的一致率為81.84%;入選判別函數(shù)的特征癥狀12個(gè),回代法計(jì)算的判別一致率為81.1%,發(fā)現(xiàn)利用logistic回歸和判別分析歸納本證具有較高的吻合性。李毅等[6]對活動(dòng)期潰瘍性結(jié)腸炎中醫(yī)癥狀組合規(guī)律進(jìn)行研究,首先通過聚類分析得出大腸濕熱證、寒滯腸胃證、肝郁脾虛證3類證候是潰瘍性結(jié)腸炎活動(dòng)期基本證候,然后用logistic回歸分析3類證型的主癥與次癥特點(diǎn),進(jìn)而為該病的中醫(yī)辨證標(biāo)準(zhǔn)化研究提供了一種新的方法。
logistic回歸是一種多元分析的曲線模型,特別適用于自變量不能滿足正態(tài)分布、應(yīng)變量為多項(xiàng)分類的資料[7]。證是由一組對證影響程度各異的癥狀構(gòu)成,將某證的有無作為應(yīng)變量Y,以該證中出現(xiàn)的全部癥狀作為變量X,以此建立證的多元logistic回歸模型。這些癥狀中有主要癥狀與次要癥狀,而通過logistic回歸分析這些變量對證的不同“貢獻(xiàn)率”,可進(jìn)一步挖掘中醫(yī)證候分布規(guī)律,同時(shí)也可與其他數(shù)理統(tǒng)計(jì)學(xué)方法合用,以促進(jìn)中醫(yī)辨證規(guī)范量化。
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個(gè)類的分析過程,即“物以類聚”。其思路是挖掘能客觀反映事物之間關(guān)系或事物性質(zhì)相似程度的統(tǒng)計(jì)量,并通過統(tǒng)計(jì)量和分類準(zhǔn)則將事物進(jìn)行分類,目的是使組內(nèi)對象相互之間是相似的(相關(guān)的),而不同組之間的對象是不同的(不相關(guān)的);組內(nèi)的相似性越大,組間差別越大,聚類效果越好[8]。根據(jù)聚類分析目的可分為兩大類:一是Q型聚類(又稱樣本聚類),是將多個(gè)樣品歸類,其目的是找出樣品間的共性;二是R型聚類(又稱指標(biāo)聚類),是將多個(gè)指標(biāo)歸類,通過降維而選擇有代表性的指標(biāo)[1]。聚類分析屬于探索性的統(tǒng)計(jì)方法,它不需要“先驗(yàn)”知識(shí),依靠數(shù)理統(tǒng)計(jì)方法對數(shù)據(jù)資料進(jìn)行適當(dāng)歸類,故屬于非監(jiān)督分類方法。因其實(shí)用性而受到醫(yī)學(xué)科研工作者的青睞,但結(jié)果解釋需密切結(jié)合專業(yè)知識(shí),同時(shí)應(yīng)嘗試多種聚類方法,才能獲得較理想的結(jié)論。
聚類分析在中醫(yī)證候規(guī)范化研究中應(yīng)用較廣,多根據(jù)個(gè)體癥狀差異分析每一個(gè)類別個(gè)體的共同特征,最后結(jié)合專業(yè)知識(shí)將其歸屬為某一類別;也可通過指標(biāo)聚類對癥狀等指標(biāo)進(jìn)行歸類[9]。李志遠(yuǎn)等[10]運(yùn)用聚類分析方法并結(jié)合專業(yè)知識(shí)將強(qiáng)直性脊柱炎患者進(jìn)行分型,最終聚為4型,并確立證型名稱分別是寒濕痹阻證、濕熱痹阻證、痰瘀痹阻證及肝腎虧虛證。李毅等[11]應(yīng)用系統(tǒng)聚類方法對232例潰瘍性結(jié)腸炎患者的病癥進(jìn)行分析研究,得出潰瘍性結(jié)腸炎基本中醫(yī)證候有7類。徐全壹等[12]在收集734例腎虛證患者的35個(gè)典型癥狀資料基礎(chǔ)上,通過聚類分析構(gòu)建出腎虛證癥狀的主要結(jié)構(gòu)系統(tǒng),但發(fā)現(xiàn)可能會(huì)丟失很多重要的特性。劉晶等[13]探索代謝綜合征伴頸動(dòng)脈粥樣硬化的中醫(yī)證候要素組合特點(diǎn),首先對中醫(yī)四診信息運(yùn)用因子分析方法,得到24個(gè)公因子,并將其作為變量納入聚類分析,進(jìn)而確定該病的常見證候類型。
中醫(yī)辨證施治的過程中,通過望、聞、問、切所收集到的信息很大,臨床診斷時(shí)會(huì)出現(xiàn)難以取舍的情況。此外,不同的醫(yī)家對同一病種的辨證分型亦不相同。而聚類分析優(yōu)點(diǎn)是在證候研究時(shí)不需要預(yù)先給出證候診斷,避免了人為主觀性,而是對客觀的四診信息按相似程度大小進(jìn)行歸類,達(dá)到降維的目的。故為了明確各證候的分類情況,可以通過聚類分析對大規(guī)模流行病學(xué)調(diào)查所收集到的癥狀屬性進(jìn)行歸納和分類,然后參考相關(guān)標(biāo)準(zhǔn)、專業(yè)知識(shí)等進(jìn)行證型判定。
判別分析是根據(jù)判別對象若干個(gè)指標(biāo)的觀測結(jié)果判定其屬于哪一類的數(shù)理統(tǒng)計(jì)學(xué)方法[1]。基本原理是按照一定的判別準(zhǔn)則,建立判別函數(shù),確定參數(shù)指標(biāo),通過判別函數(shù)對訓(xùn)練樣本不斷建立學(xué)習(xí)規(guī)則,并計(jì)算判別指標(biāo),據(jù)此確定該樣本屬于何類,在此過程中,還可估計(jì)各項(xiàng)指標(biāo)對判斷的作用大小。依據(jù)判別的函數(shù)形式,可分為線性和非線性判別;根據(jù)判別中的組數(shù),可以分為兩組判別分析和多組判別分析;依據(jù)判別式處理變量的不同方法,可分為序貫判別和逐步判別等;依據(jù)判別的標(biāo)準(zhǔn)不同,可分為Bayes判別法、Fisher判別等[14]。因判別分析中所用的樣本資料視為總體的估計(jì),所以要求樣本量要足夠大,并有較好的代表性。
醫(yī)學(xué)領(lǐng)域的診斷推理過程??捎脭?shù)學(xué)方法來精確描述,判別分析可根據(jù)患者的主訴、體征及檢查結(jié)果來進(jìn)行臨床輔助鑒別診斷。曾聃等[15]為研究肝病患者中醫(yī)證型與檢查指標(biāo)的相關(guān)性,從肝病患者的127個(gè)檢驗(yàn)指標(biāo)進(jìn)行分析,篩選出13個(gè)指標(biāo),建立判別函數(shù),分別進(jìn)行回顧性預(yù)測和前瞻性預(yù)測,其判別正確率分別為84.38%、74.31%。魏嵋等[16]運(yùn)用逐步判別分析法探索慢性乙肝中醫(yī)證候的微觀辨證體系,篩選出丙氨酸氨基轉(zhuǎn)移酶(ALT)、總膽紅素(TBIL)、內(nèi)皮素(ET)、腫瘤壞死因子-α(TNF-α)、白細(xì)胞介素(IL)-6 5項(xiàng)判別權(quán)重大的指標(biāo),并建立數(shù)學(xué)判別模型,其判斷正確率為84.6%,從而為慢性乙型肝炎的中醫(yī)辨證提供了客觀依據(jù)。張穎等[17]以慢性再生障礙性貧血(CAA)患者常見的12種癥狀為基礎(chǔ),運(yùn)用Bayes判別分析方法建立CAA3種腎虛證辨證分型的判別方程,并采用自身驗(yàn)證回代法進(jìn)行檢驗(yàn),結(jié)果顯示總體正確率為88.17%。章浩偉等[18]將多囊卵巢綜合征(PCOS)患者根據(jù)臨床辨證分為腎虛證組、腎虛痰阻證組及腎虛肝郁證組3組,在運(yùn)用logistic回歸法將腎虛證分離出來的基礎(chǔ)上,再用Fisher判別分析法對剩余的兼夾證進(jìn)行第2次分類,結(jié)果顯示Fisher判別分析法對PCOS兼夾證分型的正確率可達(dá)87.8%,故認(rèn)為Fisher判別分析法可作為一種研究PCOS中醫(yī)證候分布規(guī)律的復(fù)雜工具。
判別分析通過對疾病現(xiàn)有的中醫(yī)證型進(jìn)行分析,建立研究疾病相關(guān)的判別函數(shù),再將獲得的判別函數(shù)代回樣本中進(jìn)行驗(yàn)證,其目的是對樣本資料進(jìn)行學(xué)習(xí),得到判斷類別的規(guī)則,再進(jìn)行多方面的考核。但由于該分析方式本身就是建立在以往辨證分型的基礎(chǔ)上,不可避免存在一些主觀性、驗(yàn)證性的成分,故通過建立函數(shù)的方法所得到的結(jié)果常不直接作為客觀化標(biāo)準(zhǔn)。
主成分分析也稱主分量分析,是指從多個(gè)數(shù)值變量之間的相互關(guān)系入手,運(yùn)用降維的思想,將多個(gè)變量化成少數(shù)幾個(gè)互不相關(guān)的綜合變量的統(tǒng)計(jì)方法[19]。如諸多主成分組成中,某成分在總方差中占的比重最大,說明它綜合原有變量的能力最強(qiáng),其余主成分在總方差中占的比重依次遞減,說明越往后的主成分綜合原信息的能力越弱。通??梢杂们懊鎺讉€(gè)方差最大的主成分來進(jìn)行,一般情況下,要求前幾個(gè)成分所包含的信息不少于原始信息的85%。它既能保留原始指標(biāo)的主要信息,且又互不相關(guān),從而達(dá)到簡化系統(tǒng)結(jié)構(gòu),抓住問題實(shí)質(zhì)的目的。而因子分析,是從研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),找到支配這種關(guān)系的有限個(gè)不可觀測的潛在變量,即公共因子,并用這些公共因子來解釋原始指標(biāo)之間的相關(guān)性或協(xié)方差關(guān)系的統(tǒng)計(jì)方法[1]。主成分分析與因子分析區(qū)別在于,前者是原始變量的線性組合,分析重點(diǎn)在綜合原始變量的信息,而后者是原始變量,是公因子和特殊因子的線性組合,分析側(cè)重點(diǎn)在于解釋各變量之間的關(guān)系。
主成分分析與因子分析在中醫(yī)證候規(guī)律的研究中主要體現(xiàn)為前者主要是將多個(gè)癥狀降維,綜合分析其證候分類,而后者從多維繁雜的證候中分析出各種疾病的共同證候以及每種證候的共同表現(xiàn)。張世君等[20]對正常高值血壓的常見癥狀進(jìn)行因子分析和聚類分析,從36個(gè)常見癥狀中提取8個(gè)公因子,涉及病性為陽亢、陰虛、痰濕,病位為肝、脾、腎。劉瑜等[21]基于主成分分析和因子分析的方法探索功能性腹脹病中醫(yī)證候特征,先用主成分分析法提取11個(gè)具有相對獨(dú)立性且特征值均在1.0以上的主成分,再通過因子旋轉(zhuǎn)法提取11個(gè)因子組合,并結(jié)合中醫(yī)理論分析得出功能性腹脹證候分布規(guī)律。李毅等[6]應(yīng)用因子分析的方法,得出潰瘍性結(jié)腸炎證候特征為活動(dòng)期大腸濕熱證、寒濕內(nèi)盛證和肝郁脾虛證,緩解期脾胃虛弱證、脾腎陽虛證、肝郁脾虛證、陰虛腸燥證、血瘀腸絡(luò)證,并運(yùn)用多元logistic回歸分析,得出潰瘍性結(jié)腸炎證候的癥狀量化指標(biāo),從而為該病的證候診斷標(biāo)準(zhǔn)研究提供了一種新的方法。
因中醫(yī)證候間接隱藏在四診信息背后,一般不可能直接觀測到,而通過四診信息來進(jìn)行綜合分析,進(jìn)而辨證,這與因子分析有類似之處,故借鑒因子多元統(tǒng)計(jì)分析方法探尋四診信息背后支配他們的公因子(證候)已被廣泛應(yīng)用于中醫(yī)證的研究。
典型相關(guān)分析是研究兩組變量整體之間相關(guān)關(guān)系的多元分析方法[22]。其借助主成分分析的思想,對兩組變量分別尋找線性組合,進(jìn)而使新變量來代表原始變量中最大部分信息,這兩組變量生成新的兩個(gè)綜合變量之間的相關(guān)程度最大,這種新的變量就是一組典型相關(guān)分析??梢?,將兩組變量轉(zhuǎn)化為少數(shù)典型變量之間相關(guān)性的研究,它更能夠從整體上分析問題的本質(zhì)[23]。其較以往的簡單回歸優(yōu)勢在于不必依賴于經(jīng)驗(yàn)判斷,消除了主觀性判斷對結(jié)果的影響,目前在許多相關(guān)分析和預(yù)測分析中應(yīng)用。
在研究中醫(yī)證候與微觀指標(biāo)之間的相關(guān)性時(shí),需注意的是證候都不是一個(gè)癥狀,而是多種癥狀組合,微觀指標(biāo)亦是如此。因而,分析兩者之間的相關(guān)關(guān)系,其實(shí)就是分析兩個(gè)變量組之間的相關(guān)關(guān)系,典型相關(guān)分析正是研究變量組相關(guān)性的一種統(tǒng)計(jì)方法。曾佑良[24]研究脾虛證癥狀組合與微觀指標(biāo)的相關(guān)性,在因子分析篩選出脾虛證5個(gè)癥狀組合的基礎(chǔ)上,運(yùn)用典型相關(guān)分析對癥狀組合與微觀指標(biāo)進(jìn)行相關(guān)性分析,進(jìn)而促進(jìn)脾虛證本質(zhì)研究。張瑩等[25]運(yùn)用典型相關(guān)分析探索急性冠脈綜合征的中醫(yī)證候與7個(gè)實(shí)驗(yàn)室指標(biāo)關(guān)系,發(fā)現(xiàn)纖維蛋白原與氣虛、超敏C反應(yīng)蛋白與痰飲、心肌肌鈣蛋白Ⅰ與寒凝有相關(guān)性。劉華等[26]通過典型相關(guān)分析對腦積水17個(gè)證候要素與11個(gè)證候要素靶位進(jìn)行相關(guān)性分析,得出5對綜合變量以反映原兩組變量的信息,發(fā)現(xiàn)瘀在腦積水證候中占有較大的比例,水與靶位多呈負(fù)相關(guān),從而為該病的證候規(guī)范化研究提供了依據(jù)。
臨床科研中,醫(yī)生常先收集到患者的四診資料然后進(jìn)行綜合分析以判斷證型,但該過程常受到個(gè)人經(jīng)驗(yàn)和知識(shí)水平等主觀因素的影響,最后利用這種情況下歸納出的證候與指標(biāo)進(jìn)行相關(guān)分析,其結(jié)果必然會(huì)受到主觀因素影響。然而,通過典型相關(guān)分析法首先是立足于整體思維,將證候變量看作1組變量,微觀指標(biāo)也看作另1組變量,通過統(tǒng)計(jì)的相關(guān)分析,進(jìn)而消除主觀因素對辨證的影響。
多元統(tǒng)計(jì)學(xué)方法主要探討高維數(shù)據(jù)的內(nèi)在規(guī)律,非常適合中醫(yī)的數(shù)據(jù)特點(diǎn),因而在中醫(yī)領(lǐng)域應(yīng)用廣泛。其主要體現(xiàn)在確立基本證型、篩選優(yōu)化指標(biāo)、確立優(yōu)化指標(biāo)權(quán)重、建立證候數(shù)學(xué)模型等環(huán)節(jié)上,以此推進(jìn)中醫(yī)診斷研究標(biāo)準(zhǔn)化、客觀化的步伐。然而,也存在著不少具體的研究結(jié)果與臨床實(shí)踐結(jié)果存在較大差異、樣本量少與建模重復(fù)性差、中醫(yī)術(shù)語欠缺規(guī)范等問題。筆者認(rèn)為可通過采用多種多元統(tǒng)計(jì)方法綜合運(yùn)用的模式,并進(jìn)一步規(guī)范診斷用語,展開大樣本重復(fù)性試驗(yàn)研究,可更好地推動(dòng)中醫(yī)診斷的客觀化研究。