陳 浩 王翔宇 侯如霞 楊婷婷 劉君瑜 史富茹
齲病是一種牙體硬組織慢性疾病,嚴重威脅人類的健康[1]。第四次全國口腔流行病學調查結果顯示,12歲兒童中有34.5%的人患齲病,而在35~44歲的人群中患齲率則高達89.0%[2]。齲病可造成牙體缺損、牙髓病和根尖周病等,影響牙的功能與美觀,可使患者的咀嚼功能減退、發(fā)音功能障礙,甚至可能會導致顳下頜關節(jié)紊亂和錯牙合畸形。目前公認齲病是在一定的時間內,受宿主易感性、口腔細菌和飲食等因素影響的一種口腔牙體疾病[3]。這些影響因素具體為宿主的基因、唾液[4]、細菌的種類[5]及其附著方式、飲食的種類及頻率等。而在宏觀上,齲病的發(fā)生則可能受到家庭、政策、社會和經濟[6]等因素的影響。
齲病的流行病學研究是通過臨床流行病學基本方法對齲病的發(fā)病原因、分布規(guī)律、預防方法等進行研究的。統(tǒng)計學和計算機技術的發(fā)展使得復雜的統(tǒng)計方法和分析成為可能。近年來,國內外研究者使用方差分析、相關性分析、回歸分析、聚類分析等統(tǒng)計學方式對齲病進行了大量的研究,促進了齲病防治方式的進步。作為數據統(tǒng)計分析方式之一,聚類分析統(tǒng)計法因其具有簡單快速、結論直觀和無需訓練集等優(yōu)點,近年來在齲病的流行病學研究中也得到了廣泛的使用。本文就聚類分析法在齲病的流行病學研究中的常用方法、應用進展和優(yōu)勢與展望等做一綜述,以期發(fā)掘聚類分析法在齲病流行病學研究中的應用價值,促進齲病防治的發(fā)展,促進人類口腔健康的發(fā)展。
數據挖掘(data mining,DM)是從大量的、不完全的、模糊的數據集中,提取隱含在其中有用信息的過程。描述型DM 屬于無監(jiān)督模型,不需要響應變量集,是在自身的數據集中尋找規(guī)律,主要有“關聯分析”、“聚類分析”、“主成分分析”三種模式。聚類分析作為描述型DM 中的一種,是傳統(tǒng)統(tǒng)計學算法的延伸和擴展。它的出現不是為了替代以往的統(tǒng)計學算法,而是與其他統(tǒng)計學方法一起去解決一些較難的數據分析問題。聚類分析法是將一組數據(如:病例、問卷、試驗數據)在一定的算法規(guī)則下,按照其相似性和差異性分為幾個類別,使得同一類別中的數據特征相近,而不同類別間的數據相似性盡可能的小[7]。從而把樣本分成不同的幾個簇集,以便于研究者依靠簇集的聚類特征進一步發(fā)掘出潛在的信息。聚類分析得到的相應的簇集結果后,可以再聯合其他的統(tǒng)計方式(例如單因素分析、多元logistics回歸等)進行更深入的統(tǒng)計學分析[8]。
聚類分析統(tǒng)計法主要可以分為以下幾個種類:劃分算法(以K-means最為常見)、層次方法(以系統(tǒng)聚類分析為代表)、基于密度的算法(如: DBSCAN算法等)、基于模型的方法(如:神經網絡)以及基于網格的方法(如:Wave-Cluster),這些方法可以滿足多數應用場景和研究的需求。目前,在齲病的流行病學研究中主要的運用方法的是K-means 聚類分析、系統(tǒng)聚類分析、兩步聚類分析等。
K-means 聚類分析一般為Q 型聚類,即對樣本進行聚類,可對連續(xù)變量進行處理。K-means 聚類分析通常以一個預設分類數開始,根據研究的目標,選擇人為干擾或不干擾初始聚類中心(質心)。然后通過計算樣本間的平方歐式距離,經過多次迭代,不斷地調整質心,最終在目標函數收斂結束時,把樣本分成K 個不同的簇集[9]。K-means 聚類分析具有簡單快速,適用于大樣本和多變量數據等優(yōu)點,但是也有著對離群點、異常點較敏感等缺點。目前在齲病研究中的應用如下。
(1)飲食模式與齲風險的關系研究
K-means 聚類分析法可以對連續(xù)變量進行處理,最終按照個體的變量特征將個體聚集為不同的幾個簇集。在研究飲食模式與疾病之間的聯系時,需要把個體多類型的飲食攝入量或攝入頻率看成一個整體[10]。Samman M 等[11]發(fā)現美國兒童齲病與其飲料攝入量有關,但兒童攝入的飲料是多類型的,各類飲料之間潛在的相互干擾,導致一些基于傳統(tǒng)統(tǒng)計分析方式得出的研究結論經常出現相互矛盾的情況。而該研究則使用K-means聚類分析法對美國兒童飲料攝入量的數據進行了預處理,最終確定了4種飲料模式,然后使用描述性統(tǒng)計和多元logistics分析等方式進行了深入分析,最終得出了無糖飲料對美國兒童齲齒無不良影響的結論。這為齲病與飲食模式關系的研究開辟了新的思路與研究方向。
(2)社會環(huán)境因素與齲齒經歷的關系研究
K-means 聚類分析法能處理齲病的多維度的影響因素,從而使得研究者能更容易地發(fā)掘其潛在的影響關系。Juliana Neide Amato[12]對5213名學生的齲齒經歷進行了研究,納入了社會、環(huán)境、學校、家庭等方面的數十個影響因素,然后使用K-means 聚類分析法進行了聚類,最終從“優(yōu)勢群體”和“弱勢群體”的角度上分析了各種社會環(huán)境因素與齲齒經歷的關系。
(3)齲齒的臨床診斷研究
K-means 聚類分析法在實現數字口腔內放射(digital intraoral radiology,DIR)圖像的齲齒區(qū)域可視化上具有優(yōu)勢。Obuchowicz R[13]為了改進齲齒DIR 臨床檢測方法,探討了可行的六種方法,包括K-means 聚類、共生矩陣、灰度差陣等方法,最終認為K-means 聚類雖然具有一些缺點(如必須預先輸入分類數量),但使用此方法進行齲齒的DIR圖像紋理特征分析,能顯著提高DIR齲病位點的檢測能力。同時,Das Gupta S[14]通過K-means 聚類分析法對10顆早期齲壞牙齒的拉曼顯微光譜(Raman microspectroscopy)進行了研究,最終發(fā)現K-means聚類分析對礦化程度很敏感,能準確地從光譜圖中識別到齲齒病變。
系統(tǒng)聚類(hierarchical cluster,HC)也叫層次聚類算法、分層聚類法。它是層次方法之一[15]。HC法能處理分類變量或者連續(xù)變量。其方法主要分為兩種,一種是凝聚層次聚類(AGNES),另一種是分解層次聚類(DIANA)。在齲病研究中以AGNES 較為常用。其基本原理為:初始時,把每個變量或樣本作為單獨的一簇,計算變量或樣本之間的類間距離,把距離相近的變量先聚合成為一個新簇,再重復此步驟逐步合并,最終把變量或樣本都合并到同一個聚類時則停止,整個結果用樹狀圖或譜系圖來表示。雖然HC 法處理速度相對較慢、不適用于龐大的數據集,但其具有使用限制較少、無需預先確定分類數等優(yōu)勢。HC法在齲病研究中的應用較為廣泛。
(1)齲病病因學研究:①遺傳因素:在個體層面上使用HC 法對齲面進行聚類后,再對聚類簇進行遺傳關聯的研究[16],有助于對齲病有關的遺傳基因因素的探索。Haworth S[17]在一項對雙胞胎患齲病特點的研究中,使用HC 法把不同牙位的齲齒面聚集為了7 個類型,然后通過多變量ACE 模型研究了每個聚類中的遺傳因素的貢獻比例,最后證明遺傳因素能解釋41.9%~54.3%的齲病易感性。②細菌因素:使用HC 法可建立齲病患者與口腔細菌種類的無監(jiān)督分層聚類熱圖,從而更容易地對不同齲病患者的口腔菌群類型進行分析。Wolff[18]使用HC 法對26 例患齲者和28 例無齲者的牙菌斑細菌的實時定量聚合酶鏈式反應(real-time quantitative polymerase chain reaction,RQ-PCR) 產物進行了分析,最終通過觀察分層聚類熱圖發(fā)現:在沒有患齲齒的受試者中,血鏈球菌、戈登氏鏈球菌、二氧化碳噬纖維菌、咽峽炎鏈球菌群和梭桿菌的RQ-PCR 表達水平相對更高,而在患有齲病的受試者中,變形鏈球菌和酸性丙酸桿菌的RQ-PCR 表達水平相對較高。③唾液因素:使用HC 法可以把含有數十種成分的唾液進行分類,進而使研究者從整個唾液分型的維度去分析對應的齲風險特征[19]。Xia G[20]的一項對28 名志愿者的縱向研究,對未受刺激分泌的唾液和受刺激后分泌的唾液的變量進行了HC 分析,最終證明較高的唾液流速、較低的未刺激唾液溶菌酶和乳鐵蛋白水平與低齲風險相關?;谕僖簲祿木垲惙治?,有助于從一系列唾液數據中挖掘出對低齲風險較為重要的唾液影響成分。
(2)齲病分類模型研究
建立相應的齲病分類模型,有助于齲病的流行病學研究[21]和基因研究[22]。使用HC法,根據人群中齲病病變牙面的分布特征對牙面進行分類,有助于研究人員對特定的齲病模式與環(huán)境、遺傳等因素的相關關系進行研究。Shaffer JR 等人[23]對1068 名成年人的全口齲齒數據進行了分層聚類分析,將樣本分為了5 種齲病模式:C1 磨牙窩溝面、C2 下頜前牙面、C3 后牙非窩溝的面、C4 上頜前牙面、C5 牙列中部的面,然后再進一步地對這五種齲病模式的患者特征進行了分析,最終發(fā)現遺傳、年齡、受教育程度等是齲病的一系列影響因素。
基于多維比例分析建立的低齡兒童齲?。╡arly childhood caries,ECC)模型在準確性上相對較差,而使用HC 可以對現有的ECC 模型進行補充和完善[24]。Psoter WJ[25]在一項對美國5169 名學齡前兒童的研究中,使用HC 分析同時結合已有的ECC 模型,建立了一種更精確的ECC 模型:C1 除上頜切牙外的光滑面、C2 上頜切牙、C3 下頜第一磨牙牙合面、C4 上頜第一磨牙牙合 面、C5 上頜第二磨牙牙合 面、C6下頜第二磨牙牙合面。使用HC 法建立的ECC 模型有助于研究者對ECC 危險因素的識別,以進一步探討ECC 的風險因素和保護因素。Wang X[26]的研究使用HC 法把2160 名青少年分為了4 個齲風險簇集(低風險、中風險、高風險和極高風險),并深入分析了這4 個簇集的人口、社會經濟、心理和行為因素的關聯,為有關部門在齲病預防政策上的優(yōu)化提供了方法和依據。
(3)齲病預防模式的研究
使用HC 法對醫(yī)師預防模式進行分析,可以幫助醫(yī)師和相關機構選擇重點干預人群,優(yōu)化預防齲病的方式,從而預防或延緩齲齒在人群中的發(fā)展[27]。Da Silva Tagliaferro[28]使用聚類分析對197名巴西牙醫(yī)的齲病預防模式進行分析后發(fā)現:最大分組(容納著98 名牙醫(yī))的特征是“很少對患者使用齲病預防措施”,該分組同時伴有以下特征:①能接受個人齲齒預防的患者比例最低;②評估齲齒風險的可能性最低;③女性牙醫(yī)比例最低;④45~64歲的患者比例最高。
兩步聚類分析法(two step cluster,TSC)是以統(tǒng)計量作為距離指標,把連續(xù)變量和分類(離散)變量根據統(tǒng)計標準,自動確定最佳分類數的一種聚類方法。TSC 的兩步為:第一步,構建聚類特征(Cluster feature,CF)樹。CF 樹是在掃描數據集的過程中不斷添加并更新CF 條目及分裂節(jié)點來形成的。它根據首個樣本建立根節(jié)點及相應的條目,之后根據距離最小的原則逐個將其他的樣本分配。CF 樹中節(jié)點的每個條目表示一個聚類,每個條目就是聚類特征。第二步,將上一步的預聚類結果進行正式地再聚類。根據施瓦茲貝葉斯準則或Akaike信息準則等指標自動確定最佳聚類個數[29]。TSC 還具有更適用于大型數據集,同時也能診斷樣本中的離群點和噪聲數據等優(yōu)勢。
(1)復雜因素對齲病的影響研究
相較于K-means 聚類分析和HC 分析,TSC 的一個優(yōu)勢在于可以同時對分類變量和連續(xù)變量進行處理。Fadel HT[30]的一項的齲病影響因素的研究中,同時納入了父母教育水平、患兒性別等分類變量和患兒身體質量指數(body mass index,BMI)等連續(xù)變量,運用TSC法把290名兒童家長聚集為了4個類型,從而進一步分析了4 個類型中的齲病患兒在DMFT 指數上的差異,最終認為BMI 高、父母教育程度低的患兒,齲風險更大。
(2)不良修復體與繼發(fā)齲的關系研究
TSC 的另一個優(yōu)勢在于可以自動確定最佳的分類數。Ghulam OA[31]在一項修復體懸突和繼發(fā)齲的研究中,對502 名具有修復經歷的患者的年齡、性別、醫(yī)療水平和齲齒經歷等變量使用了TSC法,最終將患者自動聚集為了5 種類型,然后通過分析聚類特征,進而證明了充填體懸突與患者所受的醫(yī)療水平相關,且修復體懸突是繼發(fā)齲的一個危險因素。
口腔流行病學研究中較常使用的統(tǒng)計分析方式(相關分析、方差分析、回歸分析等)在齲病的研究中發(fā)揮著重要作用,但對于樣本量大、影響因素多維的數據集,有時卻面臨著統(tǒng)計設計繁瑣和統(tǒng)計結果的可解釋性較弱等問題。而使用聚類分析法與傳統(tǒng)統(tǒng)計方式相結合的模式,可以更直觀且便捷地處理齲病的多維度的影響因素,從而有利于研究人員進一步發(fā)掘數據集中潛在的有用信息。比如在研究飲食模式與齲病之間的聯系時,需要把個體多類型的飲食攝入量或攝入頻率看成一個整體,如果單純地使用傳統(tǒng)統(tǒng)計方式,則統(tǒng)計設計相對困難且繁瑣。而研究人員如果使用聚類分析法預處理數據[11],從個體的維度上把樣本聚類為幾個飲食模式,再使用傳統(tǒng)方式進行齲風險的分析則更容易進行數據處理,且得到的分析結果也更加淺顯易懂。Shaffer[23]認為相較于一般的齲病流行病學研究,使用聚類分析法可以根據齲齒的特點將其進行合理的分組,這有利于進一步的齲齒病因學的研究。WangX[26]認為在齲病橫斷面調查的研究中使用分層聚類分析可以從更少的樣本中挖掘出更多有用的信息。但Zhao J[32]在肯定聚類分析法具有優(yōu)勢的同時,也指出了這種方式沒有考慮到個體分類的不確定性,且在結果再現性方面具有一定的局限。所以,臨床在應用聚類分析進行數據分析時,應充分考量其局限性對實驗結果的影響[33]。同時,關注并使用聚類分析算法的改進方法或許可以更好的達到實驗目的,如簡單多核K-Means聚類方法[34]、無中心聚類法[35]等。
三種聚類分析方法在齲病流行病學研究中的適用范圍不同,優(yōu)缺點各異(表1)。值得注意的是,本文中所探討的聚類分析法在齲病研究中的應用,僅為國內外研究應用現況,并非表明類似的齲病研究就必須局限于所對應的聚類分析方法。研究者應根據樣本量、變量類型及研究目的等,靈活地選用更適合的聚類分析方法。同時應注意到,聚類分析方法并不能完全代替?zhèn)鹘y(tǒng)統(tǒng)計方法,在一項研究中一般不會單獨地使用聚類分析。通常,使用聚類分析法對樣本進行預處理后,仍然需要傳統(tǒng)的統(tǒng)計方法對聚類結果進行進一步的處理及分析。
表1 三種聚類分析方法的適用范圍及優(yōu)缺點
綜上,在齲病的流行病學研究中使用聚類分析方法,對明確齲病的病因、影響因素和在齲病預防等方面具有重要的意義。目前,聚類分析法在齲病流行病學研究中的應用,使得基因因素、細菌因素、飲食因素、社會環(huán)境因素等對齲風險的影響關系更加清晰與完善。基于聚類分析的齲病的流行病學研究仍然有廣闊的發(fā)展空間,有一些問題亟待解決:①個體飲食模式對齲風險的影響的研究尚不完善;②目前的研究多局限于橫斷面研究,這不足以支撐齲病影響因素與齲病間的因果關系;③齲風險評估模型建立的方法很多[36],而依靠聚類分析建立起的齲風險評估模型對齲病的預防具有一定的指導意義[37]。