国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于曲線聚類的肺結核流行特征分析

2019-12-06 07:52陳穗穗吳玲倩
關鍵詞:中心線發(fā)病率肺結核

陳穗穗,吳玲倩,趙 煜

(蘭州財經大學 a.統計學院;b.甘肅經濟數量分析研究中心,甘肅 蘭州 730020)

結核病是一種慢性傳染病,其發(fā)病規(guī)律與流行特征決定了其危害性,結核病是世界上最大的傳染病殺手[1]。我國的結核病疫情也相當嚴峻,首先,我國一直是全球肺結核疫情最為嚴重的國家之一,其次,我國肺結核的報告發(fā)病在甲、乙類傳染病中僅次于乙型肝炎,位居第二位。近年來,我國加大了對公共衛(wèi)生的關注與資金的投入,我國肺結核疫情已經有了較為明顯的改善。2016年,我國的肺結核發(fā)病率已經下降到61.37/10 萬,為歷年最低,但由于我國感染肺結核的人口基數大,肺結核的疫情仍不容樂觀,需要對我國肺結核的發(fā)病特征做進一步的研究。

第一,當前關于肺結核發(fā)病情況的研究多數在于肺結核平均發(fā)病水平,極少有分析發(fā)病的波動特征研究。從肺結核發(fā)病率的均值與方差角度進行分析,更有助于發(fā)現肺結核發(fā)病特征,以便對肺結核發(fā)病情況進行精準管理與有效預防;第二,現有研究肺結核的地區(qū)分類往往是借助于肺結核的平均發(fā)病水平的區(qū)域靜態(tài)分類,而從動態(tài)角度進行肺結核發(fā)病特征的地區(qū)分類,將能夠更有針對性、更有效地對肺結核的發(fā)病進行管理與預防;第三,現有關于肺結核發(fā)病情況的研究多處于中觀層面,這樣有利于每個地區(qū)肺結核的預防與控制,而從全國的宏觀層面去研究,更加有利于資源的有效配置,而且還可以加強各地區(qū)之間的交流溝通。

筆者站在宏觀角度既從均值角度又從方差角度入手,用靜態(tài)分類與動態(tài)分類相結合的方式進行分析,以期全面立體地研究我國的肺結核發(fā)病特征。

1 資料來源與方法介紹

1.1 資料來源

本研究所需資料來源于國家人口與健康科學數據共享平臺公共衛(wèi)生科學數據中心(http://www.phsciencedata.cn/)提供的2005-2016年全國32 個地區(qū)肺結核發(fā)病率數據。

1.2 流行病學特征的描述性分析

流行病學的描述性研究主要是描述疾病和健康狀況在時間、空間和人群間的分布特征[2-3]。每一種疾病在不同季節(jié)、不同空間以及不同人群間存在或多或少的差異,了解疾病分布的地區(qū)差異不僅有助于揭示病因和流行因素,而且能夠為各地區(qū)疾病的防治工作提供科學依據;了解疾病的人群分布情況,有助于在預防和治療疾病時能夠合理地分配衛(wèi)生資源;了解疾病季節(jié)分布特征,有助于疾病的提前預防與治療。描述性研究是了解疾病發(fā)病特征的最基本的工具,也是研究疾病發(fā)病特征的第一步,主要借助一些位置統計量及相關統計圖進行分析,常用的位置統計量如平均發(fā)病人數、平均發(fā)病率等,而分布特征主要借助折線圖、直方圖、箱線圖等來展示。

1.3 曲線聚類分析方法

聚類分析是依據樣本數據之間的親疏程度對樣本或變量進行分類,聚類分析能夠將具有相似特征的樣本聚成一類,實現物以類聚的目的,曲線聚類方法主要是將離散觀測數據視作具有內在統計結構的整體函數,然后將具有相似變化趨勢的曲線歸為一類。函數型數據聚類分析方法大致分為兩類:一是原始數據法,該方法直接針對離散樣本點進行聚類,屬于高維數據分析方法;二是投影方法,即以有限維的基底函數逼近曲線,將無限維的問題轉化為有限維問題展開分析。投影法的曲線聚類分曲線擬合和聚類分析分兩步展開:首先以有限維基底擬合曲線,然后對估計的參數執(zhí)行傳統聚類算法。利用兩階段隨機過程分別完成數據降維和聚類等?;缀瘮颠x擇B-樣條基底函數擬合數據并根據傳統聚類方法分析,利用正交基函數進行聚類分析[4]。

基于B-樣條函數型數據的曲線聚類主要從工負責個方面進行:第一,由觀測離散型數據生成函數型數據(曲線);第二,構造曲線函數之間的“距離”,利用B-樣條基底系數及其差分,將曲線函數“距離”轉化為傳統的歐氏距離;第三,以構造的距離作為親疏程度度量,將曲線聚類問題轉化為多元統計聚類問題進行分析。

1.3.1 函數型數據的生成 確定n組可觀測的數據由下面模型生成

則該法稱為基底函數法,是將離散觀測數據轉化為曲線的常用平滑技術。

1.3.2 基底函數表述曲線距離 計算曲線的距離采用的是B-樣條逼近的方法,利用B-樣條基底函數分析函數型數據曲線的特征。

對于曲線Xi(t)估計可以采用截斷的形式,將式(2)的無限維問題轉化為有限維的估計,即

在上述設定的情況下式(2)可通過以下截斷形式進行估計:

其中

為L×L的實對稱矩陣,其中元素為L2空間中的內積。式(6)的距離公式是多元統計中的加權歐氏距離,權重矩陣為L。曲線聚類問題轉化為傳統多元統計分析中對系數向量的聚類問題。任何基于非加權歐氏距離的傳統聚類方法都可以直接應用到曲線聚類分析中。當式(6)的計算結果越小,則兩個曲線的發(fā)展時間軌跡更加相似。

2 我國肺結核的發(fā)病現狀與特征分析

2.1 2005-2016年肺結核發(fā)病的基本現狀

從圖1可看出2005-2016年的發(fā)病數與發(fā)病率曲線總體是呈下降趨勢,直到2016年,肺結核的發(fā)病人數與發(fā)病率均達到歷史最低點,全國2005-2016年肺結核年平均發(fā)病率為76.02/10 萬,2016年全國共報告肺結核患者836 236 例,2016年發(fā)病率低于近10年的年平均發(fā)病率,2016年肺結核的發(fā)病情況與2005年同期相比,發(fā)病數下降了33.59%??傮w來說,全國肺結核的發(fā)病數與發(fā)病率從2005年開始,呈逐年下降的趨勢,說明我國對于肺結核的預防與治療取得較好的效果。

圖1 全國2005-2016年肺結核發(fā)病情況Fig.1 Incidence of pulmonary tuberculosis in 2005-2016 in the country

2.2 肺結核發(fā)病率的分布特征分析

2.2.1 年齡分布特征 結果見圖2。由圖2可知,2005-2016年全國肺結核發(fā)病率在年齡分布中呈明顯的先低峰后高峰的雙峰分布,0 ~14 歲的嬰幼兒及兒童是明顯的低發(fā)病率人群,而60 歲以上的老年人是高發(fā)病率人群。肺結核在人群中各年齡階段的發(fā)病率也具有明顯差異[5]??梢詮? 個不同年齡段的發(fā)病群體進行分析。

(1)0 ~14 歲為肺結核低發(fā)病率人群,此年齡階段的人群發(fā)病率遠遠低于其他年齡階段的人群發(fā)病率。

(2)15 ~59 歲為中等肺結核發(fā)病率人群,高于0 ~14 歲的人群發(fā)病率,低于60 歲以上的人群發(fā)病率,處于中等水平,且在此年齡階段的20 ~24 歲為低峰的最高峰值97.24/10 萬。

(3)60 歲以上為高危肺結核發(fā)病率人群,此年齡階段的肺結核人群發(fā)病率遠遠高于所有年齡階段的發(fā)病率,尤其是70 ~74歲年齡段的人群發(fā)病率最高已達到223.57/10萬,75 ~79年齡段人群的發(fā)病率次之。

圖2 全國2005-2016年肺結核發(fā)病分年齡階段的12年平均發(fā)病率情況Fig.2 Twelve years average incidence of pulmonary tuberculosis in different age in 2005-2016 in the country

2.2.2 地區(qū)分布特征 通過整理原始的肺結核發(fā)病率數據,得到2005-2016年32 個地區(qū)的平均年發(fā)病率,利用ArcGIS10.0 軟件[6]繪制出肺結核發(fā)病率的熱力圖見圖3,海南、廣西、貴州、湖南、湖北、重慶、黑龍江、西藏和新疆地區(qū)的顏色為紅色,說明這些地區(qū)的平均年發(fā)病率普遍最高,均超過了90/10 萬的發(fā)病率,西北的新疆肺結核年發(fā)病率高達180.42/10 萬;寧夏、遼寧、北京、天津、河北、山東、上海、江蘇、云南的平均年發(fā)病率較低,天津的平均年發(fā)病率最低,僅為28.52/10 萬,為全國肺結核平均年發(fā)病率最低的地區(qū);其余大部分地區(qū)的肺結核平均年發(fā)病率均處于中間水平,高于60/10 萬的發(fā)病率水平,低于90/10 萬的發(fā)病率水平。由于缺少臺灣、香港和南沙群島的數據,所以這些地區(qū)在圖3中呈現其他的顏色。

圖3 全國2005-2016年各地區(qū)肺結核平均年發(fā)病率熱力圖Fig.3 Average annual incidence of pulmonary tuberculosis in all regions in 2005-2016 in the country

2.2.3 時間分布特征 結果見圖4。從圖4中可以看出,我國肺結核發(fā)病率具有明顯的季節(jié)分布特征,每年報告的肺結核發(fā)病率會出現兩個高峰,每年的1月份與3月份,2月份的肺結核發(fā)病率低于1月份與3月份的發(fā)病率,3月份到12月份的肺結核發(fā)病率一直呈現下降的趨勢,直到每年的12月份發(fā)病率達到最低,次年的1月份的發(fā)病率又急劇上升,開始呈現與上一年相同的發(fā)病特征[7-8]。顯然,我國肺結核發(fā)病率呈現明顯的季節(jié)性。每年的1月份與3月份的發(fā)病率是最高的,12月份的肺結核發(fā)病率是最低的。

圖4 2005-2016年我國肺結核月發(fā)病率的時間序列圖Fig.4 2005-2016 time series chart of monthly incidence of pulmonary tuberculosis in China

3 各地區(qū)肺結核發(fā)病率時間軌跡的相似性分析

3.1 聚類過程及結果

上文的地區(qū)分布特征是運用年平均發(fā)病率,利用ArcGIS10.0 地理作圖工具,初步對全國各地區(qū)的肺結核發(fā)病率進行分類,分類較為片面,為進一步了解全國各地區(qū)肺結核的發(fā)病特征,本文又采用了函數型數據聚類的方法進一步分析。采用回歸樣條的方式擬合了2005-2016年32 個地區(qū)肺結核發(fā)病率的時間序列數據,擬合結果按照時間排列生成發(fā)病率的時間序列曲線族,樣條基底函數的階數定位M= 3 以保證擬合結果的光滑性,采用等距節(jié)點的設置方式設置內部節(jié)點,選擇廣義交叉驗證(GCV)準則確定節(jié)點數量,最終確定內部節(jié)點個數為K= 48 作為最優(yōu)曲線擬合,根據前面的聚類方法,采用式(6)的距離公式對各地區(qū)肺結核發(fā)病率時間軌跡的相似性進行聚類,聚類結果如圖5與圖6所示。表1是聚類結果的1 ~4 類中包含的地區(qū)編號與地區(qū)名。

結合圖5與表1可以出,利用函數型聚類分析能夠將32 個地區(qū)具有相似發(fā)病率時間軌跡的地區(qū)歸為四類,第一類中包括貴州與新疆兩個地區(qū);第二類包括黑龍江、湖北、湖南、廣西、海南、重慶、西藏、青海8 個地區(qū);第三類包括內蒙古、吉林、安徽、江西、河南、廣東、陜西、甘肅、山西、浙江、福建、四川、建設兵團13 個地區(qū);第四類包括北京、天津、河北、上海、遼寧、江蘇、山東、云南、寧夏9 個地區(qū)。并且結合圖6的類中心線明顯可以看出,這4 類之間具有明顯的差異,第一類的類中心線要明顯的高于第三類與第四類的類中心線。說明四類之間具有明顯的差異[9-10]。

3.2 類間與類內的差異性分析

3.2.1 類間差異性分析 從圖5可以看出,四類之間具有明顯的差異,第一類貴州和新疆兩個地區(qū)的發(fā)病率函數曲線明顯的高于第三類地區(qū)與第四類地區(qū),第二類地區(qū)的肺結核發(fā)病率函數曲線的前半段略低于第一類地區(qū),但后半段與第一類地區(qū)的曲線略有重合。結合每類的類中心曲線的水平高度與波動情況,進一步分析各類之間的差異,結果見表2。一方面類中心線的水平高度,從表2可以看出,第一類地區(qū)的類中心線的平均值最高,達到13.74,而第二類地區(qū)的類中心線次之,為8.59,第三類地區(qū)與第四類地區(qū)的類中心線水平分別為6.40 與3.96,由此可以看出,第一類地區(qū)的肺結核發(fā)病水平遠遠的高于第二類地區(qū)、第三類地區(qū)與第四類地區(qū);另一方面類中心線的波動情況,從表2中可以看出,第一類地區(qū)的類中心線波動最為明顯,方差為6.12,第二類地區(qū)與第三類地區(qū)的類中心線波動較為明顯,方差分別為1.79 與2.30,第四類地區(qū)的類中心線趨勢較為平緩,方差為0.47。由此可以看出,第一類地區(qū)每年肺結核的發(fā)病情況波動起伏最大,發(fā)病情況的不確定性最強,是最難進行控制的;第二類地區(qū)與第三類地區(qū)肺結核發(fā)病情況波動相對較小,而第四類地區(qū)肺結核發(fā)病情況波動最小,最穩(wěn)定。

圖5 2005-2016年全國32 個地區(qū)聚類曲線圖Fig.5 Cluster graph of 32 regions in 2005-2016 in the country

圖6 曲線聚類的類中心線Fig.6 Class center line of curve clustering

表1 全國32 個地區(qū)曲線聚類結果Tab.1 Results of curve clustering in 32 regions in China

表2 類間均值與方差對比表Tab.2 Comparison of mean value and variance among classes

結合這兩方面來看,第一類兩個地區(qū)的肺結核的發(fā)病情況更加嚴峻,發(fā)病率高,發(fā)病率波動大,不確定性大,防治困難;第二類地區(qū)的肺結核發(fā)病情況相較于第一類地區(qū),發(fā)病率略低,而且波動相對較小,但結合圖5可以看出,西藏與青海兩個地區(qū)肺結核發(fā)病情況較為特殊,兩個地區(qū)在2005-2011年間,肺結核的發(fā)病率較低,但2012年之后,發(fā)病率有逐漸走高的趨勢,而且波動也在逐漸增大,有趨近于第一類地區(qū)的趨勢,應更加注意這兩個地區(qū)的防治;第三類與第四類中各地區(qū)的發(fā)病率時間軌跡更加相似,聚集度更高,并且發(fā)病率是最低的,波動也不大,相對來說第三類地區(qū)與第四類地區(qū)的防治相對簡單。

3.2.2 類內動態(tài)分析 從圖6可以看出,每類地區(qū)的肺結核發(fā)病在后期都呈現下降的趨勢,后期的波動也呈現減小的趨勢,以2010年為時間節(jié)點,結合每類的類中心線的水平高度與波動情況進一步分析,結合表3中類內均值控差對比的數據可以看出,每一類在2010-2016年這一時間段內的平均發(fā)病水平與波動情況均低于2005-2010年這一時間段的平均發(fā)病水平。整體來看,我國的肺結核防治措施具有一定的效果,每類地區(qū)的肺結核發(fā)病率相對前些年已經有所下降,而且每年的波動也在減小,這說明,我國肺結核的防治已經取得一定的成效。

表3 類內均值與方差對比表Tab.3 Comparison of mean value and variance intra-class

4 結語

本文通過對2005-2016年全國各地區(qū)肺結核的疫情資料分析,得出以下結論:

(1)2005-2016年全國肺結核的發(fā)病數與發(fā)病率總體都呈現下降趨勢,自2001年國務院制定《全國結核病防治規(guī)劃(2001-2010)》以來,國家加大了肺結核的防治力度,結果顯示肺結核病的防控工作取得了較好的結果。盡管我國的肺結核疫情有了顯著的改善,但仍是全球結核病流行嚴重的國家之一,仍需要做好防控工作,控制疫情。

(2)全國肺結核結構分布特征如下:通過比較各年齡階段的發(fā)病率可以發(fā)現,高危人群主要是60歲以上的人群,低危人群主要是14 歲及以下的人群,新生兒出生后會及時接種卡介疫苗,所以14 歲以下的幼兒及兒童的發(fā)病率較低,而60 歲以上的老人免疫力降低,易感染肺結核或結核病的易復發(fā),60歲以后肺結核的發(fā)病率迅速上升。由此可見,老年人是我國在未來結核病防控中需要重點關注的對象。

(3)肺結核的發(fā)病率具有明顯的季節(jié)分布特征,以每年的12 個月為一個周期,每年報告的肺結核發(fā)病率顯示,1月份與3月份為發(fā)病高峰,3月份之后發(fā)病率呈現持續(xù)下降的趨勢,12月份為發(fā)病率最低的月份,因此結核病的防控要根據不同的季節(jié)采取不同的防控策略。

(4)全國肺結核發(fā)病情況具有明顯的地區(qū)分布特征,利用年平均發(fā)病率的靜態(tài)數據分析肺結核發(fā)病的地區(qū)分布特征,高危發(fā)病地區(qū)包括新疆、西藏、青海、貴州、重慶、湖北、湖南、廣西以及黑龍江地區(qū),低危地區(qū)有北京、天津、河北、山東、江蘇、上海、云南以及寧夏地區(qū)。為進一步了解肺結核發(fā)病情況的地區(qū)分布特征,因此采用曲線聚類方法對32 個地區(qū)2005-2016年間每月的數據進行動態(tài)分析,得出高危地區(qū)的貴州與新疆地區(qū)肺結核發(fā)病情況嚴重,其每年的波動起伏較大;而高危地區(qū)中的重慶、湖北、湖南、廣西發(fā)病情況相對較好;但應注意青海與西藏兩個地區(qū),前期兩個地區(qū)的發(fā)病情況較低,后期兩個地區(qū)的發(fā)病情況卻有增高的趨勢。中危地區(qū)與低危地區(qū)的發(fā)病情況相對穩(wěn)定。

猜你喜歡
中心線發(fā)病率肺結核
立式水輪發(fā)電機組“三條線”淺析
多曬太陽或可降低結直腸癌發(fā)病率
ARIMA模型在肺癌發(fā)病率預測中的應用
愛情是一場肺結核,熱戀則是一場感冒
72例肺結核合并糖尿病的臨床護理
蒙西醫(yī)結合治療肺結核進展
宮內節(jié)育器與宮頸糜爛發(fā)病率的臨床研究
大連港職工甲狀腺結節(jié)發(fā)病率調查
X線攝影中中心線對DR攝影質量的重要性
疣狀皮膚結核合并繼發(fā)型肺結核1例