国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

系統(tǒng)聚類法及其應用研究安尼卡爾

2019-08-10 06:45:16安尼卡爾·艾斯卡爾祖來克孜·米吉提
價值工程 2019年17期
關鍵詞:聚類分析

安尼卡爾·艾斯卡爾 祖來克孜·米吉提

摘要:本論文在研究各類系統(tǒng)聚類法的基礎上,并運用在實例中說明其方法在具體問題中的應用。即通過最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平法和法等方法對新疆各地州生產(chǎn)總值進行分類,分析并找出分類質(zhì)量最好的分類結(jié)果,提出其方法所體現(xiàn)的優(yōu)缺點,以及在運用各類系統(tǒng)聚類算法時會存在的弊端等,再對最終研究結(jié)果依據(jù)相關領域?qū)嶋H情況進行解析,進而提出進一步提高各地州經(jīng)濟發(fā)展的對策建議。

Abstract: On the basis of studying all kinds of system clustering methods, this paper illustrates the application of the method in concrete problems by using examples. By the shortest distance method, the longest distance, middle distance, average method, gravity method, dispersion method and the method of classifying product throughout xinjiang states, analyze and find out the best quality classification classification results, reflect the advantages and disadvantages of the method is put forward, and the use of all kinds of system the insufficiency of clustering algorithm, etc., to finally analyze the results according to the actual situation in related fields, and then put forward countermeasures and suggestions to enhance the economic development across the state.

關鍵詞:聚類分析;系統(tǒng)聚類法;算法的比較

Key words: cluster analysis;system clustering method;comparison of algorithms

中圖分類號:F061.5? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)17-0254-05

0? 引言

聚類分析中最常用的方法之一就是系統(tǒng)聚類法,系統(tǒng)聚類法又稱層次聚類法是統(tǒng)計學中聚類分析的一個重要分支,具有操作簡單、快速準確、易于實現(xiàn)等功能,所以系統(tǒng)聚類法在實例中的應用也變得非常普遍。比如在生物學領域中,系統(tǒng)聚類法被用來對動植物分類和對基因進行分類,獲取對種群固有結(jié)構(gòu)的認識;還有在研究機動車司機違法駕駛行為中也有系統(tǒng)聚類法的應用,通過其方法得出機動車司機違法駕駛行為等導致交通事故的影響因素的聚類結(jié)果和其影響程度。[1]隨著計算機及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,推動了大數(shù)據(jù)時代的來臨,隨之而來的就是人們對大數(shù)據(jù)的分析、管理和利用的迫切需求,而聚類分析在這數(shù)據(jù)挖掘的過程中扮演著至關重要的角色。

目前無論在任何領域人們所要面對的需要處理的數(shù)據(jù)比歷史以往任何時期都要多,難度也變得越來越大。而聚類技術(shù)作為人們處理這些問題時的重要手段,掌握它的意義所在和正確地運用在實例中也是關鍵所在,所以在這對其進行深入系統(tǒng)的研究和應用說明都將具有非常重要的意義。本文也是在研究系統(tǒng)聚類法的六種聚類方法的基礎上將其應用在實例中,通過系統(tǒng)聚類法的六種聚類方法對新疆各地州市的生產(chǎn)總值進行聚類分析,再通過比較六種分類結(jié)果找出分類質(zhì)量最好的聚類方法,并著重對其研究分析提出各類方法的優(yōu)缺點,再根據(jù)相關領域知識對最終分類質(zhì)量最好的研究結(jié)果進行評價進而提出進一步提高各地生產(chǎn)總值的對策建議。

1? 研究背景及意義

隨著現(xiàn)代社會的高速發(fā)展,科技發(fā)達,人與人之間的交流越來越密切,再加上計算機及互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,所有的事物都變的越來越信息化,就不可避免隨之而產(chǎn)生的不斷增加的數(shù)據(jù)量。對這些大量數(shù)據(jù)進行分析和利用就會成為現(xiàn)代社會中各個領域的一種現(xiàn)實性需求,隨著需求的不斷增多,它必然會成為解決經(jīng)濟社會各類問題不可缺少的一個過程。

在這樣一個背景下,加上現(xiàn)代互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,就會不斷地推動大數(shù)據(jù)的衍生和數(shù)據(jù)挖掘技術(shù)的發(fā)展,傳統(tǒng)的統(tǒng)計分析方法這時就會顯得并沒有太大的效率。隨之學術(shù)界就研究出了聚類分析技術(shù),它能夠滿足人們對于大數(shù)據(jù)的管理和利用,聚類分析就成了現(xiàn)代經(jīng)濟社會中數(shù)據(jù)挖掘的重要手段,作為最常用的數(shù)據(jù)分析方法,在面對這些大量數(shù)據(jù)時,聚類技術(shù)會發(fā)揮出至關重要的作用,隨之它的運用也變越來越普遍。

在如今一個飛速發(fā)展的經(jīng)濟社會中,所有事物都變得越來越信息化,這也推動了大數(shù)據(jù)時代的來臨,隨之人們對數(shù)據(jù)的管理和利用的需求也在不斷增加,而聚類分析在這過程中充當著重要的角色,在各個領域的發(fā)展過程中聚類技術(shù)都有很深入的應用。比如在生物學領域中,聚類分技術(shù)被用來動植物分類和對基因進行分類,獲取對種群固有結(jié)構(gòu)的認識;在經(jīng)濟學領域中,聚類技術(shù)也可用來對不同水平生產(chǎn)總值區(qū)域的相關指標進行分類分析,獲取對其經(jīng)濟指標的可靠信息并有助于提供對策建議,所以對聚類技術(shù)進行深入的研究和應用都具有非常重要的意義。

2? 系統(tǒng)聚類法介紹[2]

系統(tǒng)聚類法基本思想是首先把所有的樣品或者變量(指標)看成是n類(一種樣品或是變量/指標即為一類),隨后將從這些n類中性質(zhì)、屬性等相似程度較高的兩類合成新的一類,這樣就會得到n-1個類,再從這n-1個類按上述依據(jù)找出兩類合成一類,就可以得到n-2個類,如此進行下去每次都會較少一類,進行到最后所有的會在一類,再把上述合成的過程畫成圖(即稱為聚類圖),再根據(jù)自身需要決定分多少類。

①最短距離法(nearest neighbor或single linkage method)。

即:表示在類Gk和類GL中的最鄰近的第j個和第i個樣本之間的距離。例圖1說明:

②最長距離法(farthest neighbor或complete linkage method)。

即:表示在類Gk和類GL中的距離最遠的第j個和第l個樣本之間的距離。例圖2說明:

③中間距離法(Intermediate distance method)。即指上述中的最短距離和最長距離的中間距離;假設某一步把Gk和GL合并成一類為GM,再取GKL、GLJ、GKJ為組成三角形的三條邊,把DKL邊的中線當做前合并的新類GM到任意一類GJ的距離GMJ,再依據(jù)初等平面幾何定義就可得:

即這類的系統(tǒng)聚類算法就稱為中間距離法。

④類平均法(group average method)。類平均法存在兩種形式的定義,第一種定義是類與類間的距離即表示樣品間的平均距離,表達式為:

DKL表示類和類間的距離,等號右邊表示樣品間的平均距離(n為類中的樣品個數(shù)),其遞推公式為:

類平均法的第二種定義是類與類間的平方距離即表示樣品間平方距離的平均值,即表達式為:

各字母代表含義與第一類的表達式相同;其遞推公式為:

類平均法也有優(yōu)于其它系統(tǒng)聚類算法的點,即類平均法對提取所有樣本間的信息會比較完善。

⑤重心法(centroid method)。重心法表示類和類的重心點間的Euclid距離(即為歐氏距離),即歐氏距離表達式為:

即: K和 L為類Gk和GL的重心;此類聚類算法就稱為重心法。

其遞推公式表達式為:

重心法優(yōu)于其它聚類算法的點在于其處理異常值是更穩(wěn)健,但在別的方面卻不如其它聚類算法的效果好。

⑥離差平方和法(sum of squares method)。離差平方和法就是運用于方差分析的基本思想,當其分類結(jié)果合理時,其離差平方和的區(qū)別很大,同一類樣品的離差平法和很小,而不同類之間的離差平法和很大,聚算過程如下:

先假設把Gk和GL合并成一新類為GM,再把GK、GL、GM的離差分別表示為:

于是運用此類聚類算法的表達式即為:

或者可以改寫為如下式也同樣實用

不難看出離差平法和的聚類算法表達式與重心法的聚類算法表達式差一個常數(shù),這就表示前者計算類間距離的大小與樣本數(shù)有直接關系,而后者的類間距離大小與此無關。也表示了離差平方和法相對于重心法來說更能符合實際需求,這是一種比較完善的聚類算法。

3? 聚類分析的應用研究

選用的研究數(shù)據(jù)來源于中國統(tǒng)計局官網(wǎng)新疆統(tǒng)計年鑒——新疆各地、州、市、縣(市)地區(qū)生產(chǎn)總值數(shù)據(jù)表。為了使研究結(jié)果更加清晰地表達分類結(jié)果,去掉了此數(shù)據(jù)中各個地、州、市所包含的縣(市)的數(shù)據(jù),只對各地州和直轄市進行系統(tǒng)聚類法分析。按照上述提出的要求將數(shù)據(jù)整理后,再通過SPSS.22統(tǒng)計軟件運用系統(tǒng)聚類法的六種聚類算法:最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平法和法對研究數(shù)據(jù)進行聚類研究。

通過運用六類系統(tǒng)聚類法對研究數(shù)據(jù)進系統(tǒng)聚類,即各類方法譜系圖為圖3-圖5。

通過上述圖中六類系統(tǒng)聚類法聚類過程的譜系圖,以紅線為參考線將研究數(shù)據(jù)分為了5類,各類算法的分類結(jié)果比較即如表1。

通過上述表1各類分類方法結(jié)果比較,不難看出最短距離法的分類結(jié)果與其它系統(tǒng)聚類算法的分類結(jié)果有所不同,其中最長距離法、中間距離法、類平均法、重心法、離差平均法的分類結(jié)果都是一樣的。阿克蘇地區(qū)、喀什地區(qū)、塔城地區(qū)和克拉瑪依市的數(shù)據(jù)最為接近,五種聚類算法都將其四個地區(qū)(市)分為了一類。所以最長距離法、中間距離法、類平均法、重心法、離差平均法的聚類質(zhì)量是較為好的。

最短距離法就是逐次將距離最短的類合并成新一類,再依此進行下去直到分類結(jié)束,這樣來說的話它逐次聚類的類與類間的距離可能會越來越短,會出現(xiàn)距離收縮的情況,只要是類于類之間的距離短就并為一類,卻并不管其樣本之間的相異度如何,這也是此方法的不足之處。所以最短距離法適合在本身樣本間差異性就并不是很大的情況下使用。而最長距離法與最短距離法的算法剛好是相反的,出現(xiàn)的情況也會是相反的,所以最長距離法進行到后面會出現(xiàn)距離擴張的情況,也會形成同種的較為緊密的類,可能產(chǎn)生違背“閉合類”的類。

中間距離法是采取了兩類間的中間距離,并取其中線作為計算類與類之間距離的依據(jù),中間距離法則完全地避免了上述中最短距離法和最長距離法中會出現(xiàn)的弊端,所以它的分類質(zhì)量和效果是較為好的。但是在面對一些大規(guī)模的需要聚類的數(shù)據(jù)時,它聚類的類與類之間的差異性就會越來越小。重心法的缺陷也正與中間距離法的這一點一樣。

類平均法是傾向于形成比較緊密的類,但類平均法對距離有好幾種的定義,能覆蓋的面較廣,所以它的聚類效果和分類質(zhì)量都是很好的,應用性也是非常的廣泛,是一種很實用的聚類算法。離差平方和法使用的是平方歐式距離法,它每聚一類離差平方和就會增大,在實際應用中它的分類效果和質(zhì)量都是較好的,但是離差平方和法只能得出局部的最優(yōu)解,而且計算相對較多。

總體來說系統(tǒng)聚類法作為聚類分析的最常用的方法之一,聚類算法靈活多樣,能適用于不同性質(zhì)的樣本,而且操作簡單適應面廣泛。通過上述的對六種系統(tǒng)聚類法的分析概述,六種聚類算法都有一些或大或小的缺陷,也有各自的優(yōu)點,在實際應用中都有一定的操作性和實用性。但對于如何選擇最好的系統(tǒng)聚類法上,需要去深入研究各類系統(tǒng)聚類法的聚算方法的性質(zhì),再進行比較擇優(yōu)。這也是一個比較有意義的,更是待于進一步深入研究的課題。

4? 結(jié)果與建議

自改革開放以來,中央對新疆工作高度重視,做出了一系列加快發(fā)展新疆經(jīng)濟的重要部署,明確了新疆是西部大開發(fā)的重中之中,加大扶持力度,確定新疆經(jīng)濟發(fā)展的戰(zhàn)略目標,給新疆的經(jīng)濟發(fā)展指明了方向。通過不斷努力,近些年新疆經(jīng)濟發(fā)展也取得了很大的進步,經(jīng)濟社會保持又好又快的穩(wěn)定發(fā)展趨勢。但是新疆各地區(qū)間的發(fā)展水平也有明顯差異,天山南北各地區(qū)之間的發(fā)展水平不平衡。南北疆各地州的地理位置、資源等方面的優(yōu)劣勢都不同,主要的高發(fā)展經(jīng)濟區(qū)都在北疆東北部,而經(jīng)濟發(fā)展較差的地域主要在南疆西南部。

所以經(jīng)過第三章內(nèi)容對系統(tǒng)聚類法的概述分析,本論文分析的最終聚類結(jié)果如表2所示。通過上述的聚類算法的分類結(jié)果再依據(jù)各地州的樣本數(shù)據(jù),將分為的五類聚類結(jié)果依次命名為低發(fā)展地區(qū)、中低發(fā)展地區(qū)、中發(fā)展地區(qū)、中高發(fā)展地區(qū)和高發(fā)展地區(qū)。將其列表3。

在低發(fā)展地區(qū)中大部分都是南疆地區(qū),而且根據(jù)研究數(shù)據(jù)不難看出此類中的南疆地區(qū)第一、二、三產(chǎn)業(yè)比重與同類的其它地、州、市相比還是有一定差距的,不管是在建筑業(yè)、工業(yè)還是在人均生產(chǎn)總值上南疆西南部地區(qū)都普遍較低。而此類其中石河子和吐魯番是地級市,所以在地域、人口基數(shù)、資源條件等基礎上是與同類中的其它地州是有差距的。

中低發(fā)展地區(qū)和中發(fā)展地區(qū)的經(jīng)濟社會發(fā)展是比較穩(wěn)定的,發(fā)展前景也很好,近幾年也是在穩(wěn)步跟進。此兩類中有南疆地區(qū)也有北疆地區(qū),它們的各個產(chǎn)業(yè)比重是有一些差距,但是在總體上的差別并不是很大。阿克蘇地區(qū)和喀什地區(qū)都有各自的有利資源來促進各自的發(fā)展,近些年也是取得很有效的成果,但是這些南疆地區(qū)的人均生產(chǎn)總值是確實是比較低的。

高發(fā)展地區(qū)和中高發(fā)展地區(qū)都是在北疆地區(qū),烏魯木齊作為新疆首府,在各方面的發(fā)展都很好,與許多內(nèi)地省份的二線城市的發(fā)展也不分上下。伊犁哈薩克自治州位處于北疆西北部,地處邊境與多國相鄰,所以伊犁哈薩克自治州的進出口貿(mào)易也是促進它發(fā)展的重要因素。

在全國范圍內(nèi)相對于內(nèi)地省份來說新疆整體的經(jīng)濟社會發(fā)展確實是較落后的,疆內(nèi)各個地州市的經(jīng)濟發(fā)展基礎也不盡相同,沿邊的地區(qū)縣域距離經(jīng)濟核心區(qū)遠,尤其是一些南疆地區(qū),所以這些地域會在資金、技術(shù)和人才等生產(chǎn)發(fā)展核心要素方面會有所欠缺,使得優(yōu)勢難以很好發(fā)揮。在最近的十幾年間新疆各個產(chǎn)業(yè)發(fā)展速度較快,社會經(jīng)濟穩(wěn)步跟進,與十幾年前的新疆有了翻天覆地地變化。但目前在疆內(nèi)的各地區(qū)經(jīng)濟發(fā)展水平差異較大,尤其是南疆地區(qū)與北疆地區(qū)間的差異,南疆地區(qū)地理位置偏遠,自然環(huán)境較為惡劣,尤其是沙塵較多,交通不便,會導致與外界的交流聯(lián)系會較為閉塞,但是南疆許多地區(qū)資源豐富,有些地區(qū)內(nèi)部富裕的優(yōu)勢產(chǎn)品的出去也可能會較為困難,外面許多優(yōu)勢的資源、信息進不來[4],因此建議在保持目前的對各個地州市發(fā)展的大力財政支持力度上、實施各項有關各地區(qū)經(jīng)濟發(fā)展的有利政策上和經(jīng)濟發(fā)展戰(zhàn)略目標上,再努力去解決部分存在的交通不便、信息交流閉塞的問題,讓更多內(nèi)部擁有富裕的優(yōu)勢產(chǎn)品的地區(qū)能夠通過有利的交通和順通的外界信息交流,獲得更多的促進本地區(qū)各產(chǎn)業(yè)發(fā)展的有利機會。

參考文獻:

[1]秦鳴,寧建標,鄧明君.系統(tǒng)聚類法在機動車司機違法駕駛行為中的應用[J].公路與汽運,2017(04):45-51.

[2]何曉群.多元統(tǒng)計分析[M].四版.北京:中國人民出版社,2015.

[3]新疆統(tǒng)計年鑒——中國統(tǒng)計網(wǎng).

[4]趙麗婭.財政支持對新疆縣域經(jīng)濟發(fā)展的影響研究[D].新疆農(nóng)業(yè)大學,2015.

[5]劉世薇.1989-2010新疆經(jīng)濟發(fā)展差異的區(qū)域分析[J].經(jīng)濟地理,2012,32(9).

作者簡介:安尼卡爾·艾斯卡爾(1997-),男,維吾爾族,新疆阿克蘇人,學士,研究方向為應用統(tǒng)計;祖來克孜·米吉提(1988-),女,維吾爾族,新疆阿克陶人,碩士,研究方向為資源統(tǒng)計。

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
軟件導刊(2016年11期)2016-12-22 21:36:40
基于Weka的江蘇13個地級市溫度聚類分析
我國中部地區(qū)農(nóng)村居民消費行為階段特征分析
基于多元統(tǒng)計方法的高校科研狀況評價分析
價值工程(2016年31期)2016-12-03 22:21:20
基于聚類分析的無須人工干預的中文碎紙片自動拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應用
基于聚類分析研究貴州省各地區(qū)經(jīng)濟發(fā)展綜合評價
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費支出分析
基于省會城市經(jīng)濟發(fā)展程度的實證分析
中國市場(2016年33期)2016-10-18 12:16:58
措勤县| 乃东县| 乐清市| 江山市| 沁源县| 海丰县| 海兴县| 东阿县| 于田县| 淮安市| 左贡县| 河曲县| 邛崃市| 房产| 固安县| 安新县| 北宁市| 上饶市| 沂水县| 阳江市| 卢氏县| 资源县| 称多县| 灵丘县| 克什克腾旗| 本溪市| 门头沟区| 静宁县| 宣汉县| 尤溪县| 疏附县| 南岸区| 南安市| 孝昌县| 治多县| 延吉市| 留坝县| 定西市| 富平县| 龙陵县| 江安县|