宋 軍,劉玉龍,李 靜,2,郭俊如,牟 林,姚志剛,李希彬
(1.國(guó)家海洋信息中心,天津 300171;2.上海海洋大學(xué) 海洋科學(xué)學(xué)院,上?!?01306;3.國(guó)家海洋局海洋減災(zāi)中心,北京 100194; 4.中國(guó)海洋大學(xué) 教育部物理海洋學(xué)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266100;5.國(guó)家海洋局天津海洋環(huán)境監(jiān)測(cè)中心站,天津 300457;6.國(guó)家海洋局空間遙感與應(yīng)用研究重點(diǎn)實(shí)驗(yàn)室,北京 100081)
?
譜混合模型方法優(yōu)化及其在海洋水團(tuán)分析與水交換研究中的應(yīng)用
宋軍1,4,劉玉龍1,李靜1,2,郭俊如3,6,牟林1,姚志剛4,李希彬5
(1.國(guó)家海洋信息中心,天津300171;2.上海海洋大學(xué)海洋科學(xué)學(xué)院,上海201306;3.國(guó)家海洋局海洋減災(zāi)中心,北京100194;4.中國(guó)海洋大學(xué)教育部物理海洋學(xué)重點(diǎn)實(shí)驗(yàn)室,山東青島266100;5.國(guó)家海洋局天津海洋環(huán)境監(jiān)測(cè)中心站,天津300457;6.國(guó)家海洋局空間遙感與應(yīng)用研究重點(diǎn)實(shí)驗(yàn)室,北京100081)
摘要:優(yōu)化了譜混合模型(Spectral Mixture Model,SMM)分析方法,提出了譜混合模型方法中兩個(gè)關(guān)鍵參數(shù)的一般優(yōu)化方案。優(yōu)化后的方法能夠?qū)Υ罅康臄?shù)據(jù)樣本進(jìn)行快速聚類分析,并通過(guò)求解概率密度函數(shù)確定不同聚類之間的混合區(qū)域。以該方法在海洋水團(tuán)以及水交換中的應(yīng)用為例,詳細(xì)闡明了譜混合模型方法的工作原理及過(guò)程。在譜聚類方法基礎(chǔ)上建立的譜混合模型分析法,避免了傳統(tǒng)模糊聚類分析方法的不足,即使在物理量的散點(diǎn)數(shù)據(jù)分布呈現(xiàn)廣泛連續(xù)性時(shí),仍然能夠抓住數(shù)據(jù)時(shí)空分布的主要變化方向,其在水團(tuán)的辨別、水團(tuán)邊界以及水交換混合區(qū)的分布及其變化規(guī)律的研究中具有廣泛的應(yīng)用。關(guān)鍵詞:譜聚類;譜混合模型;海洋水團(tuán)分析;水交換;模糊數(shù)學(xué);溫度-鹽度圖
水團(tuán)是源地與形成機(jī)制相近、具有大體相同的物理、化學(xué)和生物特征及變化趨勢(shì),并與周圍水體有明顯差異的水體(張緒東等,2004)。不同的水團(tuán),其溫度、鹽度、密度等要素也不同,聲學(xué)、光學(xué)性質(zhì)也有一定的差異,這些對(duì)于海軍潛艇的活動(dòng)、水雷布設(shè)、水下通訊及監(jiān)視,都有巨大的影響。在不同水團(tuán)接壤、交匯的邊界水域,大多是有名的漁場(chǎng)。因此,對(duì)水團(tuán)以及水團(tuán)之間的交換混合區(qū)域給出準(zhǔn)確的鑒別,并對(duì)其變化給出迅速的判斷和預(yù)測(cè),能夠?qū)娛?、漁業(yè)和水產(chǎn)事業(yè)與決策提供重要的信息保障。舉例來(lái)說(shuō),中國(guó)的近海,大部分地處中緯度溫帶季風(fēng)區(qū),四季交替明顯,季節(jié)變化顯著;深度不足200m的淺海,區(qū)域?qū)掗?,島嶼棋布,岸線復(fù)雜;東部海域有強(qiáng)大的黑潮及其分支,西部有眾多的江河徑流入海(浦泳修,1981)。因而中國(guó)沿海水域水團(tuán)分布復(fù)雜多變,尋找一種快速有效的水團(tuán)鑒別方法具有重要的科學(xué)意義與實(shí)際意義。
Sverdrup等(1942)首次使用溫度-鹽度圖(T-S圖)進(jìn)行水團(tuán)分析,Miller等(1950)則首次應(yīng)用T-S圖研究了水團(tuán)的劃分問(wèn)題。近年來(lái),基于T-S圖的隸屬函數(shù)方法(Lietal,2004)與聚類分析方法(Su etal,1989)被廣泛用于研究水團(tuán)的劃界與混合問(wèn)題。但是隸屬函數(shù)方法只對(duì)特定的T-S曲線形狀有效,并且當(dāng)使用同一方法應(yīng)用到不同海域的時(shí)候,經(jīng)常需要大量且復(fù)雜的調(diào)整工作才能使其適合研究的需要。經(jīng)典的聚類分析方法有著更一般的應(yīng)用方法,但當(dāng)T-S分布呈現(xiàn)廣泛的連續(xù)性時(shí),該方法很難抓住T-S曲線的主要變化方向。此外,以上兩種方法在處理大量數(shù)據(jù)點(diǎn)集的情況時(shí),效率都非常低下。近年來(lái),隨著觀測(cè)數(shù)據(jù)與數(shù)值模型結(jié)果數(shù)據(jù)的日益龐大,且可用于水團(tuán)分析的要素從溫度、鹽度轉(zhuǎn)為多種要素,作為NP-hard問(wèn)題的水團(tuán)分析過(guò)程使經(jīng)典的水團(tuán)分析方法已不能滿足實(shí)際研究的需要。
鑒于以上現(xiàn)狀,宋軍(2010)將圖論中的最新研究成果——譜聚類方法(Spectral Clustering,SC)引入到海洋科學(xué)的研究當(dāng)中,并基于此構(gòu)建了可解決上述傳統(tǒng)水團(tuán)分析方法問(wèn)題的譜混合模型方法。本文將對(duì)該方法的構(gòu)建過(guò)程與應(yīng)用方案進(jìn)行詳細(xì)的描述,并對(duì)模型中的兩個(gè)關(guān)鍵參數(shù)給出了具體的優(yōu)化方案。
為了更清楚地解釋這一方法,我們首先定義集合P = {P1,…,Pn}為所有目標(biāo)研究區(qū)域的數(shù)據(jù)點(diǎn),其中n為所有數(shù)據(jù)點(diǎn)的數(shù)量。集合M = {m1,…,mk}則被定義為所有聚類的集合,以滿足我們將上述n個(gè)數(shù)據(jù)點(diǎn)(P)劃分為k個(gè)聚類(M)的描述需要(Song,2011)。應(yīng)該說(shuō)明的是,為使本研究具有實(shí)際的物理意義,聚類的數(shù)目k應(yīng)該小于數(shù)據(jù)點(diǎn)的數(shù)目n,并且每個(gè)點(diǎn)有且只屬于一個(gè)聚類。譜混合模型的計(jì)算過(guò)程主要包括三大步:第一步,使用譜聚類方法將所有目標(biāo)數(shù)據(jù)點(diǎn)劃分為任意需要數(shù)目的聚類。所有的聚類以及其重心位置將在這一步得到確定;第二步,基于我們構(gòu)造的概率密度函數(shù),將得到每一個(gè)數(shù)據(jù)點(diǎn)Pi∈P映射到所有參與相互混合作用的聚類mi?M的隸屬概率;第三步也是最后一步,任意兩個(gè)屬于上一步考慮范圍的聚類之間的交換區(qū)將得到定義,并且以此為基礎(chǔ),任意多個(gè)聚類的混合區(qū)域也將得到定義。不同于經(jīng)典的混合模型,由于譜混合模型基于譜聚類方法,其基于數(shù)據(jù)點(diǎn)的連續(xù)程度考慮了數(shù)據(jù)點(diǎn)的主要分布方向,無(wú)論這一方向是直線的還是任意曲線的。此外,在計(jì)算概率密度函數(shù)時(shí),譜混合模型還考慮了每一個(gè)聚類的勢(shì)力范圍,而并非僅使用各聚類重心的位置作為計(jì)算混合區(qū)域分布和位置的標(biāo)準(zhǔn)。在分析水團(tuán)混合的研究中,各聚類的勢(shì)力范圍是指其擁有的數(shù)據(jù)點(diǎn)的數(shù)目以及這些數(shù)據(jù)點(diǎn)的平均分布密度。在本研究當(dāng)中,由于整體數(shù)據(jù)點(diǎn)的分布密度差異不大,取各聚類擁有的數(shù)據(jù)點(diǎn)的數(shù)目作為其勢(shì)力范圍的指標(biāo)。
1.1譜聚類
譜聚類(Spectral Clustering,SC)是一個(gè)21世紀(jì)剛剛發(fā)展起來(lái)的最新的聚類方法,但其明顯的優(yōu)越性使其本身成為最熱門的研究學(xué)科之一(Von,2007)。譜聚類基于圖像分析理論,在計(jì)算機(jī)科學(xué),特別是人工視覺(jué)系統(tǒng)(Jitendra et al,2001)和機(jī)器學(xué)習(xí)(Shietal,2000)等人工智能方面的研究中,甚至在與計(jì)算機(jī)結(jié)合緊密的最前沿的其他學(xué)科,比如生物化學(xué)(Menschaert et al,2009)的研究中,都有著廣泛的應(yīng)用。由于譜聚類方法不僅考慮了所有目標(biāo)數(shù)據(jù)點(diǎn)之間的差異性,而且考慮了整體數(shù)據(jù)的分布結(jié)構(gòu)及其連通性,使其更容易抓住主要矛盾,該方法表現(xiàn)出較高的計(jì)算效率,這一點(diǎn)在數(shù)據(jù)量(包括數(shù)據(jù)點(diǎn)的數(shù)目和參數(shù)空間亦即區(qū)分不同數(shù)據(jù)點(diǎn)所使用的性質(zhì)參數(shù)的數(shù)目)較大的時(shí)候更加明顯(Andrew etal,2002)。更重要的是,譜聚類可以更容易地得到全局最優(yōu)解,從而避免了經(jīng)典聚類分析方法使結(jié)果在凸型數(shù)據(jù)區(qū)域的計(jì)算中陷入局部最優(yōu)的問(wèn)題(Luo etal,2003)。簡(jiǎn)單來(lái)說(shuō),譜聚類方法將所有的目標(biāo)數(shù)據(jù)點(diǎn)Pi∈P考慮為一個(gè)多維無(wú)向連通圖G的頂點(diǎn)(如圖1所示)。在本研究中,頂點(diǎn)來(lái)自模型結(jié)果中對(duì)應(yīng)的每個(gè)計(jì)算網(wǎng)格的水質(zhì)點(diǎn)數(shù)據(jù)。G是一個(gè)無(wú)方向但各邊具有不同權(quán)重的圖(加權(quán)圖),我們使用一個(gè)半正定的,對(duì)稱權(quán)重的矩陣A(Aij=Aji≥0)來(lái)表示任意兩點(diǎn)Pi和Pj之間的相似性,這個(gè)相似性也即是圖G中各邊的權(quán)重。這里我們使用Aij來(lái)表示兩個(gè)數(shù)據(jù)點(diǎn)Pi和Pj在其參數(shù)空間下的距離。舉例來(lái)說(shuō),邊A23表示頂點(diǎn)P2與P3之間的相似度。在圖G (P,A)中,求解聚類分析的問(wèn)題可以等價(jià)為求圖G的最小‘割權(quán)’問(wèn)題。
圖1 用于表示各點(diǎn)之間相似度的無(wú)向連通加權(quán)圖G(P,A)。其中A中各邊的權(quán)重(圖中由各邊的粗度表示)表示兩個(gè)頂點(diǎn)之間的相似度大小
為了避免任意孤立點(diǎn)從圖中被分離出去,如大多數(shù)的相關(guān)研究一樣,這里也采用一個(gè)升級(jí)的割權(quán)定義來(lái)代替上面的割權(quán)定義,稱這一升級(jí)的割權(quán)為標(biāo)準(zhǔn)化割權(quán)(Ncut),其被定義為如下形式:
其中,vol(mi)=∑i∈miAij。為求得上述標(biāo)準(zhǔn)化割權(quán)的最小值,譜聚類算法是目前為止被證明的最直接和有效的方法(Von,2007)。對(duì)于屬于集合Rl(字符R通常被用作表示實(shí)數(shù)集,其上標(biāo)則表示此實(shí)數(shù)集的維數(shù))的目標(biāo)數(shù)據(jù)點(diǎn)集合P,將P劃分為k個(gè)聚類,其完整的譜聚類算法被簡(jiǎn)單的描述如下:
1)構(gòu)造親和度矩陣A∈Rn×n,在本研究中,我們使用高斯相似函數(shù)來(lái)定義A:
其中,σ為尺度參數(shù),當(dāng)計(jì)算pi與pj兩點(diǎn)間的相似度Aij時(shí),它決定了隨兩點(diǎn)間距離的增加而造成的衰減率。雖然這里有很多方法可以自動(dòng)的優(yōu)化參數(shù)σ(Von Luxburg,2007),但在本研究中,由于所有的數(shù)據(jù)都已進(jìn)行了標(biāo)準(zhǔn)化處理,所以該參數(shù)被簡(jiǎn)單地設(shè)為1。
2)定義一個(gè)對(duì)角矩陣D,其中Dii等于矩陣A中第i行所有數(shù)值的總和:
3)定義一個(gè)拉普拉斯矩陣L,這是一個(gè)半正定的矩陣:
4)求解矩陣L,得到最小的k個(gè)特征值(λ1,…,λk)和這k個(gè)特征值對(duì)應(yīng)的特征向量(,…,);
5)構(gòu)造目標(biāo)矩陣O=((x)1,…,(x)k)∈Rn×k,其每一列分別等于上一步求得的各個(gè)特征向量;
6)對(duì)矩陣O的每一行分別做標(biāo)準(zhǔn)化,使其擁有統(tǒng)一的單位標(biāo)準(zhǔn),并由此構(gòu)造出矩陣Q∈Rn×k如下:
7)將矩陣Q的每一行看作每個(gè)對(duì)應(yīng)的數(shù)據(jù)點(diǎn),這就意味著矩陣Q是一個(gè)有N個(gè)數(shù)據(jù)點(diǎn),并且每個(gè)數(shù)據(jù)點(diǎn)有k個(gè)參數(shù)屬性的矩陣。最后使用K-means或其他經(jīng)典的聚類分析方法對(duì)這一新構(gòu)造的數(shù)據(jù)點(diǎn)集進(jìn)行聚類分析,進(jìn)而得到聚類集合M以及其相應(yīng)的每個(gè)聚類和聚類的重心。
在本研究中,使用經(jīng)典的K-means聚類分析方法來(lái)完成最后的一步運(yùn)算。簡(jiǎn)單來(lái)說(shuō),K-means聚類分析的核心算法可以描述為以下5步。如果希望提高其在計(jì)算機(jī)中的計(jì)算速度,可以參考Lai等(2009)發(fā)展的快速K-means聚類計(jì)算方法。
1)隨機(jī)地給出任意k個(gè)聚類的重心坐標(biāo);
2)分別計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到這些聚類重心的距離。本研究采用歐式相空間距離公式來(lái)計(jì)算這一距離;
3)將每個(gè)點(diǎn)歸入距離其最近的聚類重心所代表的聚類中,這意味著第一次將所有的點(diǎn)分為了k個(gè)聚類;
4)通過(guò)計(jì)算每個(gè)聚類中所有數(shù)據(jù)點(diǎn)坐標(biāo)的平均值,重新計(jì)算每個(gè)聚類的重心坐標(biāo);
5)重復(fù)做以上第2步到第4步的運(yùn)算,直到所有的聚類集合都不再發(fā)生變化。至此,就得到了最終的分類方案和每個(gè)聚類的重心。
為了更直觀地展現(xiàn)傳統(tǒng)的K-means聚類分析法與譜聚類分析法在實(shí)際研究中的不同,本文分別用兩種方法對(duì)黑潮與東中國(guó)海地區(qū)的水團(tuán)進(jìn)行了聚類分析(如2所示)。圖2清楚地顯示出直接采用K-means聚類分析方法(圖2a)和譜聚類方法(圖2b)的一個(gè)結(jié)果對(duì)比圖。很顯然后者更能表現(xiàn)出黑潮水與東中國(guó)海陸架水的水團(tuán)分布情況,從而能夠定義一個(gè)兩者之間的水交換帶。該結(jié)果主要是由于在東中國(guó)海,垂直于黑潮流向的溫度鹽度變化趨勢(shì)要遠(yuǎn)大于沿著黑潮流向方向的變化趨勢(shì)造成的。更多類似于K-means方法與譜聚類方法在處理不同數(shù)據(jù)集的結(jié)果對(duì)比,可以參照Cai等(2005)的工作,其研究結(jié)果表現(xiàn)了譜聚類方法相對(duì)于傳統(tǒng)聚類方法的絕對(duì)優(yōu)勢(shì)。
圖2 兩種聚類方法對(duì)經(jīng)過(guò)標(biāo)準(zhǔn)化的100 m層的溫度-鹽度(T-S)數(shù)據(jù)進(jìn)行聚類分析的結(jié)果圖
2.2概率密度函數(shù)
為了定義一個(gè)模糊混合區(qū)域,我們首先需要知道每個(gè)數(shù)據(jù)點(diǎn)多大程度的隸屬于每個(gè)需要考慮參與交換的聚類。基于上面譜聚類分析得到的每一個(gè)聚類的重心坐標(biāo),將構(gòu)造一個(gè)概率密度函數(shù)以計(jì)算每個(gè)數(shù)據(jù)點(diǎn)投影到相應(yīng)的所有聚類的概率。具體算法構(gòu)造如下:
1)對(duì)任意數(shù)據(jù)點(diǎn)Pi∈P,定義disi,kk(kk∈[1 k])為數(shù)據(jù)點(diǎn)Pi到聚類mkk重心Ckk的距離(或者說(shuō)Pi與mkk重心Ckk的差別)。由于所有參與計(jì)算的數(shù)據(jù)都已經(jīng)進(jìn)行了標(biāo)準(zhǔn)化轉(zhuǎn)換,所以這里采用歐式距離來(lái)計(jì)算disi,kk:
2)使用disi,kk的倒數(shù)構(gòu)造一個(gè)變量wi,kk,以指出數(shù)據(jù)點(diǎn)Pi隸屬于聚類mkk的隸屬度權(quán)重。
如果?disi,kk(kk∈[1 k])≠0,則:
這里,numkk是聚類mkk所包含的數(shù)據(jù)點(diǎn)數(shù)。
如果?disi,j(j∈[1 k])=0,則:
3)構(gòu)造混合分布矩陣H。使數(shù)據(jù)點(diǎn)Pi相對(duì)于聚類mkk的隸屬度權(quán)重作為計(jì)算隸屬度的權(quán)重wi∈P,kk∈M,則Hi,kk最終被定義為:
2.3對(duì)任意數(shù)量指定聚類混合區(qū)的定義
設(shè)T= {t1,…,tv}(ti-mj=?,1< v≤k)為我們所關(guān)注的聚類的集合,其是全部聚類集合m的部分或全部。為了定義這些聚類的混合區(qū),首先設(shè)集合Rm,n與集合Sm,n是T中任意兩個(gè)聚類tm與tn(其中m≠n)在相空間上一個(gè)交集范圍的最大限度:
這里,Zm,n包括了聚類tm和tn所有位于混合區(qū)的的數(shù)據(jù)點(diǎn)的集合,如圖3所示。
圖3 譜混合模型在v=2,α=0.5,β=0.8,num1 = num2情況下,變量和集合之間相互關(guān)系差異的分布結(jié)構(gòu)圖
為了方便地將這一概念在任意多個(gè)聚類參與的情況下進(jìn)行描述,現(xiàn)定義∩(ai):=a1∩a2…∩a1。設(shè)Z為位于聚類集合T中所有聚類混合區(qū)域的數(shù)據(jù)點(diǎn)集,則最終Z可以表示為:
這里值得指出的是,譜混合模型在水團(tuán)分析和鋒面分析中具有潛在的以及非常深遠(yuǎn)的應(yīng)用前景。在此基礎(chǔ)上,定義出兩個(gè)水團(tuán)的信息過(guò)渡區(qū),并且求解所有信息過(guò)渡區(qū)的交集。此外,該方法還可用來(lái)定義任意多個(gè)水團(tuán)之間的信息過(guò)渡區(qū)。圖4即是一個(gè)將集合數(shù)目擴(kuò)大到3個(gè)而求解其信息過(guò)渡區(qū)的實(shí)例,實(shí)例中,v=3,α=0.5,β=1.0。圖中黑色粗線包裹的區(qū)域限定了三個(gè)聚類a,b和c混合區(qū)的最大界限。其中每個(gè)聚類所包含的數(shù)據(jù)點(diǎn)的數(shù)量已在各圖中各聚類名稱后面的括號(hào)中給出。
綜上,譜混合模型是在譜聚類方法的基礎(chǔ)上,通過(guò)構(gòu)建概率密度函數(shù)得到每個(gè)數(shù)據(jù)點(diǎn)隸屬于某個(gè)聚類的隸屬度權(quán)重,然后引入?yún)?shù)α和β,創(chuàng)造任意兩個(gè)聚類最大限度的交集集合R和S,從而最終確定混合區(qū)(在水交換研究中即水交換區(qū))數(shù)據(jù)點(diǎn)的集合為。其中參數(shù)α和β決定了混合區(qū)的空間位置和范圍,其中α表示數(shù)據(jù)點(diǎn)隸屬于不同聚類權(quán)重的差值,越大說(shuō)明該數(shù)據(jù)點(diǎn)越偏離某一聚類;β則用于排除兩水團(tuán)的外邊緣區(qū)域帶來(lái)的誤差。
圖4 譜混合模型在v=3,α=0.5,β=1.0情況下,變量和集合之間相互關(guān)系差異的分布結(jié)構(gòu)圖
2.4參數(shù)α和β的優(yōu)化
譜混合模型中的參數(shù)α和β,能夠保證將不同聚類之間的混合區(qū)域限制在各聚類中心連線的中點(diǎn)附近,對(duì)混合區(qū)的確定起到了關(guān)鍵性的作用,所以找到一種可以優(yōu)化兩參數(shù)的方法是十分有必要的。本文對(duì)此提出了一套能夠優(yōu)化這兩個(gè)關(guān)鍵參數(shù)的一般方案,具體闡述如下:
若要研究的是混合區(qū)的時(shí)空變化情況,則在滿足混合區(qū)域被控制在各聚類之間的前提下,其變化越顯著,越有利于研究的進(jìn)行。為了方便敘述,這里以某一事件的發(fā)生,能夠引起混合區(qū)的變化為例,對(duì)優(yōu)化參數(shù)的方法步驟進(jìn)行闡明。首先定義4個(gè)指數(shù)IRB、IRA、RA以及TR,其中IRB為事件發(fā)生時(shí)相對(duì)于事件發(fā)生前混合區(qū)的變化率;IRA為事件發(fā)生時(shí)相對(duì)于事件發(fā)生后混合區(qū)的變化率;RA為平均氣候狀態(tài)下混合區(qū)占總區(qū)域的比例;TR則是以上3個(gè)指數(shù)的總和。
圖5顯示了在不同參數(shù)的配置下,在一個(gè)案例中,4個(gè)指數(shù)的變化分布情況。
首先判斷該事件的發(fā)生對(duì)混合區(qū)的影響是加強(qiáng)還是減弱。若有加強(qiáng)作用,則IRB、IRA、RA以及TR 4個(gè)指數(shù)必須均為正數(shù);反之,指數(shù)IRB和IRA為負(fù)值;然后,考慮到參數(shù)α表示數(shù)據(jù)點(diǎn)隸屬于不同聚類權(quán)重的差值,其值越小,所確定的混合區(qū)越趨向各聚類中心連線的中點(diǎn);最后,考慮到混合區(qū)的顯著性體現(xiàn),即在滿足混合區(qū)被控制在各聚類之間的前提下,其占據(jù)總區(qū)域的比例越大,且在事件前后的變化越明顯,越有利于研究的進(jìn)行。
基于以上3個(gè)原則,結(jié)合圖5中a、b、c、d4張圖,最終可以確定該案例中的最佳參數(shù)配置為α=0.15,β=0.25。
圖5 指數(shù)IRB、IRA、RA以及TR在不同參數(shù)配置下的分布圖
此外,若只研究各聚類之間混合區(qū)的空間分布情況,而不考慮其隨時(shí)間的變化,則上述方法中的4個(gè)指數(shù)只有RA有效,而RA反映的是參數(shù)α和β的取值越大,混合區(qū)占總區(qū)域的面積越大,這顯然不能以此確定兩個(gè)參數(shù)的取值,因?yàn)樵摶旌蠀^(qū)還需要滿足位于各聚類之間這一前提條件。故針對(duì)這類案例,該參數(shù)優(yōu)化方法并不適用,而是要根據(jù)案例的實(shí)際情況來(lái)對(duì)這兩個(gè)參數(shù)進(jìn)行優(yōu)化。
完善后的譜混合模型能夠快速有效地分析水團(tuán)以及確定水團(tuán)之間的交換區(qū),但模型中有幾點(diǎn)還有必要做進(jìn)一步得改進(jìn)。本研究中簡(jiǎn)單的使用聚類mkk所包含的數(shù)據(jù)點(diǎn)的數(shù)量numkk來(lái)表示mkk的勢(shì)力范圍,這個(gè)定義是基于所有聚類中數(shù)據(jù)點(diǎn)的分布密度都是一致的這一前提假設(shè)。因此,在對(duì)各聚類的數(shù)據(jù)點(diǎn)分布密度差異較大的情況研究中,建議使用unmkk/ddkk來(lái)代替公式(8)中的numkk,這里ddkk表示聚類mkk數(shù)據(jù)點(diǎn)的平均分布密度。此外,與大多數(shù)聚類分析研究一樣,聚類個(gè)數(shù)k在本研究中是給定的。實(shí)際上,在更一般的應(yīng)用當(dāng)中,最優(yōu)化的k值可以通過(guò)分析求解矩陣L(方程5)得到的特征值序列而得到。一個(gè)基本的想法是將這些特征值從小到大排列起來(lái),然后自動(dòng)確定數(shù)目k,使前k個(gè)特征值的和相對(duì)于所有特征值的和的比例小于某一標(biāo)準(zhǔn)。
參考文獻(xiàn)
Andrew Y N,Michael I J,Yair W,2002.On spectral clustering:Analysis and an algorithm.Advances in Neural Information Processing Systems,14(1-2):849-856.
JitendraM,SB,TL,etal,2001.Contourand textureanalysis for image segmentation.Int JComput,43(1):7-27.
Lai J,Huang T J,Liaw Y C,2009.A fast k-means clustering algorithm using cluster center displacement.Pattern Recogn,42(11):2551-2556.
Li F,Jun X,Yao L,2004.New methods of fitting the membership function of oceanic water masses.Journal of Ocean University of China(English Edition),3(1):1-9.
Luo B,W ilson R C,Hancock E R,2003.Spectral clustering of graphs.Computer Analysis of Images and Patterns,Proceedings,2756:540-548.
Menschaert G,Vandekerckhove T T M,Landuyt B,et al.,2009.Spectral clustering in peptidomics studies helps to unravel modification profile of biologically active peptides and enhances peptide identification rate.Proteomics,9(18):4381-4388.
Miller A R,1950.A study of mixing processes over the edge of the continentalshelf.J.Mar.Res.,9(2):145-160.
Shi J,Malik J,2000.The 20th anniversary of the IEEE transactions on pattern analysis and machine intelligence.Ieee T Pattern Anal,22 (1):1-3.
Song J,Xue H J,Bao X W,W U Dexing etal.,2011.A spectralmixture model analysis of the Kuroshiovariability andthe water exchange between the Kuroshioand the East China Sea.China Journal of Oceanology andLimnology,29(2):446-459.
Su Y,Yu Z,Li F,1989.The application of the cluster analysis on the shallow water mass analysis.Periodical of Ocean University of China,15(3):24-28.
Sverdrup H U,Johnson M W,F(xiàn)leming R H,1942.The oceans,their physics,chemistry and general biology.New York:Pretince-Hall,1-1087.
Von L U,2007.A tutorial on spectral clustering.Stat.Comput,17(4):395-416.
浦泳修,1981.關(guān)于東海北部表層的水系和環(huán)流.海洋通報(bào),(5):10-16
宋軍.水交換模型的理論方法及應(yīng)用研究:(博士學(xué)位論文).青島:中國(guó)海洋大學(xué),2010.
張緒東,張國(guó)友,佟凱,等,2004.黑潮源區(qū)海域水團(tuán)分析.海洋通報(bào),23(1):15-21.
(本文編輯:岳心陽(yáng))
Optim ization of the spectralm ixturem odelm ethod and its app lication in theanalysisofwaterm assand water exchange
SONG Jun1,4,LIU Yu-Long1,LIJing1,2,GUO Jun-Ru3,6,MU Lin1,YAO Zhi-Gang4,LIXi-Bin5
(1.NationalMarineDataand Information Service,Tianjin 300171,China;2.CollegeofMarine Science,ShanghaiOcean University,Shanghai201306,China;3.NationalMarineHazard Mitigation Service,SOA,Beijing100194,China;4.MinistryofEducation Key LaboratoryofPhysicalOceanography,Ocean UniversityofChina,Qingdao266100,China;5.Tianjin Marine EnvironmentalMonitoring CentralStation,SOA,TianjinMarine EnvironmentalMonitoringand ForecastingCenter,Tianjin 300451,China;6.Key LaboratoryofSpace Ocean Remote Sensingand Application,Beijing100081,China)
Abstract:The method of spectralmixture model is optimized by determining its two parameters in a better way.The optimized method can make rapidclustering analysis of a large number of data samples.By solving the probability density function,itcan determine themixing areabetween differentclusters.W ith the application of themethod in the ocean water mass and water exchange as an example,this paper illuminates the working principle and process of spectralmixture modelin detail.The analysismethod ofspectralmixturemodelwhich isbased on the spectral clusteringmethod,avoids the inadequacy of thetraditional fuzzy clustering analysis.Even if thescattered data distribution ofphysicalquantity presents a wide range of continuity,it is still able to seize the main changedirectionof the time and space distribution of the data.Hence,ithasawide rangeofapplications in termsof the discrimination ofwatermass,the distribution and change rulesof watermassboundary and themixed areaofwaterexchange.
Keywords:SpectralClustering;SpectralMixtureModel;watermassanalysis;waterexchange;FuzzyMathematics;T-S diagram
通訊作者:郭俊如,博士,電子郵箱:874623647@qq.com。
作者簡(jiǎn)介:宋軍(1983-),男,博士,主要從事近海動(dòng)力學(xué)、業(yè)務(wù)化海洋學(xué)方面的研究。
基金項(xiàng)目:國(guó)家自然科學(xué)基金(41206013;41376014;41430963;41206004);教育部物理海洋重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金;2011年度高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20110132130001);海洋公益性行業(yè)科研專項(xiàng)(201205018;201005019);國(guó)家科技支撐計(jì)劃(2014BAB12B02);天津市科技支撐計(jì)劃(14ZCZDSF00012);國(guó)家海洋局青年科學(xué)基金重點(diǎn)項(xiàng)目(2012202;2013203;2012223);國(guó)家建設(shè)高水平大學(xué)公派研究生項(xiàng)目(留金出[2008]3019;[2012]3013);國(guó)家海洋向空間遙感與應(yīng)用研究重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金重點(diǎn)課題(201601003)。
收稿日期:2015-06-10;
修訂日期:2015-07-03
Doi:10.11840/j.issn.1001-6392.2016.01.010
中圖分類號(hào):P733
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-6932(2016)01-0074-07