閆 可 程文芳
1(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203) 2(中國(guó)極地研究中心 上海 200136)
海洋水文觀測(cè)數(shù)據(jù)聚類
閆 可1程文芳2
1(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203)2(中國(guó)極地研究中心 上海 200136)
在科學(xué)考察中,數(shù)據(jù)的獲取受自然環(huán)境因素以及監(jiān)測(cè)成本影響較大,實(shí)際布放的監(jiān)測(cè)點(diǎn)的數(shù)量和位置可能無(wú)法達(dá)到預(yù)期,并且所采集的數(shù)據(jù)集中通常包含了多種監(jiān)測(cè)要素,利用數(shù)據(jù)分析來(lái)彌補(bǔ)因自然環(huán)境影響而造成的數(shù)據(jù)缺失并找出數(shù)據(jù)變化規(guī)律顯得尤為重要。以南極普里茲灣水文數(shù)據(jù)為研究對(duì)象,利用空間插值的方法,來(lái)彌補(bǔ)數(shù)據(jù)不足和監(jiān)測(cè)點(diǎn)稀疏的問(wèn)題,再將改進(jìn)的動(dòng)態(tài)時(shí)間彎曲距離算法用于具有多要素特性的水文深度序列相似度衡量,實(shí)驗(yàn)結(jié)果表明相較于傳統(tǒng)的歐氏距離相似度衡量更為準(zhǔn)確?;谒岢龅南嗨贫群饬克惴?,對(duì)普里茲灣水文數(shù)據(jù)進(jìn)行聚類,并獲得了每個(gè)簇的空間分布情況。
水文數(shù)據(jù) 空間插值 動(dòng)態(tài)時(shí)間彎曲 相似度衡量 深度序列 K-means
科學(xué)數(shù)據(jù)挖掘定義為:將數(shù)據(jù)挖掘應(yīng)用于科學(xué)問(wèn)題,而不是商業(yè)、經(jīng)濟(jì)等領(lǐng)域,相對(duì)于傳統(tǒng)的商業(yè)數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘應(yīng)用主要的區(qū)別在于數(shù)據(jù)集的性質(zhì),不僅僅是數(shù)據(jù)本身的性質(zhì)還包括數(shù)據(jù)獲取以及處理的過(guò)程也有顯著的不同??茖W(xué)數(shù)據(jù)是科研人員為了研究某一類學(xué)科或者特殊現(xiàn)象而采集的一系列數(shù)據(jù)集,例如氣象現(xiàn)象、土壤性質(zhì)、種群遷徙等[1]。通常包含了多種監(jiān)測(cè)要素,且要素之間相互影響,如何在包含有多種要素的數(shù)據(jù)集中挖掘出潛在的規(guī)律是一大挑戰(zhàn);另外實(shí)地科學(xué)考察對(duì)于科學(xué)數(shù)據(jù)的獲取有重要意義,然而在實(shí)際的監(jiān)測(cè)點(diǎn)選取以及設(shè)備布放的過(guò)程中,可能受到地形、地貌、氣候環(huán)境以及監(jiān)測(cè)成本等因素影響,從而導(dǎo)致這些監(jiān)測(cè)點(diǎn)通常在空間上的分布是非常稀疏的且不規(guī)則,在對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)分析之前需要對(duì)其進(jìn)行預(yù)處理來(lái)彌補(bǔ)這種數(shù)據(jù)缺陷。本文以考察環(huán)境極為惡劣的南極普里茲灣海域的水文數(shù)據(jù)為研究對(duì)象。論文主要工作包括:利用空間插值對(duì)實(shí)際采樣點(diǎn)所采集數(shù)據(jù)進(jìn)行插值,解決數(shù)據(jù)不足以及站點(diǎn)分布稀疏的問(wèn)題;再將動(dòng)態(tài)時(shí)間彎曲的思想用于水文深度序列的相似性衡量中,并加以改進(jìn);基于上述序列相似度衡量算法對(duì)經(jīng)過(guò)插值后的水文深度序列進(jìn)行聚類。
自1984年我國(guó)首次對(duì)南極附近海域展開(kāi)調(diào)查以來(lái),迄今已經(jīng)完成了32次南極科考,獲取了大量的水文、氣象、生物、化學(xué)、地球物理、地質(zhì)、地磁等多個(gè)學(xué)科的觀測(cè)資料。目前在雪龍船上配備有SBE911-CTD設(shè)備,用于收集在各個(gè)站位的水文調(diào)查數(shù)據(jù),其中所采集的數(shù)據(jù)規(guī)范到1 m一個(gè)記錄,采集的要素有:不同深度下的溫度、鹽度、密度、聲速等。水文觀測(cè)方式為,雪龍船航行至指定站位停船,將所攜帶的CTD設(shè)備拋入海中,完成不同深度的下的數(shù)據(jù)采集,實(shí)現(xiàn)一定深度范圍內(nèi)的水文監(jiān)測(cè)要素剖面觀測(cè)。由于南極氣候條件惡劣以及監(jiān)測(cè)成本的限制,無(wú)法對(duì)該區(qū)域進(jìn)行密集的數(shù)據(jù)采樣,導(dǎo)致了的實(shí)際數(shù)據(jù)監(jiān)測(cè)點(diǎn)分布稀疏的問(wèn)題,如圖1是第29次南極科考普里茲灣海域的站位分布情況,共計(jì)62個(gè)監(jiān)測(cè)站位,圖2是10 m水深的鹽度散點(diǎn)圖,每個(gè)站位可監(jiān)測(cè)不同深度下的水文數(shù)據(jù)。從圖1中可以直觀的看出,監(jiān)測(cè)站位分布比較稀疏。
圖1 第29次南極科考普里茲灣站位分布
圖2 第29次南極科考普里茲灣10 m水深的鹽度散點(diǎn)圖
為了彌補(bǔ)監(jiān)測(cè)站位稀疏的缺陷,我們引入了空間插值的方法。首先將整個(gè)普里茲灣區(qū)域等分成更小的區(qū)域,每個(gè)小塊區(qū)域的水文數(shù)據(jù)均可由空間插值方法獲得。將每個(gè)小區(qū)域看成一個(gè)監(jiān)測(cè)點(diǎn),可以得到監(jiān)測(cè)點(diǎn)分布非常密集的水文數(shù)據(jù)。最后對(duì)這些水文數(shù)據(jù)進(jìn)行聚類,可以將水文數(shù)據(jù)屬于同一類的小塊劃到同一塊區(qū)域中。如圖3,可以直觀地看出水文數(shù)據(jù)變化特征的空間分布。當(dāng)然這些小區(qū)域越小,我們的普里茲灣區(qū)域劃分的最終結(jié)果也就越精確。
圖3 區(qū)域劃分效果圖
2.1 空間插值算法
目前已經(jīng)有許多空間插值的方法用于已有數(shù)據(jù)來(lái)估計(jì)非采樣點(diǎn)的值,將不規(guī)則分布的數(shù)據(jù)處理為規(guī)則分布的數(shù)據(jù),將空間插值的方法應(yīng)用到科學(xué)數(shù)據(jù)挖掘中是科學(xué)數(shù)據(jù)集預(yù)處理過(guò)程重要的一步[2-4]。
反距離加權(quán)是最簡(jiǎn)單的插值方法之一。 它基于這樣的假設(shè),即非采樣點(diǎn)處的值可以近似為在特定距離內(nèi)的采樣點(diǎn)或給定數(shù)量的最近的采樣的點(diǎn)值的加權(quán)平均值,權(quán)重通常與距離的冪成反比。
最近鄰插值同樣是一種簡(jiǎn)單的插值算法,它只考慮離未知點(diǎn)最近的已知點(diǎn)的影響,而不考慮其他相鄰點(diǎn)的影響,該方法基于由一系列空間離散點(diǎn)繪制的沃羅諾伊圖(Voronoi Diagram)來(lái)實(shí)現(xiàn)。
克里金插值是最典型的利用地統(tǒng)計(jì)學(xué)的插值方法,基于隨機(jī)函數(shù)的概念:區(qū)域內(nèi)的值被假定為具有特定空間協(xié)方差的隨機(jī)函數(shù)的函數(shù)值??死锝鸶倪M(jìn)了反距離加權(quán)插值中權(quán)值的計(jì)算,它的權(quán)值是能夠使得該點(diǎn)的估計(jì)值和真實(shí)值的差最小的一系列系數(shù)。
樣條插值是典型的基于分段擬合的插值算法,給定一個(gè)離散函數(shù)fk=f(xk),k=0,1,…,N,樣條其實(shí)是在每對(duì)離散點(diǎn)之間的多項(xiàng)式函數(shù),保證內(nèi)插函數(shù)在全局平滑度上保證在某階可導(dǎo)。最簡(jiǎn)單的樣條插值為線性樣條,即在特定區(qū)間[xk,xk+1],插值公式為一個(gè)線性函數(shù);三次樣條插值是常用的樣條插值,它的目的是得到一個(gè)二階可導(dǎo)且二階導(dǎo)連續(xù)的函數(shù)。
2.2 插值算法選取
選取常用的空間插值算法:最近鄰插值、克里金插值、線性樣條插值以及三次樣條插值。第29次南極科考普里茲灣海域共有監(jiān)測(cè)點(diǎn)62個(gè),選取其中的55個(gè)監(jiān)測(cè)點(diǎn)10 m水深處溫度數(shù)據(jù)利用上述插值算法分別進(jìn)行插值,如圖4所示。用其余的7個(gè)點(diǎn)作為測(cè)試點(diǎn),用于比較各插值算法之間的誤差大小。結(jié)果如表1所示。
圖4 插值結(jié)果
真實(shí)值克里金插值最近鄰插值線性樣條三次樣條-0.8964-1.1583-0.5098-0.4791-0.03270.0934-0.01370.15860.02330.02980.10980.08629-0.2037-0.0532-0.1006-0.5765-0.4424-0.2639-0.3822-0.2760-0.8706-0.8533-1.1739-0.5574-0.6536-0.1723-0.13350.0145-0.0372-0.0450-0.17230.00260-0.2035-0.1053-0.0784
最終得到這4種插值算法在這7個(gè)測(cè)試點(diǎn)估計(jì)值與真實(shí)值得平均誤差,其中平均誤差最小的是克里金插值算法為0.108 23 ℃。我們選取誤差最小的克里金插值法,對(duì)溫度和鹽度數(shù)據(jù)進(jìn)行插值,綜合這兩類水文監(jiān)測(cè)要素的變化序列從而得到普里茲灣任意一點(diǎn)的水文變化深度序列,如圖5是僅包含有溫度和鹽度兩個(gè)要素的深度序列。
圖5 溫鹽深度序列
由此可以得到我們之前劃分的小塊區(qū)域的溫鹽深度變化序列。由于我們要對(duì)這些序列進(jìn)行聚類,為了消除量綱對(duì)聚類算法中距離計(jì)算的影響,需要對(duì)溫鹽深度序列進(jìn)行歸一化處理,將數(shù)值變?yōu)閇0,1]內(nèi)的小數(shù),采用線性函數(shù)轉(zhuǎn)換如公式:
(1)
其中x、y分別表示變換前的值和變換后的值,MinValue、MaxValue分別表示數(shù)據(jù)的最小值和最大值。
考慮到時(shí)間序列與深度序列之間的相似性,接下來(lái)重點(diǎn)介紹處理后的水文數(shù)據(jù)聚類。我們將動(dòng)態(tài)時(shí)間彎曲距離計(jì)算的思想應(yīng)用到普里茲灣水文序列的相似度衡量,由于水文數(shù)據(jù)涉及到多種要素,我們對(duì)動(dòng)態(tài)時(shí)間彎曲距離公式進(jìn)行改進(jìn),以適用于水文序列相似度的衡量。
動(dòng)態(tài)時(shí)間彎曲DTW(Dynamic Time Warping)距離是基于序列形狀相似性計(jì)算的方法。DTW通過(guò)使用動(dòng)態(tài)規(guī)劃的思想來(lái)發(fā)現(xiàn)所有可能的彎曲路徑,從而在兩個(gè)時(shí)間序列中選擇最小的距離。也就是在兩個(gè)序列中找出最優(yōu)對(duì)齊的方案,也可以理解為兩個(gè)序列在時(shí)間方向上進(jìn)行扭曲以彼此匹配[5-6]。假設(shè)有兩個(gè)序列Q(q1,…,qi,…,qn)和C(c1,…,ci,…,cn) ,由于我們通過(guò)插值得到的深度序列長(zhǎng)度均是相同的,所以這里假設(shè)Q的長(zhǎng)度和C的長(zhǎng)度相同均為n。首先創(chuàng)建一個(gè)n×n的距離矩陣,這里定義矩陣元素(i,j)的值如公式:
(2)
其中1≤i,j≤n,di,j=(ci-qj)2,DTWi,j是di,j與(i,j)元素周圍的三個(gè)元素的最小累積距離的和,然后通過(guò)找出最優(yōu)路徑,定義兩個(gè)序列在(n,n)最小的累計(jì)距離如公式:
其中P是所有可能的彎曲路徑,wk是彎曲路徑第k個(gè)點(diǎn)(i,j) 的值,K是彎曲路徑的長(zhǎng)度。表示序列Q和C映射關(guān)系的一條彎曲路徑,如圖6所示。
圖6 彎曲路徑
深度變化序列和時(shí)間序列在相似性衡量上有相似之處,只是要素值不是隨時(shí)間的變化而變化,而是隨深度的變化而變化,如果采用傳統(tǒng)的歐式距離的方法來(lái)衡量?jī)蓚€(gè)深度序列之間的相似性是不合理的。對(duì)于普里茲灣水文數(shù)據(jù),當(dāng)雪龍船航行至指定的站位時(shí)停船,拋下水文監(jiān)測(cè)儀器,以此來(lái)采樣該監(jiān)測(cè)站位的水文數(shù)據(jù),采集完成后再航行至下一個(gè)站位,這樣的數(shù)據(jù)采集方式帶來(lái)了兩個(gè)顯著的問(wèn)題:
1) 不同站位的數(shù)據(jù)均是在不同的時(shí)刻采集的,站位在航線上位置相距越大,采樣的時(shí)間間隔也就越大,水位會(huì)隨著時(shí)間的推移而變化,由于水位的變化而導(dǎo)致了兩個(gè)站位同一深度的數(shù)據(jù)可比性減弱。
2) 由于實(shí)際作業(yè)條件限制,導(dǎo)致了采樣儀器在各個(gè)站位的下沉過(guò)程速度通常不同。因?yàn)椴蓸娱g隔為1 m,如果儀器下沉速度過(guò)快會(huì)導(dǎo)致采樣層的海水收到了來(lái)自上層海水的干擾,從而導(dǎo)致實(shí)際數(shù)據(jù)在深度軸上會(huì)產(chǎn)生一定偏移。
在時(shí)間序列相似性比較中,由于傳統(tǒng)歐式距離對(duì)數(shù)據(jù)在時(shí)間軸上的偏移較為敏感,一些輕微的數(shù)據(jù)偏移都會(huì)導(dǎo)致兩個(gè)序列之間的歐式距離變得很大。因?yàn)闅W式距離的計(jì)算時(shí)必須要保證序列的每個(gè)點(diǎn)一一對(duì)應(yīng),正如之前所提到的普里茲灣水文數(shù)據(jù)所存在的實(shí)際問(wèn)題,直接利用歐式距離來(lái)衡量?jī)蓚€(gè)深度序列的相似性是不合理的,而動(dòng)態(tài)時(shí)間彎曲距離可以有效地彌補(bǔ)歐式距離的這一缺陷。一方面,由水文深度序列與時(shí)間序列的相似性,我們利用動(dòng)態(tài)時(shí)間彎曲算法來(lái)計(jì)算深度序列之間的最短距離,以此來(lái)衡量序列之間的相似度;另一方面,DTW僅適用于單個(gè)參數(shù)的時(shí)間序列,而本文研究的普里茲灣水文深度序列涉及到多個(gè)要素,即在相同的深度下會(huì)采集溫度、鹽度、密度等多個(gè)水文參數(shù)值。
(4)
但是這樣做最大的缺陷是忽略了水文要素之間的關(guān)系,所以這里需要調(diào)整傳統(tǒng)DTW中的距離公式d。如圖7所示,向量a與c的歐式距離向量a與向量b的歐式距離均為d,但是它們的向量夾角卻不相同,可以很明顯看出α>β,盡管向量b、c與a的歐式距離相等,但是由于a與c的夾角更小,我們認(rèn)為c與a更相似。
圖7 向量相似度比較
基于上述觀點(diǎn),我們重新定義兩個(gè)多維向量的距離如公式:
(5)
其中cosα的計(jì)算如公式:
(6)
當(dāng)然在實(shí)際使用過(guò)程中,DTW或許不能根據(jù)我們的需求來(lái)給出最好的映射,因?yàn)樗鼉H僅是為了找出兩個(gè)序列的最小距離,可能會(huì)得到我們不想要的結(jié)果。為此我們需要進(jìn)行一個(gè)全局的約束來(lái)限制彎曲路徑的選擇,Sakoe-Chiba band是最常用的具有全局限制的DTW算法[7-8]。
Sakoe-Chiba band全局約束如圖8,寬度通常設(shè)置為時(shí)間序列長(zhǎng)度的10%,但10%的限制對(duì)于實(shí)際的數(shù)據(jù)是很大的,尤其是針對(duì)本文中提到的普里茲灣海域水文深度序列的聚類。水文數(shù)據(jù)對(duì)深度是十分敏感的,如果深度相差太多即使距離最短也沒(méi)有實(shí)際意義,這里我們也需要對(duì)改進(jìn)DTW算法進(jìn)行一定限制。目前溫鹽深度序列的深度間隔為1 m,考慮到實(shí)際的水溫變化規(guī)律,規(guī)定約束寬度設(shè)置為深度序列長(zhǎng)度的4%即20 m范圍內(nèi),采用對(duì)匹配路徑約束之后,由于減少了彎曲路徑的范圍和計(jì)算次數(shù),聚類時(shí)間也隨之減少。
圖8 Sakoe-Chiba band
為了衡量算法的有效性,我們將本文提出的深度序列距離公式與傳統(tǒng)的歐式距離作對(duì)比。對(duì)第29次南極普里茲灣溫度和鹽度進(jìn)行空間插值之后,我們可以獲得任意一點(diǎn)的溫鹽深度序列。根據(jù)空間插值位置相近屬性也就相近的基本準(zhǔn)則,有如下原則:如果選取插值范圍的任意位置的一個(gè)點(diǎn)作為中心點(diǎn),那么離該中心點(diǎn)最近的點(diǎn)的溫鹽深度序列與中心點(diǎn)的溫鹽序列最為相似,即可看作屬于同一類?;谏鲜龅脑瓌t,我們分別選取多個(gè)點(diǎn)作為中心點(diǎn),且保證這些點(diǎn)之間足夠分散,以每個(gè)中心點(diǎn)的數(shù)據(jù)作為一類,以每個(gè)中心點(diǎn)周圍的8個(gè)方向上最近的點(diǎn)作為測(cè)試點(diǎn),期望對(duì)這些測(cè)試點(diǎn)分類后將被劃分到它們各自中心點(diǎn)的類中。如果被分到了別的類則視為錯(cuò)誤的分類,實(shí)驗(yàn)結(jié)果如表2所示。本文方法與傳統(tǒng)歐氏距離的正確率比較如圖9所示。可以直觀地看出,本文所提出的水文深度序列相似度衡量方法的準(zhǔn)確性相對(duì)于以歐氏距離衡量相似度的方法更為準(zhǔn)確。
表2 兩種方法分類實(shí)驗(yàn)結(jié)果比較
圖9 算法準(zhǔn)確率
考慮到溫度和鹽度時(shí)普里茲灣水文數(shù)據(jù)中相對(duì)比較重要的物理量,接下來(lái)我們對(duì)僅包含溫度和鹽度要素的深度序列進(jìn)行聚類。數(shù)據(jù)采用第29次南極科考期間普利茲灣海域所采集的水文觀測(cè)數(shù)據(jù),監(jiān)測(cè)站位共62個(gè),站位東西跨度為68°E至78°E,南北跨度為64.5°W至69.16°W,考慮到保證插值結(jié)果的準(zhǔn)確性,將插值方位限制在經(jīng)度68°E至78°E,緯度64.5°S至69°S??紤]到實(shí)際測(cè)量過(guò)程中,表層海水受氣候環(huán)境因素影響較大,將每個(gè)站位的溫鹽數(shù)據(jù)深度范圍限制在10 m至500 m,深度間隔為1 m。我們將所選定的區(qū)域進(jìn)行細(xì)分,劃分為經(jīng)緯跨度均為0.125°的小塊,共計(jì)2 880塊,將以該小塊中心的溫鹽變化代表整個(gè)小塊的溫鹽變化。
整個(gè)數(shù)據(jù)預(yù)處理過(guò)程分為兩個(gè)部分。一是利用克里金插值算法將每隔1 m水深的溫度和鹽度分別進(jìn)行插值,獲得密集且空間上規(guī)則分布的數(shù)據(jù)集,共2 880條溫鹽深度序列,且每條序列長(zhǎng)度為491,其中最高溫度1.12 ℃,最低溫度-2.42 ℃,最大鹽度值34.70 psu,最低鹽度值32.45 psu。二是基于本文所提出的水文深度序列相似度衡量算法,利用K-means聚類算法將處理后的所有溫鹽深度序列進(jìn)行聚類,最終將2 880條數(shù)據(jù)劃分成了6個(gè)簇,其中每個(gè)簇的中心序列如圖10所示,每個(gè)簇的空間分布情況如圖11所示。
圖10 聚類結(jié)果
圖11 類空間分布
水文數(shù)據(jù)的采集往往受環(huán)境因素影響,尤其是在極地環(huán)境。由于資源有限,外加采樣環(huán)境極其惡劣,實(shí)際監(jiān)測(cè)站位的選取往往較為稀疏且分布不規(guī)律。而且由于水文數(shù)據(jù)的特殊性,傳統(tǒng)的相似度衡量算法不再適用,對(duì)數(shù)據(jù)缺失的水文數(shù)據(jù)聚類是一項(xiàng)巨大的挑戰(zhàn)。在本文中,首先對(duì)已有數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理過(guò)程包括每一層深度下的數(shù)據(jù)進(jìn)行插值,得到普里茲灣任意一點(diǎn)的水文深度序列。之后基于本文所提出的水文序列相似度衡量算法,利用K-means聚類算法實(shí)現(xiàn)對(duì)南極普里茲灣海域所有水文深度序列聚類,從而獲得多個(gè)類簇。利用各個(gè)序列的空間位置信息,可以直觀地看出每個(gè)簇的空間分布情況,為今后的科學(xué)研究提供一定的參考價(jià)值。下一步工作方向?yàn)檫M(jìn)一步優(yōu)化水文深度序列相似度衡量算法,提高算法效率,減少聚類時(shí)間。
[1] Embrechts M J, Szymanski B, Sternickel K. Introduction to Scientific Data Mining: Direct Kernel Methods and Applications[M]//Computationally Intelligent Hybrid Systems: The Fusion of Soft Computing and Hard Computing. John Wiley & Sons, Inc. 2005:317-362.
[2] Bello A, Reneses J, Muoz A, et al. Probabilistic forecasting of hourly electricity prices in the medium-term using spatial interpolation techniques[J]. International Journal of Forecasting, 2016, 32(3):966-980.
[3] Bradley J R, Cressie N, Shi T. A comparison of spatial predictors when datasets could be very large[J]. arXiv preprint arXiv:1410.7748,2014.
[4] Li J, Heap A D. Spatial interpolation methods applied in the environmental sciences[J]. Environmental Modelling & Software, 2014, 53(C):173-189.
[5] Kate R J. Using dynamic time warping distances as features for improved time series classification[J]. Data Mining and Knowledge Discovery, 2016, 30(2):1-30.
[6] Shokoohi-Yekta M, Hu B, Jin H, et al. Generalizing DTW to the multi-dimensional case requires an adaptive approach[J]. Data Mining & Knowledge Discovery, 2017,31(1):1-31.
[7] Niennattrakul V, Ratanamahatana C A. Learning DTW Global Constraint for Time Series Classification[J]. Computer Science, 2009.
CLUSTERINGOFMARINEHYDROLOGICALOBSERVATIONDATA
Yan Ke1Cheng Wenfang2
1(SchoolofComputerScience,FudanUniversity,Shanghai201203,China)2(PolarResearchInstituteofChina,Shanghai200136,China)
In the course of scientific investigation, the acquisition of data is greatly affected by the natural environment factors and the monitoring cost. The actual number and location of monitoring points may not be able to meet the expectations and the collected data set usually contains a variety of monitoring elements. It is particularly important to use data analysis to compensate for lack of data caused by the natural environment and find out the law of data change. Based on the hydrological data of Prydz Bay in Antarctica, the use of spatial interpolation method to make up lack of data and sparse monitoring points, then the improved Dynamic time warping distance algorithm is applied to the similarity measure of hydrological depth series with multi-element. The experimental results show that similarity measurement algorithm is more accurate than the traditional Euclidean distance. Based on the similarity measurement proposed in this paper, the Prydz Bay hydrological data are clustered and the spatial distribution of each cluster is obtained.
Hydrological data Spatial interpolation Dynamic time warping Similarity measure Depth sequence K-means
2016-12-26。極地海洋環(huán)境監(jiān)測(cè)網(wǎng)系統(tǒng)研發(fā)及應(yīng)用示范項(xiàng)目(201405031)。閆可,碩士生,主研領(lǐng)域:軟件工程。程文芳,高工。
TP391
A
10.3969/j.issn.1000-386x.2017.11.007