崔汝麥,司守奎
(1.威海職業(yè)學院,山東 威海 264210;2.海軍航空工程學院 基礎部,山東 煙臺 264001)
隨著信息科學與各種測量技術的發(fā)展,在氣象、醫(yī)學和探礦等領域產生了海量的數據。由于缺乏有效分析手段,常常要舍棄龐大數據群中的大部分數據。人們迫切希望對數據進行更高層次的分析,揭示其隱藏的重要信息,以便更好地利用它們。數據可視化就是順應這一趨勢而發(fā)展起來的,對原始數據信息進行可視化處理后,抽象繁雜的數據變得直觀簡單、生動有趣[1]。
本文研究的問題源于一個實際問題。該問題提供了來自某空間區(qū)域8個水平截面上各對應點某物理量的實際測量數據。
要求直觀分析出該物理量在這一空間區(qū)域的分布情況,具體要求如下:
1)提供該物理量在各截面的分布情況;
2)提供該物理量在整個空間區(qū)域的分布情況。
參考數據如表1所示,其中,500p,…,1200p分別代表8個水平截面的z坐標值,每個水平截面下有3組數據,分別表示測量點的x坐標、y坐標和測點處的某物理量的觀測值。
表1 問題的數據
根據所給的數據分布情況,通過平移與旋轉對研究區(qū)域的數據進行標準化處理,并對該區(qū)域進行網格劃分。再進行二維插值運算,計算出每個網格數據,并對 8個截面進行可視化顯示。最后進行空間插值,獲得空間上的分布數據,并將其顯示出來。
1)實測數據均可靠,沒有誤差;
2)實驗數據采集廣泛,具有普遍性;
3)所測物理量是連續(xù)變化,不存在突變。
2.4.1 數據處理
問題中8個水平截面上的實際測量數據,實際上是在xy 平面上取若干個點,然后分別測量這些點在8個水平截面上的值。這些點在xy 平面上的位置如圖1所示。
圖1 測量點的水平分布
從圖1中可以看出,這些點大致均勻分布在五條直線上,即所給數據是在這五個豎直截面上分別測量8個水平截面上的值。為了獲得物理量在各截面和整個空間區(qū)域的分布情況,顯然我們需要根據這些數據進行插值。
如果直接在圖示范圍內進行插值計算,不僅計算量大,而且四個邊角上的插值誤差很大,實際意義不大。為獲得有效數據并減少計算量,我們可以先對坐標軸進行平移與旋轉處理,將這些測量點平移旋轉到一個較小的矩形區(qū)間,然后再進行計算。
平移與旋轉變換之后測量點x軸上最大值與最小值的差值為1 080,而y軸上最大值與最小值的差值不到390,兩者比例為2.769,我們在保持原測量點的位置比例不變的情況下進行位置數據標準化處理,相當于將包括全部測量點的最小立體區(qū)域從原來坐標系中取出,并保持長寬比例2.769,然后重新建立坐標系,這樣就減小了x軸和y軸上數值的量級,簡化了計算。
標準化計算公式為
式中:N為測量點的數量;K為x軸上劃分網格的數量;τ為測量區(qū)域矩形的長寬比例;L表示取不大于L的最大整數,取整主要是為了后面插值劃分網格的方便。
在選定的矩形中每條直線在橫向上都不能到達矩形區(qū)域邊線;如果直接進行網格劃分并插值,將會出現在某些點的插值為不確定值,這就要縮小矩形再進行網格劃分和插值,從而造成部分數據丟失,而不能充分利用現有信息。所以我們先采用一維三次樣條插值,將缺少的點插值獲得再進行后面的計算。插值補全處理之后的效果如圖2所示。
圖2 插值補全處理
2.4.2 網格細劃
針對原始數據點分散,數量不足等問題,首先對所給空間進行網格細劃,通過二維插值來獲得各網格點上的物理量值,提高數據密度,再進行空間插值,可得到可視化圖。
將轉換后的較小立體區(qū)域劃分為200×72×70個小網格,然后分兩步進行插值計算。
第一步:取出 8個截面中的一個,根據原始數據,采用三次樣條插值的方法,插值計算出該截面上200×72個網格上的數據。同樣對其他 7個截面進行相同的計算,從而獲得200×72×8個網格上的數據。
第二步:取出一個豎直截面,其網格數為200×70;從上一步求出的數據中取出在該截面上的200×8個網格的數據,同樣進行三次樣條插值計算,插值計算出該截面上所有網格的數據。同樣對剩下的71個截面進行相同的計算,從而獲得所有網格的數據。
通過插值,估計出某一點缺失的測量數據,提高了數據密度;也使數據網格化,把非規(guī)則分布的空間數據內插為規(guī)則分布的空間數據。
2.4.3 空間插值
空間插值[2-4]是指通過已知的數據點或已化為各個相對小一些區(qū)域內的數據點,計算出相關的其他未知點或相關區(qū)域內所有點的方法。根據網格細劃所得的數據,可以分別采用以下插值方法計算。
1)最近鄰點插值法充分利用了插值點與已知點之間的距離關系,反映了實際情況,但造成變量值的高估或低估,產生不光滑表面。
2)三線性插值法能緩解邊界不連續(xù)、改善表面不光滑的問題,但使銳度明顯的邊緣變模糊。
3)三角網/線性插值法能充分利用已知點的信息,且表面光滑,但其等值線呈現鋸齒狀。
上述 3種插值方法各有優(yōu)缺點。經充分比較運算,可將最近鄰點插值法、三線性插值法和三角網/線性插值法以1∶2∶4的比例加權平均,設計出綜合插值法,能夠充分發(fā)揮 3種方法的優(yōu)點。以截面600p所給數據為例,此模型立體表面光滑,等值線[5]也較平滑,效果見圖3、圖4。
圖3 綜合插值法立體圖
圖4 綜合插值法等值線圖
根據本文設計的綜合插值法模型,可插值計算出所測物理量在各截面的分布情況,見圖5、圖6。從截面500p~900p的分布圖可以看出,該物理量的大值主要分布在矩形區(qū)的左上和左下角區(qū)域;而且隨著豎直方向值的增大,大值分布在朝下方移動。而從截面1 000p~1 200p的分布圖可以看出,物理量的分布較為廣泛,但隨著豎直方向值的增大,物理量集中于研究區(qū)域左下方的分布情況更為明顯。
圖5 物理量在8個截面的分布圖
圖6 物理量在8個截面的分布等值線圖
依據網格細劃中提出的兩個步驟,采用綜合插值法計算出所有小網格的數據。使用Matlab[6-7]中的griddata3命令,獲得空間區(qū)域的分布情況,如圖7、8是其中的2個截面圖。圖7、8能較為明顯地看到物理量的大值集中分布情況,也證實了我們上面的分析。在實際應用中,可根據要求具體分析某個截面的分布情況,從而為正確決策提供科學的支持。
圖7 空間區(qū)域的分布截面
圖8 空間區(qū)域的分布截面
本文針對分布不均勻、數據點不足的復雜數據建立了可視化處理的數學模型,為科研工作者進行類似工作時提供了一定的參考依據。
本模型適應性廣,但計算精度要依據數據的離散程度和網格劃分的細密程度兩個方面。其中,網格劃分越小,精度也就越高,但計算量就會大為增加,設計時要兼顧二者的平衡。其次,如果數據是均勻分布的離散數據或者能夠對特定點測量后再進行插值計算,可簡化計算,提高精度。
[1]唐澤圣.三維數據場可視化[M].北京:清華大學出版社,1999.
[2]顏慧敏.空間插值技術的開發(fā)與實現[D].成都:西南石油學院,2005.
[3]葉其孝.大學生數學建模競賽輔導教材[M].長沙:湖南教育出版社,2001.
[4]蕭樹鐵.數學實驗[M].北京:高等教育出版社,1999.
[5]王智剛,唐瑤,曾向紅,等.雷電災害數據可視化分析系統(tǒng)研制[J].氣象,2009(5):23-30.
[6]張宜華.精通MATLAB5[M].北京:清華大學出版社,2000.
[7]王家文.MATLAB6.5 圖形圖像處理[M].北京:國防工業(yè)出版社,2004.