吳善躍,陳 昕,任鳳華,呂 躋
(92957部隊,浙江 舟山 316000)
潤滑油原子發(fā)射光譜分析在船舶動力機械狀態(tài)監(jiān)測領域得到了日益廣泛應用[1-2]。然而,在實際應用中面臨著缺乏明確判別閾值問題,極大制約了油液監(jiān)測工作深入開展。針對該問題,有必要根據(jù)科學理論,利用積累的歷史數(shù)據(jù)統(tǒng)計經(jīng)驗閾值,來指導監(jiān)測工作開展。對于動力機械原子發(fā)射光譜分析監(jiān)測閾值制定,現(xiàn)已形成多種分析方法,其中三線值法應用最為廣泛[1-5]。這些方法的使用有一基本前提,即要求樣本應符合正態(tài)分布。對于原子發(fā)射光譜分析非正態(tài)分布樣本數(shù)據(jù)應如何統(tǒng)計經(jīng)驗閾值,文獻[5-6]對傳統(tǒng)方法做出了改進,但要求樣本數(shù)據(jù)符合t分布。文獻[7]所述最大熵值法實質(zhì)上是一種基于分位數(shù)的閾值確定方法,雖對樣本分布沒有要求,分析簡單,但忽略了樣本分布規(guī)律,所確定閾值較粗糙。
筆者編制某型船用發(fā)電柴油機原子發(fā)射光譜分析經(jīng)驗閾值時,在大樣本分析中發(fā)現(xiàn)多數(shù)元素樣本并不符合正態(tài)分布要求,前文所述方法均存在一定局限性。為此,本文擬以該型機為研究對象,分析樣本分布規(guī)律,探討不同分布規(guī)律樣本數(shù)據(jù)處理及閾值統(tǒng)計方法。
某型船配置有4 臺同型發(fā)電柴油機,為編制該型船發(fā)電柴油機油液光譜分析經(jīng)驗閾值,收集13艘船52 臺發(fā)電柴油機油液光譜數(shù)據(jù),共計1 741條。對上述原始樣本,采用頻數(shù)直方圖形式分析質(zhì)量分數(shù)分布。繪制頻數(shù)直方圖時,先獲取樣本中最大質(zhì)量分數(shù)并取整(記為Xmax),并以該整數(shù)作為樣本分組數(shù),其分組集合為:
按以上分組繪制主要磨損元素和污染元素質(zhì)量分數(shù)分布頻數(shù)直方圖,圖1~圖5為各元素質(zhì)量分數(shù)分布頻數(shù)直方圖,分析直方圖可發(fā)現(xiàn):①鎂元素近似正態(tài)分布,而其它元素均為非正態(tài)分布;②鐵元素近似為對數(shù)正態(tài)分布;③鋁、鉻、銅、鉛、鎳元素分布近似鐘形曲線一半;④鈉元素為不拘分布,呈明顯雙峰形態(tài);⑤鎳、錫、銀、硼元素為不拘分布,高度集中于零值附近。上述元素質(zhì)量分數(shù)分布具有明顯右拖尾現(xiàn)象,不僅出現(xiàn)零散分布,而且數(shù)值極大,尤其是鈉、鎂元素。
圖1 鎂元素質(zhì)量分數(shù)分布頻數(shù)直方圖
圖2 鐵元素質(zhì)量分數(shù)分布頻數(shù)直方圖
圖3 鋁元素質(zhì)量分數(shù)分布頻數(shù)直方圖
圖4 鈉元素質(zhì)量分數(shù)分布頻數(shù)直方圖
圖5 鎳元素質(zhì)量分數(shù)分布頻數(shù)直方圖
圖1~圖5 代表了5 種不同分布規(guī)律原始樣本頻數(shù)直方圖,以下分別論述數(shù)據(jù)處理與閾值統(tǒng)計。
鎂元素分布基本呈正態(tài)分布,符合三線值方法使用前提。原始樣本均值(Xˉ)與均方差(S)分別為21 μg/g 和27 μg/g,以此分別作為正態(tài)分布參數(shù)μ和σ,繪制正態(tài)分布密度函數(shù)曲線,用于擬合圖1對應頻率直方圖,鎂元素原始樣本概率密度擬合曲線見圖6。由圖6 可知,該正態(tài)分布密度函數(shù)曲線并不能理想地擬合頻率直方圖,兩者之間存在較大差異。而以此正態(tài)曲線為基礎確定的三線值法預警閾值(μ+2σ)、報警閾值(μ+3σ)分別為75.0 μg/g和102.0 μg/g,數(shù)值明顯過大。
圖6 鎂元素原始樣本概率密度擬合曲線
造成以上問題的基本原因在于樣本中具有少數(shù)零散極大值數(shù)據(jù)(最大高達463 μg/g),它們對樣本均方差統(tǒng)計具有較大不利影響,應按一定的法則進行合理篩除?;赬ˉ+ 3S的數(shù)據(jù)篩除循環(huán)流程見圖7,本文采用圖7 篩除極大值數(shù)據(jù),其目的是使篩除后的樣本均聚集于均值的3倍均方差范圍內(nèi),更符合正態(tài)分布。
圖7 基于X+3S的數(shù)據(jù)篩除循環(huán)流程
根據(jù)圖7 篩除原始樣本中極大值數(shù)據(jù)。其中,變量賦初值情況如下:NMg為463.0 μg/g,MMg為1.0 μg/g 。流程結(jié)束時確定的篩除界限值為37.0 μg/g。篩除掉的極大值數(shù)據(jù)有64 個,約占總數(shù)的3.68%。篩除極大值數(shù)據(jù)后,計算Xˉ、S分別為17.8 μg/g 和6.4 μg/g,以此分別作為正態(tài)分布參數(shù)μ和σ,繪制正態(tài)分布密度函數(shù)曲線,就可得到篩除數(shù)據(jù)后鎂元素概率密度擬合曲線見圖8。
圖8 篩除數(shù)據(jù)后鎂元素概率密度擬合曲線
由圖8 可知,正態(tài)分布密度函數(shù)曲線較好擬合了頻率直方圖。根據(jù)圖8確定的正態(tài)分布概率密度曲線,可確定鎂元素質(zhì)量分數(shù)預警閾值(μ+2σ)、報警閾值(μ+3σ)分別為30.6 μg/g 和37.0 μg/g,遠小于圖6的相關閾值。
設鐵元素質(zhì)量分數(shù)原始樣本集合為{ }Xi,對該集合元素進行對數(shù)處理后變?yōu)榧蟵 }Yi,其中:
式中,X0為無量綱化處理的基準值,取1 μg/g。
集合{Yi}中最大值為1.96,從0~2.0 以0.05 為間隔將集合{Yi}分為40 組,并以頻數(shù)直方圖形式顯示集合{Yi},鐵元素原始樣本對數(shù)處理后的頻數(shù)直方圖見圖9。
圖9 鐵元素原始樣本對數(shù)處理后的頻數(shù)直方圖
可采用正態(tài)分布密度函數(shù)曲線擬合圖9 對應的頻率直方圖??紤]到圖9 中略微存在右拖尾現(xiàn)象,采用圖7 中流程篩除圖9 中極大值數(shù)據(jù)。其中,變量賦初值情況如下:NFe為1.90,MFe為0.01。流程結(jié)束時確定的界限值為1.70。篩除掉的極大值數(shù)據(jù)有16個,占總數(shù)的0.92%。
篩除極大值數(shù)據(jù)后,計算Xˉ、S的值分別為0.87 和0.28,以此分別作為正態(tài)分布參數(shù)μ和σ,繪制正態(tài)分布密度函數(shù)曲線,將該曲線作為頻率直方圖的擬合曲線,對數(shù)處理和篩除數(shù)據(jù)后鐵元素概率密度擬合曲線見圖10。
圖10 對數(shù)處理和篩除數(shù)據(jù)后鐵元素概率密度擬合曲線
由圖10 可知,正態(tài)分布密度函數(shù)曲線較好擬合了頻率直方圖,故可以由正態(tài)分布參數(shù)μ和σ確定閾值。所計算的預警閾值(μ+2σ)、報警閾值(μ+3σ)分別為1.42 和1.70,對應于對數(shù)變化前的原始值分別為26.3 μg/g、50.1 μg/g,由此最終確定這2個原始值分別為鐵元素質(zhì)量分數(shù)的預警閾值和報警閾值。
鋁元素分布近似鐘形曲線一半(鐘形曲線左右對稱點數(shù)值為零),可考慮在正態(tài)分布密度函數(shù)曲線基礎上構建擬合分布密度函數(shù)g(x)。g(x)定義為分段函數(shù):
式中,f(x)是均值為0的正態(tài)分布密度函數(shù),即:
設g(x)對應的分布函數(shù)為G(x),即:
當x→∞時,G(x) = 1。g(x)可視為f(x)負半軸部分按零軸對稱疊加到正半軸部分。由以上各式關 系 不 難 計 算G(2σ)、G(3σ) 分 別 為0.954 4 和0.997 4,可將2σ、3σ分別作為報預警閾值和報警閾值。
半鐘形分布數(shù)據(jù)篩除循環(huán)流程如圖11 所示。由于圖3樣本中存在零散極大值數(shù)據(jù),按圖11流程篩除極大值數(shù)據(jù)。其中,變量賦初值情況如下:NAl為104.0 μg/g,MAl為1.0 μg/g。
圖11 半鐘形分布數(shù)據(jù)篩除循環(huán)流程
流程結(jié)束時篩除極大值數(shù)據(jù)的界限值為11.0 μg/g。篩除掉極大值數(shù)據(jù)112 個,約占總數(shù)的6.43%。針對篩除極大值數(shù)據(jù)后樣本,計算2 階原點矩平方根為3.5 μg/g,將其作為參數(shù)σ,繪制f(x)、g(x)函數(shù)曲線,鋁元素概率密度擬合曲線如圖12 所示。由圖12 可知,g(x)能較好擬合頻率直方圖,2σ、3σ的計算值為7.0 μg/g和10.5 μg/g,把該值作為預警閾值和報警閾值。
圖12 鋁元素概率密度擬合曲線
圖4 中鈉元素分布具有數(shù)值極大的零散數(shù)據(jù)(最大為3 479.0 μg/g),先采用圖7 流程進行極大值數(shù)據(jù)篩除。其中,變量賦初值情況如下:NNa為3 479.0 μg/g,MNa為1.0 μg/g 。流程結(jié)束時篩除極大值數(shù)據(jù)的界限值為182.0 μg/g。篩除掉的極大值數(shù)據(jù)有102 個,約占原始樣本的5.8%。篩除數(shù)據(jù)后鈉元素頻數(shù)直方圖如圖13 所示,樣本分布不僅與正態(tài)分布相差甚遠,而且具有2 個明顯聚集區(qū)域(分別為0~40.0 μg/g 和70.0~120.0 μg/g)。該樣本屬于不拘分布,無法使用常見分布密度曲線擬合頻率分布直方圖。只能直接采用分位數(shù)法確定閾值。
圖13 篩除數(shù)據(jù)后鈉元素頻數(shù)直方圖
考 慮 到 在 正 態(tài) 分 布 中 區(qū) 間[-∞,μ+ 2σ]、[-∞,μ+ 3σ]對應的概率為97.72%和99.87%,可將圖13樣本中97.72%、99.87%分位數(shù)設為預警閾值和報警閾值,分別對應為139.7 μg/g、182.0 μg/g。
考慮到圖5 樣本高度集中于零值附近,參考圖12 流程進行極大值數(shù)據(jù)篩選。變量賦初值情況如下:NNi為29.0 μg/g,MNi為0.1 μg/g。流程結(jié)束時,確定的極大值數(shù)據(jù)界限值為1.0 μg/g。篩除掉的極大值數(shù)據(jù)160 個,占總數(shù)的9.19%。篩除極大值數(shù)值后,在0~1.0 μg/g區(qū)間內(nèi)以0.1 μg/g為間隔顯示樣本頻數(shù)直方圖,篩除數(shù)據(jù)后鎳元素頻數(shù)直方圖見圖14。
圖14 篩除數(shù)據(jù)后鎳元素頻數(shù)直方圖
該樣本屬于不拘分布,無法使用常見分布密度曲線擬合頻率分布直方圖。只能直接采用分位數(shù)法確定閾值。將97.72%、99.87%分位數(shù)設為預警閾值和報警閾值,對應數(shù)值分別為0.8 μg/g、1.0 μg/g。
各元素閾值見表1。一些從事柴油機油液監(jiān)測的技術人員在統(tǒng)計經(jīng)驗閾值時,不注重考慮樣本分布是否符合正態(tài)分布及零散極大值處理,直接通過Xˉ、S確定閾值T1和T2。這一處理方式過于簡單,所確定數(shù)值與前文所述閾值(見表1 中預警值、報警值)存在較大差異。其中,鎂、鋁、鈉、鎳元素的T1 和T2 值,遠大于前文確定的預警值和報警值;鐵元素T2 值則偏低,明顯小于報警值。表1中,T1為Xˉ+ 2S,T2為Xˉ+ 3S。
表1 各元素閾值 μg/g
閾值是否合理需通過實踐進行分析。一是以故障案例數(shù)據(jù)為基礎的參考分析。例如,我單位監(jiān)測工作中曾發(fā)現(xiàn)潤滑油受海水污染案例,其鈉、鎂元素質(zhì)量分數(shù)分別為240.0 μg/g 和38.1 μg/g,如果用表1 中T1、T2 值作隱患判別,會出現(xiàn)漏報情況。二是關于裝備使用及維護保養(yǎng)情況調(diào)研分析。例如,對鐵元素質(zhì)量分數(shù)位于36.0~50.1 μg/g 之間樣本進行調(diào)研分析,了解相關船舶取樣前后一段時間內(nèi)裝備維護保養(yǎng)情況,并未發(fā)現(xiàn)缸套、氣閥、傳遞齒輪等鐵元素主要來源部位存在異常問題,說明以鐵元素T2 值(36.0 μg/g)作為報警值過于保守。綜合以上分析不難看出,直接通過Xˉ與S確定閾值是不合理的。相比較而言,前文所述方法確定的預警值和報警值更符合實際。
理想的閾值應能對故障隱患及時做出報警,避免故障漏報,并盡可能減少虛報問題發(fā)生。前文確定的預警值和報警值還只能稱為經(jīng)驗閾值,要達到理想閾值標準還有待在后續(xù)監(jiān)測實踐中不斷檢驗和修正。
1)該型柴油機光譜分析數(shù)據(jù)中絕大多數(shù)元素原始樣本并不符合正態(tài)分布,并伴有明顯拖尾現(xiàn)象,直接采用傳統(tǒng)的三線值方法統(tǒng)計經(jīng)驗閾值是不合理的。
2)應根據(jù)樣本分布特點選擇恰當數(shù)據(jù)處理方法統(tǒng)計經(jīng)驗閾值。本文對5種典型分布采用了不同數(shù)據(jù)處理方法,可作為類似問題分析參考。
3)零散極大值數(shù)據(jù)會使統(tǒng)計的經(jīng)驗閾值過大,分析時有必要對極大值數(shù)據(jù)做相應篩除。針對不同分布,本文采用的基于Xˉ+ 3S的篩除循環(huán)流程和半鐘形分布數(shù)據(jù)篩除循環(huán)流程,可獲得理想的數(shù)據(jù)篩選效果。
4)相比傳統(tǒng)方法閾值,本文方法確定經(jīng)驗閾值更為合理,但還需在監(jiān)測實踐中不斷檢驗與修正。