薄 云,廖學(xué)軍,白 宇
(1.航天工程大學(xué)研究生院,北京 101416;2.中國白城兵器試驗(yàn)中心,吉林 白城 137001;3.航天工程大學(xué)航天裝備保障系,北京 102206;4.國防大學(xué)聯(lián)合勤務(wù)學(xué)院,北京 100858)
作為實(shí)戰(zhàn)化導(dǎo)向在武器裝備試驗(yàn)鑒定領(lǐng)域的具體體現(xiàn),作戰(zhàn)試驗(yàn)通過組織典型作戰(zhàn)人員在模擬的作戰(zhàn)行動(dòng)中操控?cái)M訂購的武器裝備,以實(shí)戰(zhàn)的標(biāo)準(zhǔn)考察武器裝備對(duì)于既定任務(wù)的完成程度和適用程度,為管理部門決策是否批量訂購武器裝備提供了最為公正客觀的數(shù)據(jù)參考。已有的理論研究和工程實(shí)踐一般認(rèn)為作戰(zhàn)試驗(yàn)應(yīng)按如下過程組織,即:基于研制總要求和試驗(yàn)鑒定總案構(gòu)建作戰(zhàn)試驗(yàn)的指標(biāo)體系和作戰(zhàn)想定,并據(jù)此設(shè)計(jì)試驗(yàn)科目;通過執(zhí)行這些科目采集數(shù)據(jù);最后通過比對(duì)數(shù)據(jù)處理結(jié)果與指標(biāo)體系中各指標(biāo)的具體要求,以提供是否批量采購該武器裝備的決策參考。簡(jiǎn)言之,該過程的組織邏輯是對(duì)照指標(biāo)要求,考察作戰(zhàn)表現(xiàn)。
然而,武器裝備訂購的初衷往往是為了更新?lián)Q代現(xiàn)役裝備。那么,必須明確的一個(gè)問題是:“相比于現(xiàn)役裝備,擬訂購的武器裝備究竟能在多大程度上提高作戰(zhàn)能力?”而回答該問題最自然的試驗(yàn)邏輯是直接比較兩代裝備在同等條件下的作戰(zhàn)表現(xiàn),也就是比對(duì)試驗(yàn)的試驗(yàn)邏輯。這在制藥、醫(yī)療、工業(yè)、社會(huì)管理等多領(lǐng)域得到了廣泛應(yīng)用。雖然我軍在作戰(zhàn)試驗(yàn)領(lǐng)域還沒有相關(guān)經(jīng)驗(yàn),但是美軍已開展了大量的相關(guān)實(shí)踐,比較有代表性的是Stryker 旅的作戰(zhàn)試驗(yàn)。該試驗(yàn)在相同的作戰(zhàn)條件下比較了Stryker 旅與輕型作戰(zhàn)旅(被稱為基線作戰(zhàn)力量)幾乎所有的考核指標(biāo),以最為直觀的方式鑒定了Stryker 基于增強(qiáng)的移動(dòng)性與態(tài)勢(shì)感知能力而帶來的作戰(zhàn)能力的顯著提升。
鑒于統(tǒng)計(jì)學(xué)對(duì)于試驗(yàn)鑒定工作的基礎(chǔ)性支撐作用,并考慮到定量指標(biāo)考核的相關(guān)方法,如t 檢驗(yàn)、秩和檢驗(yàn)、ANOVA 等在試驗(yàn)鑒定工作中已得到廣泛應(yīng)用,而定性指標(biāo)考核還存在一些有待改進(jìn)的方面,本文剖析了當(dāng)前作戰(zhàn)試驗(yàn)關(guān)于定性指標(biāo)考核的普遍認(rèn)識(shí);討論了基于ridit 統(tǒng)計(jì)方法考核定性指標(biāo)的理論框架,并針對(duì)ridit 與分布無關(guān),雖有利于操作和結(jié)果解釋,但卻不利于估算樣本量的特性,研究了基于蒙特卡洛仿真的樣本量估算方法;最后,通過算例演示了該理論框架和樣本量估算的有效性,從而可為后續(xù)作戰(zhàn)試驗(yàn)的組織實(shí)施提供有益參考。
考慮到作戰(zhàn)試驗(yàn)如何考核定性指標(biāo)的過程實(shí)際反映了試驗(yàn)人員對(duì)于定性指標(biāo)本質(zhì)的認(rèn)識(shí)。而該認(rèn)識(shí)勢(shì)必會(huì)影響到數(shù)據(jù)模型、統(tǒng)計(jì)技術(shù)與評(píng)估方法的選擇。因此,本節(jié)概述當(dāng)前作戰(zhàn)試驗(yàn)考核定性數(shù)據(jù)的普遍做法,并指出可應(yīng)用于比對(duì)試驗(yàn)的可改進(jìn)的方面。
定性指標(biāo)按其性質(zhì)可分為3 類。其一是“是否”類指標(biāo),如“滿意-不滿意”、“適用-不適用”等,它的取值有兩個(gè),彼此之間有對(duì)立的關(guān)系;其二是“定序”類指標(biāo),如“差- 中- 良- 優(yōu)”、“無效- 影響-輕傷-重傷-摧毀”等,它的取值一般有多個(gè),彼此之間有程度的差別;其三是“名義”類指標(biāo),如彈藥類型的“穿甲彈、破甲彈、爆破彈”等,它的取值一般有多個(gè),彼此之間沒有對(duì)立關(guān)系和程度差別。在當(dāng)前作戰(zhàn)試驗(yàn)中,應(yīng)用最廣的是是否定性指標(biāo)和定序定性指標(biāo),簡(jiǎn)稱為“是否指標(biāo)”與“定序指標(biāo)”。其考核的一般做法為:
在數(shù)據(jù)建模方面,主要將第一類定性指標(biāo)轉(zhuǎn)化為第二類指標(biāo),如:把“滿意-不滿意”轉(zhuǎn)化為“滿意度1-滿意度2-…-滿意度5”,其中,“滿意度1”表示“最不滿意”,“滿意度5”表示“最滿意”。然后,統(tǒng)一使用次序類指標(biāo)的數(shù)據(jù)建模方式,通行的做法,是以1~5 或1~7 的自然數(shù)分別代表最低級(jí)別到最高級(jí)別的次序。
在數(shù)據(jù)采集方面,主要是以問卷調(diào)查的方式,問詢作戰(zhàn)試驗(yàn)中操控武器裝備的作戰(zhàn)人員。
在數(shù)據(jù)處理方面,主要是根據(jù)收回的問卷,對(duì)所有問詢的結(jié)果進(jìn)行加權(quán)平均,然后,以加權(quán)平均值作為該定性指標(biāo)的考核結(jié)果。
在結(jié)果推斷方面,主要是直接比對(duì)上述加權(quán)平均值與指標(biāo)的規(guī)定要求。例如:指標(biāo)要求滿意度需大于80%,而問卷調(diào)查結(jié)果的加權(quán)平均值為82%,則認(rèn)為該指標(biāo),即滿意度達(dá)到規(guī)定要求。
可以看出,該作戰(zhàn)試驗(yàn)考核定性指標(biāo)的過程盡可能真實(shí)地反映了作戰(zhàn)人員關(guān)于被試武器裝備的態(tài)度和評(píng)價(jià),所以據(jù)此也能夠比較公正客觀地提出鑒定和采購的決策建議。但從數(shù)據(jù)科學(xué)的角度分析,該考核過程存在一定的改進(jìn)空間。
一是以形如1~5 的連續(xù)自然數(shù)的方式將不同等級(jí)的定性數(shù)據(jù)定量化可能存在過度的人為界定。例如以1~5 分別代表“無效”、“影響”、“輕傷”、“重傷”、“摧毀”等5 個(gè)等級(jí)的打擊效果。那么潛在地就認(rèn)為“影響”到“無效”,“輕傷”到“重傷”的打擊效果的跨度是一樣的,或是“影響”是“無效”的打擊效果的兩倍。其他等級(jí)之間的跨度關(guān)系與倍數(shù)關(guān)系也與此類似。顯然,這種界定往往是與現(xiàn)實(shí)不符的。
二是通過比較加權(quán)平均結(jié)果與指標(biāo)規(guī)定以判定該指標(biāo)是否通過考核的方式存在一定的出錯(cuò)概率,例如,被試武器裝備的某定性指標(biāo)實(shí)際水平低于指標(biāo)規(guī)定,而作戰(zhàn)試驗(yàn)中抽取的作戰(zhàn)人員卻普遍給出了該指標(biāo)比較高的評(píng)價(jià),那么根據(jù)其加權(quán)平均值得出該指標(biāo)應(yīng)通過考核的決策即是錯(cuò)誤的。當(dāng)然,對(duì)于任何決策來說,都存在出錯(cuò)概率,但以加權(quán)平均值判定考核結(jié)果的方式更為嚴(yán)重的問題是,它難以控制出錯(cuò)概率。
三是該考核過程通常只能依據(jù)試驗(yàn)資源的可用水平來估算樣本量。而對(duì)于武器裝備試驗(yàn)鑒定這樣重要的工作來說,顯然結(jié)論的重要性不言而喻,但是該考核過程卻難以回答“為什么要試這么多次”,以及“如果多試××次,結(jié)論的可靠性將提高到××水平”等等這樣的問題。
從數(shù)據(jù)科學(xué)的角度來分析,上述問題主要是當(dāng)前過程未反映出試驗(yàn)的隨機(jī)化本質(zhì),未從概率的角度考核指標(biāo)。一般而言,可以把定性指標(biāo)中的定序指標(biāo)轉(zhuǎn)化為是否指標(biāo),然后都以二分檢驗(yàn)把定序指標(biāo)轉(zhuǎn)化為通過率的問題,可以實(shí)現(xiàn)上述改進(jìn)。但某些定序指標(biāo)非常難以轉(zhuǎn)化為是否指標(biāo),例如:難以根據(jù)客觀標(biāo)準(zhǔn),把打擊效果這個(gè)指標(biāo)從“影響”到“摧毀”的5 個(gè)等級(jí)轉(zhuǎn)化為“有”和“無”兩個(gè)等級(jí)。另外,可以看出,當(dāng)某些定序指標(biāo)轉(zhuǎn)化為是否指標(biāo)之后,失去了更加細(xì)分的一些信息。因此,有必要研究如何為定序指標(biāo)的考核實(shí)現(xiàn)上述改進(jìn)。
Ridit(relative to identified distribution unit)是一種非參數(shù)檢驗(yàn)的分析方法,也即“參照指定分布單位的分析”。它的基本思想是把待考核的定序指標(biāo)看作連續(xù)變量的一種近似,但這個(gè)連續(xù)變量無法直接測(cè)量,所以使用定序指標(biāo)來反映該變量的各個(gè)級(jí)別,即以有序指標(biāo)的各個(gè)級(jí)別對(duì)應(yīng)該連續(xù)變量的各個(gè)區(qū)間。這些區(qū)間的長(zhǎng)度未知,甚至各自的長(zhǎng)度也有所不同,但認(rèn)為其彼此相互銜接,如圖1 所示。
圖1 定序指標(biāo)與對(duì)應(yīng)連續(xù)變量的關(guān)系
正是由于這些區(qū)間的長(zhǎng)度未知,所以當(dāng)前作戰(zhàn)試驗(yàn)使用連續(xù)自然數(shù)對(duì)其量化存在過度認(rèn)為界定的問題。為避免該問題,Ridit 分析很巧妙地定義了一個(gè)ridit 得分的概念,它以參照分布的累計(jì)概率反映定序指標(biāo)背后的連續(xù)變量本質(zhì)。如圖2 所示,假設(shè)定序指標(biāo)的考核已經(jīng)有了一個(gè)參照組,按照順序計(jì)算各個(gè)級(jí)別的經(jīng)驗(yàn)累計(jì)分布(empiricalcumulativedistribution),得到圖2 中的階梯曲線,然后認(rèn)為每一階梯的中點(diǎn)正好對(duì)應(yīng)未知連續(xù)變量在該點(diǎn)累計(jì)概率的值,即圖2 中的階梯曲線與經(jīng)驗(yàn)累計(jì)概率函數(shù)(ecdf)曲線正好在該點(diǎn)相交。該交點(diǎn)值即為ridit 值。以各級(jí)別指標(biāo)在每組數(shù)據(jù)中的出現(xiàn)頻率為權(quán)重,對(duì)ridit 值做加權(quán)平均,即可得到每組數(shù)據(jù)的ridit 均值。然后,利用該均值為基本依據(jù),可作各組數(shù)據(jù)之間比較的假設(shè)檢驗(yàn),從而更進(jìn)一步,避免當(dāng)前定序指標(biāo)考核無法控制決策風(fēng)險(xiǎn)的情況。最后,從控制假設(shè)檢驗(yàn)出錯(cuò)風(fēng)險(xiǎn)的角度出發(fā),可以科學(xué)計(jì)算出試驗(yàn)所需的樣本量,從而避免了上述在當(dāng)前定序指標(biāo)考核中存在的第3 個(gè)問題。
圖2 ridit 值與連續(xù)變量累積分布的關(guān)系
另外,從ridit 均值的推導(dǎo)過程可以看出,任意兩組結(jié)果的ridit 均值做差值并加上0.5 之后,如果結(jié)果為正數(shù)p,則表示前一組結(jié)果以概率p 由于后一組結(jié)果;反之則以概率p 劣于后一組結(jié)果。這就表ridit 分析不僅能夠評(píng)斷不同組結(jié)果的優(yōu)劣,還以概率的形式明確反映了這種優(yōu)劣的程度。這是當(dāng)前定序指標(biāo)考核方法難以做到的。
Step 1:以參照組,也就是基線作戰(zhàn)力量的定序指標(biāo)考核結(jié)果計(jì)算ridit 值。具體計(jì)算過程如下頁表1 所示,即(0)列出基線作戰(zhàn)力量各級(jí)別的頻數(shù);(1)計(jì)算各級(jí)別頻數(shù)的一半;(2)計(jì)算各級(jí)別之前的累積頻數(shù),其中最低級(jí)之前的累積頻數(shù)為0;(3)計(jì)算(1)和(2)列對(duì)應(yīng)值的和;計(jì)算ridit 值,即(3)列對(duì)應(yīng)值除以頻數(shù)總和,即基線作戰(zhàn)力量關(guān)于該指標(biāo)的問卷數(shù)總和。
表1 ridit 值的計(jì)算過程表
Step 2:計(jì)算被試武器裝備的ridit 均值,即:
Step 3:做假設(shè)檢驗(yàn):根據(jù)假設(shè)檢驗(yàn)的一般原理,如果被試武器裝備沒有顯著提升作戰(zhàn)能力,那么被試武器裝備該指標(biāo)的問卷結(jié)果應(yīng)與基線作戰(zhàn)力量的沒有顯著差別,即二者的結(jié)果分布相同。而如果在此前提下,出現(xiàn)被試武器裝備問卷結(jié)果或者更加極端的情況概率極低,那么這種前提條件就非常可疑,故認(rèn)為二者分布有顯著差別,即被試武器裝備在該指標(biāo)方面取得了顯著提升。
參照文獻(xiàn)[18]的論述,可按如下方法對(duì)該指標(biāo)做假設(shè)檢驗(yàn)為:
在0.05 的顯著性水平下,當(dāng)z 大于1.64 即認(rèn)為被試武器裝備在該指標(biāo)方面得到了顯著提升,否則,認(rèn)為被試武器裝備和基線作戰(zhàn)力量在該指標(biāo)方面沒有差別。
從數(shù)據(jù)科學(xué)的角度估算試驗(yàn)的樣本量,主要是從假設(shè)檢驗(yàn)的原假設(shè)和備擇假設(shè)的分布出發(fā),以顯著性水平和統(tǒng)計(jì)功效控制假設(shè)檢驗(yàn)的兩類錯(cuò)誤為目的,從而以解析的方法精確求解試驗(yàn)樣本量。可以看出,ridit 分析雖然有操作方便和結(jié)果解釋性強(qiáng)的特點(diǎn),但它與分布無關(guān),因此,無法利用解析方法精確求解器樣本量,只能使用蒙特卡洛等仿真的手段估算其樣本量。具體可參照如下過程實(shí)施:
Step 1:根據(jù)歷史數(shù)據(jù)或相近武器裝備的數(shù)據(jù),構(gòu)建被試武器裝備與基線作戰(zhàn)力量的經(jīng)驗(yàn)概率分布率,記定序指標(biāo)的級(jí)別數(shù)為k;
Step 2:設(shè)定試驗(yàn)的顯著性水平α、統(tǒng)計(jì)功效(1-β)和仿真的循環(huán)次數(shù)m;
設(shè)待考核指標(biāo)為毀傷效果,其級(jí)別數(shù)為7,根據(jù)基線作戰(zhàn)力量的歷史數(shù)據(jù)和被試武器裝備在研制試驗(yàn)的相關(guān)數(shù)據(jù)如表2 中括號(hào)外數(shù)值所示。
表2 相關(guān)歷史數(shù)據(jù)及其分布律
首先估算試驗(yàn)樣本量:
Step 1:根據(jù)表2 計(jì)算基線作戰(zhàn)力量與被試武器裝備毀傷效果的經(jīng)驗(yàn)分布律,如表2 括號(hào)內(nèi)數(shù)值所示:
Step 2:設(shè)定試驗(yàn)的顯著性水平α=0.05、統(tǒng)計(jì)功效(1-β)=0.80 和仿真的循環(huán)次數(shù)m=500;
Step 3:設(shè)定初始樣本量n=7;
圖3 樣本量計(jì)算過程演示
然后,以n=16 為樣本量,做毀傷效果的比對(duì)試驗(yàn)。假設(shè)得到數(shù)據(jù)結(jié)果如表3 所示。
表3 模擬試驗(yàn)數(shù)據(jù)及ridit 分析結(jié)果表
Step 1:以參照組,也就是基線作戰(zhàn)力量的定序指標(biāo)考核結(jié)果計(jì)算ridit 值,如表3 第2 列括號(hào)內(nèi)數(shù)值所示;
Step 2:計(jì)算被試武器裝備的ridit 均值,其結(jié)果如表3 合計(jì)欄中括號(hào)內(nèi)第1 個(gè)數(shù)值所示;
Step 3:做假設(shè)檢驗(yàn)并作結(jié)果解釋:首先計(jì)算被試武器裝備ridit 均值的標(biāo)準(zhǔn)差,其結(jié)果如表3 合計(jì)欄中括號(hào)內(nèi)第2 個(gè)數(shù)值所示;其次計(jì)算統(tǒng)計(jì)量z的值為3.64,由于z 大于0.05 顯著性水平下的臨界值1.64,故得出結(jié)論“被試武器裝備的毀傷效果指標(biāo)在顯著性水平為0.05 的情況下,顯著優(yōu)于基線作戰(zhàn)力量;由于其ridit 均值為0.869,故被試武器裝備在毀傷效果方面以0.869 的概率優(yōu)于基線作戰(zhàn)力量”。
本文針對(duì)我軍未來可能采用比對(duì)形式開展作戰(zhàn)試驗(yàn)的實(shí)際情況,基于ridit 分析構(gòu)建了作戰(zhàn)試驗(yàn)比對(duì)試驗(yàn)中定序數(shù)據(jù)的考核框架,并給出了該類試驗(yàn)估算樣本量的方法,通過算例演示可以看出:
1)相比較于當(dāng)前定性指標(biāo)考核中存在的人為過度界定的情況,基于ridit 分析的定序指標(biāo)考核框架使用基線作戰(zhàn)力量的累積概率分布作為定序指標(biāo)的各級(jí)別賦值,更加科學(xué)嚴(yán)謹(jǐn);
2)通過算例演示可以看出,基于ridit 分析的定序指標(biāo)考核框架操作并不復(fù)雜,但利用顯著性水平和統(tǒng)計(jì)功效可以很好地控制結(jié)論的出錯(cuò)概率,尤其是依據(jù)ridit 均值可以明確回答被試武器裝備優(yōu)于(或劣于)基線作戰(zhàn)力量的概率水平,這是當(dāng)前定性指標(biāo)考核直接比較加權(quán)平均值與指標(biāo)要求的做法無法比擬的;
3)通過算例演示同樣可以看出,基于蒙特卡洛仿真估算該考核框架的試驗(yàn)樣本量的核心在于構(gòu)建經(jīng)驗(yàn)概率分布率,因此,豐富的驗(yàn)前信息對(duì)于試驗(yàn)的組織是非常重要的,可以想見,驗(yàn)前信息越豐富越準(zhǔn)確,樣本量的計(jì)算會(huì)越準(zhǔn)確,試驗(yàn)的綜合效益也會(huì)越高;
4)本文論述的考核框架針對(duì)的是一對(duì)一的被試武器裝備與基線作戰(zhàn)力量,但稍作調(diào)整,該框架及其樣本量估算方法可以擴(kuò)充為一對(duì)多的被試武器裝備與基線作戰(zhàn)力量的比對(duì)試驗(yàn),因此,可為我軍未來該類型試驗(yàn)起到很好的決策參考;
5)本文討論的是定序指標(biāo)的考核問題,即關(guān)注如何評(píng)判武器裝備單項(xiàng)指標(biāo)的通過情況。當(dāng)前作戰(zhàn)試驗(yàn)在完成各單項(xiàng)指標(biāo)考核之后,通常還需評(píng)估武器裝備的總體或某一方面能力。很顯然,前者是后者的基礎(chǔ),但兩者并不完全等同。前者主要基于統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn),回答指標(biāo)的“通過與否”;后者主要基于決策理論的效能評(píng)估方法,回答能力的“優(yōu)秀程度”。在實(shí)踐中,需加以把握。