狄繼超 張東戈 牛彥杰 禹明剛
(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京210007)
現(xiàn)代軍事決策高度依賴數(shù)據(jù),如果數(shù)據(jù)存在偏差悖論,基于數(shù)據(jù)的決策就會(huì)有系統(tǒng)性偏差。面對(duì)各類數(shù)量龐大、種類繁多的數(shù)據(jù),指揮員與參謀人員習(xí)慣使用匯總后的數(shù)據(jù)來判斷態(tài)勢、做出決策。然而實(shí)踐發(fā)現(xiàn),在“匯總”數(shù)據(jù)時(shí),有時(shí)會(huì)出現(xiàn)數(shù)據(jù)分類匯總與合并匯總所獲得的結(jié)果不一致的現(xiàn)象,這就是辛普森悖論(Simpson's Paradox)。
1951 年Simpson E 發(fā)現(xiàn)了這種統(tǒng)計(jì)不一致的現(xiàn)象。這一現(xiàn)象具有普遍性,引發(fā)了不同領(lǐng)域?qū)W者對(duì)這一問題的研究興趣。Bickel 等研究了研究生招生中有關(guān)性別偏見的辛普森悖論問題[1];王艷軍等研究了軟件質(zhì)量評(píng)估中的辛普森悖論現(xiàn)象[2];Norton 等以實(shí)例解釋了為什么會(huì)發(fā)生辛普森悖論并提出了避免措施[3];Alipourfard 等討論了在二進(jìn)制因變量數(shù)據(jù)集中識(shí)別辛普森悖論的方法[4];Vilenchik 對(duì)社交媒體數(shù)據(jù)中存在的辛普森悖論進(jìn)行了研究,并設(shè)計(jì)了一個(gè)統(tǒng)計(jì)框架去發(fā)現(xiàn)其中存在的問題[5]。在軍事領(lǐng)域目前缺乏對(duì)辛普森悖論的相關(guān)公開研究文獻(xiàn)。
隨著我軍現(xiàn)代化進(jìn)程的持續(xù)推進(jìn),基于數(shù)據(jù)的各類軍事量化評(píng)估、決策越來越普遍,如何發(fā)現(xiàn)和處理辛普森悖論,也日益成為提升軍事評(píng)估、軍事決策可靠性和有效性的一個(gè)突出現(xiàn)實(shí)問題。
圖1 用兩型坦克打擊目標(biāo)的統(tǒng)計(jì)圖來說明辛普森悖論產(chǎn)生的原因。橫坐標(biāo)表示上級(jí)安排的打擊目標(biāo)數(shù),縱坐標(biāo)表示命中數(shù),每個(gè)點(diǎn)對(duì)應(yīng)的向量的斜率就是命中率。兩種坦克分別對(duì)一類目標(biāo)和二類目標(biāo)進(jìn)行打擊,如果對(duì)一類目標(biāo)的命中率記為k1,對(duì)二類目標(biāo)的命中率記為k2,總體的命中率記為k。,則有如下計(jì)算公式。
圖1 辛普森悖論原因示意圖
對(duì)于A 型坦克:
對(duì)于B 型坦克:
命中率比較:
由式(3)可以發(fā)現(xiàn),對(duì)于一類目標(biāo)和二類目標(biāo),A 型坦克命中率均低于B 型坦克;但計(jì)算總命中率時(shí),卻發(fā)現(xiàn)A 型坦克命中率高于B 型坦克。這種統(tǒng)計(jì)方法只簡單地做數(shù)量上的加法,對(duì)不同目標(biāo)類型不加以區(qū)分,忽略了命中不同類型目標(biāo)的難度差異,就容易造成辛普森悖論。
由此可知,就軍事評(píng)估和決策問題來說,引發(fā)辛普森悖論的因素是存在易被忽略的混雜變量,也就是數(shù)據(jù)在獲取時(shí),存在隱形的獲取差異,導(dǎo)致不同條件下分組所包含的“難度權(quán)重” 信息丟失,最終得到錯(cuò)誤的結(jié)論。
根據(jù)辛普森悖論產(chǎn)生的原理,可以通過檢測變量在“匯總數(shù)據(jù)”中和“分組數(shù)據(jù)”中的趨勢變化是否一致來判斷是否存在悖論。
趨勢對(duì)比檢測法(Trend Contrast Detection,TCD)具體可以分為三步。①在混雜變量上將數(shù)據(jù)分解成同質(zhì)性更好的子組。②采用線性擬合刻畫自變量和因變量之間的相關(guān)變化趨勢。③通過對(duì)比匯總數(shù)據(jù)中的趨勢與子組數(shù)據(jù)中的趨勢是否一致來判斷悖論是否存在。
數(shù)據(jù)分組面臨的最重要的問題是分組之間的界限確定。對(duì)于定性性質(zhì)的數(shù)列,例如坦克命中率對(duì)比評(píng)估,組限的確定比較簡單,只需要將打擊目標(biāo)按照難易進(jìn)行分組。在復(fù)雜戰(zhàn)場環(huán)境下,組限的確定可能會(huì)比較復(fù)雜,如射擊若按能見度、機(jī)動(dòng)速度等設(shè)界,就會(huì)沒有明確的組限分割標(biāo)準(zhǔn),此時(shí)就需要通過分析數(shù)組中數(shù)據(jù)的值來確定分組。
3.1.1 確定分組目標(biāo)
假如評(píng)估目標(biāo)是統(tǒng)計(jì)分析因變量y隨自變量x變化的變化趨勢。采集數(shù)據(jù)樣本總量為n組,x的數(shù)值集合X ={x1,x2,…,xn},y的數(shù)值集合Y ={y1,y2,…,yn}。數(shù)據(jù)統(tǒng)計(jì)中存在著混雜變量xc的干擾,xc的數(shù)值集合為XC ={xc1,xc2,…,xcn},混雜變量xc的值域[min(xc),max(xc)]。
根據(jù)混雜變量分區(qū),分組內(nèi)容見表1。分割混雜變量值域?qū)?shù)據(jù)共分成m個(gè)子組,每組依次表示為b1,b2,…,bm。在分組中p為劃分后的混雜變量的分區(qū),它是一個(gè)混雜變量的值域空間,依次表示為p1,p2,…,pm。設(shè)sh(h =1,2,…,m -1)為各分區(qū)之間的組界,sh∈XC。ni(i =1,2,…,m)為第i個(gè)子組中的數(shù)據(jù)樣本量,xcij,xij和yij分別為第i個(gè)子組中第j(j =1,2,…,ni)個(gè)混雜變量、自變量和因變量的數(shù)值。
表1 根據(jù)混雜變量分組后的數(shù)據(jù)統(tǒng)計(jì)表
分組時(shí)需要考慮兩個(gè)方面的平衡:第一,每個(gè)子組都應(yīng)該具有盡可能好的“同質(zhì)性”,即各子組中的數(shù)據(jù)彼此之間比其他子組中的數(shù)據(jù)更“相似”。第二,有數(shù)量適當(dāng)?shù)臄?shù)據(jù)點(diǎn),數(shù)量過少的子組會(huì)缺乏顯著性,而數(shù)量過多的子組對(duì)于穩(wěn)健趨勢判斷來說可能太不均勻。分組的目標(biāo)是期望“組內(nèi)差異最小化,各組之間差異最大化”,最大限度地在子組內(nèi)剔除混雜變量的干擾。
3.1.2 差異分組
采用差異分組法對(duì)匯總數(shù)據(jù)進(jìn)行分組,通過在混雜變量上尋找最佳分割點(diǎn)s,將匯總數(shù)據(jù)分割成兩個(gè)滿足組間差異最大化、組內(nèi)差異最小化要求的分區(qū),通過遞次迭代的方法,進(jìn)一步尋找兩個(gè)分區(qū)的最佳分割點(diǎn)對(duì)分區(qū)進(jìn)行分組,逐步將原來的匯總數(shù)據(jù)分割成滿足需要的子組集合。
衡量差異需要區(qū)分“組間差異” 和“組內(nèi)差異”,此時(shí)可以引入總偏差平方和TSS(Total Sum of Square)來描述因變量y的差異變化,其計(jì)算公式為:
式(4)中,yi是因變量y的第i個(gè)數(shù)據(jù)值,是所有因變量y數(shù)據(jù)值的平均值。
對(duì)于混雜變量xc,可以通過拆分總平方和來量化因變量y的差異變化,總平方和=組間平方和+組內(nèi)平方和。即:
式(5)中,b是匯總數(shù)據(jù)根據(jù)混雜變量分解后的子組,nb是子組b中的數(shù)據(jù)點(diǎn)數(shù)量,ybi是子組b中的第i個(gè)數(shù)據(jù)點(diǎn),是該子組中數(shù)據(jù)值的平均值。
為了衡量組間數(shù)據(jù)差異性大小,可以定義一個(gè)組間差異系數(shù)R。組間差異系數(shù)R是分組平方和與總平方和的比例,R的大小反映了組間數(shù)據(jù)差異性的大小。
對(duì)于混雜變量xc,R取值在0~1 之間,R越大表示組間差異越大,同時(shí)組內(nèi)差異越小。
對(duì)于表2 所示的匯總數(shù)據(jù),混雜變量xc的域可以由其中某個(gè)值s分成兩個(gè)分區(qū)p1和p2:[min(xc),s] 和(s,max(xc)],同時(shí)對(duì)應(yīng)的匯總數(shù)據(jù)可以分成子組b1和b2,其組間差異系數(shù)為:
簡化可得:
式(7)中,nb1是子組b1中數(shù)據(jù)點(diǎn)的數(shù)量,nb2是子組b2中數(shù)據(jù)點(diǎn)的數(shù)量。由此,在s的所有可能值中,可以選擇最大化R的值s0作為混雜變量域的最佳分割點(diǎn)。對(duì)于分組后的子組b1,b2,采用同樣的分解方法,進(jìn)一步選擇最佳分割點(diǎn)s1,s2來迭代分解數(shù)據(jù)。通過這種迭代,分割混雜變量的值域,形成m個(gè)子組。理論上這個(gè)過程可以持續(xù)進(jìn)行下去,直到混雜變量被分割成由單個(gè)點(diǎn)組成的子組。
3.1.3 避免過度分割
為了防止過度分割,可以進(jìn)行某種約束,例如,設(shè)定子組中數(shù)據(jù)點(diǎn)一旦小于某個(gè)設(shè)定值w就不再進(jìn)行分割。為方便數(shù)據(jù)統(tǒng)計(jì)與計(jì)算,可設(shè)定:
若數(shù)據(jù)總量n≥1000 時(shí),;否則w=10。
為對(duì)比數(shù)據(jù)在匯總中和分組中的趨勢,采用線性模型來量化x與y之間的關(guān)系。線性模型計(jì)算上較為簡單,在數(shù)據(jù)量不大的情況下,工程上誤差可以接受。最小二乘法基本的線性回歸方法如下。
將自變量x與因變量y的數(shù)值對(duì)應(yīng)的n個(gè)點(diǎn)記作(xi,yi),i =1,2,…,n,待確定的直線方程記作y =α+βx,誤差記作E。由此:
根據(jù)擬合出的直線的斜率β的正負(fù)值,判斷因變量y隨自變量x是遞增趨勢或遞減趨勢。為便于對(duì)比,我們采用符號(hào)函數(shù)sgn 來量化β的正負(fù)值,即β =0 時(shí),sgn(β)=0;β >0 時(shí),sgn(β)=1;β <0 時(shí),sgn(β)=-1。
趨勢對(duì)比就是將各子組中的變量變化趨勢分別與匯總情況下趨勢進(jìn)行對(duì)比。將sgn(β1),sgn(β2),…,sgn(βt)分別與sgn(β)進(jìn)行比對(duì),不同子組的個(gè)數(shù)記為v,若v≥m/2,則視為子組內(nèi)趨勢與匯總時(shí)趨勢不同,判斷其為存在悖論。
趨勢對(duì)比檢測法(TCD)算法流程示意圖如圖2 所示,步驟如下。
圖2 趨勢對(duì)比檢測法算法流程示意圖
步驟1:輸入數(shù)據(jù),n個(gè)數(shù)組,包含混雜變量xc、自變量x和因變量y。
步驟2:在混雜變量上通過差異分組法進(jìn)行數(shù)據(jù)分組。將匯總數(shù)據(jù)共分成m個(gè)子組。
步驟3:基于最小二乘法擬合匯總數(shù)據(jù)中因變量y隨自變量x變化的相關(guān)趨勢,得出斜率β,進(jìn)而得出sgn(β)。
步驟4:基于最小二乘法擬合各子組中y與x的關(guān)系,得出斜率β1,β2,…,βm的值,求出sgn(β1),sgn(β2),…,sgn(βm)。
步驟5:進(jìn)行趨勢對(duì)比,判斷是否存在悖論。
分析部隊(duì)兵齡層次與實(shí)彈射擊成績之間的關(guān)系。將兵齡由短到長分為1~3 檔,射擊環(huán)境能見度由低到高賦值0~4,射擊成績滿分為100 分,數(shù)據(jù)見表2。簡單統(tǒng)計(jì)似乎新兵比老兵成績好。然而由于數(shù)據(jù)采集時(shí)環(huán)境能見度不同,需要檢測能見度是否對(duì)分析結(jié)果造成影響。
表2 不同兵齡層次射擊成績統(tǒng)計(jì)表
續(xù)表2
步驟1:輸入數(shù)據(jù),n =30,兵齡層次數(shù)值即為自變量x,射擊成績即為因變量y,能見度為混雜變量xc。
步驟2:通過劃分能見度的區(qū)間來分解數(shù)據(jù)。運(yùn)用差異分組法將混雜變量的域分成4 個(gè)分區(qū),pxc1=[0.2,0.9],pxc2=(0.9,1.6],pxc3=(1.6,2.7],pxc4=(2.7,4],然后將匯總數(shù)據(jù)按照混雜變量分區(qū)分成4 個(gè)子組。
步驟3:擬合匯總數(shù)據(jù)中射擊成績隨兵齡變化趨勢?;谧钚《朔〝M合得到線性方程為:y =-3.45x +84.233,其中β =-3.45<0,sgn(β)= -1。
如圖3 所示,匯總數(shù)據(jù)中射擊成績隨兵齡增長而降低,呈遞減趨勢。
圖3 匯總數(shù)據(jù)中兵齡層次與射擊成績關(guān)系示意圖
步驟4:在各子組中線性擬合x與y的關(guān)系,得到方程如下。
子組1:xc∈[0.2,0.9]時(shí),線性方程為y1=4.5x1+45.5,其中β1>0,sgn(β1)=1;
子組2:xc∈(0.9,1.6]時(shí),線性方程為y2=11.375x2+44,其中β2>0,sgn(β2)=1;
子組3:xc∈(1.6,2.7]時(shí),線性方程為y3=4.357x3+75.357,其中β3>0,sgn(β3)=1;
子組4:x c∈(2.7,4]時(shí),線性方程為y4=1.153x4+90.75,其中β4>0,sgn(β4)=1。
各子組趨勢圖如圖4 所示。
圖4 不同子組中兵齡層次與射擊成績關(guān)系示意圖
步驟5:對(duì)比圖4 中不同子組所擬合出的直線和圖3 中匯總數(shù)據(jù)所擬合出的直線的變化趨勢,即將sgn(β1),sgn(β2),sgn(β3),sgn(β4)分別與sgn(β)進(jìn)行對(duì)比,發(fā)現(xiàn)在匯總數(shù)據(jù)中,因變量y隨自變量x增加呈遞減趨勢,而在各子組數(shù)據(jù)中均呈遞增趨勢。由此表明,匯總數(shù)據(jù)的自變量和因變量的變化趨勢在子組中均被逆轉(zhuǎn),這表明混雜變量能見度對(duì)研究兵齡層次與射擊成績相關(guān)性時(shí)存在干擾,判定此數(shù)據(jù)統(tǒng)計(jì)分析存在辛普森悖論。在這一組數(shù)據(jù)中,如果采用不同的統(tǒng)計(jì)方式分析數(shù)據(jù),就會(huì)出現(xiàn)不一致的結(jié)論。
隨著基于數(shù)據(jù)的研究和決策日益增多,軍事領(lǐng)域評(píng)估對(duì)象日趨復(fù)雜,多指標(biāo)綜合評(píng)估時(shí)容易忽略隱形混雜變量,為避免出現(xiàn)辛普森悖論,提出三點(diǎn)建議。
在軍事評(píng)估數(shù)據(jù)采集時(shí),需要選擇熟悉業(yè)務(wù)的人員參與,以專業(yè)的眼光確定評(píng)估對(duì)象需要的樣本數(shù)量和環(huán)境的多樣性。面對(duì)不同的對(duì)象、不同的應(yīng)用背景,會(huì)有不同的側(cè)重,這就需要充分考慮所處的背景環(huán)境。在原始數(shù)據(jù)采集中,環(huán)境變量的類別要記錄得足夠充分,確保環(huán)境類別的覆蓋面充分。
在定量分析階段,需要時(shí)刻考慮每一個(gè)因素的權(quán)重,考慮各因素隨環(huán)境條件變化而受到的不同影響,不應(yīng)該簡單地?cái)?shù)量相加。在多指標(biāo)評(píng)價(jià)體系中,由于各評(píng)價(jià)指標(biāo)的性質(zhì)不同,通常具有不同的量綱和數(shù)量級(jí)。當(dāng)各指標(biāo)間的影響水平相差很大時(shí),如果直接用原始指標(biāo)值進(jìn)行分析,就會(huì)突出數(shù)值較高的指標(biāo)在綜合分析中的作用,相對(duì)削弱數(shù)值水平較低指標(biāo)的作用,導(dǎo)致辛普森悖論的出現(xiàn)。因此,為了保證結(jié)果的可靠性,要盡可能地對(duì)原始指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以均衡各指標(biāo)變量對(duì)最終結(jié)果的影響。
在分層級(jí)的評(píng)估中,混雜變量的影響可能會(huì)由下層向上層傳導(dǎo)。例如一項(xiàng)選拔由體檢和后續(xù)考核組成,如果體檢采取一票否決制,先檢查身高再檢查視力,和先檢查視力再檢查身高相比,所篩選出的對(duì)象可能會(huì)不同。在第一輪考核合格的基礎(chǔ)上進(jìn)行下一輪考核,其數(shù)據(jù)就不能有效反映第一輪體檢中混雜變量的影響。在樣本差異較大的情況下,這一問題會(huì)非常突出。因此在對(duì)數(shù)據(jù)進(jìn)行綜合分析評(píng)判時(shí),特別需要考慮評(píng)價(jià)程序?qū)Y(jié)果的影響。
本文通過對(duì)數(shù)據(jù)統(tǒng)計(jì)中的辛普森悖論的分析,提出了趨勢對(duì)比檢測法,用于檢測數(shù)據(jù)中的混雜變量導(dǎo)致的結(jié)論偏差。文中提出的趨勢對(duì)比檢測法適用于單個(gè)混雜變量,尚不能檢測多個(gè)混雜變量,多混雜變量影響檢測是下一步要研究的問題。