黃菲菲+張敏強
摘要社會網絡分析是對社會關系進行量化分析的技術。社會網絡分析應用中常遇到缺失數據,缺失數據處理不當會影響測量誤差、降低統計功效,甚至扭曲研究結果。在闡述社會網絡分析中缺失數據的原因和缺失機制的基礎上,梳理了社會網絡分析的四種缺失數據處理方法的原理,分析比較了四種方法在實際應用中的優(yōu)缺點。社會網絡分析方法在心理學中的研究應用應在考慮缺失概率和缺失機制的前提下,恰當選擇缺失數據的處理方法。
關鍵詞社會網絡分析; 缺失數據; 缺失數據處理方法
分類號B841.2
DOI:10.16842/j.cnki.issn2095-5588.2016.08.0021引言
“社會網絡分析” (Social Network Analysis, SNA)是在人類學、社會學、心理學等眾多領域中發(fā)展起來的研究個體之間關系結構的分析方法,是對社會關系進行量化分析的一門藝術和技術。SNA主要用于描述和測量個體之間的關系以及這些關系中所包含的資源、信息等,并根據這些關系建立模型,進而研究關系與行為之間的相互影響(劉軍, 2004)。SNA從“關系”角度來揭示社會情境與嵌套于其中的個體的心理和行為的互動影響,即個體可以能動地構造他們的關系網絡(選擇效應,selection effect),同時這些關系又反過來影響個體的心理與行為(影響效應,influence effect)。因此,個體既形塑社會網絡,也被社會網絡形塑(劉軍, 2006; 馬紹奇, 2012; 馬紹奇, 焦璨, 張敏強, 2011 )。在SNA中,反映個體之間關系的數據稱為關系數據(relational data),通常的數據類型是0、1二分變量數據,即1表示兩個行動者之間存在關系,0表示不存在關系(馬紹奇, 2012)。
SNA從嵌入社會情境的個體之間的關系出發(fā),分析群體結構及其與心理行為的相互作用,更能反映人際交往的社會性特點。如,運用SNA方法系統研究中學生班級的學習關系、友誼關系、咨詢關系、信息交流關系等,運用SNA方法研究中學生的支持網絡對中學生學業(yè)和心理健康等方面的影響。這不僅有利于從社會關系的視角理解學生人際關系的形成、特征和影響因素,還能及時掌握學生的心理動態(tài),維護學生的心理健康(唐文清等, 2014)。但是,由于SNA的應用涉及到更多的人事物,數據的缺失是必然現象。研究者在SNA中常常會遇到數據應答率在65%至90%的情況(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于數據結構的依賴性,如果網絡中的行動者或者關系存在缺失,就難以全面地描述缺失行動者及其鄰近行動者的網絡環(huán)境(Robins, Pattison, & Woolcock, 2004)。已有研究發(fā)現,缺失數據不僅對網絡結構描述產生消極影響,還會低估關系強弱和聚類系數,并使得中心性和度數的測量出現不穩(wěn)定的情況(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。這說明,網絡結構描述和網絡數據分析的結果會因為缺失數據而產生偏差。
心理技術與應用4卷
8期黃菲菲張敏強: 社會網絡分析中缺失數據的處理方法
要使SNA方法得到更好的應用及認可,既要介紹理論及應用方法,同時還要解決方法使用中可能出現的各種問題。例如,在數據收集和研究結論的推廣方面,如何在實際的應用分析中,完善相關的統計模型和參數估計方法的發(fā)展,如何提高數據收集的信效度,如何處理缺失值等問題(馬紹奇, 焦璨, 張敏強, 2011; 焦璨, 吳換杰, 黃玥娜, 黃菲菲, 張敏強, 2014)。由于社會網絡數據的相互依賴性,對缺失數據的處理不能采用常規(guī)的缺失處理方法。本文就SNA中缺失數據的原因及缺失機制,比較分析了常用的四種缺失數據處理方法在實際應用中的優(yōu)缺點,并就SNA中如何處理缺失數據提出建議。
2缺失數據的原因
21邊界規(guī)范問題
邊界規(guī)范問題指的是在網絡研究中指定行動者或者關系之間包含的規(guī)則(Laumann, Marsden, & Prensky, 1983)。例如,學者在研究青少年的冒險行為過程中,想了解他們在學校里的人際關系情況。圖1中的A、B、C、D是四位青少年在學校里的人際關系網絡,E、F、G三位青少年雖然和A、B、C、D四位青少年的交往密切,但是學校外的人際關系與研究目的無關,因此,E、F、G三者和研究中的青少年的人際關系就容易被忽視(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。總體而言,邊界規(guī)范是由研究者自行決定的。在實際包含網絡的例子中,組織成員或者由位置界定的正式定義大部分取決于一個正式組織團隊中成員占據的排列位置,例如一個學校最受歡迎的前10名老師或者一個班級成績最好的前五名同學(Kossinets, 2006)。
社會網絡是由行動者及行動者之間的關系組成的,因此研究者在規(guī)范網絡邊界時,除了需要考慮通過一組行動者來界定網絡邊界外,還要決定哪些關系應該納入研究范圍里。對于如何有效地規(guī)范網絡邊界,學者們提出了一個準則,即根據可測量行動者的交互作用確定。因此,研究中的網絡邊界被定義為該邊界記錄了在特定情境中行動者間的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,無論是情景還是交互作用的設置,研究者首先需要根據研究目的給出操作性定義,然后再確定在這個情境中包含哪些存在交互作用的行動者。隨著電子科技時代的發(fā)展與進步,這個準則不再僅限于小網絡,因為大規(guī)模的社會網絡交互作用數據可以通過郵件傳遞或者虛擬社區(qū)的記錄得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。
22固定選擇的研究設計
固定選擇的研究設計指的是網絡中行動者和關系的缺失依賴于研究設計中提名選擇的限定(Holland & Leinhard, 1973),即網絡數據的偏差是由于研究設計造成的。假設圖2中的行動者A屬于Z團體,在這個團體中,他和其他5個行動者有關系,現研究者要求行動者A提名y個和他關系最好的行動者。如果y≤5,則行動者A和其他5個行動者之間的所有關系都包含在數據集中;如果y>5,則行動者會失去5-y個關系。例如,學者想研究班級的學業(yè)咨詢網絡對學生學業(yè)拖延的影響,要求學生提名2個在學習上遇到困難或疑問時會請教的同學。如果學生平時向同學請教問題的人數普遍都是3個,那么學者得到的學業(yè)咨詢網絡數據是有偏差的。因為在該網絡中,大部分行動者(學生)都失去了1個關系。
在固定選擇的研究設計中,會出現互惠提名(有關系的雙方相互提名),非互惠提名(有關系的雙方只有一方提名)和無提名(有關系的雙方均不提名)三種情況。從本質上而言,非互惠提名和其他兩種提名的情況不一樣(例如:好朋友和普通朋友的區(qū)別),因此,研究者需要考慮是否將其納入到研究范圍內。固定選擇的研究設計還容易使數據呈現非隨機缺失的模式,如受歡迎的個體更有可能被其他行動者提名(Feld, 1991)。但是,在不同結構的網絡中,這種影響會不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相稱混合性(即受歡迎的行動者傾向于和不受歡迎的行動者相聯系)的網絡中,互惠提名將會導致更多關系缺失的情況出現。
23網絡調查中的無應答
網絡調查中的無應答包括應答者完全缺失和特定項目的數據缺失(Stork & Richands, 1992; Rumsey, 1993)。應答者完全缺失指的是行動者沒有參與到調查研究中,因此行動者的發(fā)出關系對于分析而言是無效的(如圖3所示,N表示缺失數據)。特殊項目的數據缺失指的是行動者參與了調查研究,但是在特定項目上的數據缺失,因此只有行動者的部分關系對于分析而言是無效的(如圖4所示,N表示缺失數據)。例如,在一個關于學生情感咨詢網絡對學業(yè)成績影響的調查中,要求學生提名3個班上的好朋友。圖3中的A和D兩位學生因事由請假沒有參與此次研究,但圖3應答者完全缺失是其余的學生在提名中提及到了A和D,所以A和D的無應答屬于應答者完全缺失。如果A和D參與了調查研究(如圖4),但是在提名中他們忽略了被提及的學生,即B提名了A,A沒有提名B,則A和D的無應答屬于特殊項目的數據缺失。對于1-模網絡而言,即由一個行動者集合內部各個行動者之間的關系構成的網絡(劉軍, 2009),無應答對網絡結構及統計指標的影響不大,但是對于存在多元交互作用情景的網絡(例如,二元網絡)而言,無應答可能會造成特定的影響(Robins, Pattison, & Woolcock, 2004)。例如,在一個隸屬網絡的調查研究中,假設研究者沒有其他途徑可以了解團隊的任何信息,只能要求行動者報告他們隸屬于哪個團隊。如果任何一個行動者出現無應答的情況,那么可能會出現這個無應答行動者所隸屬的團隊缺失的情況。Huisman(2009)通過模擬研究發(fā)現,忽視網絡調查中的無應答數據對社會網絡的描述分析會造成消極的影響。進一步比較分析行動者無應答和特殊項目無應答的結果發(fā)現,特殊項目的無應答可能會造成更大的統計偏差。
網絡調查中的無應答易導致行動者或者關系的缺失,但是網絡環(huán)境中除無應答行動者以外的不完整觀察行動者的部分信息仍然是有用的,如可利用這個信息來估計缺失狀態(tài)的效果和分析不完整網絡(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整觀察行動者的部分信息還可用來估計行動者和網絡的結構性能,并能給缺失數據機制提供參考。
和前兩種缺失數據原因相比,無應答是社會網絡調查中最經常出現的缺失情況。因此,有不少學者開始關注社會網絡調查中無應答的缺失問題(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。
3缺失機制
不同的缺失數據來源,還涉及一個重要的問題,數據是否系統缺失。如果數據是系統缺失,那么缺失概率是否和觀察變量(性質或屬性)有關。已有研究表明,在社會網絡中處理不同來源的缺失數據時,應考慮缺失機制以提高處理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。
缺失機制指的是數據的缺失概率和研究變量之間的關系(Schafer & Graham, 2002)。Rubin在1976年根據缺失引起的偏差程度定義了三種類型的缺失數據:完全隨機缺失(Missing Complete At Random, MCAR),隨機缺失(Missing At Random, MAR)和非隨機缺失(Missing Not At Random, MNAR)。假設所有變量觀測值Y中,完整的變量記為Yobs,缺失的變量記為Ymis。如果缺失概率和Yobs及Ymis相互獨立無關,此類缺失稱為MCAR。如果缺失概率和Yobs相關,和Ymis獨立無關,則為MAR。MNAR是指缺失概率依賴于Yobs和Ymis。因為Ymis的未知性,研究者常常難以判斷缺失數據屬于哪種類型的缺失機制。葉素靜,唐文清,張敏強和曹魏聰(2014)在對追蹤研究中缺失數據處理方法及應用現狀的分析中綜述了三種類型缺失機制的粗略判斷方法。
對于社會網絡數據而言,完全隨機缺失是指缺失概率和缺失關系的數值及觀察數據(例如,行動者的屬性)無關。在這種情況下,觀察數據是原始觀察值的一個隨機樣本,因此不存在系統偏差。隨機缺失是指缺失概率和觀察數據有關,但是和缺失關系的數值無關。盡管在這種情況下缺失數據會呈現出系統模式,但是這些模式是可控的,因為它們和樣本中的觀察數據有關。非隨機缺失是指缺失概率不僅和觀察數據有關,還和缺失關系的數值有關,這種類型的缺失數據會對統計分析的偏差程度造成很大的影響。因為在非隨機缺失的情況下,應答者和無應答者之間的差異是由系統誤差造成的,關于網絡結構性質的統計指標將會受到影響(Costenbader & Valente, 2003)。
4缺失數據處理方法
41完整個案法
完整個案法,即刪除部分已有的數據以保證所研究對象信息的完整性。完整個案法相當于行動者的列刪除法,它不僅移除不完整觀察行動者的列數據且一并移除該行動者的行數據,而移除行意味著在分析中移除不完整觀察行動者和完整觀察行動者之間的所有關系(Huisman & Steglich, 2008)。因此,使用完整個案法后用于分析的數據集是完整的,即每一個行動者既有接收的關系也有發(fā)出的關系。例如,圖5(a)是一個班級情感關系網絡的例子,其中有A、D、F三個無應答行動者,每一個無應答者都沒有指向外部的情感關系,在觀察網絡的矩陣表達式中就會有幾行缺失關系數據N,對數據進行完整個案法處理后,結果就會出現如圖5(b)呈現的小網絡。因此,完整個案法是在可完全觀察行動者的小網絡基礎上進行分析處理的。nidaricˇ, Ferligoj和Doreian(2012)用完整個案法等多種缺失數據處理方法對社會網絡區(qū)組模型中的無應答情況進行分析,結果發(fā)現,在小規(guī)模網絡中,完整個案法對區(qū)組模型結構的穩(wěn)定性影響最小。Robins, Pattison和Woolcock(2004)的研究結果則表明,完整個案法重新定義了網絡邊界:移除無應答行動者之后相當于生成了一個更小的網絡。
完整個案法是一種加權方法,它丟棄了不完整個案的數據,對完整個案和缺失個案賦予了同樣的權重。在分析的統計軟件包里,完整個案法通常是默認處理缺失數據的方法。它最大的一個優(yōu)點就是簡便,缺點則是因為忽視不完整個案而丟失了大部分信息,很可能出現模型和數據無法擬合的情況。因此,只能在缺失概率較小的網絡中使用完整個案法。Schafer和Graham(2002)認為,當無應答者是完全隨機缺失時,完整個案法可能是有效的。然而,如果這個前提假設不成立,統計分析結果就會有偏差,因為剩余的行動者樣本可能是不具有代表性的。也有學者認為,完全個案法從系統水平而言,嚴重損害了所有分析(Stork & Richards, 1992),且可能會暗中破壞社會網絡模型的假設(Snijders, Bunt, & Steglich, 2010)。
42有效個案法
有效個案法是指忽略缺失的數據,只使用觀測到的關系變量。有效個案法是直接對不完整數據進行分析,即根據SNA需要計算的統計值選擇行動者的有效數據。例如,在一元統計分析中,在計算網絡的平均數和標準差時,可以選擇所有變量都完整觀察的個體行動者的有效數據,而在計算網絡的協方差或者相關系數時,則需要選擇所有變量都完整觀察的配對行動者的有效數據。
Littile和Rubin(1989)在探討社會科學領域關于缺失數據處理的分析方法時,比較了完整個案法和有效個案法對網絡的均值、方差、協方差及相關系數四個統計量的參數估計影響及二者的差異。研究結果表明,和完整個案法相比,使用有效個案法后,網絡的均值參數估計值是無偏的。但是,其余三個統計量的參數估計值的偏差較大。隨后,Little和Su(1989)進一步對兩種方法的差異進行了詳細的討論,也得出了相同的結果。
有效個案法簡單易行,和完整個案法相比,它的參數估計值較為精準。但是有效個案法具有較低的統計功效,且和沒有缺失數據的網絡參數估計值相比,存在很大的偏差。因此,研究者較少使用有效個案法對社會網絡中的缺失數據進行處理。
43重建法
重建法指的是通過互惠關系來推斷缺失連接的存在與否。重建法和插補法不一樣,重建法在分析的過程中沒有增加新的關系,它只是通過觀察到的應答者的入度關系(即行動者接收的關系)來重建網絡中無應答者的出度關系(即行動者發(fā)出的關系)。從本質上而言,即用已經報告的一個關系進行測量,且重建法僅允許兩個人之間的關系。重建之后的網絡中應答者和無應答者之間的關系是對稱的。使用重建法對SNA中的缺失數據進行處理時,必須滿足兩個原則: (1)相似性,即應答行動者與無應答行動者之間的作答模式應具有相似性。因為重建法是通過應答行動者所描述的關系去構建無應答行動者的關系,所以兩個行動者之間的應答模式不能存在系統的偏差;(2)可靠性,即應答行動者所描述的和無應答行動者之間的關系要確認是有效、可靠的(Stork & Richards, 1992)。自重建法提出以來,不少學者將其作為社會網絡缺失數據常用的處理方法。Gabbay和Zuckerman(1998)在有向網絡中,通過應答行動者報告的和無應答行動者之間的關系重建了網絡中行動者之間的關系。Huisman和Steglich(2008)則用重建法研究了網絡面板數據中的無應答缺失數據情況,結果表明重建法在構建完整的網絡數據時幾乎不會出現不收斂的問題。
一般而言,針對不同類型的網絡,重建法的程序如下所示:
(1)在無向網絡中,通過觀察到的應答者之間的關系以及部分應答者和無應答者之間的關系對網絡進行重構(Stork & Richards, 1992)。
(2)在有向網絡中,通過對立關系來推斷缺失關系。例如,對于應答行動者i和無應答行動者j,重建法假設行動者i描述的和行動者j之間的所有關系和行動者j所描述的關系是完全一致的,即研究者可以通過應答行動者i來插補對立關系的觀察值,即ximpij=xji(Huisman, 2009)。
重建法最大的優(yōu)點就是允許研究者最大化地利用有效信息去構建社會網絡。有研究表明,當社會網絡中存在缺失數據時,僅有437%的關系能夠被解釋,而使用重建法后,則能夠解釋缺失數據網絡中897%的關系數據(Neal, 2008)。但是,重建法無法構建兩個無應答行動者之間的關系。如果兩個無應答行動者之間存在重要關系,研究者就無法使用重建法去正確地定義網絡的結構。因此,需要用其它的插補方法來重建整個網絡。例如,對于無應答行動者之間的所有關系,隨機插補一個和觀察密度成比例的關系,使重建網絡中缺失關系的比例等于網絡的觀察密度。
44基于指數隨機圖模型的多重插補法
指數隨機圖模型(Exponential Random Graph Model, ERGM)又稱為p
瘙 毐 模型,是用來描述x分布情況的概率質量函數,其表達式為:
其中,q是網絡的實值函數,常以θTz(x)的形式出現,z是網絡的向量值函數,其取值為網絡統計值。這些統計值也被稱為結構統計值,用來描述網絡中的結構,如連接、三方關系等的數量。θ是一個維度為p×1的向量參數(θ∈Θ),ψ(θ)是一個常數,用于將函數值標準化(Koskinen, Robins, Wang, & Pattison, 2013)。
ERGM的原理是在綜合了實測網絡中的多種局部結構特征情況下來計算這些網絡出現的可能性。具體過程為,首先使用馬爾科夫鏈蒙特卡洛最大似然估計法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模擬出一個隨機網絡,然后將這個隨機網絡的參數與實測網絡的參數進行對比,最后通過對比指標判斷是否采納結果。Robins(2009)用ERGM方法對有向社會網絡數據進行分析時指出,如果模擬的隨機網絡不能很好地代表實測網絡,那么參數將被調整并運用到下一次模擬中,且這樣的循環(huán)可能至少要進行8000次,直到模擬網絡能夠很好地代表實測網絡為止。
基于ERGM的多重插補法,指的是通過ERGM產生的多個插補值的向量代替每一個缺失數據的過程。例如,當網絡數據中存在無應答的缺失數據時,基于ERGM的多重插補法則會將應答行動者和無應答行動者看作是兩種不同類型的節(jié)點,然后區(qū)分應答者之間的關系以及應答者和無應答者之間的關系。最后,根據研究者的調查目的,對缺失數據進行相應的處理。如果無應答者是隨機缺失,則在網絡特定結構間同質性的前提下利用ERGM對缺失數據進行多重插補。如果無應答者是非隨機缺失,且研究重點關注應答者的網絡結構,則可以將包含無應答者相關關系的信息看作是外源變量,并使用標準的馬爾科夫圖模型進行分析(Koskinen, Robins, Wang, & Pattison, 2013)。
基于ERGM的多重插補法最大的優(yōu)點是,不僅能有效地辨別應答者和無應答者之間的差異是由系統誤差還是隨機誤差造成的,還可以在缺失數據是隨機缺失的情況下,最大化地利用觀察到的數據信息?;贓RGM的多重插補法從本質上而言是通過網絡的局部結構去推斷整體結構。因此,即使數據有較大的缺失概率,只要網絡有足夠數量的局部網絡子結構,就能夠通過觀察到的數據進行有理的推斷。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插補法對一個合作關系社會網絡中的缺失數據進行處理,實證及模擬研究結果表明,這種基于模型的多重插補法能夠正確地解釋網絡中80%的關系數據及允許有三分之一數據缺失的情況。但是,這種方法最大的缺點是運算過程較復雜,耗時較長。
5問題與展望
缺失數據對社會網絡數據分析造成的消極影響主要體現在以下兩個方面:(1)減少的樣本量大小、行動者及關系的信息易導致模型和數據出現不擬合的情況;(2)缺失數據容易造成參數估計的偏差。例如,Kossinet(2006)和Huisman(2009)的研究發(fā)現,缺失數據會使社會網絡數據分析的結果產生偏差,因為缺失數據不僅對網絡結構描述產生消極影響,還會低估行動者之間的關系強弱和網絡的聚類系數,容易造成中心性和度數測量不穩(wěn)定的情況。因此,缺失數據是SNA廣泛應用面臨的嚴峻問題。
從表1的四種缺失處理方法的適用條件比較中可看到,缺失數據處理方法的選擇和缺失概率、缺失機制存在較大的關聯。進一步比較四種方法的優(yōu)缺點可以發(fā)現,當缺失數據是完全隨機缺失時,四種方法的參數估計是無偏的。當缺失數據是非隨機缺失時,完整個案法和有效個案法雖簡單易行,但容易導致信息的大量流失及具有較低的統計功效和較大的參數估計偏差。其中,和完整個案法相比,有效個案法在參數分布估計方面的偏差要略小,因為有效個案法分析的是全體有效樣本的數據。但在其它參數估計方面,兩種方法都出現了較大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插補法在非隨機缺失的情況下,可以忽略缺失機制的影響而直接在缺失概率較?。?0~30%)的網絡中應用,兩種方法在參數估計方面沒有表現出太大的偏差,但是如果網絡中的缺失概率較大時,兩種方法會受到缺失機制的影響。
當數據是隨機缺失時,重建法具有較好的統計功效,對社會網絡進行描述性分析時,如計算網絡的平均度數、互惠性和傳遞性等網絡統計特征值,即使缺失概率達到50%,重建法仍然能夠表現良好(Huisman, 2009)。但重建法只能用于特定網絡的數據缺失處理,且在某些情況下會高估連接的數量。雖然,在社會網絡中的數據缺失概率不大時,重建法和基于ERGM的多重插補法均沒有太大的差異,但是后者能夠利用插補值間的差異來衡量估計結果中不確定性的大量信息。和重建法一樣,當社會網絡中的缺失數據樣本量在中等范圍以下時,基于ERGM的多重插補法具有較小的參數估計偏差且不會低估標準誤,但這種方法唯一的缺點就是運算過程復雜,需要做大量的工作來構建插補集以便于進行結果分析,且當缺失數據樣本量大時,模擬網絡和實測網絡可能會出現不擬合的情況。
心理技術與應用2016年8期