于冠琳 張 璐 郭佳怡 張文彩
(1 中國科學(xué)院心理研究所,中國科學(xué)院心理健康重點實驗室,北京 100101) (2 中國科學(xué)院大學(xué)心理學(xué)系,北京 100049) (3 北京師范大學(xué)教育學(xué)部,北京 100875)
人們生活的環(huán)境中充滿了可以感知的信息,而想要將信息進行加工、使之可以被理解,進而指導(dǎo)人們的行為,就需要對這些信息做出解釋。“解釋”是為模糊刺激指派含義的心理過程(Wisco & Nolen-Hoeksema, 2010),而“解釋偏差”就是個體傾向于對模糊信息做出負性解釋的認知偏差(Beck & Clark, 1988; Clark & Wells, 1995)。解釋偏差作為個體從以往經(jīng)驗中獲得的習(xí)慣性思維模式(Eysenck et al., 1991),是焦慮、抑郁等一系列情緒障礙的關(guān)鍵臨床特征(Mathews, 2012)和其產(chǎn)生及維持機制中的重要成分(Beck & Clark,1997; Jalal & Amir, 2014; Mathews & Macleod,2005),也是情緒障礙干預(yù)治療中的重要靶點(Hirsch et al., 2016; Jones & Sharpe, 2017)。
在實證研究中,解釋偏差測量范式的核心要素就是能夠允許被試做出負性或非負性解釋的模糊刺激材料。多義詞作為自然語言中同時具有負性和非負性含義的詞語,在缺乏語境信息的情況下天然具備語義上的模糊性(例如,patient具有“耐心”或“病人”的含義),因此研究者利用這一特征,通過觀察被試對多義詞的負性含義是否具有更強的偏好來測量解釋偏差。為了方便在不同的實驗任務(wù)中使用,F(xiàn)rench和Richards(1992)歸納了英語中同時帶有負性和非負性含義的142個多義詞,制成一份包含多義詞各詞義的負性程度和常用程度的多義詞表,其他研究就可以直接根據(jù)詞表選擇各含義常用程度均等且負性含義與其他含義效價差異顯著的多義詞作為實驗材料。目前未查閱到使用中文多義詞來測量負性解釋偏差的文獻,因此本研究將首先歸納和評估中文里能夠被用作解釋偏差測量材料的多義詞。
獲得材料后需要為其匹配合適的測量任務(wù)。造句任務(wù)(Taghavi et al., 2000)是操作簡便并可以有效隱藏測量目的的投射類任務(wù),它要求被試使用詞語創(chuàng)造一個完整的句子,但主試不會告知被試題目中給出的詞語是多義詞,當(dāng)被試基于對多義詞語義的解釋來從無到有地構(gòu)建句子,發(fā)生的“語義理解”和“語境創(chuàng)造”兩個心理過程都是“用負性/非負性的方式對模糊內(nèi)容做出解釋”的過程,研究者就可以通過觀察被試在句子中是否使用了負性語義和是否創(chuàng)造了負性語境這兩個維度來測量其解釋偏差。目前國內(nèi)研究者對解釋偏差的測量普遍使用譯自國外或自主編訂的模糊情境(張曉敏 等, 2019; Jin et al., 2014),為了探索多義詞造句任務(wù)相較于現(xiàn)有范式的優(yōu)勢,本研究選取亂句重排任務(wù)(Wenzlaff & Bates, 1998)進行比較。亂句重排任務(wù)包含將詞匯排序構(gòu)建語句的過程和正負二分的計分特征,在形式上與多義詞造句任務(wù)相似,但由于排序過程中會將兩種解釋都加以呈現(xiàn),被試容易猜出任務(wù)目的,作答容易受到需求特征的影響(Schoth & Liossi, 2017)。因此本研究假設(shè),多義詞造句任務(wù)在具有優(yōu)良信效度的同時還具有實驗?zāi)康碾[蔽性高的優(yōu)勢。
此外,雖然解釋偏差與多種情緒障礙存在關(guān)聯(lián),但研究者通常會篩選具有癥狀特異性的材料以提高測量效度(Schoth & Liossi, 2017),相比于社交焦慮研究中已經(jīng)相對成熟且癥狀特異性強的社交情境材料,多義詞材料沒有特定的內(nèi)容指向,卻正好與廣泛性焦慮個體憂慮內(nèi)容范圍較廣且泛化的特點相契合。廣泛性焦慮以對未來可能發(fā)生消極事件的過度擔(dān)憂和無法容忍不確定性為核心特點,因此廣泛性焦慮個體傾向于為未來不確定事件做出負性或災(zāi)難化的解釋(Hirsch & Mathews,2012),大量實證研究都發(fā)現(xiàn)廣泛性焦慮人群相比于健康人群具有更強的解釋偏差(Anderson et al.,2012; Eysenck et al., 1991; Hazlett-Stevens & Borkovec,2004),因此本研究將選取廣泛性焦慮人群作為多義詞造句任務(wù)的目標(biāo)測量對象。
綜上,本研究擬實現(xiàn)如下三項研究目的。首先,在研究1中,(1)歸納和評價可以用作解釋偏差測量材料的中文多義詞;(2)針對廣泛性焦慮癥狀人群初步使用多義詞造句任務(wù)測量解釋偏差,篩選出對焦慮敏感的項目,并初步評價任務(wù)的可靠性和有效性。在研究1的基礎(chǔ)上,研究2的研究目的是:(3)改進施測程序,實施正式的多義詞造句任務(wù),通過添加效標(biāo)和與亂句重排任務(wù)的對比,驗證多義詞造句任務(wù)測量解釋偏差的有效性和目的隱蔽性。
2.1.1 被試
預(yù)實驗樣本:參與多義詞的初步篩選(評價兩個義項的情緒效價和常用程度),為保證評價不受焦慮情緒的影響,選取廣泛性焦慮量表(GAD-7)得分小于等于4分(M=1.43,SD=1.73)的本科生和研究生被試27名(女性14名,平均年齡21.32±2.52歲),被試自訴無精神疾病史,母語均為中文。
樣本1:參與多義詞造句任務(wù)的初步施測,根據(jù)GAD-7得分將62名本科生和研究生被試(女性40名,平均年齡22.05±2.24歲)分為健康組(GAD-7得分小于等于4分,33人)和焦慮組(GAD-7得分大于4分,29人),母語均為中文,具備正常的中文讀寫能力。
2.1.2 實驗材料
從《現(xiàn)代漢語多義詞詞典(修訂本)》(2001版)中選取了82個具有負性和非負性義項的多義詞(例如,輕?。孩僦亓枯p且厚度??;②看不起、不尊重)。多義詞負性義項的情緒效價需顯著低于非負性義項,并且為了確定被試使用負性義項是由于解釋偏差而非該義項在自然語言中更常用,負性義項的常用程度不能顯著高于非負性義項。因此,在預(yù)實驗樣本中對多義詞的兩個義項分別進行情緒效價(1~7分對應(yīng)“非常消極”到“非常積極”)和常用程度(1~7分對應(yīng)“非常不常用”到“非常常用”)的7點評分,經(jīng)過配對樣本t檢驗篩選出72個符合上述條件的多義詞,其負性義項的情緒效價均值顯著低于非負性義項[M負=2.19,SD=0.37;M非負=4.11,SD=0.49,t(26)=32.00,p<0.001],且兩義項的常用程度均值無顯著差異[M負=5.49,SD=0.50;M非負=5.65,SD=0.45,t(26)=1.85,p=0.069]。將這72個多義詞順序隨機打亂,組成“詞語造句測試”。
2.1.3 研究工具
廣泛性焦慮量表(GAD-7):包含7個項目,每個項目反映一條DSM-5中廣泛性焦慮障礙的典型癥狀,采用0~3分(從“完全沒有”到“幾乎每天”)的4點計分表示出現(xiàn)癥狀的頻率,其中文版具有良好的信效度(何筱衍 等, 2010),本實驗中內(nèi)部一致性系數(shù)為0.92~0.93。量表得分5分及以上的被試存在輕度及以上的廣泛性焦慮癥狀,得分4分及以下可被認為是健康人群(Spitzer et al., 2006)。
2.1.4 施測程序與數(shù)據(jù)分析
樣本1被試在問卷星上完成GAD-7后來到實驗室,被告知將參與一次簡單的語言能力測驗。測驗用紙筆方式呈現(xiàn),被試需要快速將自己看到每個詞語后第一反應(yīng)所想到的句子寫在橫線上,并對詞語的情緒效價進行7點評分(1~7分對應(yīng)“非常消極”到“非常積極”,用于輔助主試辨別句子中使用了哪個義項,不計入統(tǒng)計分析),無時間限制且必須完成全部題目。所有數(shù)據(jù)采集完畢后,主試采用2點計分的方式對被試在每個句子中使用多義詞語義和語境情緒效價按照如下標(biāo)準(zhǔn)進行辨別和計分:語義上,使用負性語義記1分、非負性語義記0分;語境情緒效價上,負性語境記1分、非負性語境記0分。因此多義詞造句任務(wù)所測量的解釋偏差分為語義分數(shù)、語境分數(shù)和總分三個指標(biāo),語義和語境分數(shù)分別來自該維度所有題目得分的和,總分則是該被試語義和語境得分的總和。使用SPSS26.0進行數(shù)據(jù)分析。
被試所造例句及其類別示例見表1。62名被試語義維度的平均分為30.76±6.21分,語境維度的平均分為27.24±8.24分,總分的平均分為58.00±13.46分,三項得分均符合正態(tài)分布。
表1 被試所造句子及其類別舉例
2.2.1 區(qū)分度
使用相關(guān)系數(shù)法計算每個題目的區(qū)分度。計算題目得分與GAD-7得分的相關(guān),根據(jù)伊貝爾在1965年提出的評價題目性能的標(biāo)準(zhǔn),性能合格的最低標(biāo)準(zhǔn)設(shè)定為r=0.2且p<0.05,檢驗后刪除了相關(guān)系數(shù)不顯著的38個題目,保留34個題目,且剩余題目區(qū)分度均高于性能合格的最低標(biāo)準(zhǔn)(0.2),具體見表2。
表2 項目區(qū)分度(r)及去留情況
2.2.2 信度
34個保留題目總分的內(nèi)部一致性系數(shù)為0.82,語義和語境維度的內(nèi)部一致性系數(shù)分別為0.76和0.82,信度良好。
2.2.3 構(gòu)想效度
使用分組檢驗法,對焦慮組和健康組在測驗總分、語義維度和語境維度得分的差異分別進行t檢驗。結(jié)果發(fā)現(xiàn),焦慮組被試的測驗總分[t(60)=2.47,p=0.016,d=0.64]和語境維度得分[t(60)=2.77,p=0.008,d=0.71]顯著高于健康組,語義維度得分與健康組差異不顯著[t(60)=1.38,p=0.072,d=0.36],見圖1。焦慮組被試寫出了更多負性句子,任務(wù)可以測得其更高的負性解釋偏差,語義維度的差異雖未達到顯著,但仍具有中等程度的效應(yīng)量,因此將在研究2中進一步驗證。
圖1 焦慮組和健康組測驗總分、語義維度和語境維度得分差異的t檢驗
3.1.1 被試
樣本2:采用整群抽樣,從廣西某大學(xué)本科生中抽取非心理學(xué)專業(yè)的6個班級共222名被試(女性141名,平均年齡18.92±0.99歲),母語均為中文,具備正常的中文讀寫能力和計算機操作能力。
3.1.2 實驗任務(wù)及工具
多義詞造句任務(wù):將34個多義詞隨機分為A、B兩組,每組17個,錄入問卷星使題目按隨機順序呈現(xiàn)。
亂句重排任務(wù):包含40個與焦慮有關(guān)的題目(例如,“我擔(dān)憂/思考我的未來”),隨機分為A、B兩組,每組20個,錄入問卷星使題目按隨機順序呈現(xiàn)。
廣泛性焦慮問卷(GAD-7):同研究1,本實驗中該問卷的內(nèi)部一致性系數(shù)為0.90。
狀態(tài)焦慮問卷(STAI-S)(汪向東 等, 1999):使用狀態(tài)-特質(zhì)焦慮問卷的狀態(tài)焦慮分量表,包含反映恐懼、緊張、憂慮等焦慮感受的20個描述句,被試需要根據(jù)當(dāng)下的情緒體驗進行4點評分(1~4分對應(yīng)“完全沒有”到“非常明顯”),問卷得分作為狀態(tài)焦慮的指標(biāo),本實驗中該分量表的內(nèi)部一致性系數(shù)為0.78。
積極消極情感量表(PANAS)(黃麗 等, 2003):包含描述積極消極情緒的形容詞各10個,被試需要根據(jù)當(dāng)下的情緒狀態(tài)進行5點評分(1~5分對應(yīng)“完全沒有”到“非常多”),本研究使用消極情感分量表的得分作為消極情緒的指標(biāo),本實驗中該分量表的內(nèi)部一致性系數(shù)為0.89。
3.1.3 施測程序與數(shù)據(jù)分析
采用線上集體施測。被試使用電腦登錄問卷星網(wǎng)頁,被告知將參與兩個語言能力測驗并填寫一些問卷。所有被試被隨機分配到使用A或B組材料的實驗任務(wù)。首先進行亂句重排任務(wù),被試需要在3分鐘內(nèi)盡可能多地將每個題目中的亂序詞語排列成句子,并把詞語對應(yīng)的序號按照排列好的順序輸入答案框中,結(jié)束后休息30秒。然后進入多義詞造句任務(wù),被試需要使用每個題目給出的詞語來造句并輸入答案框,同樣限時3分鐘。此外,為了增加認知負荷,在進行這兩個任務(wù)時,被試需要記憶一組隨機數(shù)字,并在每個任務(wù)結(jié)束后回憶數(shù)字作為干擾任務(wù),以獲得更真實的反應(yīng)(回憶數(shù)字的對錯不計入統(tǒng)計分析)(Rude et al.,2002)。完成任務(wù)后休息30秒,填寫GAD-7、STAI-S、PANAS,并分別回答是否猜出了兩個任務(wù)的測試目的,如果回答“是”,還需報告自己猜測的測試目的。
在計分上,對于多義詞造句任務(wù),招募3名心理學(xué)研究生作為評分者,他們的GAD-7問卷得分均低于4分且不知道研究目的。研究者制作了多義詞語義和語境評分標(biāo)準(zhǔn)的手冊,并對評分者進行了培訓(xùn)與試評練習(xí),在確定充分理解評分規(guī)則后進行正式評分。3名評分者對多義詞造句任務(wù)的語義和語境維度分別進行了獨立評分(計分方式同研究1),由研究者匯總并求出均值。由于在規(guī)定時間內(nèi)每名被試完成題目的數(shù)量不同(亂句重排任務(wù)平均完成10.61±3.74個題目;多義詞造句任務(wù)平均完成7.20±3.50個題目),因此將被試在語義和語境維度上的得分分別除以完成的項目數(shù),再相加得到總分,作為進入統(tǒng)計分析的數(shù)據(jù)。3名評分者在語義維度和語境維度上的肯德爾和諧系數(shù)分別為0.90(p<0.001)和0.78(p<0.001),評分結(jié)果較為一致。對于亂句重排任務(wù),使用負性句子數(shù)占完成總句子數(shù)的比例作為任務(wù)得分進入統(tǒng)計分析。關(guān)于實驗?zāi)康碾[蔽性,研究者對被試是否猜對了實驗任務(wù)的目的進行判斷(猜對任務(wù)目的:如被試報告“測試我對一些詞語會往好的想還是壞的想”“通過造句判斷看待事物是否消極”等),分為被試主觀報告是否猜出和主試判斷是否猜對兩個計數(shù)指標(biāo)。使用SPSS26.0進行數(shù)據(jù)分析。
3.2.1 隨機分組有效性檢驗
獨立樣本t檢驗發(fā)現(xiàn),A、B組材料在兩任務(wù)的各指標(biāo)上均無顯著差異[t語義(220)=0.17,p=0.87;t語境(220)=0.79,p=0.43;t總分(220)=0.52,p=0.60;t排序(220)=-1.32,p=0.19],隨機分組有效,因此將A、B組材料視同等價,合并分析。
3.2.2 構(gòu)想效度
各任務(wù)和問卷得分均符合正態(tài)分布。
使用GAD-7得分分組,對多義詞造句任務(wù)得分在焦慮組(88人)和健康組(134人)之間的差異進行t檢驗。結(jié)果發(fā)現(xiàn),焦慮組被試的總分[t(220)=4.17,p<0.001,d=0.56]、語義維度得分[t(220)=3.24,p=0.001,d=0.44]和語境維度得分[t(220)=3.90,p<0.001,d=0.53]均顯著高于健康組,說明焦慮組被試具有更高的負性解釋偏差,與初步編制時的結(jié)果一致。使用狀態(tài)焦慮得分的中位數(shù)分組(Md=51,高分組117人,低分組105人)進行t檢驗,發(fā)現(xiàn)高分組被試的總分[t(220)=3.60,p<0.001,d=0.49]、語義維度得分[t(220)=2.40,p=0.017,d=0.32]和語境維度得分[t(220)=3.85,p<0.001,d=0.52]均顯著高于低分組,說明高狀態(tài)焦慮被試更多使用了多義詞的負性語義,寫出了更多消極句子,具有更高的負性解釋偏差。見圖2。
圖2 GAD-7焦慮組和健康組以及高低狀態(tài)焦慮組測驗總分、語義維度和語境維度得分差異的t檢驗
此外,使用消極情緒得分的中位數(shù)分組(Md=18,高分組115人,低分組107人)進行t檢驗,發(fā)現(xiàn)高低分組被試的總分[t(220)=1.79,p=0.074]、語義維度得分[t(220)=1.60,p=0.111]和語境維度得分[t(220)=1.48,p=0.14]的差異均不顯著,說明改編后的多義詞造句任務(wù)對焦慮中的解釋偏差具有針對性,效度良好。
最后進行同證效度的檢驗,多義詞造句任務(wù)總分與亂句重排任務(wù)得分的相關(guān)為0.29(p<0.001),語義維度相關(guān)為0.22(p<0.001),語境維度相關(guān)為0.28(p<0.001)。由此可見,多義詞造句任務(wù)的各指標(biāo)均與亂句重排任務(wù)得分之間存在低程度的顯著相關(guān),表明二者測量的內(nèi)容既有顯著的關(guān)聯(lián),又具有一定程度的異質(zhì)性。
3.2.3 實驗?zāi)康碾[蔽性
在兩個任務(wù)上主觀報告猜出任務(wù)目的與實際猜對任務(wù)目的的被試數(shù)如表3所示。進行四格表卡方檢驗,發(fā)現(xiàn)主觀報告猜出多義詞造句任務(wù)目的的被試數(shù)顯著少于亂句重排任務(wù)(χ2=106.71,p<0.001,rΦ=7.16),實際猜對多義詞造句任務(wù)目的的被試數(shù)顯著少于亂句重排任務(wù)(χ2=32.50,p<0.001,rΦ=2.18)。由此可見,與亂句重排任務(wù)相比,多義詞造句任務(wù)的目的隱蔽性更高。
表3 主觀報告猜出任務(wù)目的與猜對任務(wù)目的的被試數(shù)及比率
本研究歸納了同時具有負性和非負性含義、可以用來測量解釋偏差的72個中文多義詞,并針對廣泛性焦慮癥狀篩選出34個對焦慮敏感的題目,形成了信效度良好且具有測量目的隱蔽優(yōu)勢的多義詞造句任務(wù)。
首先,使用多義詞作為實驗材料具有簡潔易操作的優(yōu)勢,對兒童或患有感覺運動障礙等疾病的人群可以采用紙筆作答或口頭報告的方式進行測量,并且可以通過篩選來適應(yīng)不同人群的測量需求,而模糊情境類材料若不根據(jù)被試群體特征單獨編制材料則會容易出現(xiàn)測量效度低的問題(Schoth & Liossi, 2017)。并且,多義詞在解釋偏差干預(yù)研究中也發(fā)揮重要作用,目前使用解釋偏差矯正訓(xùn)練的實證研究中,通常使用給予對錯反饋的方式指導(dǎo)被試在模糊情境中選擇非負性解釋來“自下而上”地改善負性認知模式,但此類研究中,前后測與訓(xùn)練的材料具有高同質(zhì)性,不足以真實客觀地衡量干預(yù)后解釋偏差的改變(劉冰茜, 李雪冰, 2018),特別是在只有模糊情境類材料的中文環(huán)境下。而本研究歸納的多義詞豐富了解釋偏差測量材料的類別,可以為干預(yù)效果的測量提供更可靠的證據(jù)。
將多義詞材料與造句任務(wù)結(jié)合并改進后,多義詞造句任務(wù)具有如下四點優(yōu)勢:(1)在計分方式上,語義理解和語境創(chuàng)造的心理過程分別對應(yīng)任務(wù)的語義和語境維度,和其相加的總分都具有良好的信效度,這些指標(biāo)較為完整地反映了解釋的認知過程,可以根據(jù)研究需求單獨選用一個指標(biāo)或?qū)讉€指標(biāo)聯(lián)合使用。(2)在癥狀特異性上,以往研究認為廣泛性焦慮個體對反映憂慮、潛在威脅和無法忍受不確定性相關(guān)的信息具有更強的解釋偏差(Hirsch et al., 2016),這在本研究篩選出的多義詞中有對應(yīng)的體現(xiàn),如“算賬”“輕薄”“修理”等詞的負性含義中帶有潛在的威脅和暴力元素,“懸空”“漩渦”“漂泊”等詞指向?qū)Σ淮_定性的難以忍受,“曲折”“苦澀”“負重”則反映了過度憂慮時的心理感受,這些題目與焦慮癥狀的特征相匹配,提升了任務(wù)的效度。(3)在同證效度上,較低程度的顯著相關(guān)指示兩種任務(wù)具有一定的異質(zhì)性,這可能是由于解釋是一個包括“產(chǎn)生”和“選擇”的較為復(fù)雜的認知過程(Everaert et al., 2017),多義詞造句任務(wù)使被試激活、選擇語義并自主產(chǎn)生語境實現(xiàn)造句,但亂句重排任務(wù)將兩種解釋直接呈現(xiàn),只包含選擇過程,所以兩個任務(wù)測量到的心理特征會有所區(qū)別。因此,未來的研究需要根據(jù)不同實驗?zāi)康膩磉x擇合適且有效的實驗任務(wù),以往的研究者也認為使用多種方法相結(jié)合的方式去測量解釋偏差可能是更好的選擇(Everaert et al., 2017)。(4)關(guān)于目的隱蔽性,多義詞造句任務(wù)作為一種投射測試,其測量的更多是內(nèi)隱和自動化的心理過程,以往研究認為自動化的解釋偏差是“個體沒有意識到自己的解釋是有偏差的,或沒意識到還存在其他解釋”(Hirsch et al., 2016),造句任務(wù)可以通過讓被試聚焦于造句過程來防止其主動搜尋其他解釋或覺察自身偏差,從而較好地隱藏實驗?zāi)康?。并且,在干預(yù)研究中,使用目的隱蔽性高的造句任務(wù)也可以有效規(guī)避被試在大量訓(xùn)練后覺察實驗?zāi)康乃鶐淼钠谕?yīng)的影響(劉冰茜, 李雪冰, 2018),有助于測得真實的干預(yù)效果。
本研究也存在一定局限。首先,本研究雖然歸納了72個多義詞,但只針對廣泛性焦慮篩選出了34個題目的多義詞造句任務(wù),而解釋偏差作為一種消極的認知模式也普遍存在于社交焦慮、驚恐障礙、抑郁、慢性痛、神經(jīng)性厭食癥、酒精依賴等情緒障礙和身心疾病中,因此若要在其他人群中施測,還需針對人群特征進行篩選,避免由于材料選取不當(dāng)帶來效度問題。其次,個體對多義詞各語義的理解程度及常用程度也會受到年齡、文化背景、受教育程度的影響(Schoth &Liossi, 2017),在中文里,多義詞的比喻義和引申義也會隨著語言的發(fā)展而變化,因此多義詞材料也可能需要根據(jù)受測人群的年齡特征做出調(diào)整。
本研究搜集了中文里可以用來測量解釋偏差的多義詞,針對廣泛性焦慮人群評估了具有良好信效度的多義詞造句任務(wù),并與亂句重排任務(wù)對比,驗證了其目的隱蔽性高的測量優(yōu)勢,為中文環(huán)境中測量解釋偏差提供了另一種便捷高效的選擇。