趙繼舜, 杜冰潔, 劉鵬遠,2,朱述承,3
(1.北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083;2. 北京語言大學(xué) 國家語言資源監(jiān)測與研究平面媒體中心,北京 100083;3. 清華大學(xué) 人文學(xué)院,北京 100084)
2013年的諾貝爾文學(xué)獎得主,加拿大短篇小說家愛麗絲門羅在其短篇小說集《幸福過了頭》中寫道: “永遠要記得,男人走出房間,他就把一切都留在房間里了。而女人出門時,她就把房間里發(fā)生的一切都隨身帶走了?!笨梢?在每個人的認知中,我們都對男性和女性賦予了一定的主觀認知。性別偏見(Gender Bias)是指對一種性別產(chǎn)生的有利或者不利的情緒[1]。性別偏見廣泛存在于社會認知中。語言作為人類交流的工具,不可避免地繼承了社會中的性別偏見[2]。隨著科技的發(fā)展,用計算機表示文本語言的技術(shù)愈發(fā)成熟。 預(yù)訓(xùn)練語言模型作為一種強大的文本表示方式,在從海量的文本中自動學(xué)習(xí)語言表示的同時,也不可避免地學(xué)到了文本中存在的性別偏見[3-4]。而語言模型中學(xué)習(xí)到的性別偏見會影響下游任務(wù)及應(yīng)用中的性能[5];在一個愈發(fā)追求公平的社會中,識別和消除這些不公平的偏見具有十分重要的意義。
目前,許多學(xué)者設(shè)計了性別無偏數(shù)據(jù)集用于特定自然語言處理任務(wù)中的性別偏見評價和消偏工作[6-8]。然而,這些數(shù)據(jù)集中的語料均為人工標(biāo)注,時間和金錢成本高昂,且不能反映語言的自然使用情況;其次,這些數(shù)據(jù)集多是基于英語等印歐語系的,缺少專門針對漢語的性別偏見數(shù)據(jù)集。漢語作為全球使用人口數(shù)量最多的語言,與英語等屈折語有很大區(qū)別,且語言中缺乏明顯的性別標(biāo)記,因此漢語中的性別偏見更加難以捕捉?;诖?我們希望以盡可能低的成本建立一個自然的、通用的中文性別無偏數(shù)據(jù)集。在測量和評估預(yù)訓(xùn)練語言模型的偏見程度上,研究者們也采取了各種方法進行嘗試,并發(fā)現(xiàn)預(yù)訓(xùn)練語言模型中廣泛存在著性別偏見[9]。但是,這些性別偏見的評價方法也存在一定問題: 一是大多數(shù)方法采用間接的評價方式,如采用性別中的職業(yè)關(guān)鍵詞匯為指標(biāo),不能直接衡量模型對于語境中性別偏見的學(xué)習(xí)程度;二是其他語言與漢語在語法和結(jié)構(gòu)上存在差異,產(chǎn)生的偏見可能有所不同,但是還沒有工作對中文預(yù)訓(xùn)練語言模型進行性別偏見評價。因此,本文希望設(shè)計一個簡單的、適用于不同語言的性別偏見評價指標(biāo),以評價不同預(yù)訓(xùn)練語言模型中語境的性別偏見程度。
本文的基本假設(shè)是,一個理想的性別無偏且有意義的語言模型,在一個語境性別中立的句子中,生成遮蓋掉特定性別關(guān)鍵詞的概率與其對立性別關(guān)鍵詞的概率應(yīng)該是相同的?;诖?本文設(shè)計了一系列步驟構(gòu)建了一個句子級的性別無偏中文數(shù)據(jù)集SlguSet(Sentence-level Gender-unbiased Dataset),并在該數(shù)據(jù)集上對不同的預(yù)訓(xùn)練語言模型中的性別偏見進行評價,如圖1所示。首先,我們從中國主流報紙動態(tài)流通語料庫(DCC)中,通過性別關(guān)鍵詞找到有關(guān)性別主體的句子,并基于規(guī)則自動過濾掉無關(guān)的句子和含有顯性性別傾向的句子,再通過人工復(fù)查篩選出符合標(biāo)準(zhǔn)的性別無偏句子,建立一個句子級別的中文數(shù)據(jù)集SlguSet。隨后,采用掩碼語言模型,以完形填空的形式,把句子中的性別關(guān)鍵字遮蓋掉,剩下的句子部分在語境上應(yīng)為性別中立的。最后,將句子輸入到模型中,利用預(yù)訓(xùn)練語言模型的掩碼語言模型機制預(yù)測被遮蓋位置上字的概率,比較性別關(guān)鍵詞對的概率差異就可以得到該模型對該語境的性別偏見程度。
圖1 本文工作示意圖
導(dǎo)致自然語言處理模型產(chǎn)生性別偏見的最主要原因是數(shù)據(jù)本身,因為含有不同性別的數(shù)據(jù)是不平衡的。例如,一些常用的共指消解數(shù)據(jù)集中男性數(shù)據(jù)要多于女性數(shù)據(jù),導(dǎo)致系統(tǒng)產(chǎn)生有利于男性的偏見[6]。數(shù)據(jù)中存在的偏見,其實反映出的是人類社會中的偏見認知,目前應(yīng)用很廣的詞嵌入中具有偏見,便是因為其訓(xùn)練的語料庫中本身就具有社會文化中的刻板印象[10]。另外,算法也可能會放大數(shù)據(jù)中的性別偏見,因為算法通常會最大化地擬合訓(xùn)練數(shù)據(jù)以提高準(zhǔn)確率,如果數(shù)據(jù)本身不平衡,那么算法就會對出現(xiàn)更多的數(shù)據(jù)給予更高的關(guān)注,最終導(dǎo)致結(jié)果中出現(xiàn)性別偏見[11]。不同學(xué)者對自然語言處理中的性別偏見分類也有區(qū)別。性別偏見可分為結(jié)構(gòu)性性別偏見(Structural Bias)和語境中的性別偏見(Contextual Bias)[12]。前者指語言中的性別標(biāo)記對語言模型的影響,例如,模型可能會將“policeman”更加傾向于識別為男性因為其中包含男性詞“man”;后者指模型從具體語境中學(xué)習(xí)到的人類認知中的性別刻板印象,如“男孩子都是好斗的”。性別偏見又可分為分配性偏見和表征性偏見[13]。就自然語言處理系統(tǒng)而言,模型在數(shù)據(jù)較多的一方效果會更好,這種偏見就是分配性偏見;與性別關(guān)鍵詞產(chǎn)生關(guān)聯(lián)時,這種偏見就是表征性偏見。
在意識到自然語言處理模型中存在性別偏見之后,學(xué)者們采用不同的方式去刻畫和評估不同系統(tǒng)中的性別偏見。常見的方法包括: 通過分析詞嵌入中的性別子空間,計算性別中性詞的偏見程度[3];采用內(nèi)隱聯(lián)想測驗的核心理念,用詞嵌入聯(lián)想測試來衡量詞嵌入中的性別偏見[14];采用性別詞轉(zhuǎn)換的差異衡量模型的偏見程度[7]。此外,針對不同的任務(wù),學(xué)者們也提出了一系列具有針對性的性別偏見評價方法。例如,使用一個英語自然數(shù)據(jù)集StereoSet評價BERT、RoBERTa等模型的偏見[15]。自然語言處理中性別偏見消除的方法是在評價了詞嵌入中的性別偏見后發(fā)展起來的,主要有兩條思路: 其一是從機器產(chǎn)生偏見的源頭出發(fā),構(gòu)建無偏數(shù)據(jù)集讓機器學(xué)習(xí)。其中,采用數(shù)據(jù)增強和性別交換的方式可以構(gòu)建性別平衡的數(shù)據(jù)集,再訓(xùn)練模型消除性別偏見,此方法比性別偏見微調(diào)更加有效[16]。其二是從算法的角度消除偏見,如“硬去偏”方法可以在保持嵌入有用的性質(zhì)的同時,僅使用少量的訓(xùn)練樣本從中性詞中去除性別成分以減小性別偏見[3];“對抗學(xué)習(xí)”的方法也在性別偏見消除任務(wù)中被應(yīng)用[17]。但是,這些去偏方法并不能完全去除模型中的偏見[18]。
通過設(shè)計性別偏見評價測試集可以衡量自然語言處理系統(tǒng)的性別偏見,目前性別偏見評價測試集按照任務(wù)分類主要有: 在指代消解任務(wù)上的GAP[6]、WinoBias[7]、Winogender Schemas[9];在情感分析任務(wù)上EEC[19];在機器翻譯任務(wù)上的數(shù)據(jù)集GeBioCorpus[8];對于漢語中形容詞性別偏度數(shù)據(jù)集AGSS[20]。但是以上數(shù)據(jù)集的適用范圍小,如Winogender Schemas和WinoBias只能衡量性別中立職業(yè)詞匯的偏見程度,而且數(shù)據(jù)規(guī)模小,Winogender Schemas只有720條英語句子,WinoBias中有3 160條英語句子,AGSS中有446個形容詞;語料類型也都是基于英語和其他印歐語系語言的,缺乏中文性別偏見的數(shù)據(jù)集。
性別無偏中性句子的形式為: 句中需含語義上表示性別的性別關(guān)鍵字,其對立關(guān)鍵字形式是一樣的,當(dāng)遮蓋掉性別關(guān)鍵字時,根據(jù)上下文語義,遮蓋掉的部分填入女性或者男性性別關(guān)鍵字的概率是一致的。例如,“重慶女足在運動會上擊敗了山東隊取得了第二名的成績?!痹摼渲邪诵詣e關(guān)鍵字“女”,用其對立關(guān)鍵字“男”替換后句子同樣是成立的。在這里,性別稱謂詞是表示特定性別而無需上下文的詞。我們對漢語中的性別稱謂詞進行了統(tǒng)計,并結(jié)合了英語相關(guān)任務(wù)[15]和本文的具體任務(wù),最終確定了如表1所示的16對性別關(guān)鍵詞。
表1 數(shù)據(jù)集中各性別稱謂詞的數(shù)量分布
新聞一般被認為是有較少偏見的語料。因此,我們選擇了國家語言資源動態(tài)流通語料庫(DCC),該語料庫總規(guī)模為100億字次,涵蓋十年以上完整語料。我們從中選擇了2018至2019年的平面媒體(報紙)語料作為原始語料,根據(jù)中文詞匯使用情況以及確定的性別稱謂詞并按照句末標(biāo)點“。”、“?”和“!”抽取句子。
預(yù)處理所有文本都經(jīng)過預(yù)處理,被分割成句子,保留標(biāo)點符號、數(shù)字和中文字符。所有文本都采用UTF-8編碼的文本格式,刪除了所有文檔格式化的縮進、空格。按照句末標(biāo)點抽取,缺失或多余的引號部分,在抽取的過程中進行補全或刪除,以保證符號的正確。
自動過濾首先,我們對句子分詞,過濾掉含有非語義上性別關(guān)鍵字的句子。例如,“吉他”“他殺”“子女”“生兒育女”“兒女”等非性別關(guān)鍵字。然后,利用命名實體識別篩除含有姓名(如“小明”“琳琳”“妞妞”)的句子。
人工標(biāo)注我們選擇了三位語言學(xué)及應(yīng)用語言學(xué)專業(yè)碩士研究生,根據(jù)下文中的篩選標(biāo)準(zhǔn)以及表 1的各種性別稱謂詞目標(biāo)語料數(shù)量,按照一致率100%來篩選句子。
首先,我們隨機選擇了1 000條關(guān)鍵詞句子,通過對真實語料的觀察確定篩選標(biāo)準(zhǔn)。在篩選的過程中發(fā)現(xiàn)語料存在下列情況:
(1) 有些關(guān)鍵詞在語境中的對立性別詞在語義上并非表達原始含義。例如,在“男”的句子中,存在“男兒”這樣的表達,其含義指男性,而性別對立的“女兒”則多出了“子女”的含義,但其對應(yīng)的詞是“兒子”。
(2) 句子中性別稱謂詞與性別術(shù)語有語義上的互指關(guān)系。例如,“找到內(nèi)蒙古,見弟弟冬天穿了一條多處破洞的單褲,雙手滿是凍裂的口子,兄弟倆抱頭痛哭?!贝司渥又?“弟弟”和“兄弟”存在聯(lián)系,這種形式的句子會透露性別信息。
(3) 句子中含有生物性別信息。例如,“女職工在經(jīng)期、孕期、產(chǎn)期、哺乳期依法享受特殊保護。”
根據(jù)上述特殊情況,最終確立篩選標(biāo)準(zhǔn)如下:
(1) 句子中遮擋掉性別關(guān)鍵詞后,根據(jù)上下文語義,填入男性或者女性性別關(guān)鍵詞都是合理的,且這對性別關(guān)鍵詞僅在性別語義上對立;
(2) 篩除性別稱謂詞與性別術(shù)語在語義上有互指關(guān)系的句子;
(3) 篩除性別稱謂詞與生物性別信息在語義上有互指關(guān)系的句子。
根據(jù)上述標(biāo)準(zhǔn),我們篩選出近兩萬條新聞?wù)Z料句子作為數(shù)據(jù)集。BERT中文版模型的字表大小為21 128[21]。統(tǒng)計了本文的數(shù)據(jù)集后發(fā)現(xiàn)含有4 220個字符(含數(shù)字、標(biāo)點符號和漢字)。因此,我們的數(shù)據(jù)集僅占BERT字表中19.97%的字符??紤]到BERT字表中含有更多的外文及其他特殊字符,我們可以假設(shè)此數(shù)據(jù)集涵蓋大部分常用中文字符。
我們選擇了BERT、RoBERTa和ELECTRA三種主要的中文預(yù)訓(xùn)練語言模型對數(shù)據(jù)集語境中的性別偏見進行評價。下面簡要介紹每種模型:
BERT我們選擇BERT-base,Chinese[21]作為基準(zhǔn)測試模型。BERT的預(yù)訓(xùn)練任務(wù)為掩碼語言模型(Masked Language Model,MLM)和下一句子預(yù)測(Next Sentence Prediction,NSP)。BERT中文模型是以字為粒度進行切分的,訓(xùn)練時隨機遮蓋一些輸入的字符,目標(biāo)是通過遮蓋的上下文預(yù)測遮蓋的單詞。BERT-wwm、BERT-wwm-ext[22]采用與原始BERT同樣的模型架構(gòu),但是采用全詞遮蓋代替單字遮蓋的方式,BERT-wwm-ext擴展了訓(xùn)練語料庫中文維基百科的語料,加入了其他百科、新聞、問答等語料數(shù)據(jù)。
RoBERTa修改了一些原始BERT的模型結(jié)構(gòu),并擴展了訓(xùn)練語料庫后,RoBERTa模型采用了延長模型訓(xùn)練時間等一系列模型改進的方法,發(fā)現(xiàn)可以提升模型效果。本文測試的模型為RoBERTa-wwm-ext中文版本[23]。
ELECTRA采用了一種新的預(yù)訓(xùn)練方法—替換詞檢測(Replaced Token Detection,RTD)。ELECTRA的性能相比BERT和RoBERTa都有提升,且計算量更小。本文測試模型為ELECTRA-base中文版本[23]。因此,我們選擇了表2中的5種模型進行測試。
表2 本文選擇的預(yù)訓(xùn)練模型及參數(shù)
在評價性別偏見的程度上,有學(xué)者采用對立關(guān)鍵詞之比的對數(shù)來評估一句話的偏見程度[4]。本文借鑒了這一共識,但由于其任務(wù)與我們的稍有不同,所以采用式(1)來衡量模型預(yù)測句子c的偏見。
(1)
其中,c代表性別無偏的中性句子,pwoman(c)和pman(c)分別代表模型預(yù)測句子c中性別關(guān)鍵詞為女性和男性的概率。Biasc∈(-∞, ∞),Biasc>0 時,模型預(yù)測偏向男性;Biasc<0時,模型預(yù)測偏向女性,Biasc=0時模型預(yù)測此句為無性別偏見的中性句子。我們用式(2)來計算模型偏向男性或者女性的程度。
(2)
其中,N表示句子的總數(shù)。
首先,我們繪制了所選擇的5個中文預(yù)訓(xùn)練模型對每一個句子預(yù)測的性別偏見程度分布圖, 如圖2所示。我們所選擇的5個中文預(yù)訓(xùn)練模型主要還是集中在預(yù)測中性的語境趨勢上。但對于一些句子,模型預(yù)測還是一致偏向男性或女性,說明中文預(yù)訓(xùn)練模型學(xué)習(xí)到了這些句子中強烈的偏向男性或女性的語境。
之后,我們對5個中文預(yù)訓(xùn)練模型關(guān)于每條句子預(yù)測的性別偏見程度進行了相關(guān)性分析,結(jié)果如圖3所示。從中我們可以看出,這5個預(yù)訓(xùn)練模型具有一致性,即它們預(yù)測句子偏向男性或女性的性能是相似的,但其中ELECTRA-base與其他模型的差異較大。
圖3 5個預(yù)訓(xùn)練模型對每個句子預(yù)測的性別偏見程度相關(guān)性熱力圖
具體的每個預(yù)訓(xùn)練模型的偏見結(jié)果如表3所示。觀察結(jié)果可以發(fā)現(xiàn): 偏向男性程度最高的模型是BERT-wwm-ext模型,偏向女性程度最高的是RoBERTa-wwm-ext模型;平均性別偏見程度最高的是BERT-wwm-ext模型,ELECTRA-base的偏見最小;在BERT-base、BERTwwm、RoBERTa-wwm-ext和ELECTRA-base模型上,偏向女性的程度要高于男性,BERT-wwm-ext上男女偏向程度很接近;其他條件相同時,對比BERT-base和BERT-wwm可以發(fā)現(xiàn),模型預(yù)訓(xùn)練采用單字遮蓋方式產(chǎn)生的性別偏見略小一點;BERT-wwm-ext相對于BERT-wwm預(yù)訓(xùn)練采用的語料更大,但是偏見卻也略大一點;RoBERTa-wwm-ext相對于BERT-base的性能更好一點,但是偏見卻也是略大一點;相對于其他模型,ELECTRA-base的性能和偏見效果都是最好的。
表3 5種預(yù)訓(xùn)練模型的偏見評價
從BERT-base模型的預(yù)測結(jié)果中分別篩選出偏向“男性”和偏向“女性”程度最大的前5句,如表4和表5所示。從中我們可以看出,語言模型學(xué)習(xí)了漢語中的某些刻板印象,男性總是與領(lǐng)導(dǎo)地位、工作、金錢關(guān)系有某種隱喻關(guān)聯(lián),而女性則與愛美、食物和外貌有關(guān)聯(lián)。
表4 BERT-base預(yù)測結(jié)果偏向“男性”最大的5條數(shù)據(jù)
表5 BERT-base預(yù)測結(jié)果偏向“女性”最大的5條數(shù)據(jù)
明顯偏見我們定義: 對于|Biasc|>0.3的句子,模型對其預(yù)測產(chǎn)生了明顯偏見。我們從BERT-base模型的預(yù)測結(jié)果中篩選后發(fā)現(xiàn)|Biasc|<0.3的句子有7 223句, Biasc>0.3的有6 024句,Biasc<-0.3的有6 743句。利用TF-IDF算法和TextRank算法對明顯偏向女性和男性的句子分別做主題詞分析,前5個主題詞如表6所示。偏向女性語句的主題詞排在首位的分別為“孩子”和“孩子”,而偏向男性句子的則為“一名”和“工作”。這也印證了“男主外,女主內(nèi)”的漢語文化圈的性別刻板印象。
表6 偏向“女性”和“男性”的語句主題詞分析前5的主題詞
我們選擇了“男女”關(guān)鍵詞對中含有“男童”和“女童”的句子。從結(jié)果中篩選出偏向“男童”的有78條句子,偏向“女童”的有158條句子。按照偏見程度排序,其中偏向“男”和“女”的前六句,結(jié)果分別如表7和表8所示。對比偏向“男童”和“女童”的句子語境我們發(fā)現(xiàn)了與之前類似的情況,偏向“男童”的語境與“調(diào)皮”“闖禍”和“意外受傷”等信息有關(guān),而偏向到“女童”的句子則反映了女性兒童“需要保護”和“被性侵”等情況,這說明BERT-base模型學(xué)到了文本中的深層次的語境偏見信息。
表7 BERT-base預(yù)測結(jié)果偏向“男童”程度最大的5條數(shù)據(jù)
表8 BERT-base預(yù)測結(jié)果偏向“女童”程度最大的5條數(shù)據(jù)
本文基于“句子語境性別中立時,模型對于性別關(guān)鍵詞預(yù)測應(yīng)該是中立”的假設(shè),通過平面媒體語料庫構(gòu)建了一個句子級別上下文無偏的中文性別平衡數(shù)據(jù)集。我們創(chuàng)造性地提出了基于掩碼語言模型的中文預(yù)訓(xùn)練語言模型的性別偏見量化分析方法,即采用完形填空的方式,讓模型預(yù)測性別中性句子中性別關(guān)鍵詞的概率。采用我們設(shè)計的評估公式對模型生成的兩個性別關(guān)鍵詞的概率進行計算,最后得到模型的性別偏見程度。從分析結(jié)果可以發(fā)現(xiàn),基于本文提出的中文性別平衡數(shù)據(jù)集,基于掩碼語言模型的中文預(yù)訓(xùn)練語言模型普遍存在不同程度的性別偏見,模型偏向女性的程度要略高于男性,而且模型學(xué)到了漢語中深層次的刻板印象,但是本文實驗尚不足以說明模型偏見產(chǎn)生的原因。在未來的工作中,分析模型偏見產(chǎn)生的原因、偏見的類型以及如何去除這些偏見是有意義的工作。由于我們只設(shè)計了如何測試基于掩碼語言模型的中文預(yù)訓(xùn)練語言模型的偏見程度,而其他類型的預(yù)訓(xùn)練模型如何更好地測量偏見程度值得進一步研究。