陳晉音 陳奕芃 陳一鳴 鄭海斌 紀(jì)守領(lǐng) 時(shí) 杰 程 瑤
1(浙江工業(yè)大學(xué)網(wǎng)絡(luò)空間安全研究院 杭州 310023)2(浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023)3(浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 杭州 310058)4(華為國際有限公司新加坡研究院 新加坡 138589)(chenjinyin@zjut.edu.cn)
目前,深度學(xué)習(xí)算法已經(jīng)取得了巨大的進(jìn)步,并且越來越多地用于影響個(gè)人生活的決策應(yīng)用中,包括圖像分類[1]、欺詐檢測(cè)[2]、情緒分析[3]、面部識(shí)別[4]、語音理解[5]、自動(dòng)駕駛[6]、醫(yī)學(xué)診斷[7]等,深度學(xué)習(xí)在這些復(fù)雜任務(wù)上的性能已經(jīng)達(dá)到甚至超過了人類決策的水平,能夠?qū)崿F(xiàn)比機(jī)器學(xué)習(xí)更高的準(zhǔn)確率.然而,深度學(xué)習(xí)在基于種族、年齡、性別等敏感屬性上的應(yīng)用仍然具有不公平性,這種基于數(shù)據(jù)的學(xué)習(xí)方法會(huì)過度關(guān)聯(lián)敏感屬性,可能會(huì)對(duì)受保護(hù)群體表現(xiàn)出歧視行為,從而對(duì)個(gè)人和社會(huì)產(chǎn)生潛在的負(fù)面影響.例如,美國法院使用COMPAS作為刑事司法系統(tǒng)中的風(fēng)險(xiǎn)評(píng)估工具,用來衡量每一個(gè)被告再次犯罪的概率.然而,對(duì)此工具的調(diào)查發(fā)現(xiàn)COMPAS對(duì)于種族這一敏感屬性存在不公平性,非裔美國人被告再次犯罪的風(fēng)險(xiǎn)估計(jì)平均高于白人被告[8].在醫(yī)學(xué)領(lǐng)域,年齡作為一種潛在的敏感屬性,會(huì)影響基于深度學(xué)習(xí)診斷系統(tǒng)的評(píng)估結(jié)果.例如,來自UCI機(jī)器學(xué)習(xí)知識(shí)庫的Heart Dataset包含了906名不同年齡段患者的14個(gè)處理過的特征[9].這個(gè)數(shù)據(jù)集的目標(biāo)是準(zhǔn)確地預(yù)測(cè)一個(gè)人是否患有心臟病,而研究發(fā)現(xiàn)系統(tǒng)對(duì)年齡的偏見可能會(huì)導(dǎo)致不必要的醫(yī)療護(hù)理.在某些簡(jiǎn)歷篩選工具中,存在對(duì)性別這一敏感屬性產(chǎn)生歧視性行為的現(xiàn)象,導(dǎo)致男性在應(yīng)聘過程中比女性更有優(yōu)勢(shì).深度學(xué)習(xí)在應(yīng)用過程中存在的不公平現(xiàn)象引起了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,Du[10]和Ross等人[11]使用局部解釋對(duì)深度模型進(jìn)行正則化訓(xùn)練從而實(shí)現(xiàn)模型的公平;Elazar[12]和Zhang等人[13]使用對(duì)抗性訓(xùn)練從模型的隱層表示中去除敏感屬性的信息,從而得到一個(gè)公平的分類器.
與機(jī)器學(xué)習(xí)方法相同,深度學(xué)習(xí)存在的偏見也是來自于數(shù)據(jù)和模型.一方面,深度學(xué)習(xí)是基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式,它使模型能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)有用的表示.但是這些數(shù)據(jù)在標(biāo)注過程中會(huì)引入偏見,這些數(shù)據(jù)偏見被深度模型復(fù)制甚至放大.另一方面,深度模型的結(jié)構(gòu)是基于經(jīng)驗(yàn)設(shè)計(jì)的,其訓(xùn)練是一個(gè)黑盒過程,因此很難確定訓(xùn)練好的模型是基于正確的理由做出的決定,還是受偏見影響做出的不公平判斷,這也使得模型去偏成為極具挑戰(zhàn)性的任務(wù).
目前,面向深度學(xué)習(xí)的公平性研究領(lǐng)域還有很大的發(fā)展空間,針對(duì)來自數(shù)據(jù)、模型的偏見問題已經(jīng)成為重點(diǎn)關(guān)注對(duì)象,仍需要不斷的探索.同時(shí)由于深度學(xué)習(xí)在高風(fēng)險(xiǎn)領(lǐng)域中的應(yīng)用,對(duì)數(shù)據(jù)偏見的預(yù)處理去偏、對(duì)模型偏見的中處理去偏、以及后驗(yàn)性去偏方法,正在引起業(yè)界和學(xué)術(shù)界的關(guān)注.
為了更好地探究深度學(xué)習(xí)的公平性與未來的發(fā)展方向,本文將綜述深度學(xué)習(xí)偏見的不同來源并分類,對(duì)預(yù)處理去偏方法、深度模型的公平性訓(xùn)練方法以及后驗(yàn)去偏方法進(jìn)行介紹,并列舉目前主流的面向深度學(xué)習(xí)的去偏平臺(tái)及去偏方法的公平性評(píng)估指標(biāo),同時(shí)對(duì)未來可能的研究方向作出展望.
由于訓(xùn)練數(shù)據(jù)標(biāo)注和深度模型結(jié)構(gòu)設(shè)計(jì)本身存在偏見,會(huì)導(dǎo)致深度學(xué)習(xí)任務(wù)的預(yù)測(cè)結(jié)果存在不公平現(xiàn)象.根據(jù)偏見的來源不同,我們將偏見類型分為數(shù)據(jù)偏見和模型偏見.
訓(xùn)練數(shù)據(jù)中可能存在由歷史社會(huì)原因產(chǎn)生的偏見,在有偏見的數(shù)據(jù)上學(xué)習(xí)的模型可能會(huì)導(dǎo)致預(yù)測(cè)結(jié)果的不公平性.數(shù)據(jù)的偏見會(huì)以多種形式存在,Suresh等人[14]討論了數(shù)據(jù)偏見的不同來源,以及這些偏見的產(chǎn)生方式;Olteanu等人[15]準(zhǔn)備了一份完整的不同類型偏見的列表,并對(duì)由于數(shù)據(jù)偏見而產(chǎn)生的后果進(jìn)行分析;Mehrabi等人[16]總結(jié)了以上2篇論文中引入的一些最普遍數(shù)據(jù)偏見的來源,但是缺少對(duì)偏見來源的細(xì)粒度分類.
在本文中,我們將介紹這些數(shù)據(jù)偏見的定義并進(jìn)行詳細(xì)說明,此外還將按照發(fā)生的原因?qū)@些數(shù)據(jù)偏見進(jìn)行細(xì)粒度的分類.我們將其分為時(shí)間偏見、空間偏見、行為偏見、群體偏見、先驗(yàn)偏見、后驗(yàn)偏見.
1.1.1 時(shí)間偏見
時(shí)間偏見是指由于時(shí)間維度的差異引起的偏見.例如,在Twitter上可以觀察到一個(gè)例子,人們談?wù)撘粋€(gè)特定的話題時(shí)開始使用標(biāo)簽來吸引注意力,然后不使用標(biāo)簽繼續(xù)討論該事件[15,17],這是由不同時(shí)期人群和行為的差異產(chǎn)生的[15].另一個(gè)典型的時(shí)間偏見是縱向數(shù)據(jù)偏見,觀察性研究經(jīng)常把橫斷面數(shù)據(jù)當(dāng)作縱向的.例如,對(duì)大量Reddit數(shù)據(jù)的分析顯示,評(píng)論長(zhǎng)度會(huì)隨著時(shí)間的推移而減少[18].
然而,大量的數(shù)據(jù)代表的是人口的橫截面快照,實(shí)際上包含了不同年份加入Reddit的不同群體.當(dāng)數(shù)據(jù)按隊(duì)列分列時(shí),發(fā)現(xiàn)每個(gè)隊(duì)列中的評(píng)論長(zhǎng)度隨時(shí)間增加[18].時(shí)間偏見可能會(huì)導(dǎo)致數(shù)據(jù)缺失,對(duì)后續(xù)的分析統(tǒng)計(jì)帶來困難.
1.1.2 空間偏見
空間偏見主要指的是由數(shù)據(jù)空間維度產(chǎn)生的偏見,也就是常說的維數(shù)災(zāi)難.Verleysen等人[19]指出基于學(xué)習(xí)原理的數(shù)據(jù)分析工具可從學(xué)習(xí)樣本中推斷出知識(shí)或信息.顯然,通過學(xué)習(xí)建立的模型僅在可獲得學(xué)習(xí)數(shù)據(jù)的空間范圍內(nèi)有效.模型不可能對(duì)與所有學(xué)習(xí)點(diǎn)都不相同的數(shù)據(jù)進(jìn)行概括.
因此,成功開發(fā)學(xué)習(xí)算法的關(guān)鍵要素之一就是要有足夠的數(shù)據(jù)進(jìn)行學(xué)習(xí),以便它們可以填充模型必須包含的空間.在保持其他所有約束不變的情況下,學(xué)習(xí)數(shù)據(jù)的數(shù)量應(yīng)隨維度呈指數(shù)增長(zhǎng),例如,學(xué)習(xí)二維數(shù)據(jù)需要100個(gè)具有相同平滑度的模型;對(duì)于3維模型,則需1 000個(gè).指數(shù)級(jí)增長(zhǎng)是維數(shù)災(zāi)難后果,這些數(shù)據(jù)通常會(huì)對(duì)算法的行為和性能產(chǎn)生不利影響.對(duì)于這類偏見,我們通常采用降維的方法進(jìn)行偏見的減輕.
1.1.3 行為偏見
行為偏見可以分為社會(huì)行為偏見[20-21]和用戶行為偏見[21].其中社會(huì)行為偏見是由社會(huì)歷史固有的偏見或者他人的行為引起的偏見,可分為社會(huì)偏見[20]、緊急偏見[22]、歷史偏見[14]、資助偏見[16].社會(huì)偏見[18]的產(chǎn)生是由于他人的行為可能會(huì)影響我們的判斷,例如,用戶想要評(píng)價(jià)或回顧一個(gè)得分較低的項(xiàng)目,但當(dāng)受到其他高評(píng)分的影響時(shí),用戶可能認(rèn)為自己太過苛刻,從而會(huì)改變自己的評(píng)分[20-21].緊急偏見[22]的發(fā)生由于人口、文化價(jià)值觀或社會(huì)知識(shí)的變化而產(chǎn)生的,這種偏見更可能在用戶界面中被觀察到,因?yàn)橥ㄟ^設(shè)計(jì),界面傾向于反映未來用戶的能力、特征和習(xí)慣.歷史偏見[14]是指世界上已經(jīng)存在的偏見和社會(huì)技術(shù)問題,即使給定一個(gè)完美的采樣和特征選擇,也會(huì)滲透到數(shù)據(jù)生成過程中.資助偏見[16]是指當(dāng)公司為了滿足資助機(jī)構(gòu)的要求而進(jìn)行虛假報(bào)告,從而出現(xiàn)人為的偏見.例如,當(dāng)公司的員工為了讓資助機(jī)構(gòu)滿意而在他們的數(shù)據(jù)和統(tǒng)計(jì)中報(bào)告進(jìn)行杜撰,使報(bào)告結(jié)果產(chǎn)生偏見.
用戶行為偏見[23]源于跨平臺(tái)、上下文或不同數(shù)據(jù)集的不同用戶行為.這類偏見的典型例子可在Miller等人[24]的研究中觀察到,其中作者展示了不同平臺(tái)之間的表情符號(hào)表達(dá)的差異如何導(dǎo)致人們的不同反應(yīng)和行為,有時(shí)甚至導(dǎo)致交流錯(cuò)誤.用戶行為偏見可以分為用戶交互偏見[23]、內(nèi)容產(chǎn)生偏見[23]和流行偏見[23].用戶交互偏見[23]不僅可以在Web上觀察到,而且可以從2個(gè)來源觸發(fā)——用戶界面和通過用戶自己選擇的偏見行為[16].這種偏見可能會(huì)受到其他類型和子類型的影響,比如呈現(xiàn)偏見[20]和排名偏見[20].呈現(xiàn)偏見[20]是信息如何呈現(xiàn)的結(jié)果,例如,在Web上,用戶只能單擊他們看到的內(nèi)容,因此其他內(nèi)容不會(huì)被單擊,也可能是用戶沒有看到Web上的所有信息.排名偏見[20]是由于人們認(rèn)為排名靠前的搜索結(jié)果是最相關(guān)、最重要的,這種想法會(huì)吸引更多的點(diǎn)擊量.這種偏見影響了搜索引擎[20]和眾包應(yīng)用程序[25].內(nèi)容產(chǎn)生偏見[15]源于用戶生成的內(nèi)容在結(jié)構(gòu)、詞匯、語義和句法上的差異.例如,Nguyen等人[26]討論了不同性別和年齡群體在使用語言方面的差異.流行偏見[27-28]是由于越受歡迎的物品越容易被曝光.這種偏見可以在搜索引擎或推薦系統(tǒng)中看到,在這些系統(tǒng)中,受歡迎的對(duì)象會(huì)更多地呈現(xiàn)給公眾.行為偏見會(huì)使用戶在決策過程中受到其他外界因素的影響,導(dǎo)致獲得的信息不足或者帶有偏見,從而產(chǎn)生歧視性行為.
1.1.4 群體偏見
群體偏見[15]產(chǎn)生于數(shù)據(jù)集或平臺(tái)中所表示的用戶群體中的統(tǒng)計(jì)數(shù)據(jù)、代表數(shù)據(jù)和用戶特征與原始目標(biāo)群體不同的時(shí)候.典型的例子是對(duì)于不同社交平臺(tái)上不同用戶的統(tǒng)計(jì)數(shù)據(jù),女性更傾向于使用Pinterest、Facebook、Instagram等社交平臺(tái),而男性在Reddit或Twitter等在線論壇上更活躍.Huang等人[29]調(diào)查了根據(jù)性別、種族、民族和父母教育背景劃分的年輕人使用社交媒體的例子和數(shù)據(jù).
群體偏見可分為聚集偏見[14]和Simpson悖論[30].聚集偏見[14]是由于人們觀察其他不同的子群體得出錯(cuò)誤結(jié)論時(shí)或者對(duì)一個(gè)群體的錯(cuò)誤假設(shè)影響模型的結(jié)果和定義時(shí)產(chǎn)生的.例如,在臨床輔助工具中用于糖尿病診斷和監(jiān)測(cè)的糖化血紅蛋白水平在不同性別和種族之間存在復(fù)雜的差異.由于這些因素以及它們?cè)诓煌淖尤后w中的不同意義和重要性,單一的模型很可能不適合一個(gè)群體中的所有群體[14].
Simpson悖論[30]可能會(huì)對(duì)由不同行為的子群體或個(gè)體組成的異構(gòu)性數(shù)據(jù)的分析產(chǎn)生偏見.這類悖論的一個(gè)比較著名的例子是對(duì)加州大學(xué)伯克利分校的性別歧視訴訟[31].在分析了研究生院的招生數(shù)據(jù)后,可以發(fā)現(xiàn)與男性相比,女性被錄取為研究生的比例更小.然而,當(dāng)對(duì)各個(gè)院系的招生數(shù)據(jù)進(jìn)行分析后發(fā)現(xiàn)女性申請(qǐng)者具有平等的地位,在某些情況下甚至比男性小有優(yōu)勢(shì).Simpson悖論在許多領(lǐng)域都得到了觀察,包括生物學(xué)[32]、心理學(xué)[33]、天文學(xué)[34]和計(jì)算社會(huì)科學(xué)[35].群體偏見會(huì)導(dǎo)致用戶得到錯(cuò)誤的數(shù)據(jù),從而得到錯(cuò)誤的結(jié)論.
1.1.5 先驗(yàn)偏見
先驗(yàn)偏見發(fā)生在我們選擇、利用和測(cè)量特定特征的方式上.先驗(yàn)偏見可以分為抽樣偏見[16]、自我選擇偏見[16]、鏈接偏見[15]和遺漏變量偏見[16].抽樣偏見[16]是由于子組的非隨機(jī)抽樣而產(chǎn)生的,結(jié)果是對(duì)一個(gè)種群估計(jì)的趨勢(shì)可能不能推廣到從一個(gè)新種群收集的數(shù)據(jù).自我選擇偏見[16]是抽樣偏見的一種亞型,它是指研究對(duì)象在這種調(diào)查研究中選擇自己.例如,在一項(xiàng)關(guān)于成功學(xué)生的調(diào)查研究中,一些不那么成功的學(xué)生可能會(huì)認(rèn)為他們是成功的,這就會(huì)影響分析的結(jié)果.
鏈接偏見[15]是指當(dāng)從用戶連接、活動(dòng)或交互中獲得的網(wǎng)絡(luò)屬性不同并歪曲了用戶的真實(shí)行為的現(xiàn)象.Mehrabi等人[36]指出,僅考慮網(wǎng)絡(luò)中的鏈接,而不考慮網(wǎng)絡(luò)中用戶的內(nèi)容和行為,社交網(wǎng)絡(luò)會(huì)偏向低度節(jié)點(diǎn).Wilson等人[37]也表明,用戶交互與基于特征的社交鏈接模式有顯著差異.網(wǎng)絡(luò)中的差異可能是許多因素造成的,如網(wǎng)絡(luò)采樣,它可以改變網(wǎng)絡(luò)度量,導(dǎo)致不同類型的問題[38-39].
遺漏變量偏見[16]發(fā)生于當(dāng)一個(gè)或多個(gè)重要的變量被排除在模型之外的時(shí)候.例如,當(dāng)公司設(shè)計(jì)模型來預(yù)測(cè)老客戶繼續(xù)訂閱他們服務(wù)的占比,然而很快發(fā)現(xiàn),多數(shù)的用戶會(huì)取消訂閱并不遵從設(shè)計(jì)模型.取消訂閱的原因可能是市場(chǎng)上出現(xiàn)了一個(gè)新的強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手,它提供同樣的解決方案,但價(jià)格減半.然而預(yù)測(cè)模型并沒有考慮到競(jìng)爭(zhēng)者的出現(xiàn),因此,它被認(rèn)為是一個(gè)被忽略的變量.
1.1.6 后驗(yàn)偏見
后驗(yàn)偏見主要是由于研究人員或觀察者行為導(dǎo)致的偏見,可以分為評(píng)估偏見[14]、因果偏見[16]和觀察者偏見[16].評(píng)估偏見[14]發(fā)生在研究人員評(píng)估過程中,例如,在評(píng)價(jià)諸如Adience和IJB-A等應(yīng)用時(shí),使用不適當(dāng)?shù)幕鶞?zhǔn),從而造成偏見.因果偏見[16]是由于觀察者認(rèn)為相關(guān)性意味著因果關(guān)系這一謬論的結(jié)果.
例如,公司的數(shù)據(jù)分析師想要分析顧客的忠誠度有多成功,這位分析師認(rèn)為,參加了忠誠度計(jì)劃的顧客比沒有參加的顧客在該公司的商店里花更多的錢.這是有問題的,參加忠誠度計(jì)劃的顧客與計(jì)劃在此商店花更多錢這一相關(guān)性并不意味著它們之間的因果關(guān)系.觀察者偏見[16]一般發(fā)生在研究人員下意識(shí)地將他們的期望投射到研究中的時(shí)候.當(dāng)研究人員在采訪和調(diào)查中無意地影響參與者,或者當(dāng)他們挑選對(duì)他們的研究有利的參與者或統(tǒng)計(jì)數(shù)據(jù)時(shí),這種類型的偏見就會(huì)發(fā)生.由于觀察者的異常或者錯(cuò)誤行為會(huì)導(dǎo)致后驗(yàn)偏見,從而得到有歧視性的決策結(jié)果.
深度學(xué)習(xí)算法本身工作方式上存在細(xì)微差別,這些差別可能導(dǎo)致深度模型做出不公平的決策.Du等人[40]從計(jì)算的角度將深度模型的不公平性分為預(yù)測(cè)結(jié)果歧視和預(yù)測(cè)質(zhì)量差異2類.
1.2.1 預(yù)測(cè)結(jié)果歧視的偏見
歧視[41]是指由于某些群體的成員身份,深度模型對(duì)這些群體成員產(chǎn)生不利決策結(jié)果的現(xiàn)象.深度學(xué)習(xí)是基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式,它使模型能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)有用的表示.這些數(shù)據(jù)中有可能包含偏見,這會(huì)導(dǎo)致深度模型復(fù)制、甚至放大數(shù)據(jù)中存在的偏見.更糟糕的是,深度模型不僅依賴這些數(shù)據(jù)中的偏見來做決策,還會(huì)做出毫無根據(jù)的聯(lián)想,放大對(duì)某些敏感屬性的刻板印象[42-43],這最終會(huì)產(chǎn)生具有算法歧視的訓(xùn)練模型.預(yù)測(cè)結(jié)果歧視[40]可以進(jìn)一步分為輸入歧視和表征歧視2類.Du等人[40]對(duì)這2個(gè)子類別進(jìn)行了詳細(xì)的描述.
輸入歧視是盡管深度模型沒有明確地將種族、性別、年齡等敏感屬性作為輸入,但仍可能導(dǎo)致預(yù)測(cè)結(jié)果的歧視[44].大多數(shù)深度模型直接使用原始數(shù)據(jù)作為輸入,因此在輸入數(shù)據(jù)中沒有對(duì)敏感屬性進(jìn)行分類處理.雖然沒有明確敏感屬性,但深度模型仍可能表現(xiàn)出無意的歧視,主要是由于存在一些與類成員高度相關(guān)的特征[40].例如,郵政編碼和姓氏可以用來表示種族,文本輸入中的許多單詞可以用來推斷被預(yù)測(cè)成員的性別,模型預(yù)測(cè)過程可能與受保護(hù)群體高度相關(guān).最終,模型可能對(duì)某些受保護(hù)的群體產(chǎn)生不公平的決策.例如,在就業(yè)系統(tǒng)中,簡(jiǎn)歷篩選工具認(rèn)為男性更有優(yōu)勢(shì),對(duì)女性存在偏見;貸款批準(zhǔn)制度對(duì)屬于特定郵政編碼的人給予負(fù)面評(píng)價(jià),導(dǎo)致對(duì)特定地域的歧視;在刑事司法領(lǐng)域,再犯預(yù)測(cè)系統(tǒng)預(yù)測(cè)將黑人囚犯歸類為“高風(fēng)險(xiǎn)”的可能性是白人囚犯的3倍.
有的時(shí)候預(yù)測(cè)結(jié)果歧視需要從表征的角度進(jìn)行診斷和減輕[40].在某些情況下,將偏見歸因于輸入幾乎是不可能的,例如在圖像輸入領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)可以通過視網(wǎng)膜圖像識(shí)別患者自我報(bào)告的性別,并有可能基于性別產(chǎn)生歧視.此外,在某些應(yīng)用場(chǎng)景中如果輸入維度太大,那么查找輸入的敏感屬性就很困難[43].在這些情況下,某些受保護(hù)屬性的類成員關(guān)系可以在深度模型中表示,模型將根據(jù)這些信息做出決策,并產(chǎn)生歧視[40].例如在信用評(píng)分中,使用原始文本作為輸入,作者的人口統(tǒng)計(jì)信息被編碼在基于深度模型中間表示的信用評(píng)分分類器中.
1.2.2 預(yù)測(cè)質(zhì)量差異的偏見
預(yù)測(cè)質(zhì)量差異[40]的偏見是指不同受保護(hù)群體模型的預(yù)測(cè)質(zhì)量差異較大.與其他群體相比,深度模型對(duì)某些群體的預(yù)測(cè)質(zhì)量較低.預(yù)測(cè)結(jié)果歧視主要涉及高風(fēng)險(xiǎn)領(lǐng)域的應(yīng)用,而預(yù)測(cè)質(zhì)量差異涉及一般領(lǐng)域的應(yīng)用.例如,在計(jì)算機(jī)視覺領(lǐng)域[45],對(duì)膚色較深的女性面部識(shí)別的表現(xiàn)較差;在自然語言處理中[46],語言識(shí)別系統(tǒng)在處理某些種族的人產(chǎn)生的文本時(shí)表現(xiàn)明顯較差;在醫(yī)療保健領(lǐng)域[47],重癥監(jiān)護(hù)病房死亡率和精神病30天再入院模型預(yù)測(cè)準(zhǔn)確度在性別和保險(xiǎn)類型之間存在顯著差異.這通常是由于訓(xùn)練數(shù)據(jù)代表性不足導(dǎo)致的問題,在這種情況下,用戶對(duì)人口的某些方面收集的數(shù)據(jù)可能不夠充足或不夠可靠.因?yàn)樯疃饶P陀?xùn)練的典型目標(biāo)是將總體誤差最小化,也就是說模型如果不能同時(shí)適合群體中的所有個(gè)體,它將以適合群體中的大多數(shù)個(gè)體為目標(biāo).雖然這可以最大限度地提高整體模型預(yù)測(cè)的準(zhǔn)確性,但它可能因?yàn)槿狈Υ硇詳?shù)據(jù)從而導(dǎo)致對(duì)少數(shù)類群體的預(yù)測(cè)表現(xiàn)出不公平性.
綜上所述,我們根據(jù)偏見的來源將其分為數(shù)據(jù)偏見和模型偏見,并進(jìn)一步將數(shù)據(jù)偏見分為時(shí)間偏見、空間偏見、行為偏見等6個(gè)子類,將模型偏見分為預(yù)測(cè)結(jié)果歧視和預(yù)測(cè)質(zhì)量差異2個(gè)子類,并且對(duì)這些偏見進(jìn)行了詳細(xì)的介紹.在表1中我們對(duì)數(shù)據(jù)偏見和模型偏見進(jìn)行列舉,如表1中的“偏見類型”;并表示出它們的子類型,見第2列的“子類型”;以及這些子類型的組成,見第3列的“組成”.這些偏見可能發(fā)生在不同的階段,例如,數(shù)據(jù)本身存在的偏見(表1中用“數(shù)據(jù)階段”表示)、由于用戶行為導(dǎo)致的偏見(表1中用“用戶行為”表示)以及由于算法細(xì)微的差別產(chǎn)生的偏見(表1中用“算法階段”表示),在表中用“√”表示偏見所發(fā)生的階段.此外,在表1最后一列“去偏方法”中介紹了上述偏見的常用去偏處理方法,去偏方法的具體內(nèi)容將在第2~4節(jié)進(jìn)行詳細(xì)介紹.
Table 1 Classification of Bias’s Sources表1 偏見來源的分類
預(yù)處理技術(shù)通過對(duì)數(shù)據(jù)進(jìn)行處理,以減輕預(yù)測(cè)模型潛在的歧視.如果允許算法修改訓(xùn)練數(shù)據(jù),則可以使用預(yù)處理技術(shù)[59].例如,可以通過獲取更多數(shù)據(jù)來擴(kuò)充數(shù)據(jù)集,對(duì)于代表性不強(qiáng)的數(shù)據(jù)集,更多的數(shù)據(jù)往往能得到更多的分布信息.數(shù)據(jù)預(yù)處理去偏可以分為數(shù)據(jù)層面處理方法和算法層面處理方法.
數(shù)據(jù)層面處理方法多借助數(shù)據(jù)采樣法等方法使整體訓(xùn)練集樣本趨于平衡,從而達(dá)到去偏效果.常用的方法有數(shù)據(jù)重采樣、類別均衡采樣、數(shù)據(jù)合成、數(shù)據(jù)增強(qiáng)等.
2.1.1 基于數(shù)據(jù)重采樣的去偏方法
Burnaev等人[48]的實(shí)驗(yàn)結(jié)果表明重采樣對(duì)數(shù)據(jù)集質(zhì)量的影響在很大程度上取決于重采樣乘數(shù),并且重采樣方法的性能取決于所使用的分類器,此方法在人工數(shù)據(jù)集上的去偏效果要好于真實(shí)數(shù)據(jù)集.如果正確選擇了方法,那么在大多數(shù)情況下,重采樣可以改善不平衡數(shù)據(jù)集的分類,從而達(dá)到去偏的效果.但是通過重采樣來對(duì)數(shù)據(jù)集進(jìn)行去偏并不是總能達(dá)到預(yù)期效果,在某些情況下,數(shù)據(jù)重采樣可能會(huì)引入大量重復(fù)樣本,會(huì)減慢訓(xùn)練速度,使模型在過采樣時(shí)容易過擬合,或者丟棄重要的重要示例.
2.1.2 基于類別均衡采樣的去偏方法
樣本類別分布不均衡也是導(dǎo)致深度模型不公平的一個(gè)原因,類別均衡采樣是解決這類問題一個(gè)方法.常用的類別均衡方法就是根據(jù)每個(gè)類別的觀察次數(shù)重新采樣和重新加權(quán).Cui等人[49]認(rèn)為隨著樣本數(shù)量的增加,新添加的數(shù)據(jù)點(diǎn)帶來的好處將減少.他們提出了一種新穎的理論框架,通過將每個(gè)樣本與其較小的鄰域相關(guān)聯(lián)來測(cè)量數(shù)據(jù).有效樣本數(shù)通過簡(jiǎn)單公式(1-βn)(1-β)來計(jì)算,其中n是樣本數(shù),β∈[0,1)是超參數(shù).Cui等人[49]設(shè)計(jì)了一種重新加權(quán)方案,該方案使用每個(gè)類的有效樣本數(shù)來重新平衡損失,從而產(chǎn)生類平衡的損失.
類別均衡采樣方法可以使不平衡樣本分布均衡,從而達(dá)到數(shù)據(jù)去偏的效果.但是,這種方法可能會(huì)破壞原屬性的線性關(guān)系,改變?cè)瓨颖镜哪承┨卣髦?此外,Shrivastava[60]等人提出了OHEM方法對(duì)樣本不平衡的問題進(jìn)行處理.
2.1.3 基于合成數(shù)據(jù)的去偏方法
Chawla等人[50]提出了一種叫做Synthetic Minority Over-sampling Technique(SMOTE)的合成數(shù)據(jù)的方法.SMOTE通過創(chuàng)建“綜合”示例而不是通過替換來對(duì)少數(shù)群體進(jìn)行過采樣.通過獲取每個(gè)少數(shù)種群樣本以及基于距離度量選擇類別下2個(gè)或者更多的相似樣本引入綜合示例,對(duì)少數(shù)種群進(jìn)行過采樣.
合成數(shù)據(jù)是通過以下方式生成的:取所考慮的特征向量(樣本)與其最近鄰域之間的差,將該差乘以0到1之間的一個(gè)隨機(jī)數(shù),并將其添加到所考慮的特征向量中.這將導(dǎo)致沿著2個(gè)特定特征之間的線段選擇一個(gè)隨機(jī)點(diǎn),這樣就構(gòu)造了許多新數(shù)據(jù).Chawla等人[50]的實(shí)驗(yàn)結(jié)果表明SMOTE方法可以提高少數(shù)群體分類器的準(zhǔn)確性.SMOTE不僅提供了一種新的過采樣方法,并且SMOTE和欠采樣的組合比純欠采樣性能更好.合成數(shù)據(jù)這一去偏方法對(duì)數(shù)據(jù)量較少數(shù)據(jù)集的去偏效果較好,同時(shí)還能提高分類器的準(zhǔn)確性,但是合成數(shù)據(jù)可能會(huì)引入重復(fù)樣本.
2.1.4 基于增強(qiáng)數(shù)據(jù)的去偏方法
數(shù)據(jù)增強(qiáng)[51](data augmentation)針對(duì)有限數(shù)據(jù)問題的數(shù)據(jù)空間提供解決方案,包含一套技術(shù)可用于加強(qiáng)深度學(xué)習(xí)所使用的數(shù)據(jù)集的大小和質(zhì)量,從而給用戶提供更好的深度學(xué)習(xí)研究條件.
使用數(shù)據(jù)增強(qiáng)技術(shù)可以構(gòu)建模型.例如,當(dāng)輸入數(shù)據(jù)集是圖像時(shí),可以應(yīng)用圖像數(shù)據(jù)增強(qiáng)圖像方法.該增強(qiáng)方法包括幾何變換、色彩空間增強(qiáng)、抖動(dòng)、混合圖像、隨機(jī)擦除、特征空間增強(qiáng)、對(duì)抗訓(xùn)練、生成對(duì)抗網(wǎng)絡(luò)、神經(jīng)樣式轉(zhuǎn)換和元學(xué)習(xí)等算法.數(shù)據(jù)增強(qiáng)旨在增加樣本數(shù)量,當(dāng)數(shù)據(jù)量以及多樣性很少的情況下是非常有效的,但它無法克服小型數(shù)據(jù)集存在的所有偏差,例如,在犬種分類任務(wù)中,如果只有斗牛犬并且沒有金毛尋回犬,則數(shù)據(jù)增強(qiáng)方法不會(huì)創(chuàng)建金毛尋回犬.但是,使用數(shù)據(jù)增強(qiáng)可以避免或至少可以大大減少偏差的幾種形式,例如照明、遮擋、縮放等.數(shù)據(jù)增強(qiáng)的不足之處是可能引入重復(fù)樣本.
算法層面處理不平衡樣本問題的方法有代價(jià)敏感、主成分分析、One-hot編碼等.
2.2.1 基于代價(jià)敏感的去偏方法
為了能夠?qū)ι贁?shù)類樣本進(jìn)行比較準(zhǔn)確的識(shí)別,可采用基于代價(jià)敏感學(xué)習(xí)的方法,將少數(shù)類視為重要類別,并令其錯(cuò)分代價(jià)大于多數(shù)類的錯(cuò)分代價(jià).
2.2.2 基于主成分分析的去偏方法
主成分分析[53](principal component analysis, PCA)是一種線性、無監(jiān)督、生成和全局特征學(xué)習(xí)方法,可以對(duì)空間偏見進(jìn)行減輕.它是通過創(chuàng)建新的不相關(guān)變量來實(shí)現(xiàn)的,從而連續(xù)地最大化方差.查找主成分變量的過程可以簡(jiǎn)化為求解特征值以及特征向量的問題,并且新變量是通過現(xiàn)有的數(shù)據(jù)集定義的,而不是先驗(yàn)的,因此PCA是自適應(yīng)的數(shù)據(jù)去偏分析技術(shù).從另一種意義上說,它也是自適應(yīng)的,因?yàn)橐呀?jīng)開發(fā)了針對(duì)各種不同數(shù)據(jù)類型和結(jié)構(gòu)量身定制的技術(shù)變體.
2.2.3 One-hot編碼
One-hot編碼的操作十分簡(jiǎn)單,從業(yè)人員經(jīng)常將其用作更復(fù)雜技術(shù)的第一步.One-hot編碼[54]定義如下:令x為具有n個(gè)不同值x1,x2,…,xn的某個(gè)離散類別隨機(jī)變量.然后,特定值xi的One-hot編碼是向量v,其中v中第i個(gè)分量值為1,其余每個(gè)分量均為零.例如,假設(shè)我們有一些隨機(jī)變量x取自設(shè)置S={a,b,c}.令x1=a,x2=b和x3=c.x的一次編碼為:(1,0,0),(0,1,0)和(0,0,1).由于分類變量級(jí)別的One-hot編碼僅取決于級(jí)別的數(shù)量,因此One-hot編碼屬于確定的用于編碼分類變量的技術(shù),可以用于神經(jīng)網(wǎng)絡(luò).對(duì)數(shù)據(jù)進(jìn)行預(yù)處理去偏時(shí),通常要確定2個(gè)相似個(gè)體特定特征之間的度量距離,One-hot編碼能更加合理的計(jì)算特征之間的距離,從而達(dá)到去偏的效果.Ruoss等人[61]使用One-hot編碼對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.
除了以上介紹的一般數(shù)據(jù)預(yù)處理的方法外,各類文獻(xiàn)中也提出了各種方法.為了減輕數(shù)據(jù)偏見對(duì)最終決策帶來的影響,Benjamin[62],Gebru[63]等人將數(shù)據(jù)表作為數(shù)據(jù)的支持文件來報(bào)告數(shù)據(jù)集創(chuàng)建方法、其特征、動(dòng)機(jī)及其偏見.Holland等人[64]提出了標(biāo)簽,就像食品上的營(yíng)養(yǎng)標(biāo)簽一樣,以便更好地對(duì)每個(gè)任務(wù)的每個(gè)數(shù)據(jù)進(jìn)行分類.除了這些一般的技術(shù),一些工作還針對(duì)更具體類型的偏見.例如,Alipourfard[65],Zhang等人[66]提出了自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中Simpson悖論的方法.在一些工作中,因果模型和圖表也被用于檢測(cè)數(shù)據(jù)中的直接歧視,以及對(duì)數(shù)據(jù)進(jìn)行修改的預(yù)防技術(shù),以使預(yù)測(cè)不存在直接歧視.Hajian等人[67]還致力于防止數(shù)據(jù)挖掘中的歧視,針對(duì)直接歧視、間接歧視和同時(shí)產(chǎn)生的影響.生成式對(duì)抗網(wǎng)絡(luò)可用于為少數(shù)生成合成數(shù)據(jù),這可以提高少數(shù)群體的預(yù)測(cè)質(zhì)量,同時(shí)又不影響未受保護(hù)群體的預(yù)測(cè)性能,從而避免對(duì)這些群體的歧視.
在介紹了數(shù)據(jù)預(yù)處理方法之后,我們?cè)诒竟?jié)中將介紹深度學(xué)習(xí)模型去偏方法,確保深度學(xué)習(xí)模型的公平性.模型去偏方法通常可以分為模型正則化和對(duì)抗性訓(xùn)練2類.前者通過在總體目標(biāo)函數(shù)中添加輔助正則化項(xiàng)來實(shí)現(xiàn),顯式或隱式地對(duì)某些公平性度量施加約束,后者可以從深度模型的中間表示中去除敏感屬性的信息,從而得到一個(gè)公平的分類器.
正則化是模型去偏的一種方法,具體來說,使用局部解釋對(duì)模型訓(xùn)練進(jìn)行正則化訓(xùn)練[10-11].對(duì)于整個(gè)輸入x,除了真值y之外,這種正則化還需要特性方面的注釋r,指定輸入中的每個(gè)特性是否與受保護(hù)的屬性相關(guān),r可以進(jìn)一步融入到訓(xùn)練過程中,目的是使深度模型更加公平.正則化的總損失函數(shù)如式(1)所示:
(1)
其中,d1為正態(tài)分類損失函數(shù),R(θ)為正則化項(xiàng).函數(shù)floc(x)是局部解釋方法,d2是距離度量函數(shù).這3個(gè)術(shù)語分別用于指導(dǎo)深度模型進(jìn)行正確的預(yù)測(cè),超參數(shù)λ1和λ2用于平衡這3個(gè)術(shù)語.
例如,Du等人[10]采用一種名為CREX(CRedible EXplanation)的方法對(duì)深度模型進(jìn)行正則化訓(xùn)練,使用的損失函數(shù)如式(2)所示:
L(θ,x,y,r)=Lsup v+λ1Lrationale+λ2Lsparse,
(2)
其中,作者使用的正態(tài)分類損失函數(shù)為交叉式損失Lsup v.CREX的核心思想是深度模型應(yīng)該依靠合理的證據(jù)來做出決定.CREX的示意圖如圖1所示.在圖1中,黑色實(shí)線表示向前的路徑,兩端帶箭頭的虛線是損失,一側(cè)帶有箭頭的虛線表示坡度流.xn,rn,yn三個(gè)向量從左到右分別是輸入、解釋和基本原理.
Fig. 1 Schematic of CREX[10]圖1 CREX示意圖[10]
從模型訓(xùn)練的角度來看,對(duì)抗性訓(xùn)練是一種典型的解決方案,可以從深度模型的中間表示中去除敏感屬性的信息,從而得到一個(gè)公平的分類器[12-13,68].其目標(biāo)是學(xué)習(xí)一種高級(jí)輸入表征,該表征對(duì)主要預(yù)測(cè)任務(wù)具有最大信息量,同時(shí)對(duì)受保護(hù)屬性具有最小預(yù)測(cè)性.對(duì)抗性訓(xùn)練過程可以表示為式(3):
(3)
深度模型可以記為f(x)=c(h(x)),其中,h(x)是輸入x的中間表示,c(·)負(fù)責(zé)將中間表示映射到最終的模型預(yù)測(cè).f(x)可以是通過反向傳播學(xué)習(xí)的任意深度模型.要檢查的受保護(hù)屬性使用z表示,主任務(wù)f(x)=c(h(x))本身并沒有與受保護(hù)的屬性z進(jìn)行排序.構(gòu)造了一個(gè)對(duì)抗性分類器g(h(x)),從表示h(x)中預(yù)測(cè)受保護(hù)屬性z.訓(xùn)練是在f(x)和對(duì)抗性分類器g(h(x))之間迭代進(jìn)行的.經(jīng)過一定的迭代次數(shù),我們可以得到去偏的深度模型.
圖2為對(duì)抗性訓(xùn)練的示意圖,利用對(duì)抗性訓(xùn)練,通過表示減少歧視.直覺上是通過加強(qiáng)深度表示來最大限度地預(yù)測(cè)主要任務(wù)標(biāo)簽,同時(shí)最小限度地預(yù)測(cè)敏感屬性.
Fig. 2 Schematic of adversarial training[40]圖2 對(duì)抗性訓(xùn)練示意圖[40]
對(duì)抗訓(xùn)練廣泛適用于不同的深度模型架構(gòu)和不同的輸入格式,包括帶有圖像數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)[69]、帶有文本數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)[70]、以及帶有分類數(shù)據(jù)的多層神經(jīng)網(wǎng)絡(luò)[71].Zhang等人[13]提出了一個(gè)模型用來減輕從關(guān)聯(lián)的數(shù)據(jù)中學(xué)習(xí)到的模型中的偏見.在這個(gè)模型中,他們?cè)噲D最大限度地提高y的預(yù)測(cè)精度,同時(shí)最小化對(duì)手預(yù)測(cè)受保護(hù)或敏感變量的能力.
除深度模型外,在傳統(tǒng)的機(jī)器學(xué)習(xí)中也有很多模型去偏的方法.Bolukbasi等人[41]注意到在詞類比測(cè)試中使用最新的詞嵌入時(shí),“男人”將被映射為“計(jì)算機(jī)程序員”,而“女人”將被映射為“家庭主婦”.針對(duì)這種對(duì)女性的偏見,作者提出一種詞嵌入的方法,該方法通過遵循以下步驟對(duì)性別中性詞進(jìn)行嵌入:首先識(shí)別性別子空間,然后確定捕獲偏見的嵌入方向[41],最后將性別子空間與性別中性詞分開,并確保在性別子空間中將所有性別中性詞都刪除并歸零[41].
Zhao等人[43]研究了語義角色標(biāo)簽?zāi)P秃蛿?shù)據(jù)集imSitu,并發(fā)現(xiàn)在imSitu中烹飪圖像中只有33%的代理角色是男人,其余67%的烹飪圖像中有女性代理角色.除了數(shù)據(jù)集中現(xiàn)有的偏見外,該模型還會(huì)放大偏見.因此,他們提出了一種稱為RBA(reducing bias amplification)的校準(zhǔn)算法.RBA是一種通過在結(jié)構(gòu)化預(yù)測(cè)中校準(zhǔn)預(yù)測(cè)來消除模型偏見的技術(shù),其思想是確保模型預(yù)測(cè)在訓(xùn)練數(shù)據(jù)中遵循相同的分布.
在人工智能領(lǐng)域中已經(jīng)提出了各種方法來消除偏見的影響,這些方法大多數(shù)都試圖避免敏感或受保護(hù)屬性對(duì)決策過程的影響.Lipton等人[72]提出通過在訓(xùn)練階段允許使用受保護(hù)屬性,但避免在預(yù)測(cè)期間使用受保護(hù)屬性,他們認(rèn)為通過這種方法可以減輕偏見.Louizos等人[73]使用變分編碼器對(duì)表示學(xué)習(xí)進(jìn)行去偏.Mehrabi等人[36]提出了一種新的社區(qū)檢測(cè)方法,以減輕模型對(duì)在線社交社區(qū)中處境不利群體的損害.這些對(duì)其他模型去偏方法目前還沒有廣泛應(yīng)用于深度模型.
深度學(xué)習(xí)模型后驗(yàn)性去偏使用可解釋技術(shù)作為一種有效的工具,用戶可以利用可解釋技術(shù)生成特征重要度向量,然后對(duì)特征重要度向量進(jìn)行分析,從而達(dá)到去偏的效果.在本節(jié)中,我們先介紹深度模型可解釋性的2種分類,然后對(duì)后驗(yàn)性去偏方法進(jìn)行介紹.
可解釋性可以作為一種有效的調(diào)試工具,對(duì)模型進(jìn)行分析,最終提高模型的透明度,保證模型的公平性.深度模型可解釋性一般可分為2類:局部解釋和全局解釋,這取決于目標(biāo)是局部理解特定的預(yù)測(cè),還是全局理解的預(yù)測(cè)[43].
4.1.1 深度模型的局部解釋技術(shù)
Fig. 3 Illustration of DNN local interpretation as well as global interpretation[40]圖3 DNN局部解釋和全局解釋的示意圖[40]
局部解釋可以說明模型是如何對(duì)特定輸入進(jìn)行某種預(yù)測(cè)的(圖3(a)).它是通過對(duì)模型的輸入特征進(jìn)行屬性預(yù)測(cè)來實(shí)現(xiàn)的,最后以特征重要度可視化的形式進(jìn)行說明.以貸款預(yù)測(cè)為例,該模型的輸入是一個(gè)包含分類特征的向量,其中得分較高的特征表示與分類任務(wù)的相關(guān)度較高.局部解釋方法大致可分為4類:基于局部逼近的[41]、基于擾動(dòng)的[41]、基于反向傳播的[70]以及基于分解的[70]方法,這些方法都可以被用來生成一個(gè)輸入的特征重要向量.
4.1.2 深度模型的全局解釋技術(shù)
全局解釋的目標(biāo)是提供一個(gè)關(guān)于預(yù)先訓(xùn)練的DNN所捕獲的知識(shí),并以一種直觀的方式向人類說明所學(xué)的表示(圖3(b)).解釋可以看作是一個(gè)函數(shù)fglobal:Eh→Em,從中間表示Eh映射到人們可以理解的概念Em[74].在本例中,Eh是由特定層上的特定通道派生的表示,多個(gè)神經(jīng)元的組合可以代表更抽象的概念[75].這里的Eh對(duì)應(yīng)著不同通道甚至不同層的組合,特別是那些受保護(hù)的概念,它們通?;诙鄠€(gè)基本的低級(jí)概念.例如,在人臉圖像識(shí)別應(yīng)用中,可以通過多個(gè)局部線索來顯示性別和種族概念.因此,與單個(gè)神經(jīng)元學(xué)習(xí)的概念相比,由多個(gè)神經(jīng)元組合產(chǎn)生的概念與深度模型的公平性更相關(guān).
深度學(xué)習(xí)模型后驗(yàn)性去偏方法主要是搜索模型中的歧視實(shí)例,通過檢測(cè)偏見來進(jìn)行模型再訓(xùn)練,以減少歧視,達(dá)到模型的公平性.第1種方法采用自頂向下的方法,利用局部解釋生成特征重要度向量,然后對(duì)特征重要度向量進(jìn)行分析.第2種解決方案以自底向上的方式實(shí)現(xiàn).人們首先預(yù)先選擇他們懷疑與受保護(hù)屬性相關(guān)聯(lián)的特性,然后分析已識(shí)別的特性的重要性[76].這些對(duì)公平性敏感的特征被干擾,通過特征被直接刪除或特征被替代來實(shí)現(xiàn).然后將擾動(dòng)輸入到深度模型中,觀察模型預(yù)測(cè)的差異.如果這些被懷疑為公平敏感特征的擾動(dòng)最終導(dǎo)致模型預(yù)測(cè)發(fā)生顯著變化,則可以斷言深度模型捕獲了偏見,并根據(jù)受保護(hù)的屬性進(jìn)行決策.第3種方法利用全局解釋,首先,利用全局解釋來分析深度模型對(duì)受保護(hù)屬性相關(guān)概念的學(xué)習(xí)程度.這通常是通過指向深度模型中間層激活空間的一個(gè)方向來實(shí)現(xiàn)的[74-75,77].其次,在確認(rèn)一個(gè)深度模型已經(jīng)學(xué)習(xí)了一個(gè)受保護(hù)概念后,我們將進(jìn)一步測(cè)試該概念對(duì)模型最終預(yù)測(cè)的貢獻(xiàn).可以采用不同的策略來量化概念敏感度,包括自上而下計(jì)算深度模型預(yù)測(cè)對(duì)概念向量的方向?qū)?shù)[74],自下而上將該概念向量添加到不同輸入的中間激活中,觀察模型預(yù)測(cè)[78]的變化.最后,使用數(shù)值分?jǐn)?shù)來描述受保護(hù)屬性的表示偏見水平.在2種方式中,數(shù)值敏感性得分越高,該概念對(duì)深度模型預(yù)測(cè)的貢獻(xiàn)越顯著.
Zhang等人[55]提出了一個(gè)基于梯度的可擴(kuò)展的算法,稱為ADF(adversarial discrimination finder),用于生成個(gè)體歧視實(shí)例,它是專門為深度模型設(shè)計(jì)的.ADF的概述如圖4所示.
ADF由2部分組成,即全局生成(左邊的部分)和本地生成(右邊的部分).在全局生成過程中,對(duì)原始數(shù)據(jù)集中的樣本進(jìn)行聚類,并以循環(huán)方式從每個(gè)聚類中選擇種子實(shí)例.全局生成的目標(biāo)是增加所生成的個(gè)體歧視實(shí)例的多樣性.在全局生成中使用梯度通過最大化2個(gè)相似實(shí)例的深度模型輸出之間的差異來指導(dǎo)個(gè)體歧視實(shí)例的生成.如果成功生成了一定數(shù)量的個(gè)別歧視性實(shí)例或超時(shí),則全局生成將停止.識(shí)別出的個(gè)別歧視實(shí)例然后作為本地生成的輸入.其思想是搜索個(gè)體歧視性實(shí)例的鄰域以尋找更多的歧視性實(shí)例.梯度在本地生成中以不同的方式使用作為引導(dǎo),即我們利用代表每個(gè)屬性重要性的梯度的絕對(duì)值來識(shí)別與種子差異最小的個(gè)體歧視性實(shí)例,同時(shí)保持它們的模型預(yù)測(cè)[55].
Fig. 4 An overview of ADF[55]圖4 ADF概述圖[55]
除此之外,Galhotra等人[56]提出了THEMIS,通過在其域內(nèi)隨機(jī)采樣每個(gè)屬性并識(shí)別出那些有偏見的實(shí)例來衡量歧視的發(fā)生頻率.Udeshi等人[57]開發(fā)了AEQUITAS,它包括一個(gè)全局搜索和一個(gè)本地搜索,即AEQUITAS首先搜索輸入空間的隨機(jī)抽樣(又名全局搜索),然后基于全局搜索的結(jié)果來進(jìn)行本地搜索,通過將已識(shí)別的個(gè)體歧視實(shí)例與選定的屬性沿隨機(jī)方向進(jìn)行干擾,以識(shí)別盡可能多的歧視的實(shí)例.Agarwal等人[58]提出了一種符號(hào)生成的方法,該方法首先使用現(xiàn)有的方法生成一個(gè)局部解釋決策樹來近似模型決策,然后根據(jù)決策樹進(jìn)行符號(hào)執(zhí)行來生成測(cè)試用例[79].與AEQUITAS一樣,它還將基于決策樹的全局搜索與局部搜索相結(jié)合,前者的目標(biāo)是最大化路徑覆蓋,后者的目標(biāo)是最大化歧視性實(shí)例的數(shù)量.
對(duì)第2~4節(jié)介紹的基于數(shù)據(jù)預(yù)處理的去偏方法、模型去偏方法以及后驗(yàn)去偏方法及其相關(guān)原理整理在表2中.表格的第1列“類型”為3類不同的去偏方法,分別為基于數(shù)據(jù)預(yù)處理的去偏方法、深度學(xué)習(xí)模型去偏方法以及模型的后驗(yàn)去偏方法,根據(jù)這些去偏方法應(yīng)用的階段不同,我們?cè)诒砀裰袑⑺鼈儽硎緸椤皵?shù)據(jù)預(yù)處理去偏、模型去偏、后驗(yàn)去偏”.表格的第2列“方法”列舉了相應(yīng)的算法,其中列舉了8種預(yù)處理方法、2類模型去偏方法以及4種后驗(yàn)性去偏方法,并且在第3列“原理”表示出對(duì)應(yīng)算法的原理,在第4列“貢獻(xiàn)”和第5列“不足”分別列舉出它們的貢獻(xiàn)和不足.
在本節(jié)中,我們列舉常用的去偏實(shí)驗(yàn)平臺(tái)和公平性指標(biāo),方便之后的研究.近年來,隨著人工智能技術(shù)的快速發(fā)展,許多科技公司推出了對(duì)應(yīng)的深度學(xué)習(xí)去偏實(shí)驗(yàn)平臺(tái).其中Microsoft的Fairlearn、IBM的AI Fairness 360以及Google的ML-fairness-gym具有功能較全、豐富的演示代碼以及持續(xù)迭代更新等顯著特點(diǎn).本節(jié)將詳細(xì)介紹這3個(gè)去偏實(shí)驗(yàn)平臺(tái).
Table 2 List of Debiasing Methods for Different Sources of Bias表2 針對(duì)不同偏見來源的去偏方法列表
本文提到的去偏實(shí)驗(yàn)平臺(tái)應(yīng)用了Adult數(shù)據(jù)集、Bank marketing數(shù)據(jù)集、Boston房?jī)r(jià)數(shù)據(jù)集、COMPAS數(shù)據(jù)集、Greman credit數(shù)據(jù)集、醫(yī)療支出小組調(diào)查(Medical expenditure panel survey, MEPS)等6個(gè)數(shù)據(jù)集.
Adult數(shù)據(jù)集包括48 842個(gè)連續(xù)或者離散的實(shí)例,其中訓(xùn)練集實(shí)例32 561個(gè),測(cè)試集實(shí)例16 281個(gè),該數(shù)據(jù)集可用于預(yù)測(cè)一個(gè)人的年收入是否多于5萬美元;該數(shù)據(jù)集包括年齡、工種、學(xué)歷、職業(yè)、性別、種族等14個(gè)特征,其中6個(gè)連續(xù)變量,8個(gè)名詞屬性變量,其中性別和種族是敏感屬性.
Bank marketing數(shù)據(jù)集與葡萄牙的銀行有直接關(guān)聯(lián),根據(jù)相關(guān)信息進(jìn)行電話推銷,與該數(shù)據(jù)集對(duì)應(yīng)的任務(wù)是分類任務(wù),目的是用于預(yù)測(cè)客戶是否會(huì)認(rèn)購定期存款;該數(shù)據(jù)集包括年齡、工作類型、婚姻狀況、受教育背景、信用情況、個(gè)人貸款、最后聯(lián)系月份、最后一次接觸距離上一次接觸的時(shí)間,以前的活動(dòng)中聯(lián)系的次數(shù)等一共50個(gè)特征以及41 188個(gè)實(shí)例,其中年齡和信用情況是敏感屬性.
Boston房?jī)r(jià)數(shù)據(jù)集包含美國人口普查局收集的美國Boston住房?jī)r(jià)格的有關(guān)信息,這個(gè)數(shù)據(jù)集的每一行數(shù)據(jù)都是對(duì)波士頓周邊或者城鎮(zhèn)的房?jī)r(jià)的描述數(shù)據(jù)統(tǒng)計(jì)于1978年,數(shù)據(jù)中包含14個(gè)特征,506個(gè)案例.特征例如城鎮(zhèn)人均犯罪率、住宅所占比例、城鎮(zhèn)中黑人比例、低收入人群數(shù)等,其中城鎮(zhèn)中黑人比例是敏感屬性.
COMPAS數(shù)據(jù)集使用一種算法來評(píng)估刑事被告再次犯罪可能性,開發(fā)者為一般累犯和暴力累犯以及審前不當(dāng)行為制定了風(fēng)險(xiǎn)量表,這種風(fēng)險(xiǎn)量表是根據(jù)“與累犯和犯罪職業(yè)高度相關(guān)的”行為和心理結(jié)構(gòu)設(shè)計(jì)的,目前已經(jīng)在美國紐約州、威斯康星州、加利福尼亞州等地投入使用,其敏感屬性為種族屬性.
Greman credit數(shù)據(jù)集通過一組屬性描述將申請(qǐng)人員分類為良好或不良信用風(fēng)險(xiǎn),該數(shù)據(jù)集是根據(jù)個(gè)人的銀行貸款信息和申請(qǐng)客戶貸款逾期發(fā)生情況來預(yù)測(cè)客戶貸款違約情況,數(shù)據(jù)集包含24個(gè)維度的共1 000條數(shù)據(jù).該數(shù)據(jù)集包括年齡、借款持續(xù)時(shí)間、現(xiàn)有的信貸數(shù)量等特征,其中現(xiàn)有的信貸數(shù)量和年齡是敏感屬性.
MEPS數(shù)據(jù)集始于1996年,其收集內(nèi)容包括對(duì)家庭和個(gè)人、醫(yī)療提供者和雇主的大規(guī)模調(diào)查,并提供有關(guān)受訪者使用的醫(yī)療服務(wù)、服務(wù)的成本和頻率、人口統(tǒng)計(jì)等數(shù)據(jù).
Microsoft推出了Fairlearn(1)https://github.com/fairlearn/fairlearn(version 0.4.6)工具包,它能夠評(píng)定和改正人工智能技術(shù)系統(tǒng)軟件的公平性.可讓人工智能系統(tǒng)的開發(fā)人員評(píng)估其系統(tǒng)的公平性并減輕任何客觀存在但是不明顯的不公平問題.全世界四大會(huì)計(jì)師會(huì)計(jì)師事務(wù)所之一的安永,在用于全自動(dòng)評(píng)定借款管理決策的機(jī)器學(xué)習(xí)模型中,運(yùn)用Fairlearn工具包來減少與性別有關(guān)的不合理結(jié)果,其剖析數(shù)據(jù)顯示最初男士借款的成功率比女士高15.3個(gè)百分點(diǎn).根據(jù)正模型,安永的開發(fā)設(shè)計(jì)工作組改善了計(jì)劃方案的精確度,將性別導(dǎo)致的差別降至了0.43個(gè)百分點(diǎn).
Fairlearn去偏實(shí)驗(yàn)平臺(tái)涵蓋閾值優(yōu)化器[80]、網(wǎng)格搜索[81]以及冪梯度[82]等去偏算法.其中,閾值優(yōu)化器算法基于監(jiān)督學(xué)習(xí)中機(jī)會(huì)均等原理,將現(xiàn)有分類器和敏感特征作為輸入,對(duì)深度模型進(jìn)行后處理去偏.
該平臺(tái)還包含群體總結(jié)、平均預(yù)測(cè)以及選擇率等16種度量指標(biāo),用來衡量深度模型去偏效果.其中平均預(yù)測(cè)度量指標(biāo)用于計(jì)算(加權(quán))平均預(yù)測(cè)結(jié)果,選擇率計(jì)算與輸出“良好”結(jié)果相匹配的預(yù)測(cè)標(biāo)簽的比例.
IBM公司發(fā)布的AI Fairness 360工具包(2)https://github.com/Trusted-AI/AIF360(version 0.3.0)是一種可擴(kuò)展的開放源代碼庫,可幫助檢測(cè)和減輕整個(gè)AI應(yīng)用程序生命周期中機(jī)器學(xué)習(xí)模型的偏見.
AI Fairness 360去偏實(shí)驗(yàn)平臺(tái)涵蓋一共11種去偏算法,例如優(yōu)化預(yù)處理[83]、不同影響消除[84]、均等賠率后處理[80]、校準(zhǔn)后的均等賠率后處理[85]、學(xué)習(xí)公平表示[86]、對(duì)抗性去偏[13]、公平分類的元算法[87]、重新加權(quán)[88]、基于拒絕選項(xiàng)的分類[89]、正則化去偏[90]等去偏算法.對(duì)抗性去偏是一種過程中去偏的技術(shù),學(xué)習(xí)分類器通過對(duì)抗生成的方式以最大程度地提高預(yù)測(cè)準(zhǔn)確性,同時(shí)降低對(duì)手根據(jù)預(yù)測(cè)確定受保護(hù)屬性的能力,因?yàn)轭A(yù)測(cè)結(jié)果不可以攜帶任何敵手可以利用的會(huì)造成歧視的信息,因此保證了公平性.
該平臺(tái)還包含超過30種公平性度量指標(biāo),所有的度量指標(biāo)可以根據(jù)選擇率和錯(cuò)誤率分為如下4類:全面的群體公平性度量標(biāo)準(zhǔn)、全面的樣本失真指標(biāo)集、廣義熵指數(shù)[91]以及差異公平和偏見放大[92]等.在這4類度量中具有代表性的有群體總結(jié)、平均預(yù)測(cè)以及選擇率等度量指標(biāo),這些度量指標(biāo)在5.2節(jié)已經(jīng)介紹.
Google提出了ML-fairness-gym(3)https://github.com/google/ml-fairness-gym(version 0.1.0),用于評(píng)估機(jī)器學(xué)習(xí)系統(tǒng)的公平性以及評(píng)估靜態(tài)數(shù)據(jù)集上針對(duì)系統(tǒng)的各種輸入的誤差度量的差異.ML-fairness-gym是用于構(gòu)建簡(jiǎn)單模擬的一組組件,這些模擬探索了在社會(huì)環(huán)境中部署基于機(jī)器學(xué)習(xí)的決策系統(tǒng)的潛在長(zhǎng)期影響.隨著機(jī)器學(xué)習(xí)公平性的重要性變得越來越明顯,最近的研究集中在最初在靜態(tài)環(huán)境中定義的執(zhí)行公平性度量的潛在的令人驚訝的長(zhǎng)期行為.
ML-fairness-gym去偏實(shí)驗(yàn)平臺(tái)包括注意力分配[93]去偏算法以及長(zhǎng)期公平[94]去偏算法,注意力分配算法通過對(duì)深度模型動(dòng)態(tài)分配不同的注意力權(quán)重以避免包含偏見較大的部分參與總體決策,從而實(shí)現(xiàn)公平性.該平臺(tái)也包括錯(cuò)誤率指標(biāo)、借貸指標(biāo)以及價(jià)值追蹤指標(biāo)等公平性度量指標(biāo).
我們?cè)诒?中對(duì)以上3種去偏實(shí)驗(yàn)平臺(tái)所使用的數(shù)據(jù)集、度量標(biāo)準(zhǔn)以及平臺(tái)所支持的去偏算法進(jìn)行分類整理.因篇幅有限,在這里僅列舉出部分具有代表性的度量標(biāo)準(zhǔn).
本文面向深度學(xué)習(xí)的公平性進(jìn)行了盡可能全面的調(diào)研,對(duì)去偏實(shí)驗(yàn)平臺(tái)以及公平性指標(biāo)進(jìn)行了介紹.本節(jié)我們針對(duì)深度學(xué)習(xí)中的公平性,探討其在未來的研究發(fā)展方向,從不同角度分析之后可發(fā)展的研究?jī)?nèi)容.
我們?cè)诘?節(jié)中對(duì)國際主流去偏實(shí)驗(yàn)平臺(tái)中的公平性度量標(biāo)準(zhǔn)進(jìn)行了介紹,但是目前關(guān)于公平的度量方法仍然沒有形成共識(shí).在某些情況下,一些度量可能與其他度量相沖突.一個(gè)模型可能在某一指標(biāo)上是公平的,但可能導(dǎo)致其他類型的不公平,所以探討公平性的度量標(biāo)準(zhǔn)是有必要的.
Table 3 Debiasing Experiment Platform表3 去偏實(shí)驗(yàn)平臺(tái)
聯(lián)邦學(xué)習(xí)是一個(gè)機(jī)器學(xué)習(xí)框架,能有效幫助多個(gè)機(jī)構(gòu)在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的要求下,進(jìn)行數(shù)據(jù)使用和機(jī)器學(xué)習(xí)建模[95].在聯(lián)邦成員共享加密的模型參數(shù)或者中間計(jì)算結(jié)果的同時(shí),也會(huì)共享各自存在的偏見,甚至是偏見疊加.對(duì)于聯(lián)邦學(xué)習(xí)的公平性,我們可以在聯(lián)邦環(huán)境下進(jìn)行邊緣端偏見檢測(cè),首先分析不同的聯(lián)邦成員在上傳加密的模型參數(shù)或者中間結(jié)果時(shí),對(duì)其中攜帶的偏見信息進(jìn)行檢測(cè);然后,分析云端在下發(fā)共享參數(shù)信息時(shí),檢測(cè)云端訓(xùn)練的模型從成員中學(xué)到的疊加偏見.
遷移學(xué)習(xí)[96]是一種機(jī)器學(xué)習(xí)方法,就是把為任務(wù)A開發(fā)的模型作為初始點(diǎn),重新使用在為任務(wù)B開發(fā)模型的過程中.遷移學(xué)習(xí)讓AI系統(tǒng)獲得“舉一反三”能力,但是從源域到目標(biāo)域的遷移過程中,極大可能存在偏見的轉(zhuǎn)移.針對(duì)遷移學(xué)習(xí)中的公平性問題,可以從數(shù)據(jù)偏見轉(zhuǎn)移、算法偏見轉(zhuǎn)移、遷移的新增偏見3方面展開研究.在基于實(shí)例和基于特征的遷移中,研究數(shù)據(jù)的偏見轉(zhuǎn)移,對(duì)目標(biāo)域的公平性影響.首先檢測(cè)源域中數(shù)據(jù)集存在的偏見,檢測(cè)目標(biāo)域中數(shù)據(jù)集存在的偏見;對(duì)源域和目標(biāo)域中的數(shù)據(jù)進(jìn)行偏見對(duì)齊,得到偏見分布相似的數(shù)據(jù)集;使用偏見對(duì)齊的目標(biāo)域中的數(shù)據(jù)進(jìn)行遷移訓(xùn)練,檢測(cè)目標(biāo)模型與源模型的偏見差異,若偏見評(píng)價(jià)結(jié)果相等或更小,則有效消除數(shù)據(jù)偏見.
元學(xué)習(xí)利用以往的知識(shí)經(jīng)驗(yàn)來指導(dǎo)新任務(wù)的學(xué)習(xí),具有學(xué)會(huì)學(xué)習(xí)的能力[97].在基于記憶的元學(xué)習(xí)中,網(wǎng)絡(luò)的輸入把上一次的y也作為輸入,并且添加了外部記憶存儲(chǔ)上一次的x輸入,這使得下一次輸入后進(jìn)行反向傳播時(shí),可以讓y和x建立聯(lián)系,使得之后的x能夠通過外部記憶獲取相關(guān)圖像進(jìn)行比對(duì)來實(shí)現(xiàn)更好的預(yù)測(cè)[97].因此在歷史記憶中存在的偏見可能會(huì)不斷積累,對(duì)該偏見的消除十分重要.對(duì)于元學(xué)習(xí)的公平性,我們可以對(duì)記憶單元設(shè)計(jì)不同的權(quán)重分配策略,減弱歷史偏見的積累.