趙學(xué)剛 馬羽男
(西南大學(xué)法學(xué)院,重慶400715)
當(dāng)今信息化社會中,實現(xiàn)了全球海量數(shù)據(jù)的集中與分享,這種環(huán)境下推動了云計算、大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)的迅速發(fā)展。尤其是算法①算法是在有限的步驟內(nèi),將輸入值(Inputs)轉(zhuǎn)化為輸出值(Out-puts),其意義在于減少計算機完成任務(wù)的效率。為了提高效率,解決同一種類問題,可將其處理問題的過程模式化,就形成了算法。技術(shù),其依托著數(shù)據(jù)信息的幾何倍數(shù)增長以及機器學(xué)習(xí)技能的提升,對社會整個領(lǐng)域產(chǎn)生深遠(yuǎn)的影響〔1〕。然而,以統(tǒng)計學(xué)為支撐的算法,考察的是事物之間的相關(guān)性和蓋然性,而非必然的因果關(guān)系,其決策結(jié)果可能是根據(jù)偶然性因素做出的,并不能保證正確,所以先進的算法技術(shù)給社會各方面帶來極大便利的同時,也潛藏著諸多新的社會問題。著眼于全世界而言,算法偏見或算法歧視、算法操控等社會問題已頻繁暴露出來,如通過COMPAS 罪犯再犯概率預(yù)測系統(tǒng)評估的結(jié)論顯示,黑人再犯罪率明顯高于白人,前者是后者的兩倍;美國每周有超過1000 人被機場使用的算法錯誤地標(biāo)記為恐怖分子。相對于無端的歧視與腐敗而言,這種披著科學(xué)外衣顯示出的結(jié)果通常很難引起民眾的廣泛質(zhì)疑,相反,融合了自動算法與人工智能形成的決策機制得到民眾的信服,但同時也使得人們更容易受到歧視并且限制了民眾的自我選擇〔2〕。目前學(xué)界多關(guān)注事后救濟措施,并未著眼于算法偏見的源頭,因此其制定的策略可行性嚴(yán)重不足。如何對算法偏見進行有效規(guī)制是當(dāng)今信息化社會中的焦點問題。
現(xiàn)代社會中,算法自動決策系統(tǒng)在各個領(lǐng)域的應(yīng)用極為普遍,算法偏見問題也比較頻繁。由于本文篇幅有限,在此只對算法技術(shù)呈現(xiàn)出來的價格、就業(yè)、信用三方面偏見的弊端進行具體考察分析,發(fā)現(xiàn)其中的基本特性,總結(jié)出算法偏見治理過程中的癥結(jié),為后續(xù)應(yīng)對策略的制定提供參考。
價格偏見是指在交易條件、交易商品質(zhì)量、等級相同的情況下,供應(yīng)商針對不同的交易對象提供差異化的價格。企業(yè)實施價格偏見的目的追根溯源不過是為了賺取消費者剩余②消費者剩余,是指消費者愿意為一種商品支付的最高價減去實際支付的價格。。一般來說,價格偏見的落實在如下三方面條件缺一不可:首先是企業(yè)在市場競爭中占據(jù)明顯優(yōu)勢,擁有定價的話語權(quán)。若不具備競爭優(yōu)勢,在市場完全競爭狀況下,企業(yè)也就不具備定價的能力,商品價格由市場形成;其次是企業(yè)需要全面掌握眾多消費群體的支付意愿與消費能力,以此作為差異化定價的依據(jù);最后對于以較低的價格購進商品的購買者,企業(yè)需具備防止其高價轉(zhuǎn)賣以獲得價格差利的能力。若以較低的價格購進商品的購買者以較高的價格轉(zhuǎn)售商品,對于企業(yè)獲利產(chǎn)生嚴(yán)重影響,其很難獲得較高的出售價格的利潤,價格偏見的目的就不容易實現(xiàn)。因此,企業(yè)全面掌握消費者最高支付意愿是實施價格偏見策略的重要前提。然而在具體實踐中,企業(yè)在這方面信息的獲取中存在較多困難,限制了其價格偏見策略的實施。隨著數(shù)據(jù)挖掘、分析工具等新的人工智能技術(shù)的進步,上述困難得到了有效解決。企業(yè)借助于先進的算法技術(shù),根據(jù)消費者消費明細(xì)、網(wǎng)上瀏覽記錄等信息,統(tǒng)計分析出消費者的消費偏好、支付意愿與能力等眾多詳細(xì)信息,進而通過針對性地定價進行驗證,得到較為準(zhǔn)確的消費者偏好與能力信息,以此為差異化價格策略的制定與實施提供科學(xué)指導(dǎo)。即人們常說的“大數(shù)據(jù)殺熟”。這種環(huán)境中,借助于大數(shù)據(jù),那些在市場中不具備明顯競爭優(yōu)勢的企業(yè)也可以輕松地獲得消費者偏好、支付意愿等信息,進而為價格偏見策略實施提供指導(dǎo)。
數(shù)據(jù)挖掘等人工智能技術(shù)的不斷發(fā)展與普及,催生了算法技術(shù)在人力分析系統(tǒng)中的廣泛應(yīng)用。近來,更多的用人單位在員工招聘、考核、升遷、淘汰等人事調(diào)整中依靠算法技術(shù)做出決策。有些人認(rèn)為,算法技術(shù)在人力資源管理中的應(yīng)用大大提高了效率,同時也提升了決策的客觀性,避免了人工決策的主觀性。然而,也有些人指出,算法技術(shù)會對現(xiàn)有的偏見產(chǎn)生惡化,相關(guān)數(shù)據(jù)不具備天然的中立性,甚至?xí)a(chǎn)生新的偏見。通過廣泛的研究也發(fā)現(xiàn),算法技術(shù)在人力資源管理中的應(yīng)用引發(fā)了嚴(yán)重的就業(yè)歧視現(xiàn)象。如某個用人單位通過員工家與單位的距離來評估員工工作的穩(wěn)定性。若以此為員工招錄的依據(jù),則對于那些家庭住址距離公司較遠(yuǎn)的應(yīng)聘者構(gòu)成了歧視。研究者Latanya Sweeney 分析表明,通過谷歌系統(tǒng)搜索,輸入非裔美國人比輸入白種人的名字,軟件出現(xiàn)的犯罪審查資料就會多一些〔3〕。由此表明,算法能夠跟名字和種族密切相關(guān),同時對少數(shù)種族人就業(yè)情況有不利影響。研究者Anja Lambrecht 等人分析指出,被推送的有關(guān)科技與科技數(shù)學(xué)或者工程等名詞廣告中,男性高于女性很多。在卡內(nèi)基梅隆大學(xué)研究者AmitDatta 等分析探究關(guān)于求職人員性別和發(fā)送招聘信息間的聯(lián)系,先根據(jù)系統(tǒng)性能擬定一般使用者瀏覽求職網(wǎng)站,之后通過統(tǒng)計谷歌發(fā)送“年薪20 萬美元以上的相關(guān)工作信息數(shù)據(jù)”,總結(jié)出男士用戶得到的推送要遠(yuǎn)高于女性用戶,其中男士有1852 次,女性只有318 次,分析看到女士受到高薪工作的推薦只占男性的六分之一比例〔4〕。此類研究表明,算法本身肯定不具備種族與性別的特征偏見,一旦算法設(shè)計者具有自身偏見,則歧視就會充斥到其中且一直被使用。
如果征信行業(yè)發(fā)展興旺,必然會帶來諸多正面影響,首先通過提高金融風(fēng)險識別方式有利于加快金融業(yè)發(fā)展,促進信用消費,有助于提高經(jīng)濟發(fā)展效率,增加經(jīng)濟收益,同時促進低碳經(jīng)濟。但是其也存在問題,在于征信業(yè)具有的信用歧視一直以來并不能受到重視。每個國家都有關(guān)于征信的法律制度規(guī)定,不允許按照不同民族以及信仰、籍貫、年齡與性別等諸多因素針對某個人的信用做出不恰當(dāng)評判或者直接差評待遇,但是相關(guān)的信用評分系統(tǒng)總是背道而馳。此時,算法在信用歧視中發(fā)揮的用途重點表現(xiàn)為,研究征信行業(yè)歧視相關(guān)情況的原因均來自信用評分算法,類似于黑盒,以商業(yè)機密對其保護致使外部以及國家監(jiān)控部門均不能進入。征信行業(yè)的代表提到,保證算法秘密性的目的在于防止消費人員出現(xiàn)信用欺騙;還有部分人指出,即便了解算法也不能理解它的繁雜。信用評價在美國具有重要意義,成為金融的必備證件,決定個人是否擁有工作和貸款以及保險或者汽車租房等事項。美國的征信市場在其發(fā)展過程中,始終面臨著問題:一方面是錯誤率較高,據(jù)有關(guān)部門調(diào)查分析得出在消費群體中大約25 個百分點的人的信用報告出現(xiàn)不止一處影響評分的錯誤;另一方面信用評分的因素與信用降級的原因均不明確,當(dāng)消費者發(fā)現(xiàn)報告存在錯誤時又很難被救濟,有關(guān)征信部門難以針對低信用評分說明原因,甚至于,企業(yè)根據(jù)此類信用報告對部分群體產(chǎn)生歧視,包括女士以及少數(shù)民族與殘疾人員等,造成此類弱勢群體在就業(yè)、安家以及貸款等事項上要付出更高的代價。
算法偏見追根溯源,最主要的兩個方面原因即機器學(xué)習(xí)偏見以及數(shù)據(jù)的偏見屬性。這兩種原因又在運算的過程中相互影響,導(dǎo)致算法偏見的問題愈演愈烈,規(guī)制起來困難重重。
所謂機器學(xué)習(xí),就是計算機程序由經(jīng)驗E 學(xué)習(xí)同時完成任務(wù)T,機器學(xué)習(xí)就是提升完成任務(wù)的性能P,使其伴隨積累經(jīng)驗得以提升。應(yīng)用于垃圾郵件分類中,經(jīng)驗E 的身份指郵件集合,任務(wù)T 的身份指識別郵件同時把它分出類別,所謂的性能度量P 是等同于精準(zhǔn)度的比例。如此運行程序的過程就是訓(xùn)練,郵件集合指訓(xùn)練數(shù)據(jù),所謂機器學(xué)習(xí)即程序依靠實例提取方法同時逐漸優(yōu)化的過程,促進不成熟的算法與模型通過實踐逐漸得到優(yōu)化的過程〔5〕。根據(jù)階段劃分,把機器學(xué)習(xí)可劃分成為兩個階段,一是機器學(xué)習(xí)訓(xùn)練階段,二是模型運用階段〔6〕。又將第一階段細(xì)分為九個步驟,具體如圖1 所示。
圖1 機器學(xué)習(xí)階段簡圖
算法設(shè)計人員把自我價值判斷融入整個過程,包括收集數(shù)據(jù)、清洗與分割等過程。也就是說,數(shù)據(jù)中隱藏的社會歧視與算法設(shè)計人員的個人意識被融入了模型訓(xùn)練中。所以,機器學(xué)習(xí)中存在的偏見來源于問題定義,通過模型訓(xùn)練逐漸成熟,在應(yīng)用過程中得以強化。機器學(xué)習(xí)偏見重點來源于兩個方面:
1.算法設(shè)計者的個人意識??v觀機器學(xué)習(xí)進展情況,算法設(shè)計人員的評判糅合在機器學(xué)習(xí)的每個過程,從擬解決問題的轉(zhuǎn)換到收集數(shù)據(jù)再到模型的完善與評估,都由算法設(shè)計者主觀決斷,其評斷決定著輸入與結(jié)果的變量以及收集數(shù)據(jù)的范圍與如何選擇數(shù)據(jù)特征。其主觀意識貫穿于模型中,使之成為飽含個人偏見的模型。
2.后期學(xué)習(xí)過程中出現(xiàn)的偏見。不論在模型的訓(xùn)練過程還是應(yīng)用過程,都使用機器學(xué)習(xí)技術(shù),人工智能的運用最終實現(xiàn)機器智能化。根據(jù)實踐經(jīng)驗逐漸吸收優(yōu)勢用以補充模型完整,模型運用的過程會由于新數(shù)據(jù)囊括的偏見使算法異化。2016 年曾推出的機器人Tay,發(fā)布不到一天的時間便展現(xiàn)出其種族歧視、性別歧視與反猶太人的“不良一面”,因此被迫下線。
1.數(shù)據(jù)的偶然性
各種樣本存在的地位差距較大,數(shù)據(jù)具備偶然性,必將造成算法出現(xiàn)歧視現(xiàn)象。樣本多與少決定大部分族群以及少數(shù)民族的差異性。如何對算法數(shù)據(jù)進行訓(xùn)練?大多數(shù)依賴于抽樣,但很難保證隨機性,有關(guān)少數(shù)族群的數(shù)據(jù)就不容易被選擇,因此導(dǎo)致訓(xùn)練的結(jié)果偏向于在統(tǒng)計上占多數(shù)的族群。
另外,多數(shù)與少數(shù)族群對于特征空間具有的表現(xiàn)存在差異,出于方便設(shè)計,算法會不經(jīng)意間將少數(shù)族群部分不顯著特征的數(shù)據(jù)納入多數(shù)族群的不正確數(shù)據(jù)內(nèi),而非仔細(xì)研究其是否正確,是否歸于少數(shù)族群。若某個算法可以保證85%的精準(zhǔn)度,它的精度已經(jīng)達標(biāo)。在實踐中已經(jīng)應(yīng)用在芝加哥警局的工作助力算法,即便所有黑人族群的計算結(jié)果不正確,也無太大影響。因為其數(shù)量少,占有百分比低,不會使全部預(yù)測精準(zhǔn)度有大的改變。
2.數(shù)據(jù)的不敏感屬性
數(shù)據(jù)本身是具有敏感屬性的,但是在大數(shù)據(jù)時代,這些被隱藏的屬性很難被保護。因為收集的數(shù)據(jù)豐富,源頭較多,其內(nèi)部間很強的相互聯(lián)系性以及相互印證等因素,決定了大數(shù)據(jù)具有多樣性。大數(shù)據(jù)算法擁有的很大的優(yōu)勢,是能夠根據(jù)現(xiàn)有數(shù)據(jù)屬性預(yù)測出當(dāng)前未知屬性,比如性別與種族。原因在于,部分原本受到保護的屬性,顯式或者隱式地通過編碼出現(xiàn)在多樣化的特征空間內(nèi)。
例如,若設(shè)定大數(shù)據(jù)算法不可以依靠網(wǎng)頁與運用過程得到使用者精準(zhǔn)的族群資料。但這樣卻沒有對現(xiàn)如今大數(shù)據(jù)算法造成困難。沒有這些信息,大數(shù)據(jù)依然可以依靠其他方面維度的印記,認(rèn)知并標(biāo)識指定群體。比如在美國,大數(shù)據(jù)算法單純依靠使用者姓名的獨特性質(zhì),同時依靠其他維度的相關(guān)歷史背景特點,使得大數(shù)據(jù)操作者相對精準(zhǔn)地標(biāo)識黑人群體。原因在于,從前歷史中記載,非洲黑人起初被運至美國時,名字比較特殊,均由奴隸主賜予。比方利用白人常見姓名約翰與威廉,稍微修改為杰克和威爾,就賜予了男性奴隸;比方某個男性姓名是杰克并非約翰,根據(jù)歷史記錄,那么很大程度上其會被標(biāo)識成黑人。同樣道理,如果見到姓名為熱依汗古麗,就很大概率定位為新疆女性。因此研究得出,某些數(shù)據(jù)曾在保護中的敏感性質(zhì),應(yīng)用多維算法后,失去了私密性。
3.數(shù)據(jù)的偏見性
在計算機科學(xué)領(lǐng)域,有一個知名度較高的“GIGO 定律(Garbage In,Garbage Out)”,指計算機運算過程中如果輸入的是垃圾數(shù)據(jù),那么輸出的也是垃圾數(shù)據(jù)。面對大數(shù)據(jù)算法存在的歧視性,也存在類似的說法?!蹲匀弧飞缯撝校ㄟ^“偏見進,則偏見出(Bias In, Bias Out)”對此進行闡述〔7〕。
在大數(shù)據(jù)時代,收集數(shù)據(jù)人員與算法設(shè)計者均存在自身的偏見卻不自知,會將其帶入數(shù)據(jù)本身隱藏在其代碼內(nèi),最后得出帶有偏見的結(jié)論?,F(xiàn)實中,跟銀行關(guān)于企業(yè)貸后監(jiān)管實施合作過程中,識別到某個指定籍貫者創(chuàng)辦的企業(yè)出現(xiàn)數(shù)額貸款且不能按時償還情況,此數(shù)據(jù)結(jié)論顯示給銀行后,便會對股東人員內(nèi)對應(yīng)籍貫與法人注冊在本地區(qū)的單位,增加更高的要求,同時特意收緊貸款業(yè)務(wù)。這并非完美的處理方式,卻造成數(shù)據(jù)與模型更加復(fù)雜。此地域存在的高風(fēng)險情況,很大程度上可能由于本地的特殊經(jīng)濟形勢,如實踐中在鄂爾多斯由于能源價位降低出現(xiàn)系統(tǒng)性經(jīng)濟風(fēng)險,在溫州由于違法集資現(xiàn)象使整個范圍受限制。當(dāng)狀況結(jié)束后,出現(xiàn)的問題會得以緩和且消失。但是,這些情況一旦出現(xiàn),數(shù)據(jù)的偏見均存在其中,以前的技術(shù)人員可能已經(jīng)進行了調(diào)動,而新的技能管理者并不能很好地了解此類特殊的數(shù)據(jù)采集與風(fēng)控模型的思維和邏輯,因此造成此類針對特殊區(qū)域的風(fēng)控偏見將始終存在并延續(xù)下去。
自網(wǎng)絡(luò)形成至今,與網(wǎng)絡(luò)相關(guān)的法律也不斷成型和完善,即便如此,法律對網(wǎng)絡(luò)的約束仍始終存有一定的疏漏和缺失。社會的進步,離不開先進技術(shù)的開拓者,更離不開基本價值的守望者。隨著人工智能技術(shù)的快速崛起,法律對這一領(lǐng)域的引導(dǎo)與規(guī)制更應(yīng)引起足夠的重視。
一旦我們將重心過多地投向于大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,而對我們的基本權(quán)利以及自由保護予以嚴(yán)重的忽視,勢必會對我們的生活造成巨大的威脅。人并非數(shù)據(jù),無法像電子一樣進行數(shù)據(jù)化、進行整合,更無法像數(shù)據(jù)一樣進行自動化區(qū)分、評分和決策〔8〕。通常情況下,算法權(quán)力并不會將我們視為“主體”加以對待,久而久之,在算法規(guī)訓(xùn)下,人們逐漸成為可計算、可預(yù)測甚至是可控的客體〔9〕。試想,一旦我們的投資觀念、消費心理等無不被機器學(xué)習(xí)算法分析所捕獲,并基于此推出讓我們無法拒絕的“套餐”,則多數(shù)人勢必會將選擇的自由權(quán)主動出讓,并對自己所獲得的服務(wù)給予認(rèn)可。
人是世界的主體這一觀念是世人所共識的,沙特因向機器人賦予公民身份而備受關(guān)注〔10〕。隨著這一事件的轟動,標(biāo)志著世界科學(xué)技術(shù)水平已然發(fā)展到相當(dāng)高的層面,機器人在意識以及創(chuàng)造性等方面與人類正在日趨同步。但是從法律層面來看,機器人的法律主體仍是由人所賦予,換言之,法律應(yīng)然和實然主體始終是人類。
德沃金表示,在眾多個人權(quán)利中,關(guān)懷與尊重的平等權(quán)利尤為重要。具體來說,即每個人都應(yīng)享有“作為平等的人對待”“社會應(yīng)當(dāng)予以尊重,承認(rèn)其尊嚴(yán)以及平等考慮”的自然權(quán)利〔11〕。鑒于此,算法的暗箱操作需要破除,通過對算法法律規(guī)制的重新梳理與強化,確保這一算法與社會倫理基礎(chǔ)、價值基礎(chǔ)更加貼合。在信息技術(shù)快速覆蓋和普及的現(xiàn)今,活躍于網(wǎng)絡(luò)社會中的人更應(yīng)對平等對待給予關(guān)注,凸顯人這一主體,正視網(wǎng)絡(luò)技術(shù),從而充分利用和發(fā)揮這項技術(shù),更好地為我們服務(wù)。
縱觀計算機技術(shù)快速發(fā)展,其參與人們生活的程度也隨之深入,基于傳統(tǒng)媒體進行傳輸?shù)男畔⒕D(zhuǎn)化為數(shù)據(jù)上傳至網(wǎng)絡(luò)?,F(xiàn)如今,數(shù)據(jù)分析技術(shù)在數(shù)據(jù)處理方面日漸龐大。齊愛民教授曾表示,“電子檔案中的信息和載體可分離”〔12〕。在人工智能的大環(huán)境下,數(shù)據(jù)是絕大多數(shù)信息的載體。與此同時,信息和數(shù)據(jù)兩者間又存有顯著的差異,《網(wǎng)絡(luò)安全法》對此給出了詳盡的闡釋①《中華人民共和國網(wǎng)絡(luò)安全法》第76 條規(guī)定:網(wǎng)絡(luò)數(shù)據(jù),是指通過網(wǎng)絡(luò)收集、存儲、傳輸、處理和產(chǎn)生的各種電子數(shù)據(jù);個人信息,是指以電子或者其他方式記錄的能夠單獨或者與其他信息結(jié)合識別自然人個人身份的各種信息。。
網(wǎng)絡(luò)中,數(shù)據(jù)實則是可編碼的“0/1”字符,而對于信息載體的數(shù)據(jù)來說,其是不具備價值判斷的。波斯納大法官曾指出,在經(jīng)過載體、編譯代碼、服務(wù)協(xié)議等一系列操作后,數(shù)據(jù)才會形成實際法律關(guān)系,進而具備天然工具中立性〔13〕。信息在實質(zhì)上是人對數(shù)據(jù)的主觀理念與認(rèn)知,其中囊括人的情感。并且,受當(dāng)時情緒、知識背景等因素的影響不同,對數(shù)據(jù)的解讀也會形成差異。不僅如此,可量化是數(shù)據(jù)最顯著的特征,因此,數(shù)據(jù)是可被存儲、傳輸乃至交易的。最近幾年,大數(shù)據(jù)交易平臺對其財產(chǎn)屬性更是給出了進一步的強化②我國北京中關(guān)村、貴陽和武漢等地相繼設(shè)立了大數(shù)據(jù)交易平臺,在數(shù)據(jù)交易的過程當(dāng)中數(shù)據(jù)的財產(chǎn)屬性得以凸顯。值得注意的是,只有成規(guī)模的數(shù)據(jù)才具有高額的價值,針對個人而言一條數(shù)據(jù)僅需數(shù)角人民幣。。
綜上所述,數(shù)據(jù)被機器識別,信息則由人們把控,也正因如此,加強主體對數(shù)據(jù)的控制應(yīng)是算法規(guī)制的重中之重,換言之,便是對數(shù)據(jù)權(quán)利的法律給予足夠的維護和保護。相反,當(dāng)對數(shù)據(jù)主體的數(shù)據(jù)控制權(quán)益給予過度的強調(diào),數(shù)據(jù)流動將不再充分,服務(wù)以及價格也難以享有到最優(yōu)和最佳。針對這一點值得注意的是,在數(shù)據(jù)保護與數(shù)據(jù)流動兩種利益中,數(shù)據(jù)權(quán)利保護成功的關(guān)鍵,主要取決于兩者間的平衡與恰當(dāng)。
現(xiàn)如今,互聯(lián)網(wǎng)已然將整個社會全部覆蓋,億萬網(wǎng)民通過這一平臺獲取所需信息、彼此交互,無論是對他們的思維抑或?qū)r值觀念,都或多或少產(chǎn)生了一定的影響〔14〕。也正是如此,對互聯(lián)網(wǎng)技術(shù)發(fā)展、應(yīng)用的適時引導(dǎo)便顯得尤為重要,而法律對算法的規(guī)制是確保這項技術(shù)始終依照合法軌道發(fā)展的關(guān)鍵。維系科學(xué)與人們生活的核心來自科技,從另一個角度分析來看,科技只有合理、正常地被運用,人們的生活才會向著良性的一面發(fā)展和改善〔15〕。將這種模式放到數(shù)據(jù)方面亦是如此,數(shù)據(jù)的準(zhǔn)確性、有效性是為用戶提供更優(yōu)質(zhì)服務(wù)的前提,唯有如此,才能實現(xiàn)對用戶體驗感知的提升和優(yōu)化,比如前陣火爆網(wǎng)絡(luò)的中國科技大學(xué)隱形資助貧困生就是極具說服力的一例③中科大學(xué)生資助管理中心利用一卡通系統(tǒng)留下的就餐數(shù)據(jù),分析篩選家庭確有困難、每個月在學(xué)校食堂消費超過一定次數(shù)而不超過一定金額的學(xué)生,在不公開宣布的情況下對之進行“隱形資助”,緩解了學(xué)生燃眉之急的同時又保護了學(xué)生的自尊心。。由于每一主體基于“數(shù)字化生存”跡象的不同認(rèn)知和理解,從而對我們就算法精準(zhǔn)分析與定位的憂慮給予了充分的印證。
法理學(xué)始終圍繞的課題之一即是法律和科學(xué)間的關(guān)系。鑒于自然偏好的邏輯是技術(shù)治理所遵循的重點,而社會共識邏輯又是法律治理遵循的關(guān)鍵,對技術(shù)治理的歸化與引領(lǐng)顯然需要為人類制度生活載體而生的法律來實現(xiàn)〔16〕。其中,以法律價值對技術(shù)發(fā)展引領(lǐng)最為重要。譬如在技術(shù)治理過程中,人們可以自覺參照相應(yīng)的法律價值選擇適宜的工具,以此實現(xiàn)對網(wǎng)絡(luò)社會技術(shù)治理手段的有效疏導(dǎo)〔17〕??茖W(xué)的飛速發(fā)展同時,法律也應(yīng)最大限度地發(fā)揮其作用,保持與科學(xué)發(fā)展的同步。
在短期內(nèi),對算法偏見的各個方面分別立法規(guī)制所需投入的成本過高,因此,可脫離這些部門法的拘束,以個人信息保護法的形式加以規(guī)制。其理由包括三點:第一,一切所涉及的算法都來自收集、使用個人信息,因此,基于法律調(diào)整對象的層面來說,在個人信息保護法中增加個人信息的非歧視性利用具有十足意義;第二,針對商業(yè)目的或非商業(yè)目的的數(shù)據(jù)非國家機關(guān)數(shù)據(jù)處理主體,可以提出信息披露、收集和處理資格、義務(wù)以及規(guī)范等方面的要求;第三,《個人信息保護法》早在第十三屆全國人大常委會立法規(guī)劃中被列入第一類項目,條件相對比較成熟,以此規(guī)制算法歧視的可行性較高。
如今,人們視龐大的數(shù)據(jù)分析理解為深度學(xué)習(xí)的過程,增加機器看與聽的感知便是數(shù)據(jù)分析理解這一過程的最終目的〔18〕。但是不可否認(rèn),算法也有一定的缺陷,以冷啟動最為典型。由實例分析來看,產(chǎn)品鏈接新用戶后需要先行對用戶相關(guān)數(shù)據(jù)加以收集,試想基于數(shù)據(jù)缺失的前提下顯然是無法進行全面、有效的分析,算法的作用也將難以充分發(fā)揮。算法的優(yōu)勢更多地體現(xiàn)在對數(shù)據(jù)的獲取,人們一旦控制了數(shù)據(jù),同樣也就控制了學(xué)習(xí)算法〔19〕。一位學(xué)者將算法與數(shù)據(jù)兩者間的關(guān)系比喻為食譜與食材,即算法為食譜,數(shù)據(jù)為食材,只有嚴(yán)格依照食譜將食材給予合理的搭配,才能制作出可口的菜品〔20〕。由此可以得知,實現(xiàn)算法法律規(guī)制的首要前提,便是從源頭對數(shù)據(jù)加以強化和保護。
當(dāng)下,世界范疇內(nèi)對數(shù)據(jù)保護的路徑可歸結(jié)為以下三種:第一,美國以對市場規(guī)范路徑的重視,實現(xiàn)對企業(yè)收集個人數(shù)據(jù)的規(guī)制,其對數(shù)據(jù)產(chǎn)業(yè)發(fā)展給予了十足的保護,而個人數(shù)據(jù)權(quán)利并未給予過多的要求,發(fā)生數(shù)據(jù)侵權(quán)主要交由FTC(聯(lián)邦貿(mào)易委員會)全權(quán)處理;第二,德國在對個人數(shù)據(jù)的保護方面主要采取聯(lián)邦數(shù)據(jù)保護專員制度來實現(xiàn),這也是其數(shù)據(jù)保護法中尤為重要的一個組成部分,其中明確規(guī)定了自動收集、處理和使用個人數(shù)據(jù)的公共機構(gòu)以及個人組織均需要書面任命一名數(shù)據(jù)保護官,并要求數(shù)據(jù)保護官需要具備過硬的專業(yè)知識和必要的責(zé)任意識;第三,歐盟對數(shù)據(jù)的保護則主要采用制定詳備的法案。譬如于2012 年發(fā)布的《通用數(shù)據(jù)保護條例(草案)》(GDPR 草案)至2016 通過再到2018 正式生效已歷經(jīng)六余年的時間,在此過程中,GDPR 對數(shù)據(jù)的規(guī)定也進一步完善和細(xì)化,這一法案的巨大反響引起了全世界的高度重視。
被遺忘權(quán)的實現(xiàn)問題,可以說是控制數(shù)據(jù)、制約算法的重中之重。部分學(xué)者將數(shù)據(jù)和數(shù)據(jù)權(quán)利進行了細(xì)化:“用戶對含有個人信息、使用痕跡的底層數(shù)據(jù)享有所有權(quán);數(shù)據(jù)控制者對匿名處理過的數(shù)據(jù)擁有受限的所有權(quán);數(shù)據(jù)控制者對經(jīng)過數(shù)據(jù)清理、加工后產(chǎn)生的衍生數(shù)據(jù)享有所有權(quán)”〔21〕?!睂Φ讓訑?shù)據(jù)的控制,可經(jīng)由與關(guān)聯(lián)主體脫鉤的方式實現(xiàn)數(shù)據(jù)被算法遺忘的目的,而刪除并非唯一的方式,還可采用數(shù)據(jù)脫敏的技術(shù)降低數(shù)據(jù)黏性,在搜索結(jié)果中劣后排列、表明爭議內(nèi)容。
1.算法透明和解釋的不可行性
在探討如何規(guī)制算法時,很多學(xué)者提出了要增加大數(shù)據(jù)算法的透明性,認(rèn)為“技術(shù)只有透明才能獲益”〔22〕。有的學(xué)者提出應(yīng)賦予個人對算法的解釋請求權(quán),以“限制算法權(quán)力”。其要求是鑒于合同法、侵權(quán)法和消費者保護法等都沒法充分救濟當(dāng)事人,法律應(yīng)賦予個人事后的算法解釋權(quán);相對人可對自動化決策及算法具體決定對相對人有法律上或經(jīng)濟上顯著影響的算法使用人提出異議,要求其對具體決策給出合理解釋〔23〕;自動化決策的相對人即算法解釋權(quán)的主體,譬如量刑、假釋輔助算法決策相對人以及經(jīng)過算法評估不被雇傭的候選人等〔24〕。但是,筆者認(rèn)為算法的公開和解釋權(quán)并不可行。首先,從技術(shù)上就難以實現(xiàn),因為自動決策算法依賴大量的數(shù)據(jù)和強大的硬件的支撐,就連算法的設(shè)計者也無法完全解釋決策產(chǎn)生的依據(jù);其次,就算算法真的公開,由于其專業(yè)性質(zhì)普通群眾也難以理解;最后,根本的一點在于這兩種解決方法并不適用于現(xiàn)代商業(yè)。其具體原因如下:
首先,公開算法邏輯侵犯商業(yè)秘密。如果法律強行要求企業(yè)解釋算法的過程,數(shù)據(jù)企業(yè)唯一的選擇就是將自動決策算法程序給予公開,這等同企業(yè)將自身辛苦研究的成果進行公布,將自身完全地暴露在競爭對手面前。企業(yè)對算法秘密的保護是維護自身競爭優(yōu)勢與商業(yè)機密最為有利的舉措,這一點對于競爭日漸殘酷的市場來說尤其重要〔25〕。算法解釋請求權(quán)在根本上干擾了互聯(lián)網(wǎng)企業(yè)的經(jīng)營行為。
其次,算法解釋權(quán)擾亂商業(yè)模式。自動決策算法的使用需要海量的數(shù)據(jù)和強大的硬件支持,強如谷歌、蘋果、阿里巴巴等互聯(lián)網(wǎng)巨鱷對大數(shù)據(jù)的處理都感覺吃不消。實體企業(yè)出于節(jié)省成本、降低技術(shù)難度等考慮也傾向于將業(yè)務(wù)外包,借助外部數(shù)據(jù)公司的輔助,在控制風(fēng)險的同時實現(xiàn)收益的最大化。所以在這種外包模式下,算法解釋缺乏實質(zhì)意義。
2.數(shù)據(jù)主體應(yīng)享受算法結(jié)果拒絕權(quán)
受限于數(shù)據(jù)庫規(guī)模及算法的價值判斷局限,哪怕數(shù)據(jù)主體被處理的個人數(shù)據(jù)并不存在瑕疵,算法決定也可能是不合理的。所以,我國《個人信息保護法》可以借鑒歐盟《通用數(shù)據(jù)保護條例》第22 條的規(guī)定,賦予數(shù)據(jù)主體對算法結(jié)果的拒絕權(quán)。具體而言:首先,算法結(jié)果拒絕權(quán)針對的是自動決策算法的運行結(jié)果,以決策樹為基礎(chǔ)的簡單決策算法并非該權(quán)利的規(guī)范對象;其次,算法結(jié)果拒絕權(quán)為事后的防御權(quán),數(shù)據(jù)主體不得事先拒絕自動決策算法的應(yīng)用;再次,算法結(jié)果拒絕權(quán)旨在防止和個體有關(guān)的決定僅僅通過對個體特征的自動評估而做出,防止個體成為計算機的客體。如果自動決策算法僅僅發(fā)揮輔助作用,最后結(jié)果實質(zhì)由人工做出,此時就并不存在個體淪為算法客體的危險,也就沒有算法結(jié)果拒絕權(quán)的適用必要;最后,數(shù)據(jù)主體應(yīng)遭受算法結(jié)果的嚴(yán)重影響。不利影響并非限于法律狀態(tài)的改變,也包括對類似利益的影響,如支付方式和支付條件等。
3.數(shù)據(jù)企業(yè)應(yīng)享受正當(dāng)?shù)幕砻饪赡?/p>
法秩序?qū)ψ詣記Q策算法的監(jiān)管,絕非以犧牲技術(shù)創(chuàng)新和社會進步為代價。數(shù)據(jù)主體的權(quán)利同時也是數(shù)據(jù)企業(yè)的負(fù)擔(dān)。如果我國《個人信息保護法》承認(rèn)算法結(jié)果的拒絕權(quán),那么也應(yīng)提供數(shù)據(jù)企業(yè)在下列情況的豁免可能。筆者認(rèn)為,《個人信息保護法》應(yīng)規(guī)定算法結(jié)果拒絕權(quán)在下列情況下并不適用:首先自動決策算法使用乃締結(jié)或履行合同所必須;其次個人明確表示同意;最后是法律規(guī)定的其他情況。在此,“法律規(guī)定的其他情況”為兜底條款,目的是使得法秩序獲得根據(jù)客觀環(huán)境變化靈活調(diào)整規(guī)則的可能性。
4.數(shù)據(jù)企業(yè)應(yīng)提供充分的程序性保障
即使?jié)M足例外的豁免條件,數(shù)據(jù)主體也應(yīng)該提供妥當(dāng)?shù)某绦蛐员U希詽M足數(shù)據(jù)主體的申訴要求。關(guān)于程序性保障,我國《個人信息保護法》可以通過《實施條例》來進行細(xì)化:個人信息控制者應(yīng)主動告知主管人員身份及便捷的聯(lián)系方式,應(yīng)確保數(shù)據(jù)主體表達自己的觀點的機會;一旦數(shù)據(jù)主體提出異議,算法決定即處于不生效狀態(tài)。此外,數(shù)據(jù)企業(yè)負(fù)有主動告知數(shù)據(jù)主體上開申訴機制的義務(wù),以確保規(guī)制目的的實現(xiàn)。
算法監(jiān)管內(nèi)容、流程乃至對互聯(lián)網(wǎng)企業(yè)承擔(dān)的強制披露義務(wù)都有著極強的專業(yè)性和技術(shù)性。所以,設(shè)立專業(yè)的監(jiān)管部門和具有系統(tǒng)性、層次性的監(jiān)管,便顯得尤為重要。
為了更好地監(jiān)管算法,數(shù)據(jù)企業(yè)內(nèi)部應(yīng)確立明確的自動決策算法的處理責(zé)任人。根據(jù)《信息安全技術(shù):個人信息安全規(guī)范》(以下簡稱規(guī)范)第10.1 條b 項,個人信息控制者應(yīng)任命個人信息保護負(fù)責(zé)人和個人信息保護工作機構(gòu)。2019 年1 月公布的《規(guī)范》(修改稿)新設(shè)第d 項和第8 子項,要求個人信息保護負(fù)責(zé)人“公布投訴、舉報方式等信息并及時受理投訴舉報”。我國已經(jīng)嘗試在數(shù)據(jù)企業(yè)內(nèi)部設(shè)計對口的崗位來確保企業(yè)的合規(guī)性。為了實現(xiàn)對自動決策算法的有效控制,立法也應(yīng)要求個人信息保護負(fù)責(zé)人負(fù)責(zé)處理對自動決策算法結(jié)果的拒絕或申訴事務(wù)。如果數(shù)據(jù)主體不滿意自動決策算法結(jié)果,可以直接聯(lián)系數(shù)據(jù)活動顧問,行使數(shù)據(jù)訪問權(quán)、算法結(jié)果拒絕權(quán)和申訴復(fù)議權(quán)。
只有存在專門的監(jiān)管機關(guān),數(shù)據(jù)主體才能及時向權(quán)力機關(guān)尋求支持,保障自身權(quán)利的實現(xiàn)。同時,公司內(nèi)部的數(shù)據(jù)活動顧問如果無法獲得外部的數(shù)據(jù)活動監(jiān)管部門的支持,也無法有效地對抗來自高層的壓力。為此,我國可以考慮借助《個人信息保護法》建立專門的數(shù)據(jù)活動監(jiān)管部門,以為個人行使權(quán)利對抗算法提供必要的保障。如果數(shù)據(jù)主體的訴求遭到數(shù)據(jù)企業(yè)的不當(dāng)拒絕,數(shù)據(jù)主體可以直接向數(shù)據(jù)活動監(jiān)管部門尋求幫助。相較于常規(guī)的行政和司法機構(gòu),高度的專業(yè)性、技術(shù)性應(yīng)是數(shù)據(jù)活動監(jiān)管部門所需具備的首要條件,唯有如此,才可結(jié)合相關(guān)行業(yè)準(zhǔn)則制定出與之匹配的規(guī)則,確保算法運用得更為合理。
對于算法偏見矯正法律監(jiān)管來說,需要首先創(chuàng)建相應(yīng)的信息披露義務(wù),即要求算法開發(fā)者、使用者結(jié)合這一準(zhǔn)則履行自身義務(wù)。譬如,算法是以預(yù)定義策略議程為設(shè)計目的時,此時的算法設(shè)計應(yīng)以道德準(zhǔn)則為設(shè)計前提,同時監(jiān)管部門也應(yīng)對此加以審核,其內(nèi)容包括設(shè)計目的、策略議程等。
數(shù)據(jù)反映的內(nèi)容源自現(xiàn)實社會,所以其內(nèi)容不乏現(xiàn)實社會中的各類歧視。算法決策是對未來的一種預(yù)測、一種判斷,當(dāng)過去的歧視在算法中被放大、被強化后,勢必對未來的預(yù)測造成嚴(yán)重的影響和誤導(dǎo)。所以,數(shù)據(jù)資產(chǎn)管理中,需對數(shù)據(jù)資產(chǎn)質(zhì)量的重要性給予高度重視,杜絕使用一切具有歧視性的數(shù)據(jù)。監(jiān)管部門應(yīng)以風(fēng)險防范為目標(biāo),強化數(shù)據(jù)資產(chǎn)質(zhì)量的分析,其中可采用的方式包括數(shù)據(jù)去噪篩查機制、數(shù)據(jù)評估機制,或借助專業(yè)人士的研究以實現(xiàn)對數(shù)據(jù)的修復(fù)或還原。
如果法律秩序不設(shè)計義務(wù)違反的法效果,規(guī)范將形同虛設(shè),淪為笑柄。我國相關(guān)部門進行制度設(shè)計時可以參考?xì)W盟的《通用數(shù)據(jù)保護條例》的相關(guān)規(guī)定,如第82 條第1 款:任何因為違反本條例而受到物質(zhì)或非物質(zhì)性傷害的人都有權(quán)從數(shù)據(jù)控制者或受托處理者那里獲得對損害的賠償;第83 條第5 款:如果數(shù)據(jù)企業(yè)違反第22 條的規(guī)定阻礙個人行使算法結(jié)果拒絕權(quán)或其他相關(guān)權(quán)利,監(jiān)管機關(guān)可以處以最高2000 萬歐元的行政處罰或相當(dāng)于其上一年全球營業(yè)額的4%金額的罰款(二者取其高),明確數(shù)據(jù)企業(yè)違反義務(wù)時的損害賠償責(zé)任和行政處罰規(guī)則。我國可以根據(jù)國情,制定一個既合理又具有懲罰性的罰款規(guī)則,來對數(shù)據(jù)主體企業(yè)進行規(guī)范。
吳漢東教授曾言道,“對于現(xiàn)代各國而言,人工智能發(fā)展的政策考量,其實是基于風(fēng)險的制度選擇和法律安排,我們應(yīng)通過法律化解風(fēng)險,通過法律吸納風(fēng)險,將風(fēng)險置于法治社會的背景之中,即對智能革命時代的法律制度乃至整個社會規(guī)范進行新的建構(gòu)”〔26〕。算法偏見將是未來社會的一項主要風(fēng)險,但是無論我們?nèi)绾螐娬{(diào)算法監(jiān)管,不扼殺行業(yè)的創(chuàng)新力和競爭力應(yīng)是管理的底線。若我們“責(zé)之過苛”,則無異于因噎廢食,必將落后于時代。歐盟的經(jīng)驗表明,立法的目標(biāo)應(yīng)是在不損及算法創(chuàng)新價值的基礎(chǔ)上建構(gòu)一套新的對抗算法不公的法律體系。通過《個人信息保護法》,來明確被遺忘權(quán)的保護和個人對算法結(jié)果的拒絕權(quán)來矯正算法偏見,構(gòu)建新的內(nèi)外監(jiān)管機構(gòu)來對數(shù)據(jù)企業(yè)進行監(jiān)管,雙管齊下,一定可以吸納和化解算法偏見帶來的風(fēng)險。