岑 超 李大印 楊承挺 陳云峰 趙 勇 呂 俊
中國人民銀行曲靖市中心支行,云南 曲靖 655000
隨著大數(shù)據(jù)和人工智能技術(shù)的廣泛應(yīng)用,算法逐漸成為網(wǎng)絡(luò)平臺(tái)的決策中樞,驅(qū)動(dòng)產(chǎn)業(yè)實(shí)現(xiàn)升級(jí)轉(zhuǎn)型,推動(dòng)數(shù)字經(jīng)濟(jì)蓬勃發(fā)展。但智能算法的大量應(yīng)用,也帶來了各類問題,其中,算法歧視是熱議話題。部分互聯(lián)網(wǎng)經(jīng)營平臺(tái)通過大數(shù)據(jù)和智能算法,對客戶實(shí)施歧視性的差別對待。例如,被網(wǎng)絡(luò)曝光的某大型網(wǎng)約車平臺(tái),通過智能算法“殺熟”,對老顧客實(shí)施價(jià)格歧視現(xiàn)象;2021年3月媒體報(bào)道“復(fù)旦大學(xué)研究披露:手機(jī)越貴、打車越貴”引發(fā)熱議;一些互聯(lián)網(wǎng)電商平臺(tái)通過智能算法對客戶實(shí)施差別優(yōu)惠現(xiàn)象;一些互聯(lián)網(wǎng)產(chǎn)品對客戶性別、身體健康狀況等進(jìn)行差別化的展示、推送現(xiàn)象;甚至一些互聯(lián)網(wǎng)平臺(tái)通過年齡等標(biāo)簽,對老年人等數(shù)字弱勢群體實(shí)施差別對待,間接加劇了“數(shù)字鴻溝”。諸多研究也證實(shí)了算法歧視的存在。2016年,暨南大學(xué)對網(wǎng)貸平臺(tái)“人人貸”進(jìn)行調(diào)查,經(jīng)分析該平臺(tái)近三年17萬筆交易訂單數(shù)據(jù)得出結(jié)論,女性借款人在中國互聯(lián)網(wǎng)借貸市場中收到了非理性的偏好歧視,國內(nèi)廖理等人借助一家網(wǎng)絡(luò)金融平臺(tái)的交易數(shù)據(jù),實(shí)證考察了互聯(lián)網(wǎng)金融借貸中存在地域歧視。中國人民大學(xué)小微金融研究中心編寫的《2015中國普惠金融發(fā)展報(bào)告》指出,人工智能算法通過用戶畫像,實(shí)現(xiàn)了對金融客戶的精細(xì)化管理,可能產(chǎn)生標(biāo)簽性歧視,背離了普惠金融的公平性原則。
算法歧視是什么,其產(chǎn)生機(jī)制是什么,有什么影響,實(shí)施者的獲利如何界定和計(jì)算,如何取證等這些問題,都值得深入研究、思考和論證。本文試圖從研究算法歧視的原理入手,分析和提出算法歧視的規(guī)制和取證方法,以此促進(jìn)對互聯(lián)網(wǎng)平臺(tái)消費(fèi)者權(quán)益的保護(hù)。
算法歧視( Algorithmic Bias)是計(jì)算機(jī)程序中的算法在處理數(shù)據(jù)時(shí)產(chǎn)生與人類類似的偏見或歧視的現(xiàn)象,常見于人工智能和大數(shù)據(jù)應(yīng)用之中[1]。伴隨著網(wǎng)絡(luò)經(jīng)濟(jì)的迅速發(fā)展,網(wǎng)絡(luò)交易已經(jīng)成為我國社會(huì)經(jīng)濟(jì)活動(dòng)中的重要交易方式。2020年,全國網(wǎng)上零售額117 601億元,約占社會(huì)消費(fèi)品零售總額的30%。網(wǎng)絡(luò)經(jīng)營平臺(tái)為提升自身競爭力和盈利能力,將基于數(shù)據(jù)挖掘、數(shù)據(jù)倉庫和OLAP聯(lián)機(jī)分析處理的商業(yè)智能BI(Business Intelligence)通過計(jì)算機(jī)編程技術(shù)嵌入到網(wǎng)絡(luò)交易平臺(tái)中。特別是人工智能、大數(shù)據(jù)和云計(jì)算技術(shù)的加速發(fā)展和應(yīng)用,使得商業(yè)智能能夠在網(wǎng)絡(luò)交易中快速響應(yīng),并基于經(jīng)營者自身利益,即時(shí)做出向消費(fèi)者展現(xiàn)、推薦、關(guān)聯(lián)、引導(dǎo)交易的決策。而運(yùn)行在網(wǎng)絡(luò)平臺(tái)服務(wù)器端的程序算法,是商業(yè)智能即時(shí)決策的大腦,它決定了通過網(wǎng)絡(luò)和終端向消費(fèi)者展現(xiàn)什么樣的信息,對消費(fèi)者發(fā)出的信息作出什么樣的反饋,引導(dǎo)消費(fèi)者盡可能快地做出交易決策,并使平臺(tái)盡可能獲取更高的收益。出于利潤最大化的目的,通過算法,利用消費(fèi)者性別、年齡、學(xué)歷、設(shè)備、消費(fèi)習(xí)慣、收入等數(shù)據(jù),在商品或服務(wù)信息展示、價(jià)格、交易操作便捷度、售后服務(wù)便捷度等方面,對不同客戶輸出不同結(jié)果,對其中部分客戶產(chǎn)生差異性對待,使其利益受損的行為,就是網(wǎng)絡(luò)交易中的算法歧視。利用算法實(shí)施定價(jià)歧視,稱為算法價(jià)格歧視。在金融領(lǐng)域,算法歧視主要表現(xiàn)為互聯(lián)網(wǎng)金融平臺(tái)對不同的金融消費(fèi)者提供有悖公平原則的價(jià)格、服務(wù)等方面。
2.1.1 算法構(gòu)建者的主觀偏見導(dǎo)致算法歧視
張玉宏等[2]認(rèn)為,算法歧視的一大原因就是人類的偏見。人類文化是存在偏見的,作為與人類社會(huì)同構(gòu)的大數(shù)據(jù),也必然包含著根深蒂固的偏見。而大數(shù)據(jù)算法僅僅是把這種歧視文化歸納出來。即使算法研發(fā)者主觀上沒有性別、種族歧視等觀念,通常也難以完全規(guī)避刻板印象與偏見。在算法構(gòu)建的過程中,一旦涉及多目標(biāo)決策、選擇和判斷,人的成見就如同在生活中的習(xí)慣,難以避免地體現(xiàn)到算法之中,其結(jié)果就是構(gòu)造出具有歧視性輸出的算法。互聯(lián)網(wǎng)企業(yè)從業(yè)者年輕化,算法設(shè)計(jì)和實(shí)現(xiàn)者年齡視角的缺失,導(dǎo)致問題建構(gòu)視野狹窄的問題,傾向于為同類人群設(shè)計(jì)和編程,一定程度上導(dǎo)致了近年來老年人群在健康碼、移動(dòng)支付、交通出行等智慧場景中頻繁遭遇“數(shù)字鴻溝”的問題[3]。
2.1.2 人工智能算法的訓(xùn)練樣本和數(shù)據(jù)偏差導(dǎo)致算法歧視
在網(wǎng)絡(luò)交易平臺(tái)上,主要通過人工智能算法構(gòu)建商品推薦系統(tǒng)。常見的算法有決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等,它們的共同特點(diǎn)是需要使用大量數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),并不斷修正參數(shù),獲得最佳模型。用于訓(xùn)練的數(shù)據(jù)如果集中存在歧視性因素,可能導(dǎo)致機(jī)器學(xué)習(xí)得到的參數(shù)和模型存在歧視性輸出。此外,數(shù)據(jù)本身的缺陷也可能導(dǎo)致歧視性結(jié)果,如少數(shù)群體數(shù)據(jù)過于稀疏導(dǎo)致的數(shù)據(jù)代表性缺失,在老年人群體中表現(xiàn)尤為突出。老年網(wǎng)民數(shù)相對于老年人數(shù)量,比例較低,使得老年人在網(wǎng)上留下的數(shù)據(jù)缺乏代表性,導(dǎo)致人工智能算法難以從稀疏的數(shù)據(jù)中提取到足夠精確的老年人特征,使得算法輸出結(jié)果產(chǎn)生對老年人不利的歧視現(xiàn)象,這也是當(dāng)下老年人群體面臨的“數(shù)字鴻溝”難題之一。特定群體的數(shù)據(jù)如果被人為地篩選,將造成數(shù)據(jù)稠密,使得數(shù)據(jù)代表性過度,同樣可能導(dǎo)致人工智能算法產(chǎn)生的結(jié)果缺乏客觀性。在金融領(lǐng)域,因沒有在互聯(lián)網(wǎng)留下過多的交易和信用數(shù)據(jù),“數(shù)據(jù)空白”“信用空白”人群在智能算法決策下更容易被金融機(jī)構(gòu)拒之門外,成為算法歧視對象。
2.1.3 算法本身存在缺陷導(dǎo)致的歧視
在弱人工智能時(shí)代,算法以計(jì)算機(jī)代碼的方式存在,其設(shè)計(jì)者的設(shè)計(jì)和編碼技術(shù)并非是完美無缺的,因此,程序和算法不可避免地存在難以及時(shí)獲知的缺陷,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方式構(gòu)造的人工智能算法,可能在不斷迭代的過程中,因設(shè)計(jì)的缺陷而產(chǎn)生預(yù)料之外的結(jié)果,就有可能產(chǎn)生歧視性的輸出。
2.1.4 利潤最大化驅(qū)動(dòng)的算法價(jià)格歧視
以上幾種情形下產(chǎn)生的算法歧視,更多是人性、道德和社會(huì)問題在數(shù)學(xué)模型中的折射。而基于利潤最大化的算法歧視,也就是算法價(jià)格歧視,則具有更為純粹的經(jīng)濟(jì)學(xué)動(dòng)因。它是在交易過程中,掌握信息、數(shù)據(jù)和算法優(yōu)勢的一方,對不同的人展示不同的價(jià)格,使得總體利潤實(shí)現(xiàn)最大化的行為。這是當(dāng)前引發(fā)關(guān)注最多的算法歧視類型,即算法價(jià)格歧視。
在網(wǎng)絡(luò)交易平臺(tái)中,經(jīng)營者通過以下幾個(gè)步驟,實(shí)現(xiàn)算法價(jià)格歧視。第一步,獲取用戶數(shù)據(jù)。盡可能多地采集用戶的信息,為用戶構(gòu)建畫像,包含用戶屬性畫像,如性別、年齡、學(xué)歷、收入、婚育狀況等,以及行為畫像,如消費(fèi)偏好、上網(wǎng)習(xí)慣、飲食習(xí)慣、品牌偏好、興趣愛好等。這些數(shù)據(jù)的獲取,一部分,是通過用戶自愿提供,如在注冊賬戶、下單等場景下,自愿以表單方式錄入的數(shù)據(jù),主要是屬性數(shù)據(jù);另一部分,則是平臺(tái)通過大數(shù)據(jù)技術(shù),在用戶交易數(shù)據(jù)和屬性數(shù)據(jù)的基礎(chǔ)上,通過機(jī)器學(xué)習(xí)等算法歸納而得的數(shù)據(jù),主要是行為數(shù)據(jù);還有一部分?jǐn)?shù)據(jù),是用戶非自愿提供的數(shù)據(jù),平臺(tái)通過技術(shù)手段對用戶設(shè)備信息、設(shè)備中存儲(chǔ)的信息自動(dòng)讀取獲得的數(shù)據(jù);再有一部分?jǐn)?shù)據(jù),是平臺(tái)型經(jīng)營者獲取第三方商家的用戶數(shù)據(jù),并用于自營業(yè)務(wù)或數(shù)據(jù)產(chǎn)品業(yè)務(wù)的情況。第二步,構(gòu)建算法模型。在有部分?jǐn)?shù)據(jù)或全量數(shù)據(jù)的情況下,通過機(jī)器學(xué)習(xí)等方法,構(gòu)建合適的算法模型。將用戶數(shù)據(jù)進(jìn)行分類、聚合,以回歸等方式,構(gòu)建數(shù)學(xué)模型,實(shí)現(xiàn)對用戶的畫像、分類和預(yù)測等功能;第三步,用戶訪問平臺(tái)時(shí),通過算法對用戶進(jìn)行識(shí)別,并對用戶進(jìn)行預(yù)測,向用戶個(gè)性化推薦商品或展示不同價(jià)格,實(shí)現(xiàn)智能決策。常被使用的算法及其功能如下:支持向量機(jī)用于分類;關(guān)聯(lián)規(guī)則算法用于關(guān)聯(lián)營銷;協(xié)同過濾算法用于“千人千面”的信息展示和推薦;聚類算法根據(jù)產(chǎn)品的相似性、顧客的群特征,對消費(fèi)者進(jìn)行分類;此外還有貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-臨近、決策樹等。
以決策樹算法為例,我們利用Python編程,通過一組來源于網(wǎng)絡(luò)的金融客戶脫敏數(shù)據(jù),模擬了算法歧視的實(shí)現(xiàn)過程。決策樹算法的思想是:構(gòu)建一個(gè)樹形決策模型,從根節(jié)點(diǎn)開始,對實(shí)例進(jìn)行判斷,根據(jù)判斷結(jié)果輸出給某一子節(jié)點(diǎn)(分支),在新的分支上繼續(xù)遞歸執(zhí)行判斷,直到輸出結(jié)果為葉子節(jié)點(diǎn)為止。決策樹算法在金融風(fēng)控等領(lǐng)域應(yīng)用較多,其通過樹形結(jié)構(gòu)將實(shí)例進(jìn)行分類。
實(shí)驗(yàn)過程為:一是利用Python的Pandas庫,讀取數(shù)據(jù),設(shè)置特征變量和目標(biāo)變量。二是設(shè)置訓(xùn)練集、評估測試集和對比測試集數(shù)據(jù),利用決策樹模型分別進(jìn)行模型訓(xùn)練和預(yù)測。三是記錄實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)記錄如表1所示。
表1 原始訓(xùn)練集、其他訓(xùn)練集訓(xùn)練模型及使用對比測試集預(yù)測結(jié)果對比
實(shí)驗(yàn)得到如下結(jié)論:去除實(shí)際違約率大于0.5的年齡段數(shù)據(jù)集,將使得該年齡段的預(yù)測違約率預(yù)測顯著降低;去除實(shí)際違約率小于0.5的年齡段數(shù)據(jù)集,將使得該年齡段的預(yù)測違約率顯著提高。其中,30~40歲年齡段尤為顯著,將30~40歲的數(shù)據(jù)從訓(xùn)練集中去除后,該年齡段的預(yù)測違約率從0.28顯著提升到0.57,造成了對該群體不利的“歧視性”輸出。
在實(shí)際應(yīng)用中,假如互聯(lián)網(wǎng)平臺(tái)用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)中,某一群體數(shù)據(jù)缺失或人為剔除,將對該群體造成影響,如果該群體的實(shí)際違約率低于整體平均值,那將造成該群體的利益受損,體現(xiàn)為受到平臺(tái)“算法歧視”。
算法歧視會(huì)對社會(huì)、經(jīng)濟(jì)和個(gè)體產(chǎn)生影響。在研究算法歧視的影響時(shí),大多數(shù)研究者都承認(rèn)其具有復(fù)雜性,應(yīng)該通過綜合的因素,如社會(huì)整體福利、消費(fèi)者福利、生產(chǎn)者福利等對其進(jìn)行判定,而且應(yīng)當(dāng)一例一判。有研究認(rèn)為,算法歧視也未必都是負(fù)面影響,其也可能存在正向影響,主要觀點(diǎn)有:消費(fèi)者一定程度上會(huì)獲得個(gè)性化需求的滿足[4];從某種意義上,算法價(jià)格歧視是根據(jù)消費(fèi)者資源占有程度對價(jià)格進(jìn)行再調(diào)整,這一過程對弱勢群體有利,可能會(huì)增加社會(huì)整體福利,如果企業(yè)能夠獲得消費(fèi)者一致信息,算法價(jià)格歧視能夠促進(jìn)市場競爭。我們認(rèn)為,算法歧視造成的負(fù)面影響大于其正面影響[5]。
人們對公平的追求是理想化的,即便算法歧視沒有對社會(huì)秩序造成極大的損害,但會(huì)引起人們對社會(huì)價(jià)值準(zhǔn)則是否應(yīng)該被遵從的質(zhì)疑,這本身就是對社會(huì)秩序造成的損害。例如,當(dāng)某些平臺(tái)的“殺熟”行為被媒體披露后,總是引起公眾的熱烈討論,且公眾負(fù)面的不滿情緒成為主流,但真正訴諸法律的卻極少。排除算法歧視在個(gè)案中對個(gè)體產(chǎn)生的影響較小、造成經(jīng)濟(jì)損失較小的因素,說明公眾對算法歧視造成的社會(huì)公平問題的關(guān)注度大于其對諸多個(gè)體造成的福利損失的關(guān)注度。此外,越是大型平臺(tái)實(shí)施的算法歧視行為,越容易引發(fā)公眾對經(jīng)濟(jì)壟斷行為在道德層面的擔(dān)憂,公眾擔(dān)心這些基于利潤最大化的算法價(jià)格歧視行為,是否會(huì)無限拓展到生活的方方面面,而讓社會(huì)個(gè)體最終被算法所“奴役”。
傳統(tǒng)的市場壟斷提價(jià)行為,壟斷主體明顯且公開地進(jìn)行漲價(jià)。只要有足夠多的數(shù)據(jù),使用合適的算法就能夠?qū)嵤┧惴ㄆ缫暎虼似脚_(tái)越大,數(shù)據(jù)就越多,越容易實(shí)現(xiàn)算法價(jià)格歧視,增加更多利潤。在市場增量小,甚至是負(fù)增量的情況下,小微企業(yè)的利潤空間和生存空間將因此受到擠壓,基于小微企業(yè)的廣泛創(chuàng)新也會(huì)受到抑制。金融領(lǐng)域的算法歧視,使得資金“嫌貧愛富”,加劇“馬太效應(yīng)”,從而加劇實(shí)體經(jīng)濟(jì)的壟斷,抑制實(shí)體產(chǎn)業(yè)創(chuàng)新和普惠金融發(fā)展。
無論何種初衷的或何種形式的歧視,都會(huì)對個(gè)體造成感知的不適,即精神損失。而算法價(jià)格歧視,還會(huì)造成個(gè)體福利的損失,是一方對另一方的隱蔽剝削,與個(gè)體權(quán)益受保護(hù)的價(jià)值準(zhǔn)則相違背。例如,金融領(lǐng)域的算法歧視,會(huì)造成個(gè)體在獲得金融服務(wù)方面處于劣勢,間接造成經(jīng)濟(jì)損失;而電子商務(wù)平臺(tái)、O2O平臺(tái)的算法歧視,使得部分消費(fèi)者對某一產(chǎn)品或服務(wù)支出更多的金錢。
2016年,美國白宮發(fā)布了《大數(shù)據(jù)報(bào)告:算法系統(tǒng)、機(jī)會(huì)和公民權(quán)利》,報(bào)告指出,僅因?yàn)樗惴ㄓ蓴?shù)據(jù)驅(qū)動(dòng)就認(rèn)為算法是客觀的,實(shí)乃美麗的誤會(huì)。該報(bào)告將算法的歧視性因素分為兩大類,即輸入算法的數(shù)據(jù)資質(zhì)和算法自身的工作機(jī)制。英國發(fā)布的《英國人工智能發(fā)展的計(jì)劃、能力與志向》報(bào)告指出,如果數(shù)據(jù)庫準(zhǔn)確地反映了社會(huì)中不公平的一面,同樣可能產(chǎn)生歧視。其指出,已有證據(jù)表明,訓(xùn)練數(shù)據(jù)、數(shù)據(jù)處理、算法設(shè)計(jì)者的因素都可能導(dǎo)致算法歧視[6]。美國政府規(guī)定,使用大數(shù)據(jù)和算法來進(jìn)行決策時(shí),應(yīng)當(dāng)符合《公平信用報(bào)告法》和《民權(quán)法案》的要求。奧巴馬政府曾建議監(jiān)管機(jī)構(gòu)“應(yīng)擴(kuò)大其技術(shù)專長,以便能夠識(shí)別對受保護(hù)群體具有歧視性影響的分析,并制定調(diào)查和解決該類歧視行為的計(jì)劃”[7]。2019 年4 月,歐盟委員會(huì)任命的人工智能高級(jí)別專家組發(fā)布了“可信賴人工智能”倫理指南的最終版本。該指南規(guī)定,人工智能系統(tǒng)(算法決策系統(tǒng))的使用應(yīng)當(dāng)遵循多樣性、非歧視性和公平性原則。該指南還強(qiáng)調(diào),人工智能系統(tǒng)應(yīng)避免不公平的偏見,并對所有人開放[8]。
2021年,全國金融標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布的《人工智能算法金融應(yīng)用評價(jià)規(guī)范》(JR/T 0221—2021),對于算法歧視有兩處提及:在“安全性評價(jià)”中,對人工智能算法目標(biāo)函數(shù)評價(jià)提出“目標(biāo)函數(shù)不應(yīng)存在偏見歧視”,判定準(zhǔn)則為“設(shè)計(jì)文檔有目標(biāo)函數(shù)的說明,目標(biāo)函數(shù)設(shè)計(jì)上不存在膚色、性別、國籍、年齡、健康等偏見歧視”;在“特征選擇可解釋”中,對人工智能算法金融應(yīng)用特征選擇可解釋評價(jià)的基本要求為“特征選擇過程不應(yīng)有歧視性”,評價(jià)方法為“查閱資料”,判定準(zhǔn)則為“設(shè)計(jì)文檔中對于特征選擇的過程,不能夠有明顯的歧視”。2021年7月,國家市場監(jiān)督管理總局公布《價(jià)格違法行為行政處罰規(guī)定(修訂征求意見稿)》,新增了“新業(yè)態(tài)中的價(jià)格違法行為”內(nèi)容,包含:電子商務(wù)平臺(tái)經(jīng)營者利用大數(shù)據(jù)分析、算法等技術(shù)手段,根據(jù)消費(fèi)者或其他經(jīng)營者的偏好、交易習(xí)慣等特征,基于成本或正當(dāng)營銷策略之外的因素,對同一商品或服務(wù)在同等交易條件下設(shè)置不同價(jià)格的行為等。2021年7月,深圳市人大常委會(huì)公布的《深圳經(jīng)濟(jì)特區(qū)數(shù)據(jù)條例》規(guī)定,自然人有權(quán)拒絕對其進(jìn)行用戶畫像和基于此的個(gè)性化推薦,數(shù)據(jù)處理者應(yīng)為其提供拒絕的途徑;還規(guī)定了市場主體不得利用數(shù)據(jù)分析,對交易條件相同的交易對不同人實(shí)施差別待遇。
在算法價(jià)格歧視下,提價(jià)多少才能夠獲利?超出什么樣的提價(jià)才是不合理的提價(jià)?平臺(tái)提價(jià)獲取了多少超額利潤?回答這些問題,不僅對于研究算法歧視、量化其影響具有積極意義,還對監(jiān)管和執(zhí)法取證、量化責(zé)任具有操作指導(dǎo)意義。算法價(jià)格歧視是變相提價(jià)行為,與傳統(tǒng)的壟斷漲價(jià)行為一樣,其提價(jià)伴隨著兩種效應(yīng):一種是由于銷量損失而失去利潤,另一種是由于提價(jià)而增加利潤。我們認(rèn)為,臨界損失分析法作為傳統(tǒng)壟斷市場的界定方法,也適用于算法價(jià)格歧視的獲利分析。
臨界損失分析法的原理是指壟斷企業(yè)提高價(jià)格的同時(shí),也會(huì)造成訂單流失,當(dāng)企業(yè)提價(jià)獲得的利潤剛好等于訂單流失損失的利潤,稱之為臨界損失。數(shù)學(xué)表達(dá)式為如下:
式中:X為假定價(jià)格上漲幅度;CM(Contribution Margin)為邊際貢獻(xiàn)率,是價(jià)格與平均可變成本的差額;CL(Critical Loss)為臨界損失。
將這一方法的原理展開敘述,就是當(dāng)經(jīng)營者在某一市場上獲得壟斷地位后,必然會(huì)實(shí)施一個(gè)超過競爭水平的價(jià)格,以追逐超額利潤,但這個(gè)價(jià)格并不是隨心所欲的,而是要遵循壟斷利潤最大化原則。在提價(jià)幅度為X的情況下,如果損失的銷量小于某一“臨界”值,還能夠增加利潤,那么平臺(tái)便會(huì)傾向于提價(jià),計(jì)算X值,并將其與合理的漲價(jià)幅度(通常為5%[9])進(jìn)行比較,就可以判定平臺(tái)是否超過合理范圍提價(jià)。
傳統(tǒng)的提價(jià)行為,是針對所有客戶的提價(jià),提價(jià)產(chǎn)生的客戶流失包含兩部分。一部分客戶會(huì)從自身的經(jīng)濟(jì)情況或出價(jià)意愿出發(fā),因?yàn)槌鲑徺I能力或出價(jià)意愿而放棄購買;另一部分客戶會(huì)覺察到提價(jià)而傾向于在不同平臺(tái)和渠道間進(jìn)行比較,以規(guī)避自身的損失。在算法歧視場景下,平臺(tái)為了實(shí)現(xiàn)算法歧視,會(huì)刻意制造或利用信息壁壘,使得提價(jià)行為具備隱蔽性,成為針對特定群體的提價(jià),而算法和數(shù)據(jù),可以讓平臺(tái)規(guī)避對第一部分客戶進(jìn)行提價(jià),另一部分客戶就沒有那么幸運(yùn)了,他們不知道商家提價(jià),也覺察不到自己支付了相對其他客群更高的價(jià)格。因此,隱蔽的算法價(jià)格歧視,訂單損失數(shù)相比傳統(tǒng)提價(jià)損失的訂單更少,也就是說,算法歧視加劇了壟斷,降低了價(jià)格壟斷的門檻,可以獲得更多的額外利潤。因此,臨界損失分析法應(yīng)用于平臺(tái)算法價(jià)格歧視是可行性的。而且可以推斷,在同等條件下,算法價(jià)格歧視下的CM相比傳統(tǒng)壟斷市場提價(jià)情況更高,所以CL更大,提價(jià)失敗的可能變小,提價(jià)更容易獲利。
目前,還沒有通用、可靠的算法歧視發(fā)現(xiàn)和取證方法。但此方面的研究和實(shí)踐有一定方法可以借鑒[10],我們在掌握算法歧視原理,以及對已有方法進(jìn)行了解和掌握的基礎(chǔ)上,將理論上存在的算法歧視取證方法歸納和分析。這些方法適用于所有開放的網(wǎng)絡(luò)平臺(tái),包括:電子商務(wù)平臺(tái)、O2O平臺(tái)、互聯(lián)網(wǎng)金融平臺(tái)等。
爬蟲審計(jì),即通過網(wǎng)絡(luò)爬蟲技術(shù),采集和分析互聯(lián)網(wǎng)平臺(tái)交易數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行分析和審計(jì)?!芭老x”是按照一定規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或腳本,其原理是模擬瀏覽器向網(wǎng)絡(luò)服務(wù)器發(fā)送請求,以便將所需資源從網(wǎng)絡(luò)信息流中分離、提取和篩選出來,通常用于獲取公開的網(wǎng)絡(luò)信息。通過網(wǎng)絡(luò)爬蟲,可以對互聯(lián)網(wǎng)平臺(tái)開展“大數(shù)”分析取證,即通過對采集大量數(shù)據(jù)進(jìn)行加工、分析,以數(shù)據(jù)反映的特征、規(guī)律來分析平臺(tái)是否存在算法歧視行為。如何從大量數(shù)據(jù)中獲取算法歧視的線索,則需要綜合互聯(lián)網(wǎng)平臺(tái)業(yè)務(wù)特征、消費(fèi)者行為和特征、互聯(lián)網(wǎng)平臺(tái)行為和特征等開展數(shù)據(jù)分析。爬蟲審計(jì)適合用于對開放的互聯(lián)網(wǎng)平臺(tái)進(jìn)行算法歧視取證或事前監(jiān)督,但對于手機(jī)銀行、移動(dòng)APP等數(shù)據(jù)和用戶實(shí)現(xiàn)“閉環(huán)”的網(wǎng)絡(luò)應(yīng)用,則較難實(shí)現(xiàn)數(shù)據(jù)的獲取,而且在反爬蟲技術(shù)被大型網(wǎng)絡(luò)平臺(tái)使用的情況下,網(wǎng)絡(luò)爬蟲的難度有所增加。
通過注冊不同特征的虛擬賬號(hào)進(jìn)行搜索和比對。這一方法建立在算法歧視通過“用戶畫像”,針對不同用戶展現(xiàn)不同信息和數(shù)據(jù)、提供不同服務(wù)和價(jià)格的行為上,通過注冊不同特征的虛擬用戶,對目標(biāo)產(chǎn)品和服務(wù)進(jìn)行訪問,甚至模擬交易,如果在虛擬用戶的情況下出現(xiàn)不同的信息、數(shù)據(jù)或價(jià)格,且存在歧視性的展現(xiàn)結(jié)果,便可以認(rèn)為存在算法歧視行為。使用這一方法,需要對平臺(tái)可能存在的算法歧視行為進(jìn)行假設(shè)和推測,盡可能多地將其用戶進(jìn)行分類。其中,較容易模擬的用戶特征是用戶性別、年齡、學(xué)歷、收入、婚育狀況等,這些數(shù)據(jù)在注冊過程中通過手動(dòng)添加即可;而用戶的投資偏好、消費(fèi)偏好、上網(wǎng)習(xí)慣、飲食習(xí)慣、品牌偏好、興趣愛好等行為特征則不容易被模擬,它們需要通過這些賬號(hào)進(jìn)行一定程度虛擬操作,如通過不斷瀏覽高收益的金融產(chǎn)品模擬用戶的“投資偏好”,通過不斷瀏覽大額產(chǎn)品模擬用戶的“消費(fèi)偏好”等,實(shí)現(xiàn)對算法的“欺騙”。但在互聯(lián)網(wǎng)平臺(tái)實(shí)名制的情況下,注冊虛擬用戶較難,大量注冊虛擬賬號(hào)用于測試分析更不具備可行性。
利用和虛擬用戶類似的原理,在注冊虛擬用戶困難的情況下,可以使用真實(shí)賬號(hào),通過采取類似虛擬賬號(hào)模擬用戶行為特征的方式打亂該賬號(hào)的固有特征,如隨機(jī)搜索、瀏覽和點(diǎn)擊商品,或者在某一特征用戶疑似遭受算法歧視的情況下,針對該用戶標(biāo)簽或?qū)傩赃M(jìn)行反向操作,在清洗標(biāo)簽前后比對搜索和展示結(jié)果。其不足是可能難以命中算法邊界值,或難以突破平臺(tái)反“作弊”的能力。增加真實(shí)賬戶數(shù)量進(jìn)行操作,可以提高取證發(fā)現(xiàn)率,但我們很難找到大量真實(shí)的用戶,也不容易獲得真實(shí)用戶的授權(quán)進(jìn)行相關(guān)操作,這也是在實(shí)際應(yīng)用中面臨的難題。
針對虛擬用戶和標(biāo)簽清洗方法存在的難點(diǎn)和不足,可以通過招募志愿者的方式,招募不同地域、年齡、性別、職業(yè)的諸多真實(shí)用戶,對互聯(lián)網(wǎng)平臺(tái)產(chǎn)品進(jìn)行試用和比對,并記錄志愿者試用的數(shù)據(jù)。復(fù)旦大學(xué)研究的“手機(jī)越貴,打車越貴”問題,就是通過在多個(gè)城市招募志愿者進(jìn)行取證和研究的。這一方法的原理,實(shí)質(zhì)是模擬消費(fèi)者之間的信息溝通,打破平臺(tái)算法歧視的基本要素—信息壁壘,使信息在消費(fèi)者之間發(fā)生對比和反饋,從而對算法歧視行為進(jìn)行證實(shí)。這一方法從社會(huì)因素和技術(shù)因素方面考慮,均具備可操作性。但對于監(jiān)管機(jī)構(gòu)而言,使用這一方法,將面臨與研究機(jī)構(gòu)不同的難點(diǎn),即執(zhí)法行為是否應(yīng)當(dāng)由普通人或志愿者參與,執(zhí)法的公正性和嚴(yán)肅性是否會(huì)因大量非執(zhí)法人員的直接介入而受到影響,如何合法使用這一手段進(jìn)行執(zhí)法,都是值得探討的問題。
在可以獲取代碼的情況下,通過閱讀、審查互聯(lián)網(wǎng)平臺(tái)的源代碼,發(fā)現(xiàn)是否存在歧視行為。這一方式的技術(shù)原理利用的是軟件工程的代碼走查技術(shù),通過組織專業(yè)人員對目標(biāo)系統(tǒng)的代碼進(jìn)行閱讀、檢視,乃至邏輯測試,并記錄存在歧視性邏輯設(shè)計(jì)的算法。在這一方式下,獲得的算法歧視證據(jù)是直接證據(jù),即可以通過算法的歧視性邏輯設(shè)計(jì)對其進(jìn)行定性,如同獲取了“違法工具”,其效力是直接而有力的。但這一方式的缺點(diǎn)也很明顯,首先,獲得算法本身是一個(gè)困難的事情,在實(shí)際應(yīng)用場景中,獲得商業(yè)平臺(tái)的算法有嚴(yán)格、煩瑣的法律流程;其次,代碼量過大、代碼結(jié)構(gòu)過于復(fù)雜都會(huì)使得該方法的難度升級(jí),普通的執(zhí)法機(jī)構(gòu)可能難以完成該項(xiàng)工作;再次,該方法需要專業(yè)人員,也增加了實(shí)施門檻,特別是在基層執(zhí)法部門實(shí)施存在困難。
算法歧視廣泛存在,編程者的主觀偏見、訓(xùn)練樣本和數(shù)據(jù)偏差、算法自身缺陷是其產(chǎn)生的客觀原因,而利潤最大化驅(qū)使是主觀原因。算法歧視的技術(shù)原理是通過計(jì)算機(jī)程序?qū)τ脩魯?shù)據(jù)的分析利用和個(gè)性化決策來實(shí)現(xiàn)的,其往往伴隨著用戶數(shù)據(jù)大量獲取和制造信息壁壘,以及采用機(jī)器學(xué)習(xí)建模等方法,輸出不公平的結(jié)果,甚至導(dǎo)致不公平的交易。算法歧視會(huì)對社會(huì)、經(jīng)濟(jì)和個(gè)體產(chǎn)生負(fù)面影響,在國內(nèi)外均受到政府的規(guī)制。臨界損失分析法可以用于算法價(jià)格歧視獲利分析??梢酝ㄟ^爬蟲審計(jì)、虛擬用戶、標(biāo)簽清洗、招募志愿者和代碼審查方法對算法歧視進(jìn)行取證,這些方法適用于電子商務(wù)平臺(tái)、O2O平臺(tái)、互聯(lián)網(wǎng)金融平臺(tái),可以用作研究算法歧視,監(jiān)督算法應(yīng)用,從而保護(hù)消費(fèi)者權(quán)益。