當(dāng)前,全球網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理的棘手問題是假新聞橫行、不實言論混淆視聽。智媒時代虛假內(nèi)容的生產(chǎn)與傳播也具有“智”的特征:造假手段的智能化(如深度偽造)和傳播擴散的“擬人化”(如機器人賬號)。2020年,全球84個國家有304個事實核查項目,項目數(shù)比2019年增加了近100個,但與全球每天產(chǎn)生的海量虛假內(nèi)容相比遠遠不足。造假技術(shù)的智能化迫切需要事實核查的智能化,自動化事實核查(Automated Fact-Checking,簡稱AFC)應(yīng)運而生。
自動化事實核查用數(shù)字工具來識別、驗證和回應(yīng)誤導(dǎo)性“陳述”(claims)。它的最大優(yōu)點在于處理速度快,如果用人工閱讀文稿和監(jiān)測電視尋找事實性“陳述”需要數(shù)小時,用自動化事實核查工具ClaimBuster只需要幾秒鐘。自動化事實核查還可以規(guī)避某些公眾的“批評”:傳統(tǒng)的人工事實核查被視為有“黨派偏見”。在美國,就有批評者認為,事實核查網(wǎng)站PolitiFact在選擇核查事實上存在黨派偏見,更容易選擇共和黨的失實言論作為核查對象,盡管民主黨人與共和黨人的核查文章總數(shù)相當(dāng),但出自共和黨人的言論更容易被標(biāo)注為“失實”或“荒謬”。以“技術(shù)中立”面貌出現(xiàn)的自動化事實核查可以賦予事實核查客觀、中立的形象。自動事實核查在核查“陳述”方面有一定的成效。聯(lián)合國的研究報告顯示,一些新聞媒體和事實核查機構(gòu)利用自動化工具,加快了新冠肺炎病毒相關(guān)的事實核查速度。
國內(nèi)學(xué)界對事實核查的關(guān)注多聚焦于傳統(tǒng)人工事實核查的流程、倫理、效果和個案研究,對自動化事實核查的技術(shù)邏輯及其蘊含的風(fēng)險缺少關(guān)照。自動化事實核查的核心是算法驅(qū)動,是打擊謊言和假新聞的算法治理(algorithmic governance)手段之一,但核查過程并非人工核查在技術(shù)上的“翻版”。從技術(shù)邏輯上看,人工事實核查與自動化事實核查并非“等同”關(guān)系,人工核查所采用的“匹配”邏輯在自動化事實核查中只是技術(shù)方法之一。計算科學(xué)家秉持的“算法形式主義”(algorithmic formalism)雖然讓算法解決問題的思路變得清晰,讓復(fù)雜的問題易于處理,卻讓自動化事實核查蘊含技術(shù)風(fēng)險。
基于此,本文擬從算法技術(shù)的內(nèi)部視角深入分析自動化事實核查的算法邏輯、內(nèi)生性風(fēng)險,并據(jù)此提出規(guī)避風(fēng)險的舉措。
算法是為解決一個特定的問題所采取的確定的有限步驟。解決一個問題可以有多個算法設(shè)計,算法性能可能存有差異。在自動化事實核查問題的解決上,算法邏輯也各不相同。
1.基于“匹配”的邏輯
自動化事實核查中基于“匹配”的邏輯源于人工事實核查?;凇捌ヅ洹钡乃惴ㄟ壿嬍且蕴囟ǖ恼Z料庫為基礎(chǔ)的,當(dāng)“陳述”出現(xiàn)時,系統(tǒng)自動將其與語料庫的內(nèi)容進行對比,如果匹配成功,則完成事實核查。事實核查的對象是“陳述”,而不是觀點。應(yīng)用這種邏輯的前提是要有一個“比對庫”——基于以往已被驗證事實的數(shù)據(jù)庫。這是一種典型的將現(xiàn)實思路模擬為技術(shù)思路的核查方法。
2020年新冠肺炎疫情期間,“國際事實核查網(wǎng)絡(luò)”(International Fact-Checking Network)建立了一個事實核查數(shù)據(jù)庫,包含超過40種語言的7000多個已核查“陳述”,聊天機器人WhatsApp Chatbot能夠從這個數(shù)據(jù)庫中找到匹配的“陳述”對用戶提出的關(guān)鍵字請求進行核查回應(yīng)。
人工智能程序Squash可以實時匹配在事實核查系統(tǒng)ClaimReview中已有的事實核查與現(xiàn)場演講者的“陳述”。Squash可以將政客的言論轉(zhuǎn)錄成可搜索的文本以便查找匹配項,幾秒鐘內(nèi)將相關(guān)的事實核查顯示在觀眾的屏幕上?!捌ヅ洹边壿嬛钥尚校且驗樵诟鞣N場合、平臺中的失實或誤導(dǎo)性“陳述”都是重復(fù)的說法,而這些“陳述”可能已被事實核查過了。類似的算法系統(tǒng)還有《華盛頓郵報》的“吐真者”(Truthteller)和FullFact的“實時平臺”(Live platform)。
2.基于“信源信度”的邏輯
如果不分析“陳述”內(nèi)容本身的真假,如何預(yù)測“陳述”的真假?基于“信源信度”的邏輯是一種典型的計算思維,它通過對信源可信度的判斷推論出“陳述”的可信與否。
基于“信源信度”的邏輯用整體封鎖信源的方式杜絕假新聞,看似簡單粗暴,但對付自動化的假新聞批量生產(chǎn)確實有效。
3.基于“關(guān)系”的邏輯
將“陳述”視為知識,如果為真,則一定有支持它的相關(guān)知識,反之則很少或沒有。自動化事實核查的另一個邏輯在于“關(guān)系”,即尋找某一“陳述”在知識圖譜中與其他知識的關(guān)系。
4.基于“缺陷”的邏輯
人工智能技術(shù)的發(fā)展讓“深度合成”游走于“合成”和“偽造”的兩端。深度偽造成為事實核查新的核查對象。面對這種新的、足以以假亂真的文本形態(tài),傳統(tǒng)的人工識別難以應(yīng)對。如果從技術(shù)的角度去解決,則有很多突破口。因為無論是合成還是偽造,從數(shù)據(jù)上看都會有“缺陷”,如果能找出這類視頻在“缺陷”上的數(shù)據(jù)特征,則可以有效識別真假。
5.基于“區(qū)塊鏈”的邏輯
基于“區(qū)塊鏈”的邏輯是依靠文本上的“元數(shù)據(jù)”(如時間、地點、作者以及所有編輯和發(fā)布的信息)來判斷文本的來源及其是否被篡改?;凇皡^(qū)塊鏈”的邏輯需要從信息文本(圖片、文章、圖像等)的源頭開始布局,如此才能真正發(fā)揮作用。當(dāng)前,全球部分主流媒體已經(jīng)開始布局區(qū)塊鏈,通過其核查不實信息。
技術(shù)風(fēng)險按生成方式可以分為外生性風(fēng)險和內(nèi)生性風(fēng)險。外生性風(fēng)險是由技術(shù)之外的因素引發(fā)的風(fēng)險。例如,使用者對于技術(shù)的誤用、誤解和濫用。內(nèi)生性風(fēng)險是與技術(shù)設(shè)計本身直接相關(guān)的各類因素引發(fā)的風(fēng)險。
1.誤解風(fēng)險
誤解風(fēng)險是指由于事實核查系統(tǒng)無法準(zhǔn)確“理解”人類語言而引發(fā)對“陳述”的誤解。誤解風(fēng)險的產(chǎn)生是人工智能發(fā)展的階段性問題。目前還處于弱人工智能階段,算法能夠從事的是簡單的、重復(fù)的事實核查,變通性較差。
2.誤判風(fēng)險
基于“信源信度”的邏輯、基于“關(guān)系”的邏輯、基于“缺陷”的邏輯,由于解決問題的思路不直接涉及被核查的內(nèi)容本身,會產(chǎn)生誤判風(fēng)險。
在基于“缺陷”的邏輯中,通過尋找視頻在生物特征上的缺陷的模式,只能在一定時期、一定階段有效,因為深度偽造技術(shù)正在完善,生物特征測試越來越難以發(fā)揮作用。
在弱人工智能時代,自動化事實核查不可避免地存在缺陷。作為一種信息糾錯機制,自動化事實核查內(nèi)生性風(fēng)險的最大后果在于損害事實核查與公眾間的信任關(guān)系。如何規(guī)避內(nèi)生性風(fēng)險的產(chǎn)生,不僅是技術(shù)問題,還需要多措并舉,在技術(shù)、把關(guān)、利益相關(guān)者和倫理等層面構(gòu)筑立體的防范體系。
1.技術(shù)層面:優(yōu)化設(shè)計,減少源數(shù)據(jù)的偏差
2.把關(guān)層面:“算法+事實核查員”的人機協(xié)同模式
3.利益相關(guān)者層面:組建事實核查網(wǎng)絡(luò)
從全球范圍看,事實核查是一種公益性的新聞事業(yè)。在人工事實核查方面,全球范圍有多個項目進行合作。新冠肺炎疫情期間,“國際事實檢查網(wǎng)絡(luò)”組織了“新冠肺炎病毒事實聯(lián)盟”,這個聯(lián)盟匯集了70個國家的100多名事實檢查員來更新關(guān)于新冠肺炎疾病的虛假信息的數(shù)據(jù)庫。法國的CrossCheck與34個新聞機構(gòu)及新聞專業(yè)的學(xué)生聯(lián)手,對法國總統(tǒng)大選進行報道。2015年成立的“初稿新聞”(First Draft News)是由媒體、大學(xué)、平臺和公民組織組成的事實核查協(xié)作體,它向記者和公眾免費培訓(xùn)相關(guān)技能。
4.倫理層面:強化透明和更正原則
當(dāng)算法系統(tǒng)不能保證百分之百正確時,對公眾誠實的態(tài)度非常重要。只有這樣,公眾才能給予自動化事實核查容錯的空間。當(dāng)然,對于系統(tǒng)開發(fā)者和使用者來說,也不能以此為借口經(jīng)常出錯。此外,自動化事實核查還要避免成為某些利益相關(guān)者的“工具”,行事實核查之名,做偏見、誤導(dǎo)之事。
自動化事實核查是網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理的重要手段,不同的算法邏輯展示了從算法角度進行事實核查的不同路徑。面對“算法形式主義”帶來的技術(shù)局限,如何規(guī)避風(fēng)險、提高自動化事實核查的效率和準(zhǔn)確性,是用技術(shù)治理技術(shù)問題的“元命題”。當(dāng)智媒時代算法被“賦魅”時,利益相關(guān)者應(yīng)當(dāng)提高算法素養(yǎng)為其“祛魅”,只有辯證、批判地看待算法在自動化事實核查中的邏輯和效用,我們才能讓自動化事實核查為新聞業(yè)的事實核查事業(yè)“加分”,也才能更好地參與網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理。