摘 要:生成式AI的技術(shù)特性使其對(duì)《個(gè)人信息保護(hù)法》建構(gòu)的個(gè)人信息保護(hù)體系產(chǎn)生了挑戰(zhàn),主要包括:生成式AI雖然解決了讓語(yǔ)言模型使用超大體量無(wú)人工標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的難題,但其采用的技術(shù)路線也使大語(yǔ)言模型成為完全的“技術(shù)黑箱”,進(jìn)而使開(kāi)發(fā)者難以遵守個(gè)人信息處理的知情同意規(guī)則;無(wú)論是依據(jù)“目的限定原則”還是“場(chǎng)景理論”,生成式AI的技術(shù)特性都使其難以滿足在“合理范圍”內(nèi)處理已公開(kāi)個(gè)人信息的法定要求;生成式AI的技術(shù)特性使大語(yǔ)言模型的輸入端和輸出端都存在對(duì)信息主體的敏感個(gè)人信息權(quán)益和個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)。我們應(yīng)該基于“包容審慎”的基本風(fēng)險(xiǎn)規(guī)制理念,通過(guò)調(diào)整生成式AI領(lǐng)域知情同意規(guī)則的適用方式、重塑生成式AI領(lǐng)域已公開(kāi)個(gè)人信息的處理規(guī)則、設(shè)立生成式AI領(lǐng)域個(gè)人信息中人格權(quán)保護(hù)的行政規(guī)制措施等途徑,實(shí)現(xiàn)創(chuàng)新技術(shù)發(fā)展和個(gè)人信息保護(hù)之間的平衡。
關(guān)鍵詞:生成式人工智能;ChatGPT;個(gè)人信息;風(fēng)險(xiǎn)規(guī)制
中圖分類號(hào):DF36 文獻(xiàn)標(biāo)志碼:A
一、引言
生成式AI(Generative AI)也即生成式人工智能,它是人工智能技術(shù)的一種下屬類型,指“能夠自主生成新的文本、圖像、音頻等內(nèi)容的人工智能系統(tǒng)”。①2023年8月15日生效的《生成式人工智能服務(wù)管理暫行辦法》第22條將生成式AI技術(shù)界定為“具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù)”。生成式AI不同于傳統(tǒng)上的決策式AI(Decision-making AI),后者的特性在于通過(guò)分析大規(guī)模數(shù)據(jù)集,研究數(shù)據(jù)集內(nèi)存在的條件概率,總結(jié)出相對(duì)穩(wěn)定的規(guī)律,并據(jù)此對(duì)未來(lái)作出預(yù)測(cè),輔助人們作出相應(yīng)的決策??梢?jiàn),決策式AI偏重通過(guò)算法模型對(duì)大數(shù)據(jù)分析所總結(jié)的規(guī)律作出對(duì)未來(lái)可能性的預(yù)測(cè),生成式AI則偏重通過(guò)算法模型對(duì)大數(shù)據(jù)分析所總結(jié)的規(guī)律生成全新的信息內(nèi)容。簡(jiǎn)言之,傳統(tǒng)決策式AI的主要功能在于“作出預(yù)測(cè)”,而新興的生成式AI的主要功能在于“產(chǎn)出內(nèi)容”。
See Philipp Hacker, Andreas Engel & Marco Mauer, Regulating ChatGPT and Other Large Generative AI Models, FAccT ’23: Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, 2023, p.1113.
正是由于兩種不同人工智能的主要功能存在這種差異,因此,決策式AI通常被應(yīng)用于需要對(duì)用戶需求、周遭環(huán)境、風(fēng)險(xiǎn)概率進(jìn)行預(yù)測(cè)的場(chǎng)景,如電商數(shù)字平臺(tái)的個(gè)性化推薦服務(wù)、自動(dòng)駕駛汽車的環(huán)境自動(dòng)監(jiān)測(cè)功能、金融行業(yè)的投資風(fēng)險(xiǎn)、借貸主體違約風(fēng)險(xiǎn)判斷等。而生成式AI的主要應(yīng)用場(chǎng)景則是需要高效、快速、自主生成特定數(shù)字信息內(nèi)容的領(lǐng)域,如ChatGPT用于自主生成文字/代碼類的內(nèi)容、Midjourney用于自主生成圖像類的內(nèi)容、Sora用于自主生成視頻類的內(nèi)容、MuseNet用于自主生成音樂(lè)音頻的內(nèi)容等。
現(xiàn) 代 法 學(xué) 2024年第4期
黃 锫:生成式AI對(duì)個(gè)人信息保護(hù)的挑戰(zhàn)與風(fēng)險(xiǎn)規(guī)制
生成式AI的出現(xiàn)標(biāo)志著新科技浪潮的興起,是人工智能發(fā)展的全新階段。它不但會(huì)成為推動(dòng)數(shù)字經(jīng)濟(jì)高速發(fā)展的新引擎,而且還將深刻地改變?nèi)祟惿铑I(lǐng)域的方方面面。然而,在生成式AI迅猛發(fā)展的背后,暗含的風(fēng)險(xiǎn)已經(jīng)隱約可見(jiàn)。這主要包括:第一,由于生成式AI的類人化程度很高,人們常會(huì)對(duì)其產(chǎn)生深度信賴,這也就會(huì)導(dǎo)致諸如ChatGPT類的生成式AI可以“通過(guò)優(yōu)秀的交互能力在情景化和個(gè)性化語(yǔ)境中對(duì)用戶加以高效率、大規(guī)模、隱秘性地操縱、說(shuō)服和影響”
張欣:《生成式人工智能的算法治理挑戰(zhàn)與治理型監(jiān)管》,載《現(xiàn)代法學(xué)》2023年第3期,第112頁(yè)。;第二,生成式AI的大語(yǔ)言模型預(yù)訓(xùn)練時(shí)使用的數(shù)據(jù)中包含了大量現(xiàn)有受到知識(shí)產(chǎn)權(quán)法保護(hù)的作品,在此基礎(chǔ)上輸出的數(shù)字內(nèi)容可能會(huì)產(chǎn)生侵害他人知識(shí)產(chǎn)權(quán)的風(fēng)險(xiǎn)
參見(jiàn)劉曉春:《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》,載《法學(xué)論壇》2024年第3期,第67頁(yè)。;第三,生成式AI所具有的深度合成功能使其可以產(chǎn)出以假亂真的虛假信息;
參見(jiàn)張凌寒:《深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國(guó)路徑》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第3期,第48頁(yè)。第四,生成式AI是基于主流人群的語(yǔ)料數(shù)據(jù)庫(kù)進(jìn)行預(yù)訓(xùn)練的,這就使其中對(duì)少數(shù)人群的歧視性觀念會(huì)被整合入輸出的信息內(nèi)容中
參見(jiàn)於興中、鄭戈、丁曉東:《生成式人工智能與法律的六大議題:以ChatGPT為例》,載《中國(guó)法律評(píng)論》2023年第2期,第17-18頁(yè)。;第五,生成式AI與下游互聯(lián)網(wǎng)平臺(tái)結(jié)合后會(huì)成為Web3.0時(shí)代的網(wǎng)絡(luò)“權(quán)力工具”,導(dǎo)致平臺(tái)權(quán)力的再中心化風(fēng)險(xiǎn)
參見(jiàn)陳全真:《生成式人工智能與平臺(tái)權(quán)力的再中心化》,載《東方法學(xué)》2023年第3期,第61頁(yè)。;第六,生成式AI中算法模型的預(yù)訓(xùn)練需要海量的數(shù)據(jù)“投喂”,這些海量數(shù)據(jù)中包含了大量的個(gè)人數(shù)據(jù),由此會(huì)在個(gè)人數(shù)據(jù)的收集廣度、處理深度及結(jié)果應(yīng)用上存在侵害風(fēng)險(xiǎn)。
參見(jiàn)劉艷紅:《生成式人工智能的三大安全風(fēng)險(xiǎn)及法律規(guī)制——以ChatGPT為例》,載《東方法學(xué)》2023年第4期,第32-33頁(yè)。
在這些可能由生成式AI引發(fā)的風(fēng)險(xiǎn)中,本文特別關(guān)注生成式AI對(duì)個(gè)人信息保護(hù)產(chǎn)生的挑戰(zhàn)及其風(fēng)險(xiǎn)規(guī)制問(wèn)題。這是因?yàn)?,我?guó)已于2021年11月1日正式施行《中華人民共和國(guó)個(gè)人信息保護(hù)法》(以下簡(jiǎn)稱《個(gè)人信息保護(hù)法》),其中對(duì)于數(shù)字時(shí)代個(gè)人信息的保護(hù)作出了全面系統(tǒng)的規(guī)定。然而,生成式AI卻是勃興于2022年的年底。這意味著在《個(gè)人信息保護(hù)法》的制定過(guò)程中并未納入對(duì)生成式AI發(fā)展的相關(guān)考量,這就導(dǎo)致該法中關(guān)于個(gè)人信息保護(hù)的規(guī)定在生成式AI勃興之后面臨著諸多挑戰(zhàn)。這些挑戰(zhàn)不但可能會(huì)造成我國(guó)個(gè)人信息保護(hù)的新型風(fēng)險(xiǎn),而且也可能會(huì)成為我國(guó)生成式AI產(chǎn)業(yè)發(fā)展的法律羈絆。因此,在生成式AI興起的當(dāng)下,亟須研究其對(duì)《個(gè)人信息保護(hù)法》建構(gòu)的個(gè)人信息保護(hù)法律框架產(chǎn)生的挑戰(zhàn),并在此基礎(chǔ)上探討對(duì)應(yīng)的風(fēng)險(xiǎn)規(guī)制路徑。
以下本文將逐一分析生成式AI對(duì)個(gè)人信息處理的知情同意規(guī)則、已公開(kāi)個(gè)人信息處理規(guī)則、敏感個(gè)人信息保護(hù)等三個(gè)方面帶來(lái)的挑戰(zhàn)及其技術(shù)成因。進(jìn)而,本文將基于“包容審慎”的基本風(fēng)險(xiǎn)規(guī)制理念,探討應(yīng)對(duì)生成式AI侵害個(gè)人信息的具體風(fēng)險(xiǎn)規(guī)制路徑,以期為《個(gè)人信息保護(hù)法》的修訂與“人工智能法”的制定提供一些智識(shí)貢獻(xiàn)。
2024年5月9日,《國(guó)務(wù)院辦公廳印發(fā)關(guān)于
〈國(guó)務(wù)院2024年度立法工作計(jì)劃〉的通知》(國(guó)辦發(fā)〔2024〕23號(hào))提出“預(yù)備提請(qǐng)全國(guó)人大常委會(huì)審議‘人工智能法’草案”。全國(guó)人大常委會(huì)公布的《2024年度立法工作計(jì)劃》中,也在預(yù)備審議項(xiàng)目中提及要研究“人工智能健康發(fā)展”方面的立法項(xiàng)目。
二、生成式AI對(duì)知情同意規(guī)則的挑戰(zhàn)及其成因
“告知—同意”是《個(gè)人信息保護(hù)法》中設(shè)定的處理個(gè)人信息的基本原則。
參見(jiàn)龍衛(wèi)球主編:《中華人民共和國(guó)個(gè)人信息保護(hù)法釋義》,中國(guó)法制出版社2021年版,第57頁(yè)。它要求個(gè)人信息處理者在無(wú)法定例外的情形下,都應(yīng)當(dāng)告知信息主體并經(jīng)其同意后,才能合法地處理個(gè)人信息,也被稱為個(gè)人信息處理的“知情同意規(guī)則”。
程嘯:《論我國(guó)個(gè)人信息保護(hù)法中的個(gè)人信息處理規(guī)則》,載《清華法學(xué)》2021年第3期,第61頁(yè)。包含個(gè)人信息的數(shù)據(jù)是生成式AI在大語(yǔ)言模型預(yù)訓(xùn)練階段最為重要的訓(xùn)練數(shù)據(jù)之一,因此,生成式AI開(kāi)發(fā)者屬于《個(gè)人信息保護(hù)法》中規(guī)定的個(gè)人信息處理者
《生成式人工智能服務(wù)管理暫行辦法》第9條明確規(guī)定生成式人工智能服務(wù)提供者依法承擔(dān)個(gè)人信息處理者責(zé)任,履行個(gè)人信息保護(hù)義務(wù)。,在處理個(gè)人信息數(shù)據(jù)時(shí)也應(yīng)當(dāng)遵守知情同意規(guī)則。然而,生成式AI的技術(shù)特性對(duì)個(gè)人信息保護(hù)中的這一首要規(guī)則提出了挑戰(zhàn)。
參見(jiàn)丁曉東:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,載《中國(guó)法律評(píng)論》2023年第6期,第177頁(yè)。
(一)生成式AI開(kāi)發(fā)者難以遵守知情同意規(guī)則
根據(jù)《個(gè)人信息保護(hù)法》第13條的規(guī)定,除法定的6種情形之外,個(gè)人信息處理者都應(yīng)在取得信息主體(個(gè)人)的同意之后,才能處理個(gè)人信息。同時(shí),根據(jù)《個(gè)人信息保護(hù)法》第14條、第17條的規(guī)則設(shè)定,如果是基于個(gè)人同意處理個(gè)人信息,那么該同意必須是在信息主體充分知情的前提下作出。個(gè)人信息處理者必須真實(shí)、準(zhǔn)確、完整地向信息主體告知個(gè)人信息處理目的、方式等內(nèi)容。并且,如果個(gè)人信息處理目的、方式發(fā)生變更,應(yīng)當(dāng)重新取得信息主體的同意。
《生成式人工智能服務(wù)管理暫行辦法》中第7條第(2)項(xiàng)要求生成式人工智能服務(wù)提供者在開(kāi)展大語(yǔ)言模型預(yù)訓(xùn)練與優(yōu)化訓(xùn)練等數(shù)據(jù)處理活動(dòng)時(shí),對(duì)于涉及個(gè)人信息的數(shù)據(jù)使用應(yīng)當(dāng)取得個(gè)人同意。
生成式AI的大語(yǔ)言模型預(yù)訓(xùn)練使用的超大體量訓(xùn)練數(shù)據(jù)中包含了大量的個(gè)人信息。這些超大體量的訓(xùn)練數(shù)據(jù)一方面來(lái)自開(kāi)發(fā)者購(gòu)買或者通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從互聯(lián)網(wǎng)上獲取的數(shù)據(jù),如ChatGPT的大語(yǔ)言模型預(yù)訓(xùn)練階段使用的就是從互聯(lián)網(wǎng)上獲取的超3000億單詞的數(shù)據(jù)
See Alex Hughes, ChatGPT: Everything You Need to Know about OpenAI’s GPT-4 Tool, https://www.sciencefocus.com/future-technology/gpt-3, last visited on March 19, 2024.,其中包含了大量的個(gè)人信息;另一方面這些數(shù)據(jù)來(lái)自開(kāi)發(fā)者在提供大語(yǔ)言模型服務(wù)時(shí)獲取的用戶真實(shí)人機(jī)交互數(shù)據(jù),如ChatGPT的全球用戶使用后產(chǎn)生的人機(jī)交互數(shù)據(jù)會(huì)被OpenAI公司用來(lái)作為大語(yǔ)言模型升級(jí)迭代的訓(xùn)練數(shù)據(jù),其中也包含了大量由用戶自身輸入的個(gè)人信息。
可見(jiàn),生成式AI開(kāi)發(fā)者使用包含個(gè)人信息的數(shù)據(jù)進(jìn)行大語(yǔ)言模型預(yù)訓(xùn)練時(shí),會(huì)涉及個(gè)人信息的收集、存儲(chǔ)、使用、加工等活動(dòng),屬于《個(gè)人信息保護(hù)法》第4條定義的個(gè)人信息處理行為。因此,生成式AI開(kāi)發(fā)者屬于《個(gè)人信息保護(hù)法》所界定的個(gè)人信息處理者,需要受到前述《個(gè)人信息保護(hù)法》第13條、第14條、第17條設(shè)定的知情同意規(guī)則的約束。也即,生成式AI開(kāi)發(fā)者在大語(yǔ)言模型預(yù)訓(xùn)練階段處理包含個(gè)人信息的數(shù)據(jù)時(shí),除了法定例外情形,原則上都必須向信息主體真實(shí)、準(zhǔn)確、完整地告知處理目的、方式等內(nèi)容,在信息主體充分知情并同意之后才能將這些個(gè)人信息數(shù)據(jù)用于大語(yǔ)言模型的預(yù)訓(xùn)練活動(dòng)。
不過(guò),雖然《個(gè)人信息保護(hù)法》要求生成式AI開(kāi)發(fā)者在大語(yǔ)言模型預(yù)訓(xùn)練階段處理個(gè)人信息時(shí)應(yīng)當(dāng)遵守知情同意規(guī)則,但是,生成式AI的技術(shù)特性卻決定了開(kāi)發(fā)者事實(shí)上無(wú)法履行向信息主體真實(shí)、準(zhǔn)確、完整地告知處理目的、方式等內(nèi)容的義務(wù),難以滿足知情同意規(guī)則的法定要求。也即,生成式AI的技術(shù)特性已經(jīng)使其對(duì)個(gè)人信息處理的知情同意規(guī)則在人工智能時(shí)代的適應(yīng)性產(chǎn)生了嚴(yán)峻挑戰(zhàn)。對(duì)此,下文將以生成式AI中最重要的GPT模型(Generaive Pre-trained Transformer)為例分析其中的技術(shù)成因。
(二)生成式AI挑戰(zhàn)知情同意規(guī)則的技術(shù)成因
GPT模型是OpenAI公司開(kāi)發(fā)的一款大語(yǔ)言模型,其開(kāi)發(fā)目的就是提高模型在復(fù)雜情景中理解與生成自然語(yǔ)言文本的能力
See OpenAI, GPT-4 Technical Report, https://arxiv.org/abs/2303.08774, last visited on March 19, 2024.,我們熟知的ChatGPT就是在此之上開(kāi)發(fā)的應(yīng)用程序。GPT模型成功地獲得了計(jì)算機(jī)精確識(shí)別人類自然語(yǔ)言的能力,其中解決的一個(gè)關(guān)鍵性難題就是如何讓語(yǔ)言模型使用超大體量的無(wú)人工標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
數(shù)據(jù)是語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練必不可少的原料。理論上而言,數(shù)據(jù)體量越大,語(yǔ)言模型就能學(xué)習(xí)得越精確,學(xué)習(xí)成效也就越高。不過(guò),傳統(tǒng)語(yǔ)言模型的深度學(xué)習(xí)大多數(shù)都是使用人工標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,因?yàn)槿斯?biāo)注數(shù)據(jù)能被計(jì)算機(jī)順利讀取并運(yùn)用到語(yǔ)言模型的預(yù)訓(xùn)練中。然而,人工標(biāo)注數(shù)據(jù)的最大問(wèn)題在于獲取成本很高且規(guī)模有限,這極大地限制了語(yǔ)言模型學(xué)習(xí)成效的提升。而在互聯(lián)網(wǎng)上存在著超大體量的無(wú)人工標(biāo)注數(shù)據(jù),且數(shù)據(jù)體量在不斷增長(zhǎng),幾乎沒(méi)有邊界。如果能夠有效地利用這些無(wú)人工標(biāo)注數(shù)據(jù)進(jìn)行語(yǔ)言模型的預(yù)訓(xùn)練,那么,就能夠大幅度降低語(yǔ)言模型預(yù)訓(xùn)練的成本并提高預(yù)訓(xùn)練的成效,使語(yǔ)言模型進(jìn)化為“大”語(yǔ)言模型。
GPT模型解決這一難題的基本技術(shù)路線是:將每個(gè)單詞
嚴(yán)格地說(shuō)應(yīng)該表述為“token”。在大語(yǔ)言模型的預(yù)訓(xùn)練技術(shù)中,“token”既有可能是單詞,也有可能是字符或文本片段,它們的選擇取決于具體的應(yīng)用場(chǎng)景。為了便于理解,本文統(tǒng)一使用“單詞”的表述。都視為一個(gè)超大詞匯空間中的一個(gè)點(diǎn),自然語(yǔ)言中關(guān)聯(lián)越緊密的單詞意味著在這個(gè)詞匯空間中的位置距離就越近,反之亦然。在此基礎(chǔ)上,再運(yùn)用類似于經(jīng)緯度標(biāo)注地點(diǎn)的方式將每個(gè)單詞都向量化,把每個(gè)單詞在這個(gè)詞匯空間中的位置都轉(zhuǎn)化為一串長(zhǎng)達(dá)上萬(wàn)數(shù)字的數(shù)列,表示這個(gè)單詞與其他單詞之間存在的所有可能性關(guān)聯(lián),繼而運(yùn)用超高強(qiáng)度的算力挖掘其中存在的自然語(yǔ)言統(tǒng)計(jì)規(guī)律,也即發(fā)現(xiàn)單詞與單詞之間在統(tǒng)計(jì)學(xué)意義上的概率分布規(guī)律。
關(guān)于大語(yǔ)言模型將人類自然語(yǔ)言數(shù)字化、向量化的過(guò)程介紹,參見(jiàn)俞士汶、朱學(xué)鋒、耿立波:《自然語(yǔ)言處理技術(shù)與語(yǔ)言深度計(jì)算》,載《中國(guó)社會(huì)科學(xué)》2015年第3期,第129-130頁(yè)。接著,GPT模型會(huì)根據(jù)這種自然語(yǔ)言統(tǒng)計(jì)規(guī)律,通過(guò)自回歸(autoregressive)的方式依據(jù)用戶給定的提示詞(prompt)不斷推測(cè)出后續(xù)的單詞,進(jìn)而形成用戶能夠理解的信息內(nèi)容。
See Amy B. Cyphert , A Human Being Wrote This Law Review Article: GPT-3 and the Practice of Law, 55 UC Davis Law Review 406, 406-407(2021).換言之,GPT模型并非如搜索引擎那樣從事先存儲(chǔ)的數(shù)據(jù)中依據(jù)人們需求調(diào)取已有的信息內(nèi)容,而是根據(jù)自身在預(yù)訓(xùn)練時(shí)掌握的自然語(yǔ)言統(tǒng)計(jì)規(guī)律,基于概率分布通過(guò)“預(yù)測(cè)下一個(gè)單詞”的方式推測(cè)出人們所需要的信息。
我們可以將GPT大語(yǔ)言模型識(shí)別自然語(yǔ)言的過(guò)程簡(jiǎn)單理解為一個(gè)“單詞接龍”的過(guò)程,即在給定一條語(yǔ)句的前提下——如用戶使用自然語(yǔ)言向大語(yǔ)言模型內(nèi)輸入一個(gè)問(wèn)題,這個(gè)問(wèn)題表現(xiàn)為由多個(gè)單詞構(gòu)成的一條語(yǔ)句——讓大語(yǔ)言模型根據(jù)自然語(yǔ)言的統(tǒng)計(jì)規(guī)律推導(dǎo)出下一個(gè)單詞,然后將這一個(gè)單詞與之前的語(yǔ)句相連,由大語(yǔ)言模型再根據(jù)自然語(yǔ)言的統(tǒng)計(jì)規(guī)律推測(cè)出后續(xù)單詞(自回歸生成),這一過(guò)程反復(fù)多次就會(huì)形成大語(yǔ)言模型對(duì)操作者的提問(wèn)語(yǔ)句給出的答案。See Laura Weidinger, Jonathan Uesato, Maribeth Rauh, Conor Griffin, Po-Sen Huang, John Mellor, Amelia Glaese, Myra Cheng, Borja Balle, Atoosa Kasirzadeh, Courtney Biles, Sasha Brown, Zac Kenton, Will Hawkins, Tom Stepleton, Abeba Birhane, Lisa Anne Hendricks, Laura Rimell, William Isaac, Julia Haas, Sean Legassick, Geoffrey Irving & Iason Gabriel, Taxonomy of Risks posed by Language Models, FAccT ’22: Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency , 2022, pp.215-216. 這種技術(shù)路線的運(yùn)用使GPT模型可以利用互聯(lián)網(wǎng)上幾乎所有的無(wú)人工標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning),極大地降低了語(yǔ)言模型預(yù)訓(xùn)練的數(shù)據(jù)成本,提高了計(jì)算機(jī)自然語(yǔ)言學(xué)習(xí)的成效。
然而,在提高語(yǔ)言模型學(xué)習(xí)成效的同時(shí),這種技術(shù)路線也導(dǎo)致了由此生成的大語(yǔ)言模型成為完全的“技術(shù)黑箱”。生成式AI通過(guò)上述預(yù)訓(xùn)練過(guò)程雖然掌握了自然語(yǔ)言中隱含的統(tǒng)計(jì)規(guī)律,但這種自然語(yǔ)言統(tǒng)計(jì)規(guī)律卻保存在動(dòng)輒數(shù)以千億計(jì)的模型參數(shù)中
GPT的參數(shù)規(guī)模非常大且發(fā)展迅速,GPT-2時(shí)參數(shù)量為15.42億,而到了GPT-3時(shí)參數(shù)量就已經(jīng)達(dá)到了1750億。參見(jiàn)孫蒙鴿、韓濤、王燕鵬、黃雨馨、劉細(xì)文:《GPT技術(shù)變革對(duì)基礎(chǔ)科學(xué)研究的影響分析》,載《中國(guó)科學(xué)院院刊》2023年第8期,第1213頁(yè)。,并非如硬盤介質(zhì)中存儲(chǔ)的數(shù)據(jù)那樣一目了然,也就不能被包括開(kāi)發(fā)者在內(nèi)的其他主體所確知。也即,在生成式AI的技術(shù)開(kāi)發(fā)中,就連開(kāi)發(fā)者本身也無(wú)法詳細(xì)了解大語(yǔ)言模型到底掌握了何種自然語(yǔ)言統(tǒng)計(jì)規(guī)律,這是人工智能所采用的多層級(jí)神經(jīng)網(wǎng)絡(luò)算法所必然導(dǎo)致的認(rèn)知不透明性。
參見(jiàn)董春雨:《從機(jī)器認(rèn)識(shí)的不透明性看人工智能的本質(zhì)及其限度》,載《中國(guó)社會(huì)科學(xué)》2023年第5期,第159頁(yè)。這種完全“技術(shù)黑箱”的出現(xiàn),意味著生成式AI的大語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中對(duì)個(gè)人信息的處理也同樣被置于“技術(shù)黑箱”之中,即使開(kāi)發(fā)者也無(wú)法確切掌握個(gè)人信息數(shù)據(jù)在模型中會(huì)被如何處理、模型會(huì)從中發(fā)現(xiàn)何種自然語(yǔ)言統(tǒng)計(jì)規(guī)律,以及模型會(huì)在下游應(yīng)用中輸出何種信息并被用于何種目的,更難以辨析大語(yǔ)言模型預(yù)訓(xùn)練時(shí)使用的個(gè)人信息數(shù)據(jù)的權(quán)利狀態(tài)與隱私風(fēng)險(xiǎn)。
參見(jiàn)袁曾:《生成式人工智能的責(zé)任能力研究》,載《東方法學(xué)》2023年第3期,第24頁(yè)。
既然連開(kāi)發(fā)者也無(wú)法了解在大語(yǔ)言模型的“技術(shù)黑箱”中個(gè)人信息是如何被處理的,那么,就更無(wú)法向信息主體進(jìn)行詳細(xì)告知,也難以遵守個(gè)人信息處理的知情同意規(guī)則。其實(shí),即便我們將知情同意規(guī)則要求告知信息主體的內(nèi)容最寬泛地界定為“用于生成式AI的大語(yǔ)言模型預(yù)訓(xùn)練活動(dòng)”,生成式AI開(kāi)發(fā)者也同樣難以滿足這一規(guī)則的要求。因?yàn)榇笳Z(yǔ)言模型預(yù)訓(xùn)練所使用的訓(xùn)練數(shù)據(jù)體量極為龐大,包含的個(gè)人信息數(shù)量也同樣巨大,開(kāi)發(fā)者客觀上根本無(wú)法告知其中個(gè)人信息涉及的每一個(gè)信息主體并取得其同意。
由此可見(jiàn),生成式AI為了在大語(yǔ)言模型預(yù)訓(xùn)練階段處理超大體量的無(wú)人工標(biāo)注數(shù)據(jù)而采用了特殊的技術(shù)路線,隨之形成的“技術(shù)黑箱”導(dǎo)致開(kāi)發(fā)者在客觀上難以依法履行向信息主體真實(shí)、準(zhǔn)確、完整告知個(gè)人信息處理目的、方式等內(nèi)容的義務(wù),更遑論保障信息主體充分知情和同意權(quán)利的實(shí)現(xiàn),這就事實(shí)上導(dǎo)致《個(gè)人信息保護(hù)法》中的知情同意規(guī)則難以在生成式AI的情景下得到有效適用。
三、生成式AI對(duì)已公開(kāi)個(gè)人信息處理規(guī)則的挑戰(zhàn)及其成因
在生成式AI開(kāi)發(fā)者建構(gòu)大語(yǔ)言模型所使用的超大體量訓(xùn)練數(shù)據(jù)中,除了需要信息主體同意后才能處理的個(gè)人信息之外,還存在一種特殊的、無(wú)須經(jīng)過(guò)信息主體同意就可以處理的個(gè)人信息,即已經(jīng)依法公開(kāi)的個(gè)人信息(以下簡(jiǎn)稱已公開(kāi)個(gè)人信息)。根據(jù)《個(gè)人信息保護(hù)法》第13條第1款第(6)項(xiàng)及第27條的規(guī)定,對(duì)于已公開(kāi)個(gè)人信息(包括個(gè)人自行公開(kāi)或通過(guò)其他合法方式公開(kāi)的個(gè)人信息),個(gè)人信息處理者有權(quán)在“合理范圍”內(nèi)予以處理,無(wú)須得到信息主體的同意,這就確立了處理已公開(kāi)個(gè)人信息的“默認(rèn)規(guī)則”。
張薇薇:《公開(kāi)個(gè)人信息處理的默認(rèn)規(guī)則——基于〈個(gè)人信息保護(hù)法〉第27條第1分句》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第3期,第65頁(yè)。由此,生成式AI開(kāi)發(fā)者也就有權(quán)在合理范圍內(nèi)直接處理已公開(kāi)個(gè)人信息,無(wú)須適用知情同意規(guī)則。至于如何判斷已公開(kāi)個(gè)人信息的處理行為是否屬于“合理范圍”,在傳統(tǒng)法理上主要存在“目的限定原則”和“場(chǎng)景理論”兩種標(biāo)準(zhǔn)。然而,在生成式AI的技術(shù)語(yǔ)境下,這兩種判斷標(biāo)準(zhǔn)都受到了嚴(yán)峻的挑戰(zhàn),以至于生成式AI的開(kāi)發(fā)應(yīng)用活動(dòng)很難滿足相應(yīng)的要求。
(一)生成式AI挑戰(zhàn)“目的限定原則”的技術(shù)成因
“目的限定原則”是指已公開(kāi)個(gè)人信息的處理應(yīng)當(dāng)限定在信息主體公開(kāi)個(gè)人信息的初始用途之上,依據(jù)這種初始用途界定的范圍才屬于處理已公開(kāi)個(gè)人信息的合理范圍。
參見(jiàn)程嘯:《論公開(kāi)的個(gè)人信息處理的法律規(guī)制》,載《中國(guó)法學(xué)》2022年第3期,第99頁(yè)。這意味著生成式AI開(kāi)發(fā)者在進(jìn)行大語(yǔ)言模型預(yù)訓(xùn)練時(shí),只有將已公開(kāi)個(gè)人信息的處理活動(dòng)限定在信息主體公開(kāi)個(gè)人信息的初始用途之上,才屬于在“合理范圍”內(nèi)處理已公開(kāi)個(gè)人信息。然而,生成式AI的技術(shù)特性導(dǎo)致其難以滿足“目的限定原則”對(duì)于“合理范圍”的這種要求。
正如前文所述,以GPT模型為代表的生成式AI的主要技術(shù)原理之一就是開(kāi)發(fā)者使用超強(qiáng)算力與超大體量訓(xùn)練數(shù)據(jù)進(jìn)行大語(yǔ)言模型的預(yù)訓(xùn)練,使模型掌握訓(xùn)練數(shù)據(jù)中包含的自然語(yǔ)言統(tǒng)計(jì)規(guī)律,并依據(jù)用戶輸入的提示詞通過(guò)“預(yù)測(cè)下一個(gè)單詞”的方式輸出符合自然語(yǔ)言統(tǒng)計(jì)規(guī)律的信息,從而實(shí)現(xiàn)與用戶之間通過(guò)自然語(yǔ)言接口形成人機(jī)互動(dòng)關(guān)系。生成式AI的大語(yǔ)言模型通過(guò)這種技術(shù)路線掌握的自然語(yǔ)言統(tǒng)計(jì)規(guī)律是極端復(fù)雜的。為了對(duì)這種極端復(fù)雜性有更直觀的感受,我們可以將大語(yǔ)言模型的參數(shù)量比喻為一個(gè)單詞通向下一個(gè)單詞的通道數(shù)量,參數(shù)量越大說(shuō)明存在的通道數(shù)量就越多。例如,ChatGPT的參數(shù)量達(dá)到了1750億個(gè),這意味著一個(gè)單詞與下一個(gè)單詞之間存在著1750億條通道。而且,這還僅僅只是兩個(gè)單詞之間的通道數(shù)量,預(yù)訓(xùn)練數(shù)據(jù)中包含的單詞數(shù)量往往都是以億為單位的,兩兩之間都可能存在這么多數(shù)量的通道。大語(yǔ)言模型在預(yù)訓(xùn)練時(shí)要掌握如此龐大規(guī)模的通道數(shù)量,并識(shí)別出其中概率最高的通道,計(jì)算量之龐大可想而知,這也是大語(yǔ)言模型預(yù)訓(xùn)練為何需要耗費(fèi)超高強(qiáng)度算力的原因。
同時(shí),我們也就能切實(shí)地感受到大語(yǔ)言模型預(yù)訓(xùn)練后掌握的自然語(yǔ)言統(tǒng)計(jì)規(guī)律的極端復(fù)雜性。這種極端復(fù)雜性意味著,對(duì)于生成式AI開(kāi)發(fā)者自身而言,大語(yǔ)言模型如何處理包含已公開(kāi)個(gè)人信息的訓(xùn)練數(shù)據(jù)是不可知的,且從其中挖掘出何種自然語(yǔ)言統(tǒng)計(jì)規(guī)律同樣也是不可知的,大語(yǔ)言模型已經(jīng)
完全
成為了“技術(shù)黑箱”。這種“技術(shù)黑箱”的存在決定了生成式AI開(kāi)發(fā)者無(wú)法將已公開(kāi)個(gè)人信息的處理限定在特定目的之上,更遑論將對(duì)已公開(kāi)個(gè)人信息的處理限定在信息主體公開(kāi)個(gè)人信息的初始目的之上。因此,生成式AI的開(kāi)發(fā)活動(dòng)難以滿足“目的限定原則”對(duì)處理已公開(kāi)個(gè)人信息的“合理范圍”的要求。
(二)生成式AI挑戰(zhàn)“場(chǎng)景理論”的技術(shù)成因
“場(chǎng)景理論”是指已公開(kāi)個(gè)人信息的處理應(yīng)當(dāng)考慮各類具體場(chǎng)景的差異,依據(jù)場(chǎng)景的不同確定個(gè)人信息處理活動(dòng)的合理范圍。
參見(jiàn)齊英程:《已公開(kāi)個(gè)人信息處理規(guī)則的類型化闡釋》,載《法制與社會(huì)發(fā)展》2022年第5期,第217-219頁(yè)。個(gè)人信息領(lǐng)域中的場(chǎng)景理論最初由海倫·尼森鮑姆(Helen Nissenbaum)提出,參見(jiàn)\海倫·尼森鮑姆:《何為場(chǎng)景?——隱私場(chǎng)景理論中場(chǎng)景概念之解析》,王苑譯,載周漢華主編:《網(wǎng)絡(luò)信息法學(xué)研究》(總第9期),中國(guó)社會(huì)科學(xué)出版社2021年版,第3-28頁(yè)。這意味著需要依據(jù)生成式AI建構(gòu)的大語(yǔ)言模型的不同應(yīng)用場(chǎng)景來(lái)確定其對(duì)已公開(kāi)個(gè)人信息的處理是否屬于合理范圍。然而,生成式AI的技術(shù)特性導(dǎo)致其很難滿足“場(chǎng)景理論”對(duì)于合理范圍的這種要求。
以GPT模型為代表的生成式AI建構(gòu)的大語(yǔ)言模型之所以被稱為“大”,主要是因?yàn)槟P桶膮?shù)量極為龐大。例如,GPT-3的模型參數(shù)量已經(jīng)達(dá)1750億,OpenAI公司于2023年推出的GPT-4的模型參數(shù)量雖然并未公布,但學(xué)者預(yù)測(cè)可能會(huì)高達(dá)到1.8萬(wàn)億。
See Dylan Patel & Gerald Wong, Demystifying GPT-4: The Engineering Tradeoffs that Led OpenAI to Their Architecture, https://www.semianalysis.com/p/gpt-4-architecture-infrastructure, last visited on March 19, 2024.如此龐大規(guī)模的參數(shù)量使大語(yǔ)言模型出現(xiàn)了所謂的“涌現(xiàn)”(emergent)能力,它能夠根據(jù)任務(wù)提示詞自動(dòng)完成對(duì)應(yīng)的有效信息輸出,而無(wú)需事先進(jìn)行具有針對(duì)性的訓(xùn)練。
關(guān)于大語(yǔ)言模型的涌現(xiàn)能力的詳細(xì)介紹 See Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed.H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean & William Fedus, Emergent Abilities of Large Language Models, https://arxiv.org/abs/2206.07682, last visited on March 19, 2024.例如,GPT-4在未進(jìn)行事先針對(duì)性訓(xùn)練的情況下,已經(jīng)能夠順利通過(guò)諸如美國(guó)律師執(zhí)業(yè)資格考試、法學(xué)院入學(xué)考試(LSAT)等專業(yè)型考試,甚至取得了排名前10%的優(yōu)異成績(jī)。
See OpenAI, GPT-4 Technical Report, https://arxiv.org/abs/2303.08774, last visited on March 19, 2024.
這種“涌現(xiàn)”能力使大語(yǔ)言模型輸出的信息內(nèi)容滿足了用戶多樣化的信息需求,也使大語(yǔ)言模型具有了極強(qiáng)的拓展性,能夠結(jié)合不同應(yīng)用場(chǎng)景實(shí)現(xiàn)廣泛領(lǐng)域的人機(jī)交互,因此,也被認(rèn)為是“通用人工智能”(General Artificial Intelligence)的雛形。事實(shí)上,生成式AI正是由于其建構(gòu)的大語(yǔ)言模型可以作為各類具體應(yīng)用場(chǎng)景的底層通用模型而被認(rèn)為具備了數(shù)字時(shí)代的革命性意義。生成式AI的這種技術(shù)特性意味著大語(yǔ)言模型的應(yīng)用場(chǎng)景可以近乎無(wú)限地進(jìn)行拓展,同時(shí)也就意味著即使是生成式AI的開(kāi)發(fā)者也不能確定大語(yǔ)言模型對(duì)已公開(kāi)個(gè)人信息的處理會(huì)被應(yīng)用于哪些具體的場(chǎng)景,因其本身就是為了“通用”場(chǎng)景而開(kāi)發(fā)的模型。由此,依據(jù)“場(chǎng)景理論”同樣難以判斷生成式AI的大語(yǔ)言模型處理已公開(kāi)個(gè)人信息是否屬于“合理范圍”。在無(wú)限拓展的生成式AI的大語(yǔ)言模型應(yīng)用場(chǎng)景之中,根據(jù)特定場(chǎng)景判斷已公開(kāi)個(gè)人信息處理活動(dòng)的合理范圍只能成為理想化的判斷標(biāo)準(zhǔn),而并不具有實(shí)際的可操作性。
由此可見(jiàn),在生成式AI的技術(shù)語(yǔ)境中,無(wú)論是“目的限制原則”還是“場(chǎng)景理論”,都不適合用于有效界定大語(yǔ)言模型處理已公開(kāi)個(gè)人信息的合理范圍。《個(gè)人信息保護(hù)法》中設(shè)定的已公開(kāi)個(gè)人信息處理規(guī)則面臨著嚴(yán)峻挑戰(zhàn),在生成式AI快速發(fā)展的當(dāng)下,亟須對(duì)這一問(wèn)題加以重視和解決。
四、生成式AI對(duì)敏感個(gè)人信息保護(hù)的挑戰(zhàn)及其成因
在生成式AI開(kāi)發(fā)者建構(gòu)大語(yǔ)言模型所使用的超大體量訓(xùn)練數(shù)據(jù)中,還會(huì)存在著許多敏感個(gè)人信息。敏感個(gè)人信息主要指《個(gè)人信息保護(hù)法》第28條規(guī)定的“生物識(shí)別、宗教信仰、特定身份、醫(yī)療健康、金融賬戶、行蹤軌跡等信息,以及不滿十四周歲未成年人的個(gè)人信息”。敏感個(gè)人信息往往與信息主體的個(gè)人隱私高度相關(guān)
有學(xué)者指出,個(gè)人隱私、個(gè)人信息、個(gè)人數(shù)據(jù)之間存在密切關(guān)聯(lián),分別處于事實(shí)層、內(nèi)容層與符號(hào)層。參見(jiàn)申衛(wèi)星:《數(shù)字權(quán)利體系再造:邁向隱私、信息與數(shù)據(jù)的差序格局》,載《政法論壇》2022年第3期,第97頁(yè)。,因此,生成式AI開(kāi)發(fā)者在處理敏感個(gè)人信息時(shí),除了有可能會(huì)對(duì)敏感個(gè)人信息權(quán)益造成侵害,還有可能會(huì)對(duì)信息主體的隱私權(quán)造成侵害。生成式AI的技術(shù)特性決定了開(kāi)發(fā)者在處理敏感個(gè)人信息時(shí)同樣難以滿足知情同意規(guī)則,其中的技術(shù)成因與前文第二部分所述一致。此外,更加需要注意的是,生成式AI的技術(shù)特性會(huì)導(dǎo)致大語(yǔ)言模型的輸入端和輸出端都可能產(chǎn)生對(duì)信息主體的敏感個(gè)人信息權(quán)益及個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)。
(一)大語(yǔ)言模型輸入端產(chǎn)生侵害風(fēng)險(xiǎn)的技術(shù)成因
生成式AI的大語(yǔ)言模型預(yù)訓(xùn)練數(shù)據(jù)中包含的敏感個(gè)人信息,除了來(lái)自于開(kāi)發(fā)者通過(guò)購(gòu)買或網(wǎng)絡(luò)爬蟲(chóng)獲取的數(shù)據(jù)之外,還來(lái)自于“機(jī)器學(xué)習(xí)即服務(wù)”(Machine learning as a service, MLaaS)方式獲取的數(shù)據(jù)。MLaaS是指生成式AI開(kāi)發(fā)者面向用戶提供的在線云服務(wù),通過(guò)使用這種服務(wù),用戶無(wú)須在本地部署就能通過(guò)網(wǎng)絡(luò)使用開(kāi)發(fā)者提供的大語(yǔ)言模型完成特定任務(wù)。這意味著用戶在使用大語(yǔ)言模型的云服務(wù)時(shí),輸入的信息都會(huì)上傳到開(kāi)發(fā)者的云端服務(wù)器存儲(chǔ)之中。而用戶在缺乏對(duì)模型數(shù)據(jù)處理機(jī)制的清晰認(rèn)知時(shí),就可能會(huì)不經(jīng)意間提交自己的敏感個(gè)人信息。
參見(jiàn)張欣:《生成式人工智能的數(shù)據(jù)風(fēng)險(xiǎn)與治理路徑》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第5期,第46頁(yè)。這些包含敏感個(gè)人信息的用戶輸入信息與大語(yǔ)言模型的輸出信息一道構(gòu)成真實(shí)的人機(jī)交互數(shù)據(jù),會(huì)被生成式AI開(kāi)發(fā)者用作大語(yǔ)言模型迭代升級(jí)的訓(xùn)練數(shù)據(jù)。OpenAI公司在ChatGPT用戶規(guī)則中就明確聲明,ChatGPT用戶與大模型交互產(chǎn)生的數(shù)據(jù)會(huì)被用來(lái)作為模型迭代的訓(xùn)練數(shù)據(jù),用戶甚至無(wú)法刪除其中涉及自身的敏感個(gè)人信息。
參見(jiàn)支振峰:《生成式人工智能大模型的信息內(nèi)容治理》,載《政法論壇》2023年第4期,第40頁(yè)??梢?jiàn),生成式AI建構(gòu)的大語(yǔ)言模型無(wú)論是在初次開(kāi)發(fā)階段使用的訓(xùn)練數(shù)據(jù)中,還是在后續(xù)迭代升級(jí)階段使用的訓(xùn)練數(shù)據(jù)中,都會(huì)包含大量的敏感個(gè)人信息。
當(dāng)包含敏感個(gè)人信息的數(shù)據(jù)用于生成式AI的大語(yǔ)言模型預(yù)訓(xùn)練時(shí),模型就會(huì)牢牢“記住”這些敏感個(gè)人信息,并有可能使其遭到泄露,產(chǎn)生對(duì)信息主體的敏感個(gè)人信息權(quán)益及個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)。
參見(jiàn)劉金瑞:《生成式人工智能大模型的新型風(fēng)險(xiǎn)與規(guī)制框架》,載《行政法學(xué)研究》2024年第2期,第20頁(yè)。例如,目前的研究已經(jīng)表明,技術(shù)人員可以通過(guò)最新的技術(shù)手段從各類生成式AI的大語(yǔ)言模型中抽取出大量的原始訓(xùn)練數(shù)據(jù),其中自然包括了存在敏感個(gè)人信息的原始訓(xùn)練數(shù)據(jù)。
See Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr & Katherine Lee,
Scalable Extraction of Training Data from (Production) Language Models, https://arxiv.org/abs/2311.17035, last visited on March 19, 2024. 正因如此,2023年6月28日,有16位匿名人士對(duì)OpenAI公司和微軟公司提起訴訟,認(rèn)為ChatGPT及相關(guān)生成式AI產(chǎn)品收集了數(shù)百萬(wàn)人的個(gè)體隱私信息,包括姓名、電子郵件、支付信息、交易記錄、聊天記錄、搜索歷史等,這些數(shù)據(jù)能夠反映出信息主體的宗教信仰、政治觀點(diǎn)、性取向、個(gè)性偏好等私密信息,違反了美國(guó)《電子通信隱私法》(Electronic Communications Privacy Act,ECPA)。這一訴訟從側(cè)面反映了生成式AI對(duì)敏感個(gè)人信息權(quán)益及個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)。
這一案件的起訴書全文長(zhǎng)達(dá)157頁(yè),起訴書的全文PDF版及訴訟進(jìn)程可參見(jiàn)https://www.courtlistener.com/docket/67535351/pm-v-openai-lp/,last visited on 19,2024。 正是出于對(duì)這種侵害風(fēng)險(xiǎn)的擔(dān)憂與防范,意大利個(gè)人數(shù)據(jù)保護(hù)局在2023年3月暫停了ChatGPT在該國(guó)的使用,直到OpenAI公司更新了隱私保護(hù)政策并作出相應(yīng)技術(shù)調(diào)整后,才許可其繼續(xù)運(yùn)營(yíng)。法國(guó)和英國(guó)的數(shù)據(jù)隱私保護(hù)機(jī)構(gòu)也對(duì)ChatGPT涉及的個(gè)人隱私保護(hù)問(wèn)題表示了專門的關(guān)注。
參見(jiàn)傅宏宇:《生成式人工智能的治理模式與風(fēng)險(xiǎn)辨析》,載《數(shù)字法治》2023年第4期,第197-198頁(yè)。
(二)大語(yǔ)言模型輸出端產(chǎn)生侵害風(fēng)險(xiǎn)的技術(shù)成因
生成式AI建構(gòu)的大語(yǔ)言模型的輸出端與輸入端一樣,也會(huì)產(chǎn)生對(duì)信息主體的敏感個(gè)人信息權(quán)益及個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)。
這是因?yàn)?,大語(yǔ)言模型預(yù)訓(xùn)練在掌握自然語(yǔ)言統(tǒng)計(jì)規(guī)律的同時(shí),也具備了強(qiáng)大的碎片化信息整合分析能力。通過(guò)類人神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),生成式AI的大語(yǔ)言模型能夠?qū)⒂?xùn)練數(shù)據(jù)中碎片化的信息進(jìn)行分析整合并形成完整的信息內(nèi)容。這種碎片化信息整合分析能力使其可以將信息主體散落在數(shù)字空間中的碎片化個(gè)人信息進(jìn)行聚合
參見(jiàn)郭春鎮(zhèn):《生成式AI的融貫性法律治理——以生成式預(yù)訓(xùn)練模型(GPT)為例》,載《現(xiàn)代法學(xué)》2023年第3期,第98頁(yè)。,并基于此對(duì)信息主體進(jìn)行深度用戶畫像,挖掘出隱藏在碎片化個(gè)人信息背后的敏感個(gè)人信息及深層的個(gè)體隱私內(nèi)容,在“長(zhǎng)尾效應(yīng)”之下產(chǎn)生對(duì)信息主體的敏感個(gè)人信息權(quán)益及個(gè)體隱私權(quán)的巨大侵害風(fēng)險(xiǎn)。
參見(jiàn)畢文軒:《生成式人工智能的風(fēng)險(xiǎn)規(guī)制困境及其化解:以ChatGPT的規(guī)制為視角》,載《比較法研究》2023年第3期,第159-160頁(yè)。這種強(qiáng)大的碎片化信息整合分析能力甚至可能使生成式AI開(kāi)發(fā)者對(duì)特定主體的個(gè)人信息(包括敏感個(gè)人信息)具有全知全控的能力。并且,正如前文所述,以GPT模型為代表的生成式AI已經(jīng)具備“通用人工智能”的雛形,它在超大規(guī)模的模型參數(shù)支持下產(chǎn)生了“涌現(xiàn)”的能力,可以被整合入不同的應(yīng)用場(chǎng)景進(jìn)行廣泛運(yùn)用。這就使生成式AI強(qiáng)大的碎片化信息整合分析能力也會(huì)拓展到下游不同的應(yīng)用場(chǎng)景中,使廣大的終端用戶具有了以極低成本獲取他人敏感個(gè)人信息及窺探他人隱私的能力,這就進(jìn)一步放大了對(duì)信息主體的敏感個(gè)人信息權(quán)益和個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)。
有學(xué)者認(rèn)為生成式人工智能服務(wù)提供者(開(kāi)發(fā)者)原則上無(wú)須對(duì)自動(dòng)生成的內(nèi)容承擔(dān)侵權(quán)責(zé)任。如果這一觀點(diǎn)成立,那么,就會(huì)更進(jìn)一步增加自動(dòng)生成的內(nèi)容侵害個(gè)人隱私的風(fēng)險(xiǎn)。參見(jiàn)徐偉:《論生成式人工智能服務(wù)提供者的法律地位及其責(zé)任——以ChatGPT為例》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第4期,第77頁(yè)。
更進(jìn)一步而言,由于生成式AI的大語(yǔ)言模型并非像傳統(tǒng)數(shù)據(jù)庫(kù)一樣通過(guò)硬盤介質(zhì)存儲(chǔ)數(shù)據(jù),而是將預(yù)訓(xùn)練階段掌握的自然語(yǔ)言統(tǒng)計(jì)規(guī)律以參數(shù)的形式存在于大語(yǔ)言模型中。因此,即使生成式AI開(kāi)發(fā)者發(fā)現(xiàn)大語(yǔ)言模型輸出了敏感個(gè)人信息進(jìn)而侵害了信息主體的隱私權(quán),也不能像操作傳統(tǒng)數(shù)據(jù)庫(kù)那樣直接在大語(yǔ)言模型中刪除敏感個(gè)人信息。也就是說(shuō),生成式AI的技術(shù)特性決定了無(wú)法在大語(yǔ)言模型中直接刪除特定信息,而只能通過(guò)模型的后續(xù)迭代訓(xùn)練防止特定信息(包括敏感個(gè)人信息e11ebd7b87bce6e83c664e5910bf2716)的輸出。同時(shí),由于大語(yǔ)言模型迭代訓(xùn)練的成本非常高,并不能做到隨時(shí)隨地進(jìn)行,這就導(dǎo)致敏感個(gè)人信息的泄露難以得到及時(shí)的制止,對(duì)信息主體的敏感個(gè)人信息權(quán)益和個(gè)體隱私權(quán)的侵害風(fēng)險(xiǎn)會(huì)持續(xù)存在。
五、生成式AI侵害個(gè)人信息的風(fēng)險(xiǎn)規(guī)制路徑
生成式AI的革命性技術(shù)突破對(duì)我國(guó)的個(gè)人信息保護(hù)法律制度產(chǎn)生了諸多的挑戰(zhàn),這些挑戰(zhàn)在事實(shí)上也顯露出生成式AI對(duì)個(gè)人信息有可能產(chǎn)生的侵害風(fēng)險(xiǎn)。并且,隨著生成式AI技術(shù)應(yīng)用向經(jīng)濟(jì)社會(huì)各個(gè)領(lǐng)域的不斷拓展,這種對(duì)個(gè)人信息的侵害風(fēng)險(xiǎn)不僅可能會(huì)對(duì)作為信息主體的個(gè)人造成災(zāi)難性后果,而且還可能給社會(huì)和國(guó)家?guī)?lái)重大安全隱患。
參見(jiàn)劉權(quán):《風(fēng)險(xiǎn)治理視角下的個(gè)人信息保護(hù)路徑》,載《比較法研究》2024年第2期,第63頁(yè)。因此,傳統(tǒng)上“基于權(quán)利的方法”實(shí)施的個(gè)人信息保護(hù)逐步演變?yōu)椤盎陲L(fēng)險(xiǎn)的方法”實(shí)施的個(gè)人信息保護(hù)。
參見(jiàn)張濤:《探尋個(gè)人信息保護(hù)的風(fēng)險(xiǎn)控制路徑之維》,載《法學(xué)》2022年第6期,第62-65頁(yè)。這種個(gè)人信息保護(hù)思路的改變,促使生成式AI時(shí)代個(gè)人信息保護(hù)的主要路徑也隨之發(fā)生轉(zhuǎn)變。這主要體現(xiàn)在從以民事訴訟為主的私法保護(hù)路徑,轉(zhuǎn)變?yōu)橐燥L(fēng)險(xiǎn)規(guī)制為主的公法保護(hù)路徑。
關(guān)于個(gè)人信息保護(hù)領(lǐng)域中行政監(jiān)管等公法途徑較之民事訴訟等私法途徑優(yōu)勢(shì)的學(xué)理討論,參見(jiàn)王錫鋅:《重思個(gè)人信息權(quán)利束的保障機(jī)制:行政監(jiān)管還是民事訴訟》,載《法學(xué)研究》2022年第5期,第3頁(yè)。由人民法院實(shí)施的私法保護(hù)路徑具有高成本、滯后性的缺陷,往往難以及時(shí)有效地防范個(gè)人信息的侵害,而由行政機(jī)關(guān)實(shí)施的公法保護(hù)路徑則更具有專業(yè)性和實(shí)效性,更能回應(yīng)人工智能時(shí)代飛速發(fā)展的科技變革對(duì)法律規(guī)制的適應(yīng)性要求。因此,在生成式AI蓬勃發(fā)展的當(dāng)下,為了更好地實(shí)現(xiàn)對(duì)個(gè)人信息的保護(hù),我們應(yīng)認(rèn)真探討相關(guān)風(fēng)險(xiǎn)規(guī)制的路徑,以便為《個(gè)人信息保護(hù)法》的修訂及“人工智能法”的制定提供一些建議。
也有研究認(rèn)為,目前不宜就ChatGPT類的人工智能技術(shù)進(jìn)行專門的風(fēng)險(xiǎn)立法。參見(jiàn)趙精武:《生成式人工智能應(yīng)用風(fēng)險(xiǎn)治理的理論誤區(qū)與路徑轉(zhuǎn)向》,載《荊楚法學(xué)》2023年第3期,第48-50頁(yè)。
(一)“包容審慎”的基本風(fēng)險(xiǎn)規(guī)制理念
雖然生成式AI存在侵害個(gè)人信息的潛在風(fēng)險(xiǎn),但這并不意味著就應(yīng)禁止其開(kāi)發(fā)。在新科技革命的浪潮之下,生成式AI是技術(shù)革新的最前沿領(lǐng)域,它的發(fā)展水平將直接決定我國(guó)在數(shù)字經(jīng)濟(jì)競(jìng)爭(zhēng)中所處的層級(jí),是我國(guó)在下一個(gè)經(jīng)濟(jì)發(fā)展周期中能夠立于不敗之地的主要技術(shù)依托,是需要大力予以培育、扶持與促進(jìn)發(fā)展的技術(shù)領(lǐng)域。因此,生成式AI侵害個(gè)人信息的風(fēng)險(xiǎn)規(guī)制應(yīng)當(dāng)在促進(jìn)創(chuàng)新技術(shù)發(fā)展和個(gè)人信息保護(hù)之間保持必要的平衡,既不能因?yàn)橥七M(jìn)生成式AI技術(shù)的發(fā)展而罔顧個(gè)人信息的保護(hù),也不能因?yàn)楸Wo(hù)個(gè)人信息而阻礙生成式AI技術(shù)的發(fā)展。
這種平衡在風(fēng)險(xiǎn)規(guī)制中就體現(xiàn)為“包容審慎”的規(guī)制理念
有學(xué)者主張將生成式人工智能區(qū)分為“基礎(chǔ)模型—專業(yè)模型—服務(wù)應(yīng)用”的分層治理體系,只在專業(yè)模型層應(yīng)用審慎包容的治理理念。參見(jiàn)張凌寒:《生成式人工智能的法律定位與分層治理》,載《現(xiàn)代法學(xué)》2023年第4期,第139頁(yè)。還有學(xué)者提出針對(duì)生成式人工智能的敏捷治理與韌性治理并重原則、精準(zhǔn)治理原則、參與式治理原則,并在此基礎(chǔ)上提出面向生成式人工智能產(chǎn)業(yè)生態(tài)鏈的新型治理范式。參見(jiàn)張欣:《面向產(chǎn)業(yè)鏈的治理:人工智能生成內(nèi)容的技術(shù)機(jī)理與治理邏輯》,載《行政法學(xué)研究》2023年第6期,第50-59頁(yè)。,實(shí)現(xiàn)“包容審慎原則下義務(wù)與責(zé)任重構(gòu)”。
韓旭至:《生成式人工智能治理的邏輯更新與路徑優(yōu)化——以人機(jī)關(guān)系為視角》,載《行政法學(xué)研究》2023年第6期,第37頁(yè)。從“包容”的角度而言,風(fēng)險(xiǎn)規(guī)制應(yīng)當(dāng)確保我國(guó)生成式AI開(kāi)發(fā)者更便利地合法處理個(gè)人信息數(shù)據(jù)。在生成式AI的發(fā)展過(guò)程中,面對(duì)超大體量的訓(xùn)練數(shù)據(jù),如果嚴(yán)格要求大語(yǔ)言模型預(yù)訓(xùn)練中的個(gè)人信息處理活動(dòng)都必須得到信息主體的知情同意,暫不論是否可以真正有效實(shí)現(xiàn),即使假設(shè)能夠真正有效實(shí)現(xiàn),也會(huì)極大地降低我國(guó)生成式AI的開(kāi)發(fā)效率,嚴(yán)重阻礙生成式AI的發(fā)展速率。在目前這樣一個(gè)激烈的全球科技競(jìng)爭(zhēng)時(shí)代,這就意味著我國(guó)在新科技競(jìng)爭(zhēng)中處于劣勢(shì)地位,甚至被其他國(guó)家遠(yuǎn)遠(yuǎn)甩在身后。因此,就生成式AI風(fēng)險(xiǎn)規(guī)制的包容性層面而言,應(yīng)適當(dāng)放寬個(gè)人信息處理的知情同意規(guī)則的限制,“控制超量安全亢余”
蘇宇:《大型語(yǔ)言模型的法律風(fēng)險(xiǎn)與治理路徑》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2024年第1期,第85頁(yè)。,使生成式AI開(kāi)發(fā)者能夠更便利地運(yùn)用個(gè)人信息數(shù)據(jù)進(jìn)行大語(yǔ)言模型的預(yù)訓(xùn)練,從而Vhkg4Q21o/NxvMQr43hwQzn4N7UC426OGTS+r2Zvn7g=實(shí)現(xiàn)個(gè)人信息本身所具有的社會(huì)價(jià)值。
參見(jiàn)高富平:《個(gè)人信息保護(hù):從個(gè)人控制到社會(huì)控制》,載《法學(xué)研究》2018年第3期,第96頁(yè)。
與此同時(shí),從“審慎”的角度而言,風(fēng)險(xiǎn)規(guī)制應(yīng)更側(cè)重于對(duì)信息主體人格權(quán)的保護(hù)。數(shù)字經(jīng)濟(jì)時(shí)代,個(gè)人信息對(duì)于信息主體而言不但具有人格權(quán)方面的利益,而且還具有財(cái)產(chǎn)權(quán)方面的利益。
參見(jiàn)張新寶:《產(chǎn)權(quán)結(jié)構(gòu)性分置下的數(shù)據(jù)權(quán)利配置》,載《環(huán)球法律評(píng)論》2023年第4期,第18頁(yè)。類似觀點(diǎn)參見(jiàn)劉德良:《個(gè)人信息的財(cái)產(chǎn)權(quán)保護(hù)》,載《法學(xué)研究》2007年第3期,第80頁(yè)。生成式AI對(duì)個(gè)人信息可能產(chǎn)生的侵害風(fēng)險(xiǎn),既有可能是對(duì)信息主體財(cái)產(chǎn)權(quán)的侵害,也有可能是對(duì)信息主體人格權(quán)的侵害。生成式AI作為新科技時(shí)代的突破性技術(shù),其產(chǎn)生的總體社會(huì)經(jīng)濟(jì)效益將會(huì)遠(yuǎn)超個(gè)人信息對(duì)于信息主體產(chǎn)生的財(cái)產(chǎn)性利益。因此,生成式AI發(fā)展過(guò)程中對(duì)于個(gè)人信息中的財(cái)產(chǎn)權(quán)可以適度降低保護(hù)力度,以便更好地實(shí)現(xiàn)個(gè)人信息對(duì)于生成式AI產(chǎn)業(yè)整體發(fā)展的貢獻(xiàn)。但是,信息主體的人格尊嚴(yán)是不能用經(jīng)濟(jì)效益來(lái)衡量或替代的,它是生成式AI發(fā)展過(guò)程中不可突破的底線。也即,就生成式AI風(fēng)險(xiǎn)規(guī)制的審慎層面而言,必須守住保護(hù)信息主體人格尊嚴(yán)的底線,對(duì)于可能對(duì)信息主體人格權(quán)產(chǎn)生侵害的個(gè)人信息處理行為應(yīng)當(dāng)予以嚴(yán)格規(guī)制,切實(shí)保護(hù)個(gè)人信息中的人格利益。
簡(jiǎn)言之,關(guān)于生成式AI侵害個(gè)人信息風(fēng)險(xiǎn)規(guī)制的基本理念就是“包容審慎”,目的在于實(shí)現(xiàn)創(chuàng)新技術(shù)發(fā)展與個(gè)人信息保護(hù)之間的平衡。風(fēng)險(xiǎn)規(guī)制的總體思路應(yīng)當(dāng)是在便利我國(guó)生成式AI開(kāi)發(fā)者運(yùn)用個(gè)人信息數(shù)據(jù)從事大語(yǔ)言模型研發(fā)的同時(shí),側(cè)重于對(duì)信息主體的個(gè)人信息中人格權(quán)方面利益的保護(hù),適當(dāng)放寬對(duì)信息主體的個(gè)人信息中財(cái)產(chǎn)權(quán)方面利益的保護(hù)。
(二)具體的風(fēng)險(xiǎn)規(guī)制路徑
依據(jù)“包容審慎”這一基本的風(fēng)險(xiǎn)規(guī)制理念,我們就可以繼續(xù)探討生成式AI侵害個(gè)人信息的具體風(fēng)險(xiǎn)規(guī)制路徑:
1.調(diào)整生成式AI領(lǐng)域知情同意規(guī)則的適用方式。從目前《個(gè)人信息保護(hù)法》的規(guī)定來(lái)看,除了法定的例外情形(如已公開(kāi)個(gè)人信息),大多數(shù)個(gè)人信息都需經(jīng)過(guò)信息主體的明示同意才能進(jìn)行處理,且并未明確生成式AI處理個(gè)人信息的特殊例外情形。這就意味著在目前的法律規(guī)定下,生成式AI大語(yǔ)言模型預(yù)訓(xùn)練中使用的極為龐大的個(gè)人信息數(shù)據(jù),大多數(shù)都應(yīng)先依法取得信息主體的明確同意后才能進(jìn)行處理,這在很大程度上成為阻滯生成式AI高效發(fā)展的法律規(guī)則壁壘,需要調(diào)整規(guī)則的具體內(nèi)容予以應(yīng)對(duì)。
既然依據(jù)“包容審慎”的基本理念,生成式AI侵害個(gè)人信息風(fēng)險(xiǎn)規(guī)制的重點(diǎn)在于保障信息主體的人格權(quán)。那么,對(duì)于通常不涉及信息主體人格權(quán)的普通個(gè)人信息,我們就可以在法律上采用“默示同意”規(guī)則——只要信息主體不明確表示拒絕,生成式AI開(kāi)發(fā)者就可以合法地處理這些個(gè)人信息。同時(shí),應(yīng)當(dāng)將風(fēng)險(xiǎn)規(guī)制的重點(diǎn)置于更可能會(huì)危及信息主體人格權(quán)的“敏感個(gè)人信息”之上,對(duì)于此類個(gè)人信息應(yīng)繼續(xù)保留“明示同意”規(guī)則——敏感個(gè)人信息必須經(jīng)過(guò)信息主體的明示同意后才能應(yīng)用于生成式AI的開(kāi)發(fā)活動(dòng)。由于敏感個(gè)人信息更有可能涉及信息主體的人格權(quán),且此類信息只是個(gè)人信息數(shù)據(jù)集中的一部分,因此,知情同意規(guī)則的這種調(diào)整就能夠在盡可能保障信息主體人格權(quán)的前提下,最大限度地避免對(duì)生成式AI技術(shù)發(fā)展的阻礙。
因此,建議可以在今后的《個(gè)人信息保護(hù)法》修改中,加入生成式AI開(kāi)發(fā)可以采用“默示同意”規(guī)則處理普通個(gè)人信息的規(guī)定(處理敏感個(gè)人信息仍保留“明示同意”規(guī)則),作為個(gè)人信息處理的知情同意規(guī)則的特殊例外。如果直接修改《個(gè)人信息保護(hù)法》較為困難,那么,也可以考慮在“人工智能法”的制定中解決這一法律障礙。例如,可以在“人工智能法”中明確規(guī)定生成式AI處理普通個(gè)人信息的默示同意規(guī)則。依據(jù)“特別法優(yōu)于一般法”的法律適用規(guī)則,“人工智能法”中個(gè)人信息處理的這種特別規(guī)定將優(yōu)先于《個(gè)人信息保護(hù)法》中個(gè)人信息處理規(guī)則的適用。這樣就能在不修改《個(gè)人信息保護(hù)法》中知情同意規(guī)則的前提下,確保生成式AI中個(gè)人信息處理活動(dòng)“默示同意”規(guī)則的實(shí)現(xiàn)。
2.重塑生成式AI領(lǐng)域已公開(kāi)個(gè)人信息的處理規(guī)則。正如前文分析所顯示,《個(gè)人信息保護(hù)法》中將已公開(kāi)個(gè)人信息的處理限定在“合理范圍”內(nèi),但生成式AI的技術(shù)特性決定了對(duì)已公開(kāi)個(gè)人信息的處理很難滿足現(xiàn)有判斷標(biāo)準(zhǔn)下對(duì)“合理范圍”的界定,無(wú)論是
“目的限定原則”,還是“場(chǎng)景理論”都難以適用。因此,如果嚴(yán)格依據(jù)目前《個(gè)人信息保護(hù)法》的規(guī)定,生成式AI開(kāi)發(fā)者處理已公開(kāi)個(gè)人信息的活動(dòng)將始終游走在違法的邊緣,時(shí)刻處于可能被認(rèn)定為違法的不確定狀態(tài)中,這種風(fēng)險(xiǎn)將會(huì)極大地限制我國(guó)生成式AI技術(shù)與產(chǎn)業(yè)的快速發(fā)展。
規(guī)制這種風(fēng)險(xiǎn)的途徑在于調(diào)整生成式AI處理已公開(kāi)個(gè)人信息的法律規(guī)則。具體思路是:如果說(shuō)從正面界定何為生成式AI處理已公開(kāi)個(gè)人信息的合理范圍十分困難,那么,或許從反面劃定生成式AI處理已公開(kāi)個(gè)人信息的底線更具有制定或調(diào)整法律規(guī)則的可行性?;凇鞍輰徤鳌钡娘L(fēng)險(xiǎn)規(guī)制理念,我們可以考慮在《個(gè)人信息保護(hù)法》修訂或“人工智能法”的立法中,將信息主體的人格權(quán)保護(hù)明確作為生成式AI處理已公開(kāi)個(gè)人信息時(shí)不可逾越的底線,而在這一底線之上開(kāi)發(fā)者就可以合法地處理已公開(kāi)個(gè)人信息。這意味著,生成式AI開(kāi)發(fā)者在使用已公開(kāi)個(gè)人信息進(jìn)行大語(yǔ)言模型預(yù)訓(xùn)練時(shí),只要處理行為不對(duì)信息主體的人格權(quán)造成侵害,那么,其處理行為都應(yīng)屬于法律允許的范圍。這一底線的劃定側(cè)重于對(duì)個(gè)人信息中信息主體人格權(quán)的保護(hù),同時(shí)放松了對(duì)個(gè)人信息中信息主體財(cái)產(chǎn)權(quán)的保護(hù)。雖然對(duì)于信息主體個(gè)人而言,這樣的規(guī)制方式降低了其依賴自身個(gè)人信息獲益的可能性,但對(duì)于生成式AI的發(fā)展與數(shù)字經(jīng)濟(jì)時(shí)代社會(huì)總體收益的提升具有重要意義。
3.設(shè)立生成式AI領(lǐng)域個(gè)人信息中人格權(quán)保護(hù)的行政規(guī)制措施。目前我國(guó)對(duì)個(gè)人信息中人格權(quán)的保護(hù)大都是通過(guò)受害主體提起民事訴訟的方式予以實(shí)現(xiàn),這種私法救濟(jì)途徑更適合應(yīng)對(duì)前生成式AI時(shí)代對(duì)個(gè)人信息中人格權(quán)的個(gè)別性侵害。而在使用超大體量數(shù)據(jù)進(jìn)行大語(yǔ)言模型預(yù)訓(xùn)練處理的生成式AI時(shí)代,對(duì)個(gè)人信息中人格權(quán)的侵害往往呈現(xiàn)批量性侵害,而非個(gè)別性侵害。如果此時(shí)仍然由受害主體通過(guò)私法救濟(jì)途徑追究生成式AI開(kāi)發(fā)者的法律責(zé)任,那么,不但存在法律責(zé)任追究的滯后性,而且受高昂訴訟成本的約束,可以預(yù)見(jiàn)并不會(huì)有太多受害主體愿意提起訴訟,由此對(duì)個(gè)人信息中人格權(quán)的保護(hù)功能很有限。
因此,基于“包容審慎”的風(fēng)險(xiǎn)規(guī)制理念,我們需要通過(guò)設(shè)定有效的行政規(guī)制措施彌補(bǔ)私法救濟(jì)在生成式AI時(shí)代對(duì)個(gè)人信息中人格權(quán)保護(hù)的不足。具體包括以下幾種完善的途徑:
第一,設(shè)立生成式AI開(kāi)發(fā)者侵害個(gè)人信息中人格權(quán)的特別行政處罰措施。從目前我國(guó)《個(gè)人信息保護(hù)法》中有關(guān)行政處罰的責(zé)任設(shè)定來(lái)看,雖然已經(jīng)規(guī)定了對(duì)個(gè)人信息處理者違反法定信息處理規(guī)則時(shí)的處罰制度,但這一規(guī)定過(guò)于籠統(tǒng),且并未區(qū)分侵害個(gè)人信息中的財(cái)產(chǎn)權(quán)和侵害個(gè)人信息中的人格權(quán)。因此,在《個(gè)人信息保護(hù)法》修訂或“人工智能法”的立法時(shí),建議在生成式AI的相關(guān)條文中,明確設(shè)定生成式AI開(kāi)發(fā)者侵害個(gè)人信息中人格權(quán)的行政處罰措施,同時(shí)規(guī)定侵害個(gè)人信息中其他權(quán)利(如財(cái)產(chǎn)權(quán))的生成式AI開(kāi)發(fā)行為不屬于行政處罰的范圍,從而體現(xiàn)特別保護(hù)個(gè)人信息中人格權(quán)的底線。
第二,設(shè)立責(zé)令生成式AI開(kāi)發(fā)者進(jìn)行賠償?shù)男姓畲胧?。雖然從法理上而言,當(dāng)生成式AI開(kāi)發(fā)者侵害了個(gè)人信息中的人格權(quán)之后,信息主體可以通過(guò)提起民事侵權(quán)訴訟要求其賠償自身的損失。但是,作為個(gè)人的信息主體相對(duì)于通常是組織體的生成式AI開(kāi)發(fā)者總體而言,前者是居于弱勢(shì)地位。通過(guò)民事訴訟的途徑要求賠償,且不論其勝訴率的高低,即使能夠勝訴,也僅能使單次訴訟中的原告獲得賠償,其他受侵害主體則并不能依此次訴訟獲賠,只能另行提起訴訟,訴訟效益并不高。因此,為了加強(qiáng)對(duì)個(gè)人信息中人格權(quán)的特別保護(hù),可以在《個(gè)人信息保護(hù)法》修訂或“人工智能法”立法中,設(shè)立行政機(jī)關(guān)責(zé)令實(shí)施侵害行為的生成式AI開(kāi)發(fā)者對(duì)信息主體的人格權(quán)損害進(jìn)行賠償?shù)男姓畲胧Mㄟ^(guò)行政機(jī)關(guān)的公權(quán)力主動(dòng)為保護(hù)信息主體的人格權(quán)提供助力,減輕信息主體獲得損害賠償所需支出的成本,同時(shí),也體現(xiàn)出風(fēng)險(xiǎn)規(guī)制中對(duì)信息主體個(gè)人信息中人格權(quán)的傾向性保護(hù)。
第三,設(shè)立生成式AI開(kāi)發(fā)活動(dòng)的行政許可措施。雖然生成式AI的發(fā)展需要市場(chǎng)主體間激烈的市場(chǎng)競(jìng)爭(zhēng)予以快速推動(dòng),但不受約束的市場(chǎng)競(jìng)爭(zhēng)也會(huì)導(dǎo)致生成式AI開(kāi)發(fā)者良莠不齊,出現(xiàn)利用“技術(shù)黑箱”所導(dǎo)致的高度信息不對(duì)稱肆意侵害個(gè)人信息權(quán)益及個(gè)體隱私權(quán)的情形。因此,可以考慮在《個(gè)人信息保護(hù)法》修訂或“人工智能法”的立法中設(shè)定生成式AI開(kāi)發(fā)的行政許可措施,要求符合一定條件的組織才能從事生成式AI的開(kāi)發(fā)活動(dòng)。
有學(xué)者提出類似的觀點(diǎn),認(rèn)為應(yīng)當(dāng)建立有層次的生成式人工智能市場(chǎng)準(zhǔn)入清單制度。參見(jiàn)孫祁:《規(guī)范生成式人工智能產(chǎn)品提供者的法律問(wèn)題研究》,載《政治與法律》2023年第7期,第174頁(yè)。例如,為了應(yīng)對(duì)生成式AI所具有的高度技術(shù)復(fù)雜性,可以要求生成式AI開(kāi)發(fā)者事先建立完善的內(nèi)部規(guī)則保護(hù)信息主體的人格權(quán),并將此作為頒發(fā)行政許可的條件之一。通過(guò)行政許可措施的設(shè)立,不但能夠過(guò)濾掉不具備保護(hù)個(gè)人信息中人格權(quán)的能力與條件的開(kāi)發(fā)者,減少侵害個(gè)人信息中人格權(quán)的概率。而且,行政許可措施還能使行政機(jī)關(guān)的風(fēng)險(xiǎn)規(guī)制對(duì)象更加明確和集中,便于行政機(jī)關(guān)對(duì)生成式AI開(kāi)發(fā)者侵害個(gè)人信息中人格權(quán)的行為進(jìn)行及時(shí)、有效的監(jiān)管。
六、結(jié)語(yǔ)
綜上所述,以GPT模型為代表的生成式AI超越了傳統(tǒng)決策式人工智能的預(yù)測(cè)功能,已經(jīng)具備了依據(jù)大語(yǔ)言模型預(yù)訓(xùn)練所掌握的自然語(yǔ)言統(tǒng)計(jì)規(guī)律產(chǎn)出全新內(nèi)容的能力,這標(biāo)志著通用人工智能的初步實(shí)現(xiàn),是數(shù)字經(jīng)濟(jì)時(shí)代新科技浪潮的前奏。但是,生成式AI的出現(xiàn)引發(fā)了諸多新型風(fēng)險(xiǎn),其中最重要的風(fēng)險(xiǎn)就是對(duì)個(gè)人信息保護(hù)產(chǎn)生的挑戰(zhàn)。生成式AI對(duì)個(gè)人信息保護(hù)的挑戰(zhàn)來(lái)源于其具有的技術(shù)特性,主要包括對(duì)個(gè)人信息處理的知情同意規(guī)則、已公開(kāi)個(gè)人信息處理規(guī)則及敏感個(gè)人信息保護(hù)等三個(gè)方面的挑戰(zhàn)。面對(duì)這些新型挑戰(zhàn),為了防范生成式AI對(duì)個(gè)人信息的侵害風(fēng)險(xiǎn),我們應(yīng)當(dāng)在修改《個(gè)人信息保護(hù)法》或制定“人工智能法”的過(guò)程中,基于“包容審慎”的基本風(fēng)險(xiǎn)規(guī)制理念,建構(gòu)具有針對(duì)性的規(guī)制措施,包括調(diào)整生成式AI領(lǐng)域知情同意規(guī)則的適用方式、重塑生成式AI領(lǐng)域已公開(kāi)個(gè)人信息的處理規(guī)則、設(shè)立生成式AI領(lǐng)域個(gè)人信息中人格權(quán)保護(hù)的行政規(guī)制措施等,以便在數(shù)字經(jīng)濟(jì)時(shí)代真正實(shí)現(xiàn)生成式AI創(chuàng)新技術(shù)發(fā)展和個(gè)人信息保護(hù)之間的平衡。