国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成式人工智能訓(xùn)練數(shù)據(jù)風(fēng)險(xiǎn)的規(guī)制路徑研究

2024-03-01 04:29:52邢露元沈心怡王嘉怡
關(guān)鍵詞:個(gè)人信息人工智能模型

邢露元,沈心怡,王嘉怡

(1.南京大學(xué) 法學(xué)院,江蘇 南京 210046;2.倫敦政治經(jīng)濟(jì)學(xué)院 法學(xué)院,英國(guó) 倫敦 WC2A 2AE;3.東北農(nóng)業(yè)大學(xué) 文理學(xué)院,黑龍江 哈爾濱 150030)

1 生成式人工智能中的訓(xùn)練數(shù)據(jù)風(fēng)險(xiǎn)

不同于以往僅能進(jìn)行分類(lèi)、預(yù)測(cè)或?qū)崿F(xiàn)特定功能的模型,生成式人工智能大模型(Large Generative AI Models,LGAIMs)經(jīng)過(guò)訓(xùn)練可生成新的文本、圖像或音頻等內(nèi)容,且具有強(qiáng)大的涌現(xiàn)特性和泛化能力[1]。訓(xùn)練數(shù)據(jù)表示為概率分布,LGAIMs可以實(shí)現(xiàn)自行學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的模式和關(guān)系,可以生成訓(xùn)練數(shù)據(jù)集之外的內(nèi)容[2]。同時(shí),LGAIMs與用戶(hù)之間進(jìn)行人機(jī)交互所產(chǎn)生的數(shù)據(jù)還會(huì)被用于大模型的迭代訓(xùn)練。LGAIMs的開(kāi)發(fā)者往往需要使用互聯(lián)網(wǎng)上公開(kāi)的數(shù)據(jù)以及和用戶(hù)的交互數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),而這些數(shù)據(jù)可能存在諸多合規(guī)風(fēng)險(xiǎn),例如數(shù)據(jù)來(lái)源風(fēng)險(xiǎn)、歧視風(fēng)險(xiǎn)和質(zhì)量風(fēng)險(xiǎn)。事實(shí)上,數(shù)據(jù)中任何潛在的偏見(jiàn)、侵犯隱私、侵犯知識(shí)產(chǎn)權(quán)或其他不公平的情況都會(huì)影響到未來(lái)無(wú)數(shù)可能的模型應(yīng)用。此外,在LGAIMs運(yùn)行和再訓(xùn)練的過(guò)程中,也可能引發(fā)其他的數(shù)據(jù)安全風(fēng)險(xiǎn),導(dǎo)致個(gè)人信息、商業(yè)秘密的泄露或影響國(guó)家安全。

1.1 數(shù)據(jù)來(lái)源風(fēng)險(xiǎn)

在訓(xùn)練數(shù)據(jù)的創(chuàng)造者不知情、未授權(quán)、未確認(rèn)或未補(bǔ)償?shù)那闆r下,訓(xùn)練數(shù)據(jù)來(lái)源合法性的問(wèn)題尤為凸顯。具體而言,訓(xùn)練數(shù)據(jù)的采集和使用可能涉及以下風(fēng)險(xiǎn):一是侵犯知識(shí)產(chǎn)權(quán)的風(fēng)險(xiǎn)。若相關(guān)數(shù)據(jù)受知識(shí)產(chǎn)權(quán)的保護(hù),收集和使用此類(lèi)數(shù)據(jù)可能侵犯權(quán)利人的知識(shí)產(chǎn)權(quán)。二是侵犯?jìng)€(gè)人信息的風(fēng)險(xiǎn)。若相關(guān)數(shù)據(jù)屬于受保護(hù)的個(gè)人信息和數(shù)據(jù),同樣可能侵犯信息數(shù)據(jù)主體的相關(guān)權(quán)利。三是侵犯商業(yè)秘密的風(fēng)險(xiǎn),如非法獲取甚至泄漏商業(yè)秘密。四是獲取數(shù)據(jù)手段可能違法的風(fēng)險(xiǎn)。生成式人工智能數(shù)據(jù)收集和語(yǔ)料庫(kù)構(gòu)建高度依賴(lài)數(shù)據(jù)爬蟲(chóng)[3],違法使用爬蟲(chóng)進(jìn)行數(shù)據(jù)爬取,可能構(gòu)成不正當(dāng)競(jìng)爭(zhēng)或其他侵權(quán)行為,甚至可能違反相關(guān)刑事法律。

1.2 數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)

數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)是指訓(xùn)練數(shù)據(jù)不具備準(zhǔn)確性、真實(shí)性、客觀(guān)性、代表性等性質(zhì)的風(fēng)險(xiǎn),數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)是機(jī)器學(xué)習(xí)的核心問(wèn)題。LGAIMs訓(xùn)練使用的大量數(shù)據(jù)都來(lái)自互聯(lián)網(wǎng),當(dāng)不準(zhǔn)確不完善的信息作為訓(xùn)練數(shù)據(jù)進(jìn)入大模型時(shí),會(huì)導(dǎo)致輸出不正確的模型預(yù)測(cè)。

在數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)中,生成式人工智能系統(tǒng)受到偏見(jiàn)和歧視影響的風(fēng)險(xiǎn)最為突出,偏見(jiàn)可能為基礎(chǔ)數(shù)據(jù)集所固有,可能為開(kāi)發(fā)人員所引入,亦可能在運(yùn)行中產(chǎn)生。在可能產(chǎn)生歧視的情形中,存在訓(xùn)練數(shù)據(jù)具有民族、信仰、國(guó)別、地域、性別、年齡、職業(yè)、健康等歧視的風(fēng)險(xiǎn)。人工智能系統(tǒng)提供的結(jié)果將增加、延續(xù)和擴(kuò)大現(xiàn)有的歧視,對(duì)特定群體的基本權(quán)利造成負(fù)面影響。

1.3 數(shù)據(jù)泄露風(fēng)險(xiǎn)

在LGAIMs的全生命周期中,數(shù)據(jù)都存在安全風(fēng)險(xiǎn)。模型可能在應(yīng)用時(shí)受到網(wǎng)絡(luò)攻擊,攻擊者通過(guò)注入中毒或污染數(shù)據(jù)來(lái)操縱訓(xùn)練數(shù)據(jù)集,產(chǎn)生數(shù)據(jù)中毒(Data Poisoning)和數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。同時(shí),有研究表明,生成式人工智能較為容易受到反向攻擊(AI Inversion Attcks)的影響[4],攻擊者可通過(guò)模型反轉(zhuǎn)獲取和重新識(shí)別訓(xùn)練數(shù)據(jù),侵犯數(shù)據(jù)主體的合法權(quán)益。即使沒(méi)有直接的攻擊,個(gè)人數(shù)據(jù)和商業(yè)秘密也存在因技術(shù)問(wèn)題而泄露的可能。若用戶(hù)使用境外生成式人工智能系統(tǒng),即涉及數(shù)據(jù)出境,未經(jīng)審批許可會(huì)存在數(shù)據(jù)合規(guī)及安全隱患。模型訓(xùn)練還可能涉及國(guó)家數(shù)據(jù),存在通過(guò)危害國(guó)家數(shù)據(jù)安全進(jìn)而影響國(guó)家安全的風(fēng)險(xiǎn)[5]。

本文通過(guò)與歐盟對(duì)訓(xùn)練數(shù)據(jù)合規(guī)風(fēng)險(xiǎn)規(guī)制的具體法規(guī)進(jìn)行對(duì)比研究,對(duì)我國(guó)法律的完善提出相關(guān)建議。

2 我國(guó)相關(guān)法律規(guī)定及評(píng)述

2.1 總述

對(duì)于生成式人工智能,我國(guó)世界領(lǐng)先地出臺(tái)了《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱(chēng)《暫行辦法》)。目前,我國(guó)形成了以《暫行辦法》、《個(gè)人信息保護(hù)法》(以下簡(jiǎn)稱(chēng)《個(gè)保法》)、《數(shù)據(jù)安全法》為核心的數(shù)據(jù)合規(guī)體系。

2.2 規(guī)范梳理及評(píng)述

2.2.1 針對(duì)數(shù)據(jù)來(lái)源風(fēng)險(xiǎn)

(1)不得侵犯知識(shí)產(chǎn)權(quán)

《暫行辦法》第七條第(二)款僅籠統(tǒng)地規(guī)定了訓(xùn)練數(shù)據(jù)不得侵害知識(shí)產(chǎn)權(quán)。實(shí)踐中,知識(shí)產(chǎn)權(quán)的問(wèn)題多發(fā)于生成式人工智能研發(fā)者通過(guò)文本和數(shù)據(jù)挖掘獲取訓(xùn)練數(shù)據(jù)的過(guò)程中。根據(jù)著作權(quán)法第10、49、53條,未經(jīng)權(quán)利人許可,挖掘他人享有著作權(quán)的作品作為訓(xùn)練數(shù)據(jù),可能構(gòu)成對(duì)著作權(quán)的侵權(quán)。在過(guò)去的司法實(shí)踐中,法院對(duì)出于商業(yè)目的的文本和數(shù)據(jù)挖掘大多會(huì)做出侵權(quán)的判決,即使出于非商業(yè)目的也有被認(rèn)定為侵權(quán)的可能[6]。這主要涉及文本和數(shù)據(jù)挖掘行為是否構(gòu)成合理使用的認(rèn)定?!吨鳈?quán)法》第三次修改完善了合理使用制度,在法定情形后增加了一條兜底條款,為科技和時(shí)代發(fā)展下的其他合理使用行為留下了空間。但我國(guó)的合理使用制度仍基于法定主義,生成式人工智能挖掘具有知識(shí)產(chǎn)權(quán)的內(nèi)容很難構(gòu)成合理使用[7],具有較大的侵權(quán)風(fēng)險(xiǎn)。

生成式人工智能的發(fā)展與國(guó)家之間的科技競(jìng)爭(zhēng)息息相關(guān),未來(lái)是否仍以保守地態(tài)度對(duì)待生成式人工智能訓(xùn)練數(shù)據(jù)挖掘的行為,值得商榷。

(2)不得侵犯?jìng)€(gè)人信息

生成式人工智能使用個(gè)人信息作為訓(xùn)練數(shù)據(jù),應(yīng)當(dāng)具備合法性基礎(chǔ)并滿(mǎn)足透明性要求,即滿(mǎn)足《個(gè)保法》第13條規(guī)定的合法性條件,并履行第17條規(guī)定的告知義務(wù)。知情同意規(guī)則是我國(guó)個(gè)人信息保護(hù)的核心規(guī)則,然而在生成式人工智能收集和處理海量數(shù)據(jù)的背景下,該規(guī)則難以實(shí)操,基本被架空[3]。不過(guò),第13條第(六)項(xiàng)及第27條給予了生成式人工智能收集處理已公開(kāi)個(gè)人信息的合法性基礎(chǔ),只要滿(mǎn)足以下三個(gè)條件:①在合理范圍內(nèi)處理;②信息主體未明確拒絕;③處理不會(huì)對(duì)個(gè)人權(quán)益產(chǎn)生重大影響,否則應(yīng)取得同意。也就是說(shuō),研發(fā)者可以在合理范圍內(nèi)處理爬取的已公開(kāi)的個(gè)人數(shù)據(jù)是默認(rèn)規(guī)則,推定信息主體同意,同時(shí)賦予信息主體拒絕的權(quán)利,即選擇退出機(jī)制(Opt-out Mechanism)。該處理規(guī)則體現(xiàn)了公開(kāi)個(gè)人信息權(quán)益保護(hù)和個(gè)人信息資源利用的協(xié)調(diào)[8],有利于生成式人工智能的發(fā)展。此外,若涉及敏感個(gè)人信息,則必須取得個(gè)人的單獨(dú)同意,還需滿(mǎn)足處理具有特定的目的和充分的必要性,采取嚴(yán)格的保護(hù)措施,同時(shí)履行額外的告知義務(wù),告知處理敏感個(gè)人信息的必要性以及對(duì)個(gè)人權(quán)益的影響。然而,在上述規(guī)范中,是否屬于“合理范圍”、是否“對(duì)個(gè)人權(quán)益產(chǎn)生重大影響”、是否具有“特定的目的和充分的必要性”的標(biāo)準(zhǔn)并不明確,判斷本身就存在較大的不確定性,由此會(huì)導(dǎo)致較大的合規(guī)風(fēng)險(xiǎn)。

《暫行辦法》的第十一條也強(qiáng)調(diào)不得收集非必要的個(gè)人信息。然而,由于生成式人工智能需要海量訓(xùn)練數(shù)據(jù),很容易導(dǎo)致個(gè)人信息處理目的和用途不明確、收集個(gè)人信息超出必要范圍、信息處理期限不明確等問(wèn)題[3]。例如,關(guān)于處理目的,《個(gè)保法》第14條規(guī)定變更處理目的應(yīng)當(dāng)重新取得個(gè)人同意。由于生成式人工智能獲取公開(kāi)個(gè)人信息作為訓(xùn)練數(shù)據(jù),往往與最初個(gè)人同意的處理目的不同,如果完全要求處理目的和最初的公開(kāi)目的相同,對(duì)于生成式人工智能應(yīng)用明顯并不合理。因此,應(yīng)當(dāng)解釋為,個(gè)人信息處理與公開(kāi)時(shí)用途具有合理的關(guān)聯(lián)性,且符合個(gè)人的合理預(yù)期,則屬于在合理范圍內(nèi)處理[8]。但對(duì)于生成式人工智能使用個(gè)人信息作為訓(xùn)練數(shù)據(jù),個(gè)人信息與模型訓(xùn)練的目的是否具有合理關(guān)聯(lián)性、個(gè)人是否真的能夠?qū)€(gè)人信息用于人工智能訓(xùn)練存在合理預(yù)期等解釋難題,會(huì)使正當(dāng)、必要原則在生成式人工智能的語(yǔ)境下無(wú)法有效發(fā)揮其作用。若寬泛地認(rèn)為屬于“合理范圍”內(nèi)的處理,可能無(wú)法妥善保障信息主體的權(quán)利。

此外,個(gè)人信息主體更正權(quán)、刪除權(quán)的行使也存在合規(guī)難題。由于生成式人工智能的“算法黑箱”,很難明確識(shí)別單一訓(xùn)練數(shù)據(jù)對(duì)整體模型的影響,因此若想對(duì)單一個(gè)人信息進(jìn)行更正和刪除,技術(shù)上很難做到完全消除痕跡[7]。

現(xiàn)行法中使用個(gè)人信息作為訓(xùn)練數(shù)據(jù)的相關(guān)規(guī)定如表1所示。

表1 現(xiàn)行法中使用個(gè)人信息為訓(xùn)練數(shù)據(jù)的相關(guān)規(guī)定

(3)不得侵犯商業(yè)秘密

《暫行辦法》第四條第(三)項(xiàng)規(guī)定了“尊重商業(yè)道德,保守商業(yè)秘密”。生成式人工智能侵犯商業(yè)秘密主要存在兩種可能,一是爬取訓(xùn)練數(shù)據(jù)時(shí)侵犯商業(yè)秘密,二是在交互中用戶(hù)自行輸入構(gòu)成商業(yè)秘密的信息,該信息被用于模型的迭代訓(xùn)練,并在輸出中泄露商業(yè)秘密。對(duì)于前者,以不正當(dāng)手段“獲取”商業(yè)秘密的行為本身即構(gòu)成侵權(quán),使用商業(yè)秘密作為訓(xùn)練數(shù)據(jù)將造成更加嚴(yán)重的后果。對(duì)于后者,主要依靠公司采取合理措施保護(hù)商業(yè)秘密,如與生成式人工智能提供者、員工、承包商和其他第三方簽訂相關(guān)協(xié)議。

(4)不得違法使用數(shù)據(jù)爬蟲(chóng)

目前,我國(guó)在違法使用爬蟲(chóng)獲取數(shù)據(jù)的法律責(zé)任方面已積累了較多的實(shí)務(wù)案例。民事方面,主要集中在反不正當(dāng)競(jìng)爭(zhēng)法的適用。爬取競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)屬于“不勞而獲”、擾亂競(jìng)爭(zhēng)秩序的行為,可能構(gòu)成不正當(dāng)競(jìng)爭(zhēng)行為,需要承擔(dān)侵權(quán)責(zé)任[9]。

違反網(wǎng)站經(jīng)營(yíng)者設(shè)置的Robots協(xié)議,繞過(guò)各類(lèi)保護(hù)措施,接觸、保存甚至披露他人的商業(yè)秘密,可能構(gòu)成對(duì)他人商業(yè)秘密的侵權(quán)。另外,如果爬蟲(chóng)突破了網(wǎng)站經(jīng)營(yíng)者設(shè)置的保護(hù)措施,爬取具有知識(shí)產(chǎn)權(quán)的作品和用戶(hù)個(gè)人信息,則可能構(gòu)成對(duì)著作權(quán)和個(gè)人信息權(quán)益的侵權(quán)。

刑事方面,根據(jù)使用爬蟲(chóng)的行為和結(jié)果適用不同的刑法罪名。爬蟲(chóng)沒(méi)有授權(quán)、超越授權(quán)進(jìn)入特定計(jì)算機(jī)信息系統(tǒng),可能構(gòu)成非法侵入計(jì)算機(jī)信息系統(tǒng)罪。爬蟲(chóng)抓取不同數(shù)據(jù)可構(gòu)成不同的犯罪,如抓取個(gè)人信息,可能構(gòu)成侵犯公民個(gè)人信息罪;如抓取具有創(chuàng)造性的數(shù)據(jù),可能構(gòu)成侵犯著作權(quán)罪;如抓取涉及商業(yè)秘密的數(shù)據(jù),可能構(gòu)成侵犯商業(yè)秘密罪;抓取除上述數(shù)據(jù)以外的數(shù)據(jù),可能構(gòu)成非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪。爬取行為導(dǎo)致計(jì)算機(jī)系統(tǒng)破壞,可能構(gòu)成破壞計(jì)算機(jī)信息系統(tǒng)罪。刑法通過(guò)提前規(guī)制數(shù)據(jù)的不當(dāng)收集與獲取行為來(lái)降低數(shù)據(jù)濫用風(fēng)險(xiǎn),而對(duì)是否存在非法獲取行為進(jìn)行判斷需要有明確的數(shù)據(jù)收集方式和范圍。然而,生成式人工智能的數(shù)據(jù)收集范圍難以確定,導(dǎo)致判斷非法獲取行為存在困難[10]。而另一方面,若刑法對(duì)收集范圍進(jìn)行限縮,又會(huì)阻礙生成式人工智能的發(fā)展,生成式人工智能還可能由于收集數(shù)據(jù)不足造成數(shù)據(jù)歧視等其他問(wèn)題。此外,《暫行辦法》第四條第(二)項(xiàng)針對(duì)數(shù)據(jù)歧視風(fēng)險(xiǎn)強(qiáng)調(diào),在訓(xùn)練數(shù)據(jù)選擇中應(yīng)當(dāng)采取有效措施防止歧視。目前對(duì)于防止數(shù)據(jù)歧視的要求仍然較少,主要以技術(shù)規(guī)范為主。

2.2.2 針對(duì)數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)

《暫行辦法》第七條第(四)項(xiàng)實(shí)際上對(duì)訓(xùn)練數(shù)據(jù)的“真實(shí)性、準(zhǔn)確性、客觀(guān)性、多樣性”提出了鼓勵(lì)性而非強(qiáng)制性的要求,即增強(qiáng)數(shù)據(jù)質(zhì)量,而非一定要達(dá)到這些要求。這體現(xiàn)了“讓產(chǎn)業(yè)向高質(zhì)量方向發(fā)展”的政策導(dǎo)向,但現(xiàn)階段限于產(chǎn)業(yè)實(shí)踐并不做出強(qiáng)制性要求。此外,第八條則針對(duì)數(shù)據(jù)標(biāo)注做出明確規(guī)定,提出制定“清晰、具體、可操作的標(biāo)注規(guī)則;開(kāi)展數(shù)據(jù)標(biāo)注質(zhì)量評(píng)估,抽樣核驗(yàn)標(biāo)注內(nèi)容的準(zhǔn)確性”,以提高數(shù)據(jù)標(biāo)注質(zhì)量。

2.2.3 針對(duì)數(shù)據(jù)泄露風(fēng)險(xiǎn)

基礎(chǔ)模型的訓(xùn)練過(guò)程中,生成式人工智能服務(wù)提供者作為數(shù)據(jù)處理者,應(yīng)依據(jù)《數(shù)據(jù)安全法》履行數(shù)據(jù)安全保障義務(wù)。我國(guó)《人工智能安全標(biāo)準(zhǔn)化白皮書(shū)》指出,一方面,人工智能模型日益龐大,開(kāi)發(fā)過(guò)程日益復(fù)雜,數(shù)據(jù)泄露風(fēng)險(xiǎn)點(diǎn)更多、隱蔽性更強(qiáng),人工智能所使用開(kāi)源庫(kù)漏洞引發(fā)數(shù)據(jù)泄露的情況也很難杜絕。另一方面,交互式人工智能的應(yīng)用降低了數(shù)據(jù)流入模型的門(mén)檻。用戶(hù)在使用交互式人工智能時(shí)往往會(huì)放松警惕,更容易透露個(gè)人隱私、商業(yè)秘密、科研成果等數(shù)據(jù)。在人工智能通常收集用戶(hù)輸入數(shù)據(jù)用于訓(xùn)練的背景下,如何保障用戶(hù)輸入數(shù)據(jù)的安全亟需技術(shù)標(biāo)準(zhǔn),需要落實(shí)法律法規(guī),提出可以切實(shí)解決用戶(hù)輸入數(shù)據(jù)安全問(wèn)題的相關(guān)標(biāo)準(zhǔn)規(guī)范[11]。

我國(guó)《數(shù)據(jù)安全法》對(duì)數(shù)據(jù)實(shí)行分類(lèi)分級(jí)保護(hù),其中國(guó)家高度重視對(duì)重要數(shù)據(jù)的保護(hù),“對(duì)關(guān)系國(guó)家安全、國(guó)民經(jīng)濟(jì)命脈、重要民生、重大公共利益等國(guó)家核心數(shù)據(jù),實(shí)行更加嚴(yán)格的管理制度。”因此,訓(xùn)練數(shù)據(jù)不宜使用重要數(shù)據(jù)和核心數(shù)據(jù),以免帶來(lái)巨大的安全隱患。

目前,涉及數(shù)據(jù)出境監(jiān)管的主要?jiǎng)t是個(gè)人信息的跨境流動(dòng)。無(wú)論是境外開(kāi)發(fā)者直接面向境內(nèi)服務(wù)使用者提供服務(wù),還是服務(wù)提供者連接入境API接口后向境內(nèi)服務(wù)使用者提供服務(wù),均可能涉及將服務(wù)使用者個(gè)人信息傳輸至境外。目前《個(gè)人信息保護(hù)法》《數(shù)據(jù)出境安全評(píng)估辦法》《個(gè)人信息出境標(biāo)準(zhǔn)辦法》均對(duì)個(gè)人信息出境提出合規(guī)要求,應(yīng)準(zhǔn)確識(shí)別個(gè)人信息出境場(chǎng)景,選擇出境合法機(jī)制(標(biāo)準(zhǔn)合同/安全評(píng)估/認(rèn)證),開(kāi)展個(gè)人信息保護(hù)影響評(píng)估;于隱私政策等文本中披露跨境情形,并具備相應(yīng)合法性基礎(chǔ)?!稌盒修k法》第四章“監(jiān)督檢查和法律責(zé)任”第二十條特別提及來(lái)源于境外生成式人工智能服務(wù)的場(chǎng)景,可以預(yù)見(jiàn)這將是未來(lái)監(jiān)管的重點(diǎn)之一。

2.3 總評(píng)

我國(guó)對(duì)于網(wǎng)絡(luò)與算法相關(guān)的法律責(zé)任主要存在三類(lèi)主體——技術(shù)支持者、服務(wù)提供者以及內(nèi)容生產(chǎn)者。算法和人工智能監(jiān)管的重點(diǎn)一直都在于服務(wù)提供者,對(duì)于技術(shù)支持者,一般而言以倫理約束為主,盡量不做直接干預(yù)。然而,生成式人工智能的技術(shù)結(jié)構(gòu)的三個(gè)層次,即基礎(chǔ)模型、專(zhuān)業(yè)模型和服務(wù)應(yīng)用的區(qū)分,使得現(xiàn)有網(wǎng)絡(luò)與算法治理的三類(lèi)責(zé)任主體的分類(lèi)已難以適用,因?yàn)檫@三者的角色錯(cuò)綜復(fù)雜,在不同的層次上共同發(fā)揮作用。生成式人工智能的大模型將三者功能合三為一,可以通過(guò)模型即服務(wù)的形式為企業(yè)提供技術(shù)服務(wù),也可以通過(guò)例如ChatGPT問(wèn)答的方式直接生成內(nèi)容與用戶(hù)進(jìn)行交互[12]。因此,應(yīng)當(dāng)基于生成式人工智能的獨(dú)特技術(shù)架構(gòu)進(jìn)行分層治理,而對(duì)于訓(xùn)練數(shù)據(jù)治理,則應(yīng)當(dāng)主要關(guān)注模型開(kāi)發(fā)者負(fù)責(zé)的基礎(chǔ)模型層和由服務(wù)提供者負(fù)責(zé)的專(zhuān)業(yè)模型。

3 歐盟相關(guān)法律規(guī)定及評(píng)述

3.1 總述

目前,歐盟形成了以《人工智能法案》(AIAct,以下簡(jiǎn)稱(chēng)AIA。除非另有說(shuō)明,本文所有提及AIA的內(nèi)容均指歐盟理事會(huì)于2022年12月6日通過(guò)的一般方法)、《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,以下簡(jiǎn)稱(chēng)GDPR)為核心的的人工智能數(shù)據(jù)合規(guī)規(guī)范體系。AIA中,由于生成式人工智能一般沒(méi)有專(zhuān)門(mén)的使用目的,適用對(duì)于通用目的人工智能系統(tǒng)(General-Purpose AI System,GPAIS)的規(guī)定。

此前,AIA主要根據(jù)風(fēng)險(xiǎn)程度對(duì)人工智能進(jìn)行分類(lèi)分級(jí),分為不可接受的風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)、有限風(fēng)險(xiǎn)、極低風(fēng)險(xiǎn)或無(wú)風(fēng)險(xiǎn)四種類(lèi)型,并采取不同的監(jiān)管措施,風(fēng)險(xiǎn)類(lèi)別越高,監(jiān)管要求越嚴(yán)格。但ChatGPT的橫空出世,造成了這種風(fēng)險(xiǎn)分類(lèi)標(biāo)準(zhǔn)的適用困境。根據(jù)AIA,風(fēng)險(xiǎn)分類(lèi)取決于提供商設(shè)想的人工智能的使用目的,所有在法案附件三規(guī)定的領(lǐng)域和場(chǎng)景下(例如教育、就業(yè)、基礎(chǔ)設(shè)施等)使用的人工智能系統(tǒng)都被視為高風(fēng)險(xiǎn)系統(tǒng)。然而,ChatGPT這樣的通用型生成式人工智能根據(jù)使用者使用目的的不同會(huì)涉及不同的應(yīng)用領(lǐng)域和場(chǎng)景,從而落入不同的風(fēng)險(xiǎn)類(lèi)別中。2023年2月,歐盟議會(huì)試圖將生成式人工智能整體歸于高風(fēng)險(xiǎn)人工智能系統(tǒng)。6月14日,歐盟議會(huì)通過(guò)了其對(duì)《人工智能法》的談判立場(chǎng),歐盟議會(huì)將根據(jù)該談判立場(chǎng)與歐盟理事會(huì)和歐盟委員會(huì)通過(guò)三方對(duì)話(huà)程序進(jìn)行談判,就議會(huì)和理事會(huì)(即歐盟共同立法者)均可接受的立法提案達(dá)成臨時(shí)協(xié)議。最后,臨時(shí)協(xié)議必須由這兩個(gè)機(jī)構(gòu)各自的正式程序通過(guò)。即《人工智能法》的歐盟議會(huì)版本(以下簡(jiǎn)稱(chēng)AIA EP Version),最終放棄這一做法,但在AIA EP Version中對(duì)GPAIS和生成式人工智能系統(tǒng)進(jìn)行了進(jìn)一步規(guī)范,包括對(duì)其數(shù)據(jù)風(fēng)險(xiǎn)的規(guī)制。

在AIA中,第10條專(zhuān)門(mén)規(guī)定了數(shù)據(jù)治理(Data Governance)要求,但僅針對(duì)高風(fēng)險(xiǎn)的人工智能系統(tǒng)。

3.2 規(guī)范梳理及評(píng)述

3.2.1 針對(duì)數(shù)據(jù)來(lái)源風(fēng)險(xiǎn)

(1)不得侵犯知識(shí)產(chǎn)權(quán)

顯然,若相關(guān)數(shù)據(jù)受知識(shí)產(chǎn)權(quán)法的保護(hù),數(shù)據(jù)只有在獲得許可或?qū)儆诶獾那闆r下才能用于生成式人工智能的訓(xùn)練?!稊?shù)字化單一市場(chǎng)指令》(Digital Single Market Directive,DSMD)中規(guī)定了文本和數(shù)據(jù)挖掘的兩種例外情形。

DSMD第3(1)條規(guī)定了科研例外,若研究組織和文化遺產(chǎn)機(jī)構(gòu)出于科學(xué)研究目的,可以對(duì)其合法獲取的作品或其他素材進(jìn)行文本和數(shù)據(jù)挖掘。首先,研究機(jī)構(gòu)必須不以營(yíng)利為目的,將全部利潤(rùn)再投資于研究事業(yè),或承擔(dān)政府承認(rèn)的實(shí)現(xiàn)公共利益的任務(wù),而受商業(yè)性質(zhì)的企業(yè)決定性影響的組織不包括在內(nèi)。因此,以營(yíng)利為目的的公司,即使進(jìn)行科研并在期刊上發(fā)表具有影響力的研究成果,也不能援引第3(1)條的規(guī)定。其次,合法獲取是指,基于開(kāi)放獲取政策或通過(guò)合同(例如訂閱)等合法渠道獲取。也就是說(shuō),該類(lèi)機(jī)構(gòu)可以對(duì)合法獲取的素材進(jìn)行提取、復(fù)制和預(yù)處理,并用于生成式人工智能的訓(xùn)練。再次,立法說(shuō)明進(jìn)一步強(qiáng)調(diào),在該例外情形下,相關(guān)機(jī)構(gòu)無(wú)須對(duì)權(quán)利人進(jìn)行補(bǔ)償。

DSMD第4條則規(guī)定了一般例外,值得特別關(guān)注。在研究范圍之外進(jìn)行文本和數(shù)據(jù)挖掘,需要滿(mǎn)足兩個(gè)條件:①必須通過(guò)合法渠道獲取內(nèi)容;②其權(quán)利人未以明確、適當(dāng)?shù)姆绞铰暶鞅A?,不得?duì)其文本或數(shù)據(jù)庫(kù)進(jìn)行挖掘。因此,只要權(quán)利人未聲明保留,生成式人工智能研發(fā)者和提供者不管出于任何使用目的,都可以對(duì)網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)進(jìn)行挖掘。對(duì)于權(quán)利人而言,這是典型的選擇退出機(jī)制。根據(jù)DSMD第4(3)條,以適當(dāng)?shù)姆绞奖A?,“例如在網(wǎng)上公開(kāi)提供內(nèi)容的情況下以機(jī)器可讀的方式”表達(dá)保留,似乎要求當(dāng)保留聲明所涉及的作品在互聯(lián)網(wǎng)上向公眾提供時(shí),保留聲明必須可以被機(jī)器自動(dòng)閱讀(如寫(xiě)入Robots協(xié)議)。實(shí)際上,在合同中加入適當(dāng)?shù)臈l款也可以產(chǎn)生選擇退出的效果,因?yàn)镈SMD并沒(méi)有將第4條列入強(qiáng)制性規(guī)則。對(duì)比第3條,第3條未給權(quán)利人提供選擇退出的方式,對(duì)于科研目的的挖掘不可通過(guò)合同聲明的方式排除[13]。

對(duì)于權(quán)利人利益保護(hù)和鼓勵(lì)科技創(chuàng)新之間的利益衡量,歐盟明顯選擇了后者。當(dāng)然,歐盟立法者給權(quán)利人提供了選擇退出的可能性,為權(quán)利人主動(dòng)保護(hù)知識(shí)產(chǎn)權(quán)提供了法律基礎(chǔ)。但問(wèn)題在于,權(quán)利人群體是否有能力“以適當(dāng)?shù)姆绞奖A簟保还苁峭ㄟ^(guò)在網(wǎng)絡(luò)上以機(jī)器可讀的方式公開(kāi)聲明保留,還是通過(guò)合同條款,這都意味著權(quán)利人需要付出一定的成本。其次,對(duì)于生成式人工智能系統(tǒng)的研發(fā)者和提供者是否會(huì)根據(jù)權(quán)利人的聲明保留即調(diào)整挖掘方式或放棄挖掘[14],該條款在多大程度上能夠保護(hù)權(quán)利人的利益存在疑問(wèn)。

此外,AIA EP Version中新增了針對(duì)生成式人工智能的條款,規(guī)定生成式人工智能模型的研發(fā)者和系統(tǒng)的提供者應(yīng)當(dāng)披露訓(xùn)練數(shù)據(jù)中包含版權(quán)的內(nèi)容,記錄并公開(kāi)受版權(quán)法保護(hù)的培訓(xùn)數(shù)據(jù)的使用情況,并提供足夠詳細(xì)的摘要。公開(kāi)訓(xùn)練中擁有版權(quán)的內(nèi)容的確有助于權(quán)利人維權(quán),但這可能導(dǎo)致研發(fā)者承擔(dān)過(guò)重的合規(guī)義務(wù),因?yàn)楸仨殞?duì)大量的訓(xùn)練數(shù)據(jù)中所有可能涉及版權(quán)的訓(xùn)練數(shù)據(jù)進(jìn)行法律調(diào)查。同時(shí),版權(quán)的判定也具有一定的難度,對(duì)于研發(fā)者并非易事。該披露義務(wù)具體如何實(shí)施,需要實(shí)施到什么程度,都需要進(jìn)一步明確,避免造成過(guò)大的合規(guī)成本。

(2)不得侵犯?jìng)€(gè)人信息

個(gè)人數(shù)據(jù)是個(gè)人信息的載體[9],歐盟對(duì)于個(gè)人信息的保護(hù)主要通過(guò)GDPR對(duì)個(gè)人數(shù)據(jù)的保護(hù)實(shí)現(xiàn)。首先,生成式人工智能使用和處理個(gè)人數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)需要具有合法性基礎(chǔ),即滿(mǎn)足GDPR第6條中規(guī)定的至少一種情形。一般而言,生成式人工智能處理個(gè)人數(shù)據(jù)都沒(méi)有獲得個(gè)人的同意,除GDPR第89條規(guī)定的個(gè)人數(shù)據(jù)處理的科研例外情形外,需要滿(mǎn)足第6(1)(f)條的利益平衡測(cè)試(The Balancing Test)和第6(4)條的目的轉(zhuǎn)換測(cè)試(The Purpose Change Test)[2]。平衡測(cè)試是為了保護(hù)權(quán)利人的優(yōu)先性權(quán)利和基本權(quán)利與自由,一般包含三個(gè)部分:①個(gè)人數(shù)據(jù)的處理行為是必要的;②數(shù)據(jù)控制者或第三方追求的是正當(dāng)利益;③該正當(dāng)利益沒(méi)有被數(shù)據(jù)主體的優(yōu)先性權(quán)利或基本權(quán)利與自由推翻。目前,歐盟并未規(guī)定具體通用的平衡性測(cè)試,因此在數(shù)據(jù)控制者利益和數(shù)據(jù)主體利益的衡量上有較大的自由裁量空間。但平衡性測(cè)試在生成式人工智能的數(shù)據(jù)合規(guī)上具有極其重要的作用,是生成式人工智能使用個(gè)人數(shù)據(jù)合法性的前提,也是生成式人工智能個(gè)人數(shù)據(jù)處理問(wèn)責(zé)的一部分。同時(shí),由于生成式人工智能采集數(shù)據(jù)的目的和原始數(shù)據(jù)被收集的目的不同,因此還需滿(mǎn)足目的轉(zhuǎn)換測(cè)試判斷上述兩種目的具有兼容性,以保障權(quán)利人的數(shù)據(jù)權(quán)利。此外,若涉及個(gè)人敏感數(shù)據(jù),由于一般禁止處理敏感數(shù)據(jù),除了滿(mǎn)足第6條,還需要滿(mǎn)足第9(2)條規(guī)定的可以處理敏感數(shù)據(jù)的例外情形。

生成式人工智能若要使用網(wǎng)絡(luò)上采集的個(gè)人數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),即當(dāng)個(gè)人數(shù)據(jù)并非從數(shù)據(jù)主體手中獲取時(shí),須承擔(dān)GDPR第14條的透明性義務(wù),對(duì)數(shù)據(jù)主體提供第14條規(guī)定的數(shù)據(jù)處理的相關(guān)信息,包括數(shù)據(jù)處理者的身份、聯(lián)系方式以及個(gè)人數(shù)據(jù)處理的目的等。但對(duì)于生成式人工智能,用戶(hù)作為數(shù)據(jù)主體可以在交互界面輸入個(gè)人數(shù)據(jù),此時(shí)則構(gòu)成了第14(5)條的例外情形,生成式人工智能研發(fā)者和提供者應(yīng)當(dāng)履行第13條規(guī)定的透明性義務(wù),給用戶(hù)提供相關(guān)信息,尤其是個(gè)人數(shù)據(jù)處理的目的、合法性基礎(chǔ)、正當(dāng)利益等。對(duì)于第14條的透明性義務(wù),由于生成式人工智能訓(xùn)練數(shù)據(jù)的龐大性,要通知到數(shù)量龐大且身份不明的數(shù)據(jù)主體可能會(huì)需要極大的努力,甚至形成目的和手段的不成比例的局面[15]。

(3)不得侵犯商業(yè)秘密

商業(yè)秘密受歐盟相關(guān)指令保護(hù)。生成式人工智能侵犯商業(yè)秘密的主要方式是,上游在交互階段輸入商業(yè)秘密相關(guān)數(shù)據(jù),相關(guān)數(shù)據(jù)進(jìn)入訓(xùn)練數(shù)據(jù)集,并最終在下游泄露。該問(wèn)題主要需要通過(guò)企業(yè)對(duì)于部署和使用生成式人工智能進(jìn)行限制。例如,企業(yè)與生成式人工智能研發(fā)者或提供者同意,該企業(yè)員工上傳的信息將只允許該企業(yè)的用戶(hù)訪(fǎng)問(wèn)[16]。

(4)不得使用違法手段獲取數(shù)據(jù)

使用爬蟲(chóng)收集訓(xùn)練數(shù)據(jù),除侵犯知識(shí)產(chǎn)權(quán)和個(gè)人數(shù)據(jù)外,還可能存在以下合規(guī)風(fēng)險(xiǎn):因違反被爬取網(wǎng)站的使用條款而違約;如果網(wǎng)絡(luò)爬取導(dǎo)致系統(tǒng)性能下降或出現(xiàn)性能問(wèn)題構(gòu)成侵權(quán);由于網(wǎng)站經(jīng)營(yíng)者在開(kāi)發(fā)和運(yùn)營(yíng)網(wǎng)站方面付出了巨大努力,對(duì)網(wǎng)站經(jīng)營(yíng)者的付出和工作成果“搭便車(chē)”可構(gòu)成不公平競(jìng)爭(zhēng)[16];如果爬蟲(chóng)規(guī)避訪(fǎng)問(wèn)控制機(jī)制,違反歐盟知識(shí)產(chǎn)權(quán)指令中有關(guān)技術(shù)保護(hù)措施的規(guī)定。

3.2.2 針對(duì)數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)

歐盟反歧視法(Anti-discrimination Law)規(guī)定,在特定領(lǐng)域如就業(yè)、教育或公開(kāi)提供的商品和服務(wù)等領(lǐng)域中不得歧視。反歧視法并未明確規(guī)定人工智能中訓(xùn)練數(shù)據(jù)處理的反歧視要求,但有學(xué)者認(rèn)為,在這些領(lǐng)域中應(yīng)用的生成式人工智能滿(mǎn)足以下條件時(shí),其數(shù)據(jù)處理需要受到反歧視法的約束:(1)訓(xùn)練數(shù)據(jù)被用于反歧視法規(guī)定的特定領(lǐng)域;(2)數(shù)據(jù)和模型對(duì)人工智能在這些領(lǐng)域的應(yīng)用起到?jīng)Q定性作用;(3)訓(xùn)練數(shù)據(jù)在這些領(lǐng)域應(yīng)用的信息公開(kāi)[17]。

反歧視法是否能直接適用于通用型生成式人工智能的數(shù)據(jù)處理同樣存在爭(zhēng)議,因?yàn)檫m用反歧視法前提條件是生成式人工智能必須直接應(yīng)用于反歧視法所覆蓋的領(lǐng)域,而通用型的生成式人工智能并沒(méi)有專(zhuān)門(mén)的使用目的,其數(shù)據(jù)處理和模型訓(xùn)練難以直接用反歧視法進(jìn)行規(guī)制。有學(xué)者認(rèn)為,若生成式人工智能模型的研發(fā)者預(yù)先設(shè)定了生成式人工智能將在這些特定場(chǎng)景中應(yīng)用,這意味著研發(fā)者并非單純的技術(shù)提供中介,同樣需要受到反歧視法的約束[2]。

不過(guò),即使反歧視法可以適用,也存在執(zhí)行困難。首先,主張反歧視法的適用和執(zhí)行幾乎完全需要由受害人提出,對(duì)于受害人來(lái)說(shuō)無(wú)疑會(huì)產(chǎn)生巨大的成本。其次,即使適用舉證責(zé)任倒置的條款,受害方仍然通常無(wú)法舉出證明不同群體在統(tǒng)計(jì)意義上的不平等待遇的表面證據(jù),因?yàn)檫@可能需要獲取訓(xùn)練數(shù)據(jù)和算法模型[17]。因此,反歧視法并非有效的合規(guī)激勵(lì)規(guī)范,亦非有效的問(wèn)責(zé)機(jī)制。

如果生成式人工智能屬于AIA中的高風(fēng)險(xiǎn)系統(tǒng),應(yīng)當(dāng)核查數(shù)據(jù)和模型中可能存在的偏見(jiàn),尤其當(dāng)偏見(jiàn)可能會(huì)影響自然人基本權(quán)利或產(chǎn)生歧視性結(jié)果。AIA EP Version第10(5)條規(guī)定了負(fù)面偏見(jiàn)的檢測(cè)和糾正,同時(shí)新增了處理包含種族、性取向等內(nèi)容的個(gè)人敏感數(shù)據(jù)的7項(xiàng)條件作為防止偏見(jiàn)的保障措施。第29a條新增要求對(duì)高風(fēng)險(xiǎn)系統(tǒng)進(jìn)行“基本權(quán)利影響評(píng)估”,并考慮人工智能系統(tǒng)對(duì)邊緣群體的潛在負(fù)面影響。此外,若訓(xùn)練數(shù)據(jù)屬于個(gè)人數(shù)據(jù)且數(shù)據(jù)處理隱含歧視,可以適用GDPR第5(1)(a)條,因其違反了公平處理原則。

若生成式人工智能屬于AIA中的高風(fēng)險(xiǎn)系統(tǒng),根據(jù)AIA第10(3)和(4)條,數(shù)據(jù)集應(yīng)當(dāng)具有相關(guān)性、代表性,并盡最大可能地?zé)o誤和完整,具有適當(dāng)?shù)慕y(tǒng)計(jì)屬性,同時(shí),數(shù)據(jù)集應(yīng)在預(yù)期目的要求的范圍內(nèi),考慮到高風(fēng)險(xiǎn)人工智能系統(tǒng)預(yù)期使用的特定地理、行為或功能環(huán)境所特有的特征或要素。AIA中并未對(duì)明確規(guī)定這些特征和要素的內(nèi)涵和外延,可能會(huì)導(dǎo)致數(shù)據(jù)是否符合要求缺乏客觀(guān)性標(biāo)準(zhǔn)。AIA EP Version在立法說(shuō)明第44條中新增強(qiáng)調(diào)了高質(zhì)量數(shù)據(jù)集的重要性,并指出可通過(guò)第三方提供的合規(guī)認(rèn)證服務(wù),例如對(duì)數(shù)據(jù)集完善性的驗(yàn)證來(lái)滿(mǎn)足數(shù)據(jù)治理相關(guān)的要求。

GDPR第5(1)(d)條對(duì)個(gè)人數(shù)據(jù)提出了準(zhǔn)確性原則,個(gè)人數(shù)據(jù)必須準(zhǔn)確且在必要時(shí)保持更新,第16條進(jìn)而要求數(shù)據(jù)主體有權(quán)要求更正不準(zhǔn)確的數(shù)據(jù)。根據(jù)GDPR,違反第5條的規(guī)定不僅要承擔(dān)第82條規(guī)定的法律責(zé)任,還要承擔(dān)第83(5)條規(guī)定的高達(dá)全球年?duì)I業(yè)額4%的罰款。然而,GDPR準(zhǔn)確性原則的適用首先具有一個(gè)核心前提,也就是訓(xùn)練數(shù)據(jù)屬于“個(gè)人數(shù)據(jù)”,需要滿(mǎn)足“可識(shí)別性”的條件。這意味著,若通過(guò)刪除直接可識(shí)別的信息或使用去標(biāo)識(shí)化技術(shù)進(jìn)行匿名化處理,可能會(huì)排除準(zhǔn)確性原則對(duì)相關(guān)訓(xùn)練數(shù)據(jù)的適用[17]。

3.2.3 針對(duì)數(shù)據(jù)泄露風(fēng)險(xiǎn)

針對(duì)和數(shù)據(jù)安全相關(guān)的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),AIA指出高風(fēng)險(xiǎn)人工智能系統(tǒng)應(yīng)具有韌性,具有抵御惡意第三方利用系統(tǒng)漏洞改變其使用、行為、性能或破壞其安全屬性的能力。AIA第15(4)條特別要求應(yīng)通過(guò)技術(shù)手段預(yù)防和解決惡意第三方操縱數(shù)據(jù)集使數(shù)據(jù)中毒的問(wèn)題。另外,由于生成式人工智能較為容易受到反向攻擊的影響[18],因此存在較大的個(gè)人數(shù)據(jù)的泄漏風(fēng)險(xiǎn)。如上文所述,處理個(gè)人信息需要滿(mǎn)足GDPR第6(1)(f)條的利益平衡測(cè)試,此時(shí)必須充分考慮模型的預(yù)期目的、使用的個(gè)人數(shù)據(jù)類(lèi)型、模型反轉(zhuǎn)的可能性以及重新識(shí)別具體數(shù)據(jù)主體的可能性,若存在較大的模型反轉(zhuǎn)的風(fēng)險(xiǎn),則天平應(yīng)當(dāng)傾向于個(gè)人數(shù)據(jù)保護(hù),不得使用個(gè)人數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)傳輸方面,GDPR第五章規(guī)定了個(gè)人數(shù)據(jù)跨境傳輸?shù)南嚓P(guān)要求。原則上,只有在接收國(guó)或接收組織提供充分的數(shù)據(jù)保護(hù)時(shí),才能轉(zhuǎn)移個(gè)人數(shù)據(jù),而歐盟委員會(huì)有權(quán)決定第三國(guó)是否提供充分的數(shù)據(jù)保護(hù)。若沒(méi)有充分性決定,如果實(shí)施了適當(dāng)?shù)谋U洗胧?例如使用標(biāo)準(zhǔn)合同條款),數(shù)據(jù)傳輸仍可以進(jìn)行。

3.3 總評(píng)

總體而言,由于歐盟對(duì)人工智能監(jiān)管和數(shù)據(jù)保護(hù)的立法已有較多成果,人工智能數(shù)據(jù)合規(guī)體系已較為完善,規(guī)范較為詳細(xì)。盡管部分規(guī)范仍有可推敲完善之處,在生成式人工智能的數(shù)據(jù)合規(guī)的諸多方面都給予了我們啟發(fā)。不過(guò),AIA規(guī)定的風(fēng)險(xiǎn)治理模式并非為生成式人工智能“量身定制”,對(duì)于生成式人工智能存在適用難題。

生成式人工智能與AIA最初針對(duì)的傳統(tǒng)人工智能系統(tǒng)存在兩個(gè)重大差異:動(dòng)態(tài)使用場(chǎng)景和龐大用戶(hù)規(guī)模。生成式人工智能并非針對(duì)特定的使用環(huán)境或條件,其開(kāi)放性和易使用性使它擁有了前所未有的用戶(hù)規(guī)模,這尤其對(duì)對(duì)適用目前AIA靜態(tài)的風(fēng)險(xiǎn)分類(lèi)的制度提出了挑戰(zhàn)[1]。通用型生成式人工智能根據(jù)使用者使用目的的不同會(huì)涉及不同的應(yīng)用領(lǐng)域和場(chǎng)景,從而落入不同的風(fēng)險(xiǎn)類(lèi)別中,而非直接根據(jù)研發(fā)者或提供者設(shè)想的使用目的直接適用不同風(fēng)險(xiǎn)類(lèi)別的規(guī)范。AIA第4(c)(1)條規(guī)定了高風(fēng)險(xiǎn)條款適用的例外情形,即提供者在使用說(shuō)明中明確排除所有高風(fēng)險(xiǎn)用途,可不適用高風(fēng)險(xiǎn)條款。然而,對(duì)于生成式人工智能,大規(guī)模的用戶(hù)才是決定用途的人,因此事實(shí)上難以排除具有高風(fēng)險(xiǎn)用途的情況。且提供者也應(yīng)當(dāng)了解,生成式人工智能系統(tǒng)一旦投入使用,極有可能會(huì)在某些高風(fēng)險(xiǎn)情景下使用,例如在醫(yī)療場(chǎng)景下利用語(yǔ)言模型進(jìn)行總結(jié)病例甚至是智慧診斷。在這種情況下,提供者即使排除也是非善意的。因此,生成式人工智能還是會(huì)落入高風(fēng)險(xiǎn)系統(tǒng)的類(lèi)別之中,需要履行全部的高風(fēng)險(xiǎn)系統(tǒng)合規(guī)義務(wù),包括識(shí)別和分析所有“已知和可預(yù)見(jiàn)的最有可能危及健康、安全和基本權(quán)利的風(fēng)險(xiǎn)”。正是因?yàn)樯墒饺斯ぶ悄艿挠猛臼謴V泛,這樣的制度會(huì)使提供者等主體承擔(dān)過(guò)重的合規(guī)義務(wù)而導(dǎo)致資源浪費(fèi),結(jié)合人工智能責(zé)任制度,相關(guān)主體還面臨著巨大的責(zé)任風(fēng)險(xiǎn)。除了過(guò)度監(jiān)管的問(wèn)題外,直接將生成式人工智能歸為高風(fēng)險(xiǎn)系統(tǒng)還會(huì)因?yàn)閷?duì)相對(duì)體量較小的模型和應(yīng)用提供者造成過(guò)重的負(fù)擔(dān)而不利于競(jìng)爭(zhēng),靜態(tài)的風(fēng)險(xiǎn)治理模式應(yīng)對(duì)生成式人工智能動(dòng)態(tài)的系統(tǒng)性風(fēng)險(xiǎn)會(huì)存在滯后[19]。因此,風(fēng)險(xiǎn)分類(lèi)治理模式不能完全匹配生成式人工智能的監(jiān)管需求。

生成式人工智能的數(shù)據(jù)合規(guī)同樣受到這種風(fēng)險(xiǎn)分類(lèi)治理方式的影響,AIA中大多數(shù)數(shù)據(jù)合規(guī)的規(guī)定都只適用于高風(fēng)險(xiǎn)的人工智能系統(tǒng)。若生成式人工智能根據(jù)目前的規(guī)范推理完全落入高風(fēng)險(xiǎn)的分類(lèi)中,會(huì)引發(fā)上述問(wèn)題;但若不適用AIA中數(shù)據(jù)治理的相關(guān)規(guī)定,又會(huì)存在大量的數(shù)據(jù)風(fēng)險(xiǎn),因此,針對(duì)人工智能的數(shù)據(jù)治理規(guī)范如何適用于生成式人工智能,仍然值得推敲,歐盟的靜態(tài)風(fēng)險(xiǎn)治理范式并非最優(yōu)解。也許正是因?yàn)槿绱耍珹IA EP Version新增第28b條規(guī)制人工智能基礎(chǔ)模型,依據(jù)人工智能的技術(shù)結(jié)構(gòu)對(duì)其進(jìn)行規(guī)制。其中,第28b(2)(b)條對(duì)基礎(chǔ)模型的數(shù)據(jù)處理提出了要求,基礎(chǔ)模型只處理和納入采用適當(dāng)數(shù)據(jù)管理措施的數(shù)據(jù)集,尤其要求審查數(shù)據(jù)來(lái)源的適宜性、可能存在的偏見(jiàn)和實(shí)施減輕偏見(jiàn)的措施。

4 對(duì)我國(guó)相關(guān)規(guī)范的完善建議

4.1 貫徹落實(shí)審慎包容的規(guī)制方向

《中華人民共和國(guó)科學(xué)技術(shù)進(jìn)步法》第三十五條規(guī)定了包容審慎原則,在科技和科技監(jiān)管競(jìng)爭(zhēng)日益激烈的當(dāng)下,明確總體治理理念,推動(dòng)生成式人工智能在內(nèi)的人工智能技術(shù)發(fā)展,是形成我國(guó)國(guó)家優(yōu)勢(shì)的重要之舉。具體到生成式人工智能的訓(xùn)練數(shù)據(jù)風(fēng)險(xiǎn)規(guī)制,應(yīng)當(dāng)在促進(jìn)數(shù)據(jù)利用科技創(chuàng)新和數(shù)據(jù)權(quán)益保護(hù)之間有所衡量有所側(cè)重,充分發(fā)揮數(shù)據(jù)資源的社會(huì)價(jià)值。

如前所述,當(dāng)前我國(guó)的技術(shù)支持者、服務(wù)提供者和內(nèi)容生產(chǎn)者三類(lèi)主體分類(lèi)并不適用于生成式人工智能,而歐盟的風(fēng)險(xiǎn)分類(lèi)分級(jí)治理模式也難以直接適用于這一領(lǐng)域。就像歐盟在其最新的AIA EP Version中重新對(duì)GPAIS的基礎(chǔ)模型進(jìn)行規(guī)范治理一樣,我國(guó)也應(yīng)根據(jù)生成式人工智能的技術(shù)結(jié)構(gòu),即區(qū)分基礎(chǔ)模型、專(zhuān)業(yè)模型和服務(wù)應(yīng)用,為其制定不同層次的治理規(guī)范。針對(duì)訓(xùn)練數(shù)據(jù)的風(fēng)險(xiǎn),基礎(chǔ)模型層的規(guī)制應(yīng)以推進(jìn)技術(shù)開(kāi)發(fā)為主目標(biāo),圍繞科技倫理、數(shù)據(jù)選取以及模型參數(shù)等因素展開(kāi);專(zhuān)業(yè)模型層的規(guī)制則應(yīng)以規(guī)避實(shí)際使用場(chǎng)景中存在的風(fēng)險(xiǎn)問(wèn)題為主目標(biāo),圍繞專(zhuān)業(yè)領(lǐng)域的特點(diǎn)根據(jù)個(gè)案分析。

4.2 制定敏捷性治理方案

生成式人工智能技術(shù)的發(fā)展具有高度的不可預(yù)測(cè)性和發(fā)散性,不可預(yù)見(jiàn)的新風(fēng)險(xiǎn)可能隨著其應(yīng)用的拓展和技術(shù)的升級(jí)隨時(shí)出現(xiàn)。因此,對(duì)于人工智能領(lǐng)域的治理需要支持推進(jìn)決策創(chuàng)新的人工智能決策實(shí)驗(yàn)室、鼓勵(lì)企業(yè)在監(jiān)管沙盒中測(cè)試新產(chǎn)品并積極參與行業(yè)標(biāo)準(zhǔn)制定,以及發(fā)展技術(shù)手段提高治理的敏捷性,從而適應(yīng)不斷變化的情況。

在當(dāng)代社會(huì)中,法律的滯后性與現(xiàn)實(shí)的快速發(fā)展使得二者之間的張力尤其明顯。除了提高立法修法的頻率,還可以將法律與科技相結(jié)合,將科學(xué)技術(shù)和政府監(jiān)管納入法律體系,以更廣義的方式應(yīng)對(duì)科技發(fā)展所帶來(lái)的挑戰(zhàn)[20]。對(duì)于生成式人工智能的數(shù)據(jù)風(fēng)險(xiǎn),必須結(jié)合科技標(biāo)準(zhǔn)來(lái)進(jìn)行規(guī)制。在完善法律法規(guī)的同時(shí),還需要制定相關(guān)的技術(shù)標(biāo)準(zhǔn)。

4.3 針對(duì)數(shù)據(jù)來(lái)源風(fēng)險(xiǎn)

為了降低訓(xùn)練數(shù)據(jù)挖掘中的知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn),我國(guó)可以采納類(lèi)似歐盟的方法,為人工智能的開(kāi)發(fā)調(diào)整現(xiàn)有的的知識(shí)產(chǎn)權(quán)制度,以確?;A(chǔ)模型層能夠合法的獲取大量訓(xùn)練數(shù)據(jù)。目前,主流的觀(guān)點(diǎn)是訓(xùn)練數(shù)據(jù)的“合理使用”有助于推動(dòng)人工智能產(chǎn)業(yè)的長(zhǎng)期發(fā)展。人工智能領(lǐng)域正在利用互聯(lián)網(wǎng)上過(guò)去十年積累下來(lái)的數(shù)據(jù)、數(shù)據(jù)庫(kù)和代碼等資源來(lái)進(jìn)行大模型的訓(xùn)練,各國(guó)的政策法規(guī)也在積極跟進(jìn)人工智能的飛速發(fā)展。在涉及個(gè)人信息的情況下,開(kāi)發(fā)者必須保證在充分利用這些信息資源的同時(shí),保護(hù)信息主體的合法權(quán)益。在這一方面,可以考慮借鑒歐盟的平衡性測(cè)試和目的轉(zhuǎn)換測(cè)試,以確保合法權(quán)益的充分保護(hù),達(dá)到信息主體和數(shù)據(jù)使用者之間的平衡。

4.4 針對(duì)數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)

首先,應(yīng)制定相關(guān)技術(shù)標(biāo)準(zhǔn),以確保數(shù)據(jù)質(zhì)量能得到有效的保障。其次,應(yīng)當(dāng)加快生成式人工智能基礎(chǔ)模型的數(shù)字基礎(chǔ)設(shè)施建設(shè)。建設(shè)數(shù)字基礎(chǔ)設(shè)施需要法律框架的支持,以確保開(kāi)發(fā)者可以通過(guò)合法獲取有效的獲取所需數(shù)據(jù)。在數(shù)字基礎(chǔ)設(shè)施中,建立高質(zhì)量的公共訓(xùn)練數(shù)據(jù)池對(duì)于訓(xùn)練出高質(zhì)量的生成式人工智能基礎(chǔ)模型至關(guān)重要。這可以通過(guò)建立有效的數(shù)據(jù)管理制度來(lái)促進(jìn)數(shù)據(jù)的充分利用。同時(shí),建立高質(zhì)量的公共訓(xùn)練數(shù)據(jù)池可以推動(dòng)整個(gè)產(chǎn)業(yè)的發(fā)展。為了提升生成式大模型水平,聚集不同領(lǐng)域的高質(zhì)量數(shù)據(jù)庫(kù)可以實(shí)現(xiàn)一加一大于二的效果。因此,利用好國(guó)家數(shù)據(jù)資源庫(kù),尤其是涵蓋了公共衛(wèi)生、科技等不同專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù),是構(gòu)建高質(zhì)量的公共訓(xùn)練數(shù)據(jù)池的重要途徑。

可以借鑒歐盟最新立法,就數(shù)據(jù)歧視和系統(tǒng)歧視問(wèn)題進(jìn)行以下方面的評(píng)估:

(1)明確概述使用該系統(tǒng)的預(yù)期目的;

(2)系統(tǒng)使用的預(yù)期地理和時(shí)間范圍的清晰輪廓;

(3)可能受系統(tǒng)使用影響的自然人和群體的類(lèi)別;

(4)核查該系統(tǒng)的使用是否符合有關(guān)基本權(quán)利的歐盟和國(guó)家法律;

(5)投入使用高風(fēng)險(xiǎn)人工智能系統(tǒng)對(duì)基本權(quán)利的可合理預(yù)見(jiàn)的影響;

(6)可能影響邊緣化人群或弱勢(shì)群體的具體傷害風(fēng)險(xiǎn);

(7)可合理預(yù)見(jiàn)的使用該系統(tǒng)對(duì)環(huán)境的不利影響;

(8)關(guān)于如何減輕已查明的危害和對(duì)基本權(quán)利的負(fù)面影響的詳細(xì)計(jì)劃;

(9)部署者將建立的管理制度,包括人的監(jiān)督、投訴處理和補(bǔ)救措施。

4.5 針對(duì)數(shù)據(jù)泄露風(fēng)險(xiǎn)

首先,生成式人工智能服務(wù)提供者應(yīng)當(dāng)履行安全保障責(zé)任的法律義務(wù)。此外,如上所述,需要建立一種敏捷的數(shù)據(jù)安全風(fēng)險(xiǎn)治理機(jī)制。對(duì)于出現(xiàn)在基礎(chǔ)模型層和專(zhuān)業(yè)模型層的數(shù)據(jù)風(fēng)險(xiǎn)事件,技術(shù)研發(fā)者應(yīng)當(dāng)被要求立即采取緊急的離線(xiàn)修復(fù)和模型停用等措施,以防止風(fēng)險(xiǎn)進(jìn)一步擴(kuò)大,并且應(yīng)當(dāng)及時(shí)履行通知用戶(hù)(包括企業(yè)和個(gè)人)以及向監(jiān)管機(jī)構(gòu)報(bào)告的義務(wù)。針對(duì)服務(wù)應(yīng)用層的風(fēng)險(xiǎn)事件,首先需要初步評(píng)估風(fēng)險(xiǎn)的起因。如果風(fēng)險(xiǎn)事件是由用戶(hù)行為引發(fā)的,除了履行緊急糾正和通知的義務(wù)外,服務(wù)提供者還需考慮對(duì)用戶(hù)采取相關(guān)的限制和處罰措施。例如,如果風(fēng)險(xiǎn)事件是由用戶(hù)進(jìn)行“數(shù)據(jù)投毒”行為而導(dǎo)致的,那么應(yīng)該追究用戶(hù)的責(zé)任,并在事后采取相應(yīng)措施。但如果風(fēng)險(xiǎn)事件并非由用戶(hù)引發(fā),那么需要向更高級(jí)別的源頭追溯,以進(jìn)一步確定是基礎(chǔ)模型層還是專(zhuān)業(yè)模型層存在問(wèn)題,從而明確履行事后應(yīng)對(duì)義務(wù)和責(zé)任承擔(dān)的主體。

猜你喜歡
個(gè)人信息人工智能模型
一半模型
如何保護(hù)勞動(dòng)者的個(gè)人信息?
個(gè)人信息保護(hù)進(jìn)入“法時(shí)代”
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
警惕個(gè)人信息泄露
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割與打包
武陟县| 石景山区| 城步| 巢湖市| 博爱县| 林甸县| 甘德县| 富阳市| 文昌市| 南涧| 南平市| 红原县| 涞水县| 闻喜县| 汶上县| 盐源县| 鄂尔多斯市| 北碚区| 昌吉市| 西乡县| 昌宁县| 咸阳市| 府谷县| 东乡族自治县| 万全县| 宝鸡市| 南城县| 天台县| 思南县| 庆云县| 大荔县| 兰溪市| 吴堡县| 江源县| 梓潼县| 长白| 闵行区| 益阳市| 内黄县| 岳西县| 丰城市|