生成式人工智能數(shù)據(jù)訓(xùn)練中的版權(quán)問題研究

2024-12-13 00:00:00阮開欣黃歆瑜

中國版權(quán) 2024年5期

關(guān)鍵詞：生成式人工智能；數(shù)據(jù)訓(xùn)練；合理使用；版權(quán)侵權(quán)

一、問題的提出

近年來，方興未艾的人工智能技術(shù)發(fā)揮出“頭雁”效應(yīng)，引領(lǐng)著新一輪的科技革命和產(chǎn)業(yè)變革。生成式人工智能并非對現(xiàn)有數(shù)據(jù)進(jìn)行簡單的分析或分類，而是能夠獨(dú)立生成并創(chuàng)建全新內(nèi)容。從運(yùn)作機(jī)制來看，生成式人工智能通過數(shù)據(jù)的投喂和訓(xùn)練建立算法模型，并在迭代訓(xùn)練的過程中不斷完善輸出結(jié)果，最終形成滿足用戶需求的架構(gòu)設(shè)計。以ChatGPT為例，其使用的“大型語言模型”在Common Crawl等大型數(shù)據(jù)集的基礎(chǔ)上，對語言規(guī)則、語義知識和上下文語境等因素進(jìn)行學(xué)習(xí)。經(jīng)過預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等數(shù)據(jù)處理后，ChatGPT能夠掌握數(shù)據(jù)蘊(yùn)含的結(jié)構(gòu)和規(guī)律，并完成各種文字和推理任務(wù)，如問答、寫作、翻譯等。因此，海量數(shù)據(jù)的輸入是釋放人工智能的潛力的先決條件，其不僅有助于搭建基礎(chǔ)模型本身，還能用于模型的優(yōu)化微調(diào)，以貼合廣泛的下游任務(wù)。自2022年底以來，包含OpenAI公司、谷歌公司在內(nèi)的生成式人工智能運(yùn)營商（AI運(yùn)營商）投身于AI研發(fā)，利用大規(guī)模和高質(zhì)量的數(shù)據(jù)訓(xùn)練大型模型，并在此基礎(chǔ)上構(gòu)建ChatGPT和Bard等產(chǎn)品?，F(xiàn)階段的生成式人工智能不僅能生成文本、音頻、圖像和視頻四種基本內(nèi)容形式，還能在此基礎(chǔ)上進(jìn)行跨模態(tài)生成，帶來創(chuàng)新應(yīng)用藍(lán)海。

隨著生成式人工智能處理信息方式的多元化，模型訓(xùn)練過程涉及到的數(shù)據(jù)數(shù)量和種類也日益增多。然而，訓(xùn)練數(shù)據(jù)中的大部分材料來自于受版權(quán)保護(hù)的作品，AI運(yùn)營商在利用作品時存在版權(quán)侵權(quán)風(fēng)險。具言之，在輸入階段，AI運(yùn)營商需要將他人文字、聲音或圖像等多種版權(quán)作品輸入到數(shù)據(jù)庫，以供人工智能復(fù)制并輸送給模型學(xué)習(xí)。該過程受到版權(quán)人復(fù)制權(quán)的控制。在輸出階段，通過算法設(shè)計和程序運(yùn)行，生成式人工智能模型對版權(quán)作品進(jìn)行綜合性的使用，實(shí)現(xiàn)“洗稿”“重混”“融?！薄捌礈悺钡葎?chuàng)作物生成活動。此時如果生成物包含了他人作品或者作品片段的獨(dú)創(chuàng)性表達(dá)，AI運(yùn)營商則涉嫌侵犯版權(quán)人的復(fù)制權(quán)和傳播權(quán)。

至今，已有相當(dāng)一部分AI運(yùn)營商被卷入版權(quán)爭端的漩渦。2023年1月，漫畫家莎拉·安德森（Sarah Andersen）聯(lián)合另外兩位藝術(shù)家向美國加利福尼亞北區(qū)聯(lián)邦地區(qū)法院提起訴訟，追究Stability AI等公司的版權(quán)侵權(quán)責(zé)任（以下簡稱安德森案）。原告在起訴狀中指稱，StableDiffusion等AI繪圖軟件先對作品進(jìn)行了復(fù)制，再均勻擴(kuò)散到最終的生成圖像的畫素之上，從而生成了與原作具有競爭關(guān)系的演繹作品。因此，被告涉嫌侵犯原告作品的復(fù)制權(quán)、演繹權(quán)、發(fā)行權(quán)、表演權(quán)和展示權(quán)。該案發(fā)生后，其它知名AI運(yùn)營商也相繼深陷集體訴訟和作家的個人起訴，包括崔布雷等訴OpenAI案（以下簡稱崔布雷案）、蓋帝圖像公司訴Stability AI案（以下簡稱蓋帝圖像案）、J.L.等訴谷歌案、環(huán)球音樂集團(tuán)訴Anthropic案（以下簡稱環(huán)球音樂案）、紐約時報訴OpenAI案、哈姆扎等訴Dudesy公司等案。與“安德森案”類似，這些訴訟的指控內(nèi)容和舉證過程也主要集中在AI運(yùn)營商對版權(quán)作品的非法使用。

可以預(yù)見的是，隨著生成式人工智能行業(yè)的不斷發(fā)展，大量此類版權(quán)侵權(quán)訴訟將涌入我國司法領(lǐng)域。2024年2月，我國廣州互聯(lián)網(wǎng)法院已針對一起AI運(yùn)營商侵犯他人版權(quán)的糾紛（以下簡稱奧特曼案）作出判決，認(rèn)定被告侵犯了作品的復(fù)制權(quán)、改編權(quán)和信息網(wǎng)絡(luò)傳播權(quán)。基于生成式人工智能的技術(shù)特性，訓(xùn)練數(shù)據(jù)的質(zhì)量直接關(guān)系著其最終的性能。數(shù)據(jù)的自由獲得和使用是通過深度學(xué)習(xí)來發(fā)展人工智能的前提和關(guān)鍵。為避免法律對市場競爭與技術(shù)發(fā)展造成過度制約，有必要從科技向善的角度出發(fā)，分析數(shù)據(jù)訓(xùn)練過程中的版權(quán)侵權(quán)風(fēng)險。鑒于此，本文試圖從生成式人工智能數(shù)據(jù)訓(xùn)練的版權(quán)法正當(dāng)性出發(fā)，分別探討數(shù)據(jù)輸入階段使用作品的合理使用認(rèn)定，以及數(shù)據(jù)輸出階段AI運(yùn)營商的侵權(quán)責(zé)任問題，進(jìn)而對我國司法實(shí)踐提出相應(yīng)建議，以期實(shí)現(xiàn)版權(quán)保護(hù)與公共利益之間的平衡，并為生成式人工智能治理提供有益思路。

一、生成式人工智能的數(shù)據(jù)訓(xùn)練在版權(quán)法中的合法性

版權(quán)法除保護(hù)作者版權(quán)和版權(quán)有關(guān)的權(quán)益之外，還旨在鼓勵作品的創(chuàng)作和傳播，并促進(jìn)社會主義文化和科學(xué)事業(yè)的發(fā)展與繁榮。從功利主義的角度出發(fā)，版權(quán)法的首要目標(biāo)是實(shí)現(xiàn)社會整體福祉的最大化。版權(quán)法的經(jīng)濟(jì)合理性不在于一味地對創(chuàng)造者的勞動進(jìn)行獎勵，而在于通過適當(dāng)?shù)募顏泶_保人們從事創(chuàng)新活動。正是出于社會利益最大化的考量，版權(quán)法通過合理使用、法定許可等制度對版權(quán)人的權(quán)利進(jìn)行限制。適當(dāng)?shù)南拗撇粌H能夠激勵作品的創(chuàng)作和傳播，還能夠保障公眾獲取作品的能力，進(jìn)而維系版權(quán)人與公眾之間的利益平衡。

生成式人工智能的發(fā)展演進(jìn)和應(yīng)用現(xiàn)狀亦體現(xiàn)了數(shù)據(jù)訓(xùn)練對公共利益的促進(jìn)。龐大的數(shù)據(jù)賦予了生成式人工智能強(qiáng)大的語言理解和生成能力。通過即時的數(shù)據(jù)分析和信息傳遞，數(shù)據(jù)訓(xùn)練能夠有效促進(jìn)智力成果的轉(zhuǎn)化和技術(shù)的進(jìn)步，從而推動社會繁榮。例如，ChatGPT在對維基百科、Common Crawl等數(shù)據(jù)集學(xué)習(xí)后，能夠作為聊天機(jī)器人生成個性化回答，減少人類獲取優(yōu)質(zhì)信息所需的時間和精力。又如，Stable Diffusion等人工智能從訓(xùn)練數(shù)據(jù)中提取作品的信息特征，從而根據(jù)用戶的提示詞生成文字、圖畫、歌曲等創(chuàng)意內(nèi)容，極大地激發(fā)了人類的創(chuàng)新。目前，生成式人工智能已逐步滲透到人類生產(chǎn)和生活的各個環(huán)節(jié)，其大規(guī)模應(yīng)用已成為一種必然趨勢。醫(yī)學(xué)、化學(xué)、物理學(xué)等領(lǐng)域都逐步建立高質(zhì)量的專業(yè)數(shù)據(jù)集，并利用預(yù)訓(xùn)練模型開展探索，在提高科研效率和準(zhǔn)確性的同時催生更多創(chuàng)新?？梢?，數(shù)據(jù)訓(xùn)練促進(jìn)了知識的獲取、利用和傳播，并驅(qū)使科學(xué)、商業(yè)以及社會的變革，最終促進(jìn)社會總體福利增長。

數(shù)據(jù)訓(xùn)練是人工智能研究的核心階段，決定了算法模型的搭建和輸出內(nèi)容的質(zhì)量。無論是運(yùn)用作品進(jìn)行模型訓(xùn)練，還是利用所得模型進(jìn)行內(nèi)容生成，都會產(chǎn)生相應(yīng)的侵權(quán)風(fēng)險。但是從維護(hù)版權(quán)人個人利益與社會公共利益間平衡的角度，授予版權(quán)人的專有權(quán)不應(yīng)妨礙社會對作品傳播和利用的需求。缺乏優(yōu)質(zhì)的訓(xùn)練作品會降低人工智能生成內(nèi)容的質(zhì)量和預(yù)測的準(zhǔn)確率，嚴(yán)重制約技術(shù)創(chuàng)新與文化繁榮，進(jìn)而減損社會福利。此時，適當(dāng)限制版權(quán)人的專有權(quán)亦有利于彌合版權(quán)法保護(hù)版權(quán)人利益和促進(jìn)公共利益的立法目標(biāo)抵牾。

生成式人工智能的研究和創(chuàng)新在很大程度上依賴于文本與數(shù)據(jù)挖掘技術(shù)（Text and Data Mining，以下簡稱TDM）的應(yīng)用。TDM是旨在從數(shù)字形式的文本和數(shù)據(jù)中提取信息的計算機(jī)處理技術(shù)。只有通過TDM對大量數(shù)據(jù)進(jìn)行分析，人工智能才能挖掘數(shù)據(jù)中隱含的價值，從而實(shí)現(xiàn)深度學(xué)習(xí)。近年來，不少國家和地區(qū)都積極修訂法律.將滿足一定條件的TDM納入合理使用。例如，歐盟在2019年發(fā)布的《數(shù)字化單一市場版權(quán)指令》中新增兩項(xiàng)TDM例外，包括科研及文化遺產(chǎn)機(jī)構(gòu)以科學(xué)研究為目的的TDM行為（第3條）和以TDM為目的復(fù)制和摘錄合法獲取的作品或其他客體的行為（第4條）。該兩項(xiàng)規(guī)定增強(qiáng)了科學(xué)研究中獲取版權(quán)作品的便利性，以此釋放文本與數(shù)據(jù)的潛力，并達(dá)到激勵創(chuàng)新的效果。又如，日本在2018年對《日本著作權(quán)法》進(jìn)行修訂，旨在掃除法律對人工智能技術(shù)發(fā)展形成的阻礙，以確保AI和大數(shù)據(jù)行業(yè)的發(fā)展。該法確立了TDM例外的多項(xiàng)合理使用條款，包括“不以享受為目的的作品使用”（第30條第4款）、“計算機(jī)利用作品時的附隨性使用”（第47條第1款和第2款）和“利用計算機(jī)進(jìn)行信息處理并向公眾提供處理結(jié)果時對作品進(jìn)行的輕微使用”（第47條第5款）?？紤]到TDM技術(shù)對人工智能應(yīng)用與發(fā)展的重要性，英國在2022年公布的改革提案中也有意擴(kuò)大TDM例外的范圍，將非商業(yè)性目的的TDM涵蓋在內(nèi)，體現(xiàn)出了對新技術(shù)的包容和支持。

我國《著作權(quán)法》并沒有為TDM專門設(shè)立版權(quán)例外條款，因此，如何應(yīng)對生成式人工智能數(shù)據(jù)訓(xùn)練引發(fā)的一系列版權(quán)問題，并調(diào)和技術(shù)發(fā)展與權(quán)利人的利益沖突，是當(dāng)前司法實(shí)踐亟待回應(yīng)的問題。數(shù)據(jù)訓(xùn)練的版權(quán)法正當(dāng)性并非一概而論，而需要根據(jù)生成式人工智能的具體性質(zhì)進(jìn)行個案分析。AI運(yùn)營商開發(fā)的人工智能產(chǎn)品可以包含版權(quán)合規(guī)型AI和版權(quán)違規(guī)型AI。版權(quán)合規(guī)型AI，通常指生成非侵權(quán)內(nèi)容的生成式人工智能，其生成的內(nèi)容往往與在先的版權(quán)作品不存在實(shí)質(zhì)性相似。該類AI能夠?qū)崿F(xiàn)社會福利的最大化，亦與版權(quán)法的立法目的相契合。版權(quán)違規(guī)型AI，通常指生成侵權(quán)性內(nèi)容，且生成內(nèi)容本身不構(gòu)成特定合理使用情形的生成式人工智能。公共利益的實(shí)現(xiàn)并不意味著過多的讓步，而是對版權(quán)人的權(quán)利進(jìn)行適當(dāng)限制，最終實(shí)現(xiàn)版權(quán)人利益和公共利益的平衡。版權(quán)違規(guī)型AI的應(yīng)用會對版權(quán)人造成實(shí)質(zhì)性損失，這與版權(quán)法激勵創(chuàng)新的宗旨背道而馳，因而不具有版權(quán)法意義上的正當(dāng)性。

三、數(shù)據(jù)輸入階段的合理使用認(rèn)定

在司法實(shí)踐中，法院通常根據(jù)四要素標(biāo)準(zhǔn)對合理使用抗辯的有效性進(jìn)行評估。四要素標(biāo)準(zhǔn)來源于美國版權(quán)法，其規(guī)定了四個在判斷合理使用時可供司法者考慮的要素，具有高度的靈活性。四要素標(biāo)準(zhǔn)包括作品使用行為的目的和性質(zhì)、被使用作品的性質(zhì)、被使用部分的數(shù)量和質(zhì)量、使用行為對作品潛在市場或價值的影響。

（一）作品使用行為的目的和性質(zhì)

1.對轉(zhuǎn)換性使用的分析

自坎貝爾訴艾克夫柔絲音樂公司案后，轉(zhuǎn)換性使用成為美國法院判斷合理使用的核心。轉(zhuǎn)換性使用的內(nèi)涵被界定為：新作品的目的并非為了取代原作品，而是向原作品中加入了新表達(dá)、新含義、新信息，使其目的或性質(zhì)得以轉(zhuǎn)變，以達(dá)到版權(quán)法擴(kuò)充公眾知識的總體目的。換言之，如果被訴侵權(quán)行為對原作品添加了新的價值，那么這正是合理使用原則為了社會利益而要保護(hù)的行為。

就版權(quán)合規(guī)型AI而言，數(shù)據(jù)的輸入并非為了再現(xiàn)原作本身的文學(xué)或藝術(shù)價值，而是為了提取作品元素進(jìn)行深層理解，通過學(xué)習(xí)、模仿人類作品以輸出不同于原作的新內(nèi)容。該類人工智能的應(yīng)用能夠繁榮文化市場，從而滿足社會公眾對知識和信息的需要。美國司法實(shí)踐已經(jīng)明確，如果向機(jī)器輸入作品的目的是為實(shí)現(xiàn)不同于原作的公共利益功能，那么該數(shù)據(jù)輸入行為具有轉(zhuǎn)換性。在美國聯(lián)邦第二巡回上訴法院2015年判決的作家協(xié)會訴谷歌公司案（以下簡稱谷歌案）中，谷歌公司以提供檢索和片段瀏覽服務(wù)為目的將大量的圖書進(jìn)行掃描和數(shù)字化，該數(shù)據(jù)輸入行為被認(rèn)定為具有轉(zhuǎn)換性。通過掃描圖書得到的數(shù)據(jù)集可以實(shí)現(xiàn)檢索功能，使得用戶能夠?qū)﹄娮訒械奶囟ㄔ~匯或短語進(jìn)行定位。片段瀏覽功能可以向用戶展示與搜索詞相關(guān)的上下文片段，進(jìn)而評估這本書是否在用戶的興趣范圍之內(nèi)。因此，法院認(rèn)定谷歌公司向機(jī)器輸入版權(quán)作品的目的、性質(zhì)、表達(dá)、意義和傳遞的信息都與原作有所不同，應(yīng)構(gòu)成轉(zhuǎn)換性使用。與谷歌數(shù)字圖書類似，版權(quán)合規(guī)型AI會將輸入的數(shù)據(jù)轉(zhuǎn)換為AI系統(tǒng)可讀取的格式，進(jìn)而學(xué)習(xí)作品的語言模式、數(shù)據(jù)分布或曲式結(jié)構(gòu)等特征，最終創(chuàng)造出新的信息。這種作品使用方式也被稱為“非表達(dá)性使用”，其復(fù)制目的并不是為了讓人類進(jìn)行享受、欣賞或者理解，因而在目的和功能上發(fā)生了轉(zhuǎn)換。同時，在采取算法優(yōu)化、關(guān)鍵詞過濾、結(jié)果過濾等版權(quán)過濾措施后，版權(quán)合規(guī)型AI的生成內(nèi)容通常不會與原作構(gòu)成相似，難以構(gòu)成有競爭性的原作替代品。在此情況下的數(shù)據(jù)輸入行為是為了開發(fā)出一種接近人類的智能，讓更多的人能夠接觸和利用技術(shù)，進(jìn)而實(shí)現(xiàn)公共利益的最大化，具有較高程度的轉(zhuǎn)換性。

目前來看，AI運(yùn)營商開發(fā)的產(chǎn)品大多屬于版權(quán)合規(guī)型AI，其應(yīng)用對創(chuàng)作方式的變革和信息傳播的促進(jìn)都具有積極作用。例如，在蓋帝圖像案中，被告利用大量圖片對圖像生成式人工智能進(jìn)行訓(xùn)練，通過擴(kuò)散和解碼等方式使模型學(xué)習(xí)與圖片描述相關(guān)的潛在特征。如果被告在作品知名度、主題多樣性和模型大小等方面采取了技術(shù)措施，那么輸出結(jié)果極小概率會與原作構(gòu)成實(shí)質(zhì)性相似。此時，作品的復(fù)制件與原作服務(wù)于不同的功能，且不會構(gòu)成實(shí)質(zhì)性的替代。數(shù)據(jù)的輸入是為了推出一個高性能的創(chuàng)作工具，并廣泛應(yīng)用于圖像的生成、修復(fù)、去噪與超分辨率成像等領(lǐng)域，應(yīng)構(gòu)成轉(zhuǎn)換性使用。又如，在崔布雷案中面臨侵權(quán)指控的ChatGPT產(chǎn)品亦有可能屬于上述的版權(quán)合規(guī)型AI。該案中，OpenAI公司將原告作品作為ChatGPT訓(xùn)練數(shù)據(jù)集的一部分，讓模型對其中蘊(yùn)含的模式和特征進(jìn)行記憶。這使得ChatGPT模型能夠有效理解人類語言和知識，進(jìn)一步分析用戶需求并生成適當(dāng)?shù)幕貜?fù)。同時，在算法設(shè)計下，ChatGPT輸出文本時并不會照搬語料庫的內(nèi)容，而是會進(jìn)行重新表述。隨著ChatGPT逐步滲透到人類生產(chǎn)和生活的各個環(huán)節(jié)，它不僅為用戶帶來了個性化的內(nèi)容服務(wù)，還提高了人類工作效率，節(jié)省了時間和人力成本。因而OpenAI公司的數(shù)據(jù)輸入行為應(yīng)構(gòu)成轉(zhuǎn)換性使用。

與版權(quán)合規(guī)型AI不同，版權(quán)違規(guī)型AI的生成內(nèi)容大概率與原作構(gòu)成實(shí)質(zhì)性相似。這種作品利用行為可能對版權(quán)作品造成實(shí)質(zhì)性的替代，因而不具有轉(zhuǎn)換性。例如，在環(huán)球音樂案中，Anthropic公司開發(fā)的人工智能Claude有可能屬于版權(quán)違規(guī)型AI。當(dāng)Claude被問及歌曲的具體歌詞時，其通常輸出與原作歌詞完全一致的復(fù)制品。當(dāng)用戶要求Claude創(chuàng)作歌曲時，Claude也并沒有生成原創(chuàng)的歌詞，而是生成了他人歌詞構(gòu)成實(shí)質(zhì)性相似的文本內(nèi)容。這些事實(shí)表明，Claude生成的內(nèi)容大概率會再現(xiàn)原作的表達(dá)。若生成物的侵權(quán)具有頻發(fā)性，則Anthropic公司的數(shù)據(jù)輸入行為不具轉(zhuǎn)換性。

2.對商業(yè)性要素的分析

第一要素還需考慮使用行為是否具有商業(yè)性。使用行為越具有轉(zhuǎn)換性，商業(yè)性因素在合理使用判斷中的重要性就會越小。同時，如果商業(yè)性使用行為有助于實(shí)現(xiàn)版權(quán)法所承認(rèn)的公共利益價值，那么公共利益價值的保護(hù)位階優(yōu)先于版權(quán)人的利益價值，足以減少商業(yè)性因素帶來的不利影響。在谷歌案中，谷歌公司能通過掃描圖書所實(shí)現(xiàn)的功能增強(qiáng)自身市場支配地位，從而獲取間接利益。但法院認(rèn)為，當(dāng)轉(zhuǎn)換性使用展現(xiàn)出社會效益時，谷歌公司的商業(yè)動機(jī)并不能撼動其合理使用的認(rèn)定。AI運(yùn)營商同樣具有商業(yè)性，能夠通過向用戶提供收費(fèi)服務(wù)和銷售人工智能軟件等方式獲得豐厚利潤。但由于數(shù)據(jù)輸入行為的轉(zhuǎn)換性程度較高，并能為公眾帶來充分的社會利益，此時商業(yè)性不應(yīng)當(dāng)影響合理使用的認(rèn)定。

綜上，在輸入階段，AI運(yùn)營商在訓(xùn)練版權(quán)合規(guī)型AI時的數(shù)據(jù)輸入行為通常具有高度轉(zhuǎn)換性。同時，生成式人工智能服務(wù)于公共利益的屬性也應(yīng)足以壓倒商業(yè)目的帶來的不利影響，因此第一要素有利于合理使用的構(gòu)成。

（二）被使用作品的性質(zhì)

第二要素關(guān)注被使用作品的性質(zhì)，包括作品屬于“事實(shí)性作品”抑或是“虛構(gòu)性作品DbOlKPVDnSO+UY6mxzayZ1cJswaVPtFTmgzq05xV/Jg=”，以及屬于“已出版作品”抑或是“未出版作品”。但第二要素并非合理使用的決定性要素。該要素的判斷依附于使用行為的轉(zhuǎn)換性程度，當(dāng)使用行為服務(wù)于高度的轉(zhuǎn)換性目的時，第二要素起到的作用微乎其微。在谷歌案中，法院認(rèn)為由于谷歌公司的掃描行為具備轉(zhuǎn)換性，因而無論被掃描的圖書是小說作品還是事實(shí)作品，都不會影響合理使用的認(rèn)定。與谷歌案相似，生成式人工智能獲取作品的途徑包括開放性數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲以及用戶上傳等，因而涵蓋了各種類型的作品。但是當(dāng)數(shù)據(jù)輸入行為展現(xiàn)出較高程度的轉(zhuǎn)換性時，被輸入作品的性質(zhì)不應(yīng)當(dāng)影響合理使用的認(rèn)定。

（三）被使用部分的數(shù)量和質(zhì)量

第三因素考慮的是作品被使用部分的數(shù)量和質(zhì)量。對版權(quán)作品的使用應(yīng)當(dāng)以“沒有超過必要的限度”為標(biāo)準(zhǔn)。首先，合理使用不以少量使用為前提。如果使用行為是為實(shí)現(xiàn)轉(zhuǎn)換性目的所必需的，那么大量使用也能構(gòu)成合理使用。其次，該要素關(guān)注使用行為令公眾接觸到的數(shù)量和實(shí)質(zhì)內(nèi)容，是否使其可能成為一個競爭性的替代品。在谷歌案中，法院認(rèn)為就搜索功能而言，對書籍進(jìn)行整體復(fù)制是必要的，否則搜索結(jié)果無法將關(guān)鍵詞出現(xiàn)的次數(shù)準(zhǔn)確地告訴用戶。就片段瀏覽功能而言，谷歌公司通過黑名單的設(shè)置，確保了用戶所獲取的文本并不屬于作品“實(shí)質(zhì)的內(nèi)容”，即無法達(dá)到具有競爭性的程度。因此，谷歌公司的作品使用行為能夠通過第三要素的檢驗(yàn)。同理，生成式人工智能對版權(quán)作品的整體復(fù)制也服務(wù)于其高度的轉(zhuǎn)換性。只有對版權(quán)作品進(jìn)行盡可能完整的復(fù)制，才能夠確保輸出結(jié)果的準(zhǔn)確性、適當(dāng)性、安全性和實(shí)用性。不僅如此，人工智能并不能像人類一樣直觀地對信息進(jìn)行判斷，只能將信息分解后再分析。為避免因樣本缺失而導(dǎo)致輸出結(jié)果出現(xiàn)算法偏見或過擬合現(xiàn)象，也有必要通過更加平衡和多樣化的訓(xùn)練數(shù)據(jù)以提高生成物的質(zhì)量和公平性。同時，版權(quán)合規(guī)型AI的生成內(nèi)容和訓(xùn)練數(shù)據(jù)之間通常不構(gòu)成實(shí)質(zhì)性相似。公眾通常無法接觸版權(quán)作品的表達(dá)性內(nèi)容，輸出內(nèi)容也難以成為針對原作的競爭性替代品。綜上，第三要素有利于數(shù)據(jù)輸入行為構(gòu)成合理使用。

（四）使用行為對作品潛在市場或價值的影響

合理使用的第四要素不僅考慮被控侵權(quán)人特定行為對傳統(tǒng)營利市場造成的損害程度，還應(yīng)考慮其行為是否會對原作潛在市場造成實(shí)質(zhì)的不利影響。關(guān)鍵在于，若復(fù)制件為原作帶來了競爭性替代的風(fēng)險，從而剝奪版權(quán)人的實(shí)質(zhì)性收入，則使用行為不宜構(gòu)成合理使用。同時，第四要素的分析與第一要素也密切相關(guān)，使用行為的轉(zhuǎn)換性程度越高，復(fù)制件構(gòu)成實(shí)質(zhì)性替代的可能性越小。

版權(quán)合規(guī)型AI生成物與原作之間的相似性很小，因而難以構(gòu)成有競爭性的原作替代品，亦不足以減損版權(quán)收入。例如，ChatGPT的摘要功能只會對書本劇情進(jìn)行簡單概括，而并不涉及完整的段落或章節(jié)。片段化的內(nèi)容呈現(xiàn)無法向使用者傳遞作者的思想感情，在客觀上亦不足以對原作市場價值或產(chǎn)品銷路造成實(shí)質(zhì)性影響。需要指出的是，“競爭性替代”是針對表達(dá)的替代，并非針對思想的替代。近年來，不少生成式人工智能具備模仿藝術(shù)家獨(dú)特風(fēng)格進(jìn)行創(chuàng)作的能力，但對于風(fēng)格模仿是否會削弱原作市場的問題，始終存在一定爭議。在谷歌案中法院提出，原作的市場只會延及到版權(quán)保護(hù)的表達(dá)。當(dāng)用戶試圖通過片段瀏覽功能了解歷史性事件時，作者的版權(quán)并不會延及到其書中所包含的事實(shí)，這不會讓谷歌公司的掃描行為構(gòu)成侵權(quán)。同理，盡管人工智能會在學(xué)習(xí)過程中提取作品的風(fēng)格與特定表達(dá)，但生成內(nèi)容并不會涉及原作的獨(dú)創(chuàng)性表達(dá)。根據(jù)思想與表達(dá)二分法，風(fēng)格等高度抽象的思想屬于非表達(dá)性要素，本應(yīng)被劃定在公有領(lǐng)域并允許其他人自由使用。如果認(rèn)為作品的原初價值涵蓋風(fēng)格等作品內(nèi)容，那么這會極大阻礙人工智能產(chǎn)業(yè)實(shí)踐的創(chuàng)新。因此，即便人工智能能夠輸出與特定作家風(fēng)格相似的新內(nèi)容，其亦不屬于原作市場的范疇，不能成為否認(rèn)合理使用的理由。

判斷使用行為是否對原作潛在市場造成影響，還需要分析其是否會形成許可市場。作品的許可市場屬于潛在市場的一部分，若作品使用行為不會形成許可市場，則有利于合理使用的構(gòu)成。在“谷歌案”中，假設(shè)谷歌公司需要向所有圖書的版權(quán)人尋求許可，所耗費(fèi)的成本將導(dǎo)致該商業(yè)模式無法生存，進(jìn)而阻礙公眾對信息的獲取，原告對于許可市場的主張也因此被法院否認(rèn)。同理，機(jī)器學(xué)習(xí)所需的數(shù)據(jù)浩如煙海。若AI運(yùn)營商需要針對數(shù)據(jù)庫中的每一件作品獲取許可并支付報酬，其中的費(fèi)用成本過于巨大，且從現(xiàn)實(shí)角度出發(fā)也難以執(zhí)行。因此，人工智能的數(shù)據(jù)訓(xùn)練并不存在許可市場，引入合理使用規(guī)則亦不會影響到版權(quán)人通過許可獲得的經(jīng)濟(jì)利益。

基于上述對合理使用四要素的分析，筆者認(rèn)為，AI運(yùn)營商為訓(xùn)練版權(quán)合規(guī)型AI的數(shù)據(jù)輸入行為構(gòu)成合理使用。同時，構(gòu)成合理使用的關(guān)鍵在于使用行為對公共利益的實(shí)現(xiàn)。因此，版權(quán)法為權(quán)利人所提供的保護(hù)不應(yīng)影響社會公眾及技術(shù)創(chuàng)新對作品的合理需求，訓(xùn)練版權(quán)合規(guī)型AI時的數(shù)據(jù)輸入行為宜被認(rèn)定為合理使用。

四、數(shù)據(jù)輸出階段的侵權(quán)責(zé)任認(rèn)定

人工智能生成物的侵權(quán)判斷采用“接觸+實(shí)質(zhì)性相似”規(guī)則，但生成內(nèi)容與原作品構(gòu)成實(shí)質(zhì)性相似，并不意味著AI運(yùn)營商必然構(gòu)成侵權(quán)。首先，與生成內(nèi)容存在實(shí)質(zhì)性相似的作品可能是超過保護(hù)期限而進(jìn)入公有領(lǐng)域的作品。其次，作品版權(quán)人可通過知識共享許可協(xié)議等方式許可他人在授權(quán)范圍內(nèi)對作品進(jìn)行使用。當(dāng)版權(quán)人沒有明確做出許可的意思表示時，使用作品行為仍可能滿足適用默示許可的條件而無需版權(quán)人授權(quán)。最后，生成內(nèi)容可本身構(gòu)成特定的合理使用情形，諸如批評、評論、滑稽模仿、挪用藝術(shù)等。對于上述三種情形，即便生成內(nèi)容和在先作品構(gòu)成實(shí)質(zhì)性相似，但都不構(gòu)成侵權(quán)內(nèi)容，AI運(yùn)營商亦無需承擔(dān)責(zé)任。

在生成物構(gòu)成侵權(quán)內(nèi)容的情形下，AI運(yùn)營商需承擔(dān)損害賠償責(zé)任，該責(zé)任的確定應(yīng)適用過錯責(zé)任原則。如果AI運(yùn)營商不存在過錯，那么法院可以免除其賠償責(zé)任。從促進(jìn)人工智能行業(yè)發(fā)展和公共利益最大化的角度出發(fā)，使無過錯的AI運(yùn)營商免于承擔(dān)賠償責(zé)任，也能夠避免給技術(shù)的應(yīng)用和發(fā)展帶來不合理的經(jīng)濟(jì)負(fù)擔(dān)。過錯的判斷需要考慮AI運(yùn)營商是否盡到了合理的注意義務(wù)，包括是否采取了事前預(yù)防措施和事后糾正措施。

在事前階段，AI運(yùn)營商應(yīng)采取版權(quán)過濾措施，即在現(xiàn)有技術(shù)條件下對生成內(nèi)容的質(zhì)量進(jìn)行把控以避免侵權(quán)結(jié)果發(fā)生。在利用過濾技術(shù)的情況下，人工智能生成侵權(quán)內(nèi)容通常具有偶發(fā)性。即便輸入行為引發(fā)了侵權(quán)，但AI運(yùn)營商已經(jīng)做到在技術(shù)層面人為強(qiáng)化訓(xùn)練數(shù)據(jù)和生成內(nèi)容的差異，并不存在過錯。若AI運(yùn)營商未盡到現(xiàn)有技術(shù)水平相應(yīng)的結(jié)果避免義務(wù)，即未采取有效的版權(quán)過濾措施，則說明其應(yīng)當(dāng)能夠預(yù)知到潛在的版權(quán)侵權(quán)風(fēng)險卻未加以防范。若生成內(nèi)容大概率與版權(quán)作品構(gòu)成實(shí)質(zhì)性相似，法院甚至可能認(rèn)定AI運(yùn)營商存在侵權(quán)的惡意，從而適用懲罰性賠償。

要強(qiáng)調(diào)的是，版權(quán)過濾措施的采取應(yīng)當(dāng)以現(xiàn)有技術(shù)為標(biāo)準(zhǔn)。盡管企業(yè)能夠通過算法設(shè)計或訓(xùn)練數(shù)據(jù)選擇等版權(quán)過濾措施盡可能避免侵權(quán)，但在算法黑箱下，企業(yè)只能通過觀測輸入和輸出結(jié)果判斷人工智能的合理運(yùn)行。AI運(yùn)營商無法對模型訓(xùn)練涉及的數(shù)據(jù)進(jìn)行精準(zhǔn)審核，亦無法保障輸出內(nèi)容百分之百的合乎版權(quán)法要求?？紤]到輸入數(shù)據(jù)的龐大性和算力的復(fù)雜性，法院應(yīng)當(dāng)按照損害結(jié)果發(fā)生時的技術(shù)水平來判斷AI運(yùn)營商是否盡到了必要的義務(wù)，以及是否排斥侵權(quán)結(jié)果的發(fā)生，而不宜過度加重AI運(yùn)營商的義務(wù)。

在事后階段，AI運(yùn)營商應(yīng)盡的注意義務(wù)主要在于版權(quán)糾正措施的實(shí)施。第一，AI運(yùn)營商在提供服務(wù)時應(yīng)建立舉報投訴機(jī)制，從而更有效地預(yù)防侵權(quán)。人工智能可以在短時間內(nèi)生成大量內(nèi)容，直接進(jìn)行人工審查的成本過高?？紤]到技術(shù)的可行性，通過用戶或版權(quán)人發(fā)出侵權(quán)通知的方式來發(fā)現(xiàn)侵權(quán)情形，再由AI運(yùn)營商采取相應(yīng)措施，是必要的制止侵權(quán)方式。例如在“奧特曼案”中，被告經(jīng)營的網(wǎng)站生成了與涉案奧特曼形象構(gòu)成實(shí)質(zhì)性相似的圖片，缺乏投訴舉報機(jī)制則是法院判定被告存在過錯的主要因素之一。法院認(rèn)為，被告在經(jīng)營網(wǎng)站時未能建立任何的投訴舉報機(jī)制，導(dǎo)致版權(quán)人難以通過投訴舉報的方式維護(hù)權(quán)利，這證明了被告作為服務(wù)提供者未盡到合理的注意義務(wù)。因此，在人工智能生成內(nèi)容可能侵犯他人版權(quán)的情形下，AI運(yùn)營商應(yīng)建立舉報投訴的渠道，以保障版權(quán)人的利益，并盡可能地減少侵權(quán)行為帶來的不利影響。第二，在接到侵權(quán)通知后，AI運(yùn)營商應(yīng)在合理期限內(nèi)進(jìn)行相應(yīng)的算法糾正。人工智能生成內(nèi)容具有高度的隨機(jī)性，其很有可能會再次生成侵犯同一版權(quán)作品的新內(nèi)容。僅僅移除特定侵權(quán)內(nèi)容無法有效消除版權(quán)人的損害，只有采取相應(yīng)的補(bǔ)救措施對算法進(jìn)行及時修正，才能夠獲得相對穩(wěn)定的輸出結(jié)果。基于此，為有效打擊反復(fù)侵權(quán)的問題，AI運(yùn)營商的義務(wù)不能僅限于對侵權(quán)內(nèi)容進(jìn)行移除，還應(yīng)當(dāng)采取更為積極的管控措施。具言之，AI運(yùn)營商應(yīng)在接到侵權(quán)通知后運(yùn)用刪除侵權(quán)數(shù)據(jù)、重新訓(xùn)練、干擾學(xué)習(xí)等技術(shù)方法，以防止侵權(quán)內(nèi)容的再次生成和擴(kuò)散。

五、對我國司法實(shí)踐的建議

從上文的分析可得，輸入階段主要涉及AI運(yùn)營商在訓(xùn)練模型時的數(shù)據(jù)輸入行為，而合理使用制度是證成數(shù)據(jù)輸入合法性的重要支撐?；谏墒饺斯ぶ悄芄怖鎸傩裕瑪?shù)據(jù)訓(xùn)練可以通過四要素的檢驗(yàn)方式構(gòu)成合理使用。盡管我國《著作權(quán)法》第二十二條對合理使用采取半封閉式的立法，但司法實(shí)踐已展現(xiàn)了突破法律對合理使用情形進(jìn)行適當(dāng)擴(kuò)展的可能。同時，最高人民法院也通過司法政策的頒布，允許法院在必要時借助四要素標(biāo)準(zhǔn)認(rèn)定合理使用。為提高訓(xùn)練數(shù)據(jù)質(zhì)量、增強(qiáng)生成式人工智能實(shí)用性并促進(jìn)相關(guān)產(chǎn)業(yè)的發(fā)展，我國法院應(yīng)在司法實(shí)踐中進(jìn)一步吸收和借鑒四要素判斷規(guī)則，辨明合理使用制度是否能成為輸入階段AI運(yùn)營商侵害版權(quán)的抗辯事由。

目前，為適應(yīng)時代要求并克服條文適用僵化的困境，已有部分法院引入四要素標(biāo)準(zhǔn)對合理使用行為進(jìn)行靈活認(rèn)定。例如，在北京市高級人民法院審理的王莘與北京谷翔信息技術(shù)有限公司等案中，法院運(yùn)用四要素標(biāo)準(zhǔn)進(jìn)行說理，包括使用作品的目的和性質(zhì)、受著作權(quán)保護(hù)作品的性質(zhì)、所使用部分的性質(zhì)及其在整個作品中的比例等。據(jù)此，法院認(rèn)為涉案網(wǎng)站對圖書采取的片段式使用方式不會再現(xiàn)原作的表意功能，還為公眾提供了更為便捷的信息檢索服務(wù)，因而在功能和目的上具有轉(zhuǎn)換性。盡管被告對圖書的使用未事先獲得原告許可，但其并不會損害原告的合法利益，也不會對原作市場造成不利影響，在充分考量公共利益后，應(yīng)認(rèn)定構(gòu)成合理使用。從該案可見，我國法院在面對保護(hù)版權(quán)人利益和促進(jìn)作品傳播的沖突時，將社會公共利益作為重點(diǎn)考量因素，從而滿足公眾對作品的合理需求。人工智能所發(fā)揮的社會功能也能夠極大地促進(jìn)公共利益，人工智能的監(jiān)管不能以犧牲或放棄技術(shù)發(fā)展為代價。為適應(yīng)科技進(jìn)步和經(jīng)濟(jì)社會發(fā)展形勢需要，我國司法裁判應(yīng)允許AI運(yùn)營商在未經(jīng)版權(quán)人同意的情況下，以訓(xùn)練版權(quán)合規(guī)型AI模型為目的使用版權(quán)作品。

在基于四要素標(biāo)準(zhǔn)認(rèn)定合理使用時，我國法院不應(yīng)將使用目的嚴(yán)格限于“非商業(yè)性”。實(shí)踐中，商業(yè)性的公司AI運(yùn)營商是開發(fā)和使用人工智能技術(shù)的主力軍。如果以商業(yè)性因素對主體范圍進(jìn)行約束，則會極大地壓縮技術(shù)發(fā)展和創(chuàng)新的空間，影響人工智能產(chǎn)業(yè)的健康發(fā)展。同時，法院應(yīng)利用轉(zhuǎn)換性使用的概念解釋數(shù)據(jù)輸入行為。目前我國法院借助轉(zhuǎn)換性使用概念進(jìn)行審理的案件并不在少數(shù)。例如，在上海美術(shù)電影制片廠與浙江新影年代文化傳播有限公司等案中，法院認(rèn)為被訴行為使原作的藝術(shù)價值功能發(fā)生了較高程度的轉(zhuǎn)換，因而屬于合理使用。在上海美術(shù)電影制品廠與廣州讀努門教育科技有限公司案中，法院還利用利益平衡原則對合理使用的結(jié)論進(jìn)行補(bǔ)強(qiáng)解釋。法院指出，被告對作品的使用能夠促進(jìn)知識傳播，因而從平衡公共利益和作者個人利益的角度考慮，該使用行為具有轉(zhuǎn)換性且構(gòu)成合理使用。版權(quán)合規(guī)型AI的模型和功能設(shè)計各不相同，但數(shù)據(jù)輸入的目的都并非單純展示版權(quán)作品的美感或藝術(shù)價值，故在目的和功能上已發(fā)生轉(zhuǎn)換。同時，AI運(yùn)營商將作品輸入模型還具備促進(jìn)技術(shù)發(fā)展的價值，將其納入合理使用范疇有助于維持版權(quán)人個體私權(quán)與社會公共利益之間的生態(tài)平衡?？梢?，轉(zhuǎn)換性使用規(guī)則能夠?qū)侠硎褂眠M(jìn)行更富有彈性的解讀，從而為生成式人工智能技術(shù)的應(yīng)用和發(fā)展提供良好環(huán)境。

在輸出階段，當(dāng)法院判定輸出內(nèi)容構(gòu)成侵權(quán)后，還需認(rèn)定AI運(yùn)營商所承擔(dān)的責(zé)任。根據(jù)《民法典》和《著作權(quán)法》的相關(guān)規(guī)定，若生成內(nèi)容侵犯版權(quán)，法院應(yīng)按照具體情況要求AI運(yùn)營商承擔(dān)停止侵害、消除影響、賠禮道歉、賠償損失等民事責(zé)任。此外，我國《生成式人工智能服務(wù)管理暫行辦法》也規(guī)定，生成式人工智能的服務(wù)提供者應(yīng)對違法內(nèi)容及時采取“停止生成”“停止運(yùn)輸”“消除”“模型優(yōu)化訓(xùn)練”等措施。其中，在法院確定具體賠償數(shù)額時，根據(jù)《民法典》第一千一百六十五條，AI運(yùn)營商存在過錯是承擔(dān)賠償責(zé)任的前提。

如今人工智能技術(shù)發(fā)展迅速，全球各國都在積極布局，希望在人工智能研究這一全球競爭賽道上占據(jù)有利地位。我國法院也應(yīng)當(dāng)充分考量版權(quán)保護(hù)和社會公共利益的關(guān)系，以包容的態(tài)度面對新技術(shù)。如果生成侵權(quán)內(nèi)容就要求AI運(yùn)營商承擔(dān)賠償責(zé)任，未免過于苛刻，其中的高昂成本也會阻礙該產(chǎn)業(yè)的發(fā)展。鑒于此，在判定損害賠償數(shù)額時，法院應(yīng)充分考量AI運(yùn)營商的過錯，減免采取合理措施的AI運(yùn)營商的賠償責(zé)任。具言之，若AI運(yùn)營商在事前階段已采取版權(quán)過濾措施，并在事后階段及時采取版權(quán)糾正措施，則法院可以認(rèn)定AI運(yùn)營商不存在過錯，同時無需對侵權(quán)行為承擔(dān)損害賠償責(zé)任。反之，若AI運(yùn)營商沒有采取合理的事前預(yù)防和事后糾正措施，則法院應(yīng)認(rèn)定其存在過錯，并根據(jù)相應(yīng)的過錯承擔(dān)損害賠償責(zé)任。例如在我國法院判決的“奧特曼案”中，由于AI運(yùn)營商未履行合理的、可負(fù)擔(dān)的注意義務(wù)，不符合無過錯的標(biāo)準(zhǔn)，因此法院判決被告向原告賠償經(jīng)濟(jì)損失。這既能實(shí)現(xiàn)對權(quán)利人的有力保護(hù)，也能對侵權(quán)者進(jìn)行適當(dāng)?shù)膽徒洹?/p>

六、結(jié)語

充分挖掘數(shù)據(jù)要素價值、學(xué)習(xí)數(shù)據(jù)并生成新數(shù)據(jù)，是生成式人工智能為人類經(jīng)濟(jì)社會發(fā)展“賦能”的關(guān)鍵。人工智能有效運(yùn)行所帶來的社會福利遠(yuǎn)大于其中的弊端，為此不能因噎廢食，而應(yīng)當(dāng)充分運(yùn)用合理使用和侵權(quán)責(zé)任減免制度打破版權(quán)壁壘，為生成式人工智能技術(shù)的進(jìn)步和創(chuàng)新提供更為廣闊的發(fā)展空間。這也與版權(quán)法實(shí)現(xiàn)社會整體福祉最大化的目標(biāo)相契合。

在輸入階段，基于生成式人工智能的強(qiáng)大公共利益屬性，偶發(fā)性的侵權(quán)不足以成為扼殺新商業(yè)模式的理由，以訓(xùn)練版權(quán)合規(guī)性AI為目的的數(shù)據(jù)輸入行為通常構(gòu)成合理使用。在輸出階段，若AI運(yùn)營商盡到了合理的注意義務(wù)，即采取了應(yīng)盡的事前和事后措施，應(yīng)當(dāng)免于承擔(dān)賠償責(zé)任。我國法院應(yīng)以公共利益作為裁判重點(diǎn)，對輸入階段的各種作品使用行為，以及輸出階段的侵權(quán)責(zé)任進(jìn)行認(rèn)定，進(jìn)而激勵創(chuàng)新并推動人工智能應(yīng)用場景的拓展。

中國版權(quán)2024年5期

中國版權(quán)的其它文章: 2023年長沙知識產(chǎn)權(quán)法庭版權(quán)典型案例及評析　長沙知識產(chǎn)權(quán)法庭; 2023年廣州互聯(lián)網(wǎng)法院版權(quán)典型案例及評析; 視頻新聞版權(quán)保護(hù)論綱; 中國版權(quán)經(jīng)紀(jì)人職業(yè)發(fā)展探析; 個性化作者觀對宋代版權(quán)觀念的影響; “平臺內(nèi)容同步分發(fā)”的行為定性與責(zé)任承擔(dān)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

生成式人工智能數(shù)據(jù)訓(xùn)練中的版權(quán)問題研究