編 者 按
隨著生成式人工智能技術的迅猛發(fā)展,高質(zhì)量的中文語料庫建設問題日益受到關注。本刊特邀多位知名學者與實務專家圍繞“人工智能語料庫建設的法律問題”,就困擾實踐的著作權合規(guī)、模型風險規(guī)制、訓練數(shù)據(jù)知識產(chǎn)權侵權糾紛和收益分配等關鍵法律議題展開深入探討。專家們從不同的法律視角提出了豐富的理論見解與解決方案,相信必將有益于未來高質(zhì)量中文語料庫的有序建設與合規(guī)運營,以及我國人工智能產(chǎn)業(yè)的健康發(fā)展。
Legal Issues in the Construction of Chinese Corpus for Artificial Intelligence
主持人:王立梅
筆談人:王遷
陶乾
劉曉春
丁道勤
鄭瑋
1
王立梅:生成式人工智能的快速發(fā)展得益于使用包含既有作品等大量著作權客體在內(nèi)的數(shù)據(jù)資源。為滿足生成式人工智能對預訓練數(shù)據(jù)的需求,是否需要建設高質(zhì)量人工智能中文語料庫、如何建設、建設及使用過程中如何避免侵權等問題開始受到法學界的關注。我們有幸邀請到幾位專家一起來討論這一系列問題。請先介紹一下目前語料庫建設的基本情況。
丁道勤:數(shù)據(jù)訓練階段是ChatGPT類生成式人工智能的準備性階段,在此階段,語料庫建設是一個重要的基礎條件,目前,中文語料庫建設面臨三大難題。
首先,國內(nèi)缺乏高質(zhì)量的中文語料庫,訓練語料的缺乏導致模型性能嚴重受限。目前,高質(zhì)量的中文數(shù)據(jù)散落在一些知名的學術機構、媒體機構等手中,訓練素材的體量龐大、種類多樣、權利人分散,如果按照傳統(tǒng)自由談判的方式獲取中文數(shù)據(jù)的訓練授權,存在交易成本過高、效率過低的問題,無法滿足當前人工智能模型訓練對中文數(shù)據(jù)的大批量需求。相對而言,國外有成熟的英文數(shù)據(jù)集,匯集了大量數(shù)據(jù),而且有標注和篩選,供AI技術研發(fā)使用。例如,媒體報道OpenAI至少使用了五個不同的數(shù)據(jù)集,包括Common Crawl、WebTex2、Books1、Books2和Wikipedia。在缺乏中文語料庫的情況下,現(xiàn)階段國內(nèi)很多人工智能公司的模型訓練不得不依賴互聯(lián)網(wǎng)公開信息,但互聯(lián)網(wǎng)公開信息中不可避免地可能包含一些版權素材和個人信息,導致國內(nèi)人工智能公司面臨法律風險。因為版權幾乎覆蓋了人類的大部分優(yōu)質(zhì)內(nèi)容,如果不使用版權素材,就不可能訓練出領先的人工智能模型;如果缺乏高質(zhì)量的版權素材,人工智能模型性能將嚴重受限。在版權領域,中下游人工智能研發(fā)者在使用著作權作品訓練模型時如何援引合理使用原則,還需進一步探索。在個人信息保護領域,一方面,對于公開個人信息,亟待建立專門的流通和利用規(guī)則;另一方面,數(shù)據(jù)到底是以個人信息、版權還是人格權的形式進行保護仍存爭議,法律之間的銜接有待加強。這兩方面的原因?qū)е聦€人信息的利用存在客觀的制度障礙。
其次,AI模型訓練涉及的數(shù)據(jù)量級較大且來源廣泛,導致上游難以取得全部授權,下游面臨侵權風險。從上游數(shù)據(jù)供應商的角度,獲取數(shù)據(jù)的渠道和方式較為多元,可能存在經(jīng)授權從權利人處取得、自行采集等情形。在數(shù)據(jù)體量較大的情況下,數(shù)據(jù)供應商在實操層面難以一一取得授權,也難以就整個數(shù)據(jù)集向下游的模型開發(fā)者作出權利擔保。從模型開發(fā)者的角度,很難嚴格核查數(shù)據(jù)供應商的上游文件,無法確認上游是否已經(jīng)獲得針對AI訓練的充分授權。這意味著上游面臨的授權困難傳導到下游,成為模型開發(fā)者難以消除的侵權風險。因此,谷歌請求澳大利亞修改版權法,引入文本和數(shù)據(jù)挖掘例外(Text and Data Mining),否則,澳大利亞國內(nèi)難以產(chǎn)生創(chuàng)新產(chǎn)品。以谷歌翻譯為例,谷歌研發(fā)時使用了大量公開數(shù)據(jù),但是澳大利亞版權框架對數(shù)據(jù)的使用持保留態(tài)度。
最后,單個數(shù)據(jù)集對模型整體的貢獻不一,導致難以定價。大模型訓練分為預訓練和精調(diào)兩個階段,分別對應預訓練數(shù)據(jù)和精調(diào)數(shù)據(jù)。預訓練是指使用大量無標簽文本數(shù)據(jù)來訓練模型,使其能夠?qū)W習語言的表示和模式,在這個階段,會使用海量數(shù)據(jù),單個數(shù)據(jù)集作用并不突出。隨著參數(shù)數(shù)量增加,單個數(shù)據(jù)集對于模型的影響減少。精調(diào)是指在預訓練模型上進行進一步訓練,以適應特定任務、提高模型性能,使其更具泛化能力。這個階段需要高質(zhì)量數(shù)據(jù),數(shù)據(jù)的質(zhì)量對模型的影響較大。對于預訓練和精調(diào)階段使用到的所有數(shù)據(jù)集,每個數(shù)據(jù)集對于模型的貢獻很難量化,導致難以就單個數(shù)據(jù)集的價值和價格進行評估。
陶乾:語料庫建設、模型訓練和模型推理(生成)是需要進行區(qū)分的三個環(huán)節(jié)。產(chǎn)業(yè)實踐中,語料庫提供者與模型開發(fā)者并不總是同一主體,模型開發(fā)者所使用的語料庫既有互聯(lián)網(wǎng)上的開源數(shù)據(jù)集,也有其自行創(chuàng)建的語料庫和付費采買的語料庫,在我國和境外,有許多專門從事語料庫建設的市場經(jīng)營者。盡管語料庫通常供模型訓練使用,但是,從經(jīng)濟價值和市場交易來看,語料庫獨立于人工智能模型。因此,語料庫建設、模型訓練和模型推理需要被分別進行獨立的法律評價。
語料庫建設的法律問題,主要是語料庫中的內(nèi)容所涉及的安全和侵權問題。就著作權侵權而言,在討論這個問題之前,我們首先需要明確作品、訓練數(shù)據(jù)與語料庫之間的關系。第一組關系是作品與訓練數(shù)據(jù)的關系。著作權法保護的是具有獨創(chuàng)性的作品,作品本質(zhì)上屬于一種信息。當訓練數(shù)據(jù)中包含的信息構成具有獨創(chuàng)性的作品時,數(shù)據(jù)是作品的數(shù)字化載體,是作品的外在表現(xiàn)形態(tài)。所以,著作權法保護的不是訓練數(shù)據(jù)本身,而是訓練數(shù)據(jù)所承載的作品。第二組關系是訓練數(shù)據(jù)與語料庫的關系。語料庫建設需要海量數(shù)據(jù),語料庫由經(jīng)采集而匯總的數(shù)據(jù)組成,所以,語料庫是數(shù)據(jù)的集合,打個比方來說,轉(zhuǎn)換到有形載體的語境下,數(shù)據(jù)相當于圖書,語料庫則相當于圖書館。語料庫被用于訓練人工智能模型,所以,語料庫所包含的數(shù)據(jù)被稱為訓練數(shù)據(jù)。第三組關系是語料庫與作品的關系。訓練數(shù)據(jù)中難以避免會承載很多作品,這既包括以數(shù)字化形式創(chuàng)作的作品的復制件,也包括有形載體上的作品的數(shù)字化復制件。數(shù)字時代,大量的作品以數(shù)字化的形態(tài)存在,或長或短、或繁或簡,藝術性高低不一,它們原被收錄于數(shù)據(jù)庫或者傳播于互聯(lián)網(wǎng)空間,經(jīng)數(shù)據(jù)采集后,這些作品成為語料庫的重要資源。當作品以數(shù)據(jù)為外觀被采集而匯入語料庫時,作品實際上是以數(shù)字化的形式被復制了。該復制行為落入著作權人的權利邊界中。
實踐中,有的語料庫不包含作品,僅包含作品鏈接、作品信息或者對作品的概述,此種情況另當別論。
上述三組關系的厘清,對于討論語料庫建設、模型訓練、模型生成這三個環(huán)節(jié)中每個步驟的版權合規(guī)均具有重要意義。
2
王立梅:如兩位專家所言,訓練數(shù)據(jù)中可能包含大量受著作權法保護的作品。這些訓練數(shù)據(jù)的使用是否構成侵權?能否援引“合理使用”制度?對這些問題的認識對語料庫的建設將產(chǎn)生何種影響?
王遷:討論一種利用作品的行為是否構成“合理使用”的前提,是該行為受到著作權法規(guī)定的某種專有權利(如復制權、發(fā)行權和信息網(wǎng)絡傳播權等)的規(guī)制,未經(jīng)許可實施該行為可能構成對相關專有權利的直接侵權。如果這個前提不成立,討論“合理使用”是沒有意義的。
因此,對于將受著作權法保護的作品作為語料訓練人工智能是否構成“合理使用”的問題,首先應當根據(jù)訓練人工智能的技術特征,判斷該行為是否落入專有權利的規(guī)制范圍。如果回答是肯定的,才有必要繼續(xù)探討未經(jīng)許可實施該行為是否屬于“合理使用”;反之,如果回答是否定的,則該行為不可能依據(jù)現(xiàn)行法構成侵權,此時沒有必要討論其是否屬于“合理使用”。
將作品作為素材訓練人工智能,所可能涉及的專有權利為復制權。我國《著作權法》將復制權定義為“以印刷、復印、拓印、錄音、錄像、翻錄、翻拍、數(shù)字化等方式將作品制作一份或者多份的權利”,但并沒有具體規(guī)定復制行為的構成要件??v觀各國著作權立法例和相關學說,沒有分歧之處在于,復制行為應當使作品被相對穩(wěn)定地固定在物質(zhì)載體之上,形成作品的有形復制件。簡言之,沒有在物質(zhì)載體上固定作品的行為不能被稱為著作權法意義上的復制行為。 然而,對于在調(diào)用作品的過程中,在計算機內(nèi)存和硬盤的緩存中形成的臨時性存儲(又稱“臨時復制”)能否被認定為著作權法意義上的復制行為,迄今在國際上仍未達成一致意見。而這對使用作品訓練人工智能的定性存在巨大影響。
歐美發(fā)達國家認為,“臨時復制”和其他公認的復制行為在性質(zhì)上沒有區(qū)別,仍然構成復制行為,只是在特定情況下可以免除行為人的侵權責任。美國版權判例和歐盟《版權指令》均將此類“臨時復制”認定為受復制權規(guī)制的復制行為,只是電信服務提供者無須為此承擔侵害復制權的責任。與之相反,許多發(fā)展中國家認為,此類“臨時復制”與傳統(tǒng)的復制行為存在本質(zhì)的區(qū)別,不應被認定為復制行為。
在此背景下,當我國討論將作品作為素材訓練人工智能的法律性質(zhì)時,區(qū)分訓練時應用的技術場景就特別重要。如果人工智能的研發(fā)者在收集海量作品之后,在自己的服務器之中建立了作品數(shù)據(jù)庫(也就是業(yè)界所稱的“語料庫”),以便對人工智能進行反復訓練,則該行為毫無疑問屬于受復制權規(guī)制的復制行為,需要討論該行為能否被納入“合理使用”的范圍。相反,如果人工智能的研發(fā)者并沒有為訓練人工智能目的建立作品數(shù)據(jù)庫或以其他方式將作品存儲在服務器中供人工智能訓練之用,而是設計了一種機器學習機制,讓人工智能實時閱讀、分析互聯(lián)網(wǎng)中的海量信息,被人工智能讀取的作品只會進入計算機內(nèi)存或硬盤中的緩存區(qū),只要訓練結束,被臨時存儲在內(nèi)存或緩存區(qū)中的信息就將隨之消失,不能以任何方式被再次調(diào)用。這種情況就屬于前述“臨時復制”。與歐美國家將“臨時復制”認定為復制行為不同,目前我國尚未將其納入復制權所規(guī)制的范圍。因此,對于僅涉及“臨時復制”的使用作品訓練人工智能的行為,尚無法認定其侵犯復制權,也沒有討論其是否構成“合理使用”的必要性。
丁道勤:討論未經(jīng)授權使用版權作品進行數(shù)據(jù)訓練是否構成“合理使用”,還是要回歸《著作權法》的規(guī)定。《著作權法》的立法目的,不是賦予著作權人絕對“壟斷權”,而是通過賦予著作權人專有權利而鼓勵原創(chuàng)創(chuàng)作、促進作品傳播,是為整體社會利益服務的。因此,《伯爾尼公約》、TRIPS協(xié)定等國際條約均規(guī)定了相關條款:允許各成員國對各類著作權專有權作出限制。從域外經(jīng)驗來看,已有許多國家和地區(qū)明確將人工智能的數(shù)據(jù)挖掘納入“合理使用”制度。歐盟《人工智能法案》第28條要求基礎模型的提供者在向市場提供該模型或?qū)⑵渫度胧褂弥?,記錄并公開提供受版權法保護的訓練數(shù)據(jù)的使用情況的足夠詳細的摘要。文本和數(shù)據(jù)挖掘(TDM)條款的本質(zhì)是開發(fā)尖端技術的權利應分配給誰,對于文本和數(shù)據(jù)挖掘的使用,歐盟《數(shù)字化單一市場版權指令》制定了版權例外規(guī)則,即基于“科學研究”與“數(shù)據(jù)分析”兩種目的且作品為合法獲取的情形下,TDM具有正當性。該條款為利用版權內(nèi)容提供了依據(jù),但其解釋和適用存在一定爭議。
在美國的司法實踐中,很早便出現(xiàn)了與文本及數(shù)據(jù)挖掘相關的版權案件。幾乎絕大多數(shù)文本與數(shù)據(jù)挖掘被法院認定為“合理使用”,只要研究人員事先沒有簽訂不可使用的協(xié)議,也沒有將被挖掘的作品或作品的實質(zhì)性部分公開。商業(yè)性目的(或營利性質(zhì))在美國并不構成將文本與數(shù)據(jù)挖掘認定為“合理使用”的障礙。例如,《美國版權法》第107條以四要素作為判斷標準,通過綜合分析使用者的使用是否符合相關法定要素來判斷該使用是否“合理使用”。在“合理使用”豁免條款下,使用受版權保護的作品來訓練人工智能系統(tǒng)是可以接受的。
德國《版權法案(2021)》第44b條規(guī)定的“文本和數(shù)據(jù)挖掘”,是指對單個或多個數(shù)字或數(shù)字化作品進行自動分析,以收集信息,特別是關于模式、趨勢和相關性的信息。其類似Opt-out機制,尊重權利人意愿,允許復制合法可訪問的作品,以進行文本和數(shù)據(jù)挖掘。當不再需要進行文本和數(shù)據(jù)挖掘時,應刪除副本。其以“權利人是否以機讀形式作出保留”作為“內(nèi)容是否可使用”的標準,只要權利人沒有作出保留,一律可以使用。
我國在2023年8月生效的《生成式人工智能服務管理暫行辦法》中對人工智能服務方提出了遵守知識產(chǎn)權、不得侵犯他人知識產(chǎn)權的原則性要求,但沒有針對版權問題進行明確規(guī)定。雖然我國法律沒有關于“三步檢驗法”或“四要素”的開放式規(guī)定,但在司法層面,最高人民法院曾出臺過類似的“指導意見”,如《最高人民法院關于充分發(fā)揮知識產(chǎn)權審判職能作用推動社會主義文化大發(fā)展大繁榮和促進經(jīng)濟自主協(xié)調(diào)發(fā)展若干問題的意見》第8條強調(diào),在促進技術創(chuàng)新和商業(yè)發(fā)展確有必要的情況下,可以認定為“合理使用”,且在過往的一些案例中,有部分法官已運用這樣的思路來處理一些新興的使用方式。
陶乾:“合理使用”制度指向的是無須經(jīng)過著作權人許可、亦無須向其支付報酬的使用作品的行為。該制度是對著作財產(chǎn)權的行使限制,是立法對私人權利的適當干涉,以期在私權與公益之間尋求平衡?!昂侠硎褂谩钡倪吔?,關乎權利限制的尺度。作品以數(shù)字化形式被復制于語料庫中的行為是否應當屬于“合理使用”,對此的回答關乎語料庫建設的版權合規(guī)范圍,進而影響著語料的質(zhì)量和數(shù)量,而且,從產(chǎn)業(yè)的維度,關乎傳統(tǒng)版權產(chǎn)業(yè)與人工智能及數(shù)據(jù)產(chǎn)業(yè)的關系協(xié)調(diào);從國際的視角,關乎不同司法管轄權范圍內(nèi)的企業(yè)之間的合規(guī)要求差異和彼此之間的競爭關系。
我國《著作權法》第24條第1款規(guī)定了“合理使用”判定的三步檢驗法,其中第三步是“僅限于特殊情形”,接著該條第2款以窮盡式列舉的方式規(guī)定了13種情形。立法之所以為“合理使用”規(guī)定了嚴格的法定情形,是為了避免在法律適用過程中因立法的模糊而對私權不當?shù)那治g。如果著作權人能夠舉證證明自己的作品被復制于語料庫中,在我國現(xiàn)行《著作權法》之下,該復制行為尚無法滿足第 24 條規(guī)定的任何一種法定合理使用情形。實踐中,司法機關可以通過在民事責任承擔方式上的靈活處理來調(diào)和利益沖突,比如,以判定支付許可費而不判定停止侵權的方式讓被告能夠繼續(xù)使用作品、在情節(jié)和損失顯著輕微時判定不承擔賠償責任、以單一作品對整個語料庫的價值貢獻程度等因素確定賠償額。這樣的話,一方面,是在現(xiàn)行法律框架下進行行為定性,避免法官創(chuàng)設合理使用情形之嫌;另一方面,通過民事責任承擔方式的選擇,來引導行業(yè)愿意與著作權人進行對話,達成合作,發(fā)揮司法裁判的價值引領作用。
鄭瑋:我國《著作權法》設立“合理使用”制度之宗旨,旨在平衡著作權人權益與公共利益,確保知識、信息與文化作品的自由流通。在人工智能領域,關于大模型企業(yè)對訓練數(shù)據(jù)的使用是否屬于公共利益范疇,是考量能否援引“合理使用”制度的基石。鑒于大模型企業(yè)多為商業(yè)機構,將訓練數(shù)據(jù)納入“合理使用”范疇,值得商榷。這一討論的核心在于,現(xiàn)行《著作權法》第二章第四節(jié)未能提供除權利許可外的其他可能路徑。若欲為大模型語料庫尋找“合理使用”的合理解釋,除修訂法律以達自洽外,尚需在《著作權法》現(xiàn)有規(guī)范與大模型語料庫實際使用場景間,構建可闡釋的關聯(lián)。
大模型在運用訓練數(shù)據(jù)時,其技術特性使其與一般著作權法意義上的“使用”存在差異。由于語料庫數(shù)據(jù)規(guī)模龐大,大模型對單一數(shù)據(jù)或作品的處理并非簡單的復制、發(fā)行、改編、匯編等,而是涉及數(shù)據(jù)預處理、標注、特征提取、模型訓練等步驟,通過算法計算得出數(shù)據(jù)在總體訓練數(shù)據(jù)中的概率分布。換言之,傳統(tǒng)意義上的使用,猶如廚師對原材料的烹飪過程,而大模型對訓練數(shù)據(jù)的使用則近似于“分子料理”般的打散重塑。因此,對于某一受著作權法保護的訓練數(shù)據(jù)而言,大模型在實質(zhì)意義上并未進行著作權法規(guī)定的“使用”。然而,這種理解已超出當前法律規(guī)定的范疇,凸顯了在技術飛速發(fā)展背景下,進行擴張性立法解釋或司法解釋的必要性。若大模型對訓練數(shù)據(jù)的“合理使用”不被現(xiàn)行《著作權法》第24條所涵蓋,則需重新詮釋“使用”一詞之含義。
基于大模型的技術原理,對其訓練數(shù)據(jù)的“使用”應從輸入與輸出兩端分別審視。從輸入端看,訓練素材多非整體使用,而是經(jīng)預處理后成為適合模型輸入與學習的形式,與原素材難以等同視之。從輸出端看,大模型輸出的內(nèi)容是基于訓練數(shù)據(jù)中識別出的模式和特征進行預測的結果,而非對訓練數(shù)據(jù)的簡單復制。因此,依據(jù)當前對著作權使用的理解,大模型對訓練數(shù)據(jù)的“操作”難以納入“使用”范疇。
盡管如此,若大模型生成的內(nèi)容在表達方式與某一單獨素材高度相似或雷同,仍可能構成侵權。因此,在大模型語料庫建立及訓練過程中,需特別注意以下方面:一是對有著作權要求的素材與無權利要求的素材進行分類,并采取合法方式獲取有權利要求的素材;二是確保數(shù)據(jù)庫的多樣性和豐富性;三是對單一作品素材在生成物中的占比進行限制,避免過度依賴;四是在使用受著作權法保護的數(shù)據(jù)時,應公開數(shù)據(jù)來源和使用方式,以提高透明度。
劉曉春:對于生成式人工智能訓練數(shù)據(jù)中涉及作品的著作權法定性,首先,我的觀點是不應認定為構成侵權。其次,關于采用何種路徑的問題,目前有兩種方案。第一種方案是將數(shù)據(jù)訓練直接從著作權權能中排除,即使存在形式上的復制等現(xiàn)象,但透過現(xiàn)象看本質(zhì),數(shù)據(jù)訓練不應納入著作權法上“復制權”控制的范圍。第二種方案是承認數(shù)據(jù)訓練落入“復制權”控制的范圍,但通過在“合理使用”中將其設置為不構成侵權的例外情形,排除對其的保護。我的觀點是選擇第一種方案,即通過將該種行為界定為“非作品性使用”,直接從著作權的權能中加以排除。實際上,就排除對于特定數(shù)據(jù)訓練行為的保護而言,兩種方案很可能不存在實質(zhì)上的差別。但是,就規(guī)則的應用擴展性而言,第一種“直接排除”方案的體系擴展可能性更高,可以適用于其他“非作品性使用”的情形,而第二種“先進后出”方案則更多局限于數(shù)據(jù)訓練行為問題的精準解決。此外,規(guī)則現(xiàn)實落地也面臨著不同的可能途徑和相關成本。因此,具體采取哪種方案,關系到對于“復制”這一概念限縮必要性的總體判斷,以及規(guī)則落地的現(xiàn)實考量。
相對于工業(yè)時代與出版發(fā)行緊密相連的“復制”,數(shù)字時代的復制已經(jīng)極大泛化,嵌入作品使用和傳播的幾乎所有環(huán)節(jié)。進入人工智能時代,大量的知識學習和積累通過機器學習來實現(xiàn),這一過程必然伴隨著數(shù)字化的復制,不能落入私人復制的例外。如果依然保持復制這個已經(jīng)過度泛化的中介概念,那么所有的機器使用、包括機器學習都會被復制權覆蓋,大大擴展了復制這一中介概念可能包括的作品使用場景,極有可能造成新生產(chǎn)模式下的利益失衡。因此,有必要對于復制這一中介概念作出更加系統(tǒng)化的反思和限縮,將“非作品性使用”等可以界定出來的新型中介概念從復制里面直接排除,而如果采用“先進后出”的合理使用方案,只能逐個排除具體使用場景,無法解決復制概念過度泛化帶來的系統(tǒng)性問題。
就語料庫建設的影響而言,如果通過司法個案認定在特定場景下訓練數(shù)據(jù)構成“合理使用”,那么可能對于符合特定目的的數(shù)據(jù)訓練場景可以獲得比較清晰的規(guī)則,對于更大規(guī)模的產(chǎn)業(yè)應用,則需要有一個等待規(guī)則逐漸統(tǒng)一形成共識的過程。但是,即使訓練數(shù)據(jù)行為被認定為“合理使用”,語料庫的建設和提供并不一定能夠得到著作權法上的侵權豁免。例如,從事人工智能數(shù)據(jù)訓練的企業(yè)專為訓練數(shù)據(jù)而自行搭建的語料庫,有可能落入“合理使用”的適用范圍。但是,如果是建設語料庫并向人工智能產(chǎn)業(yè)提供語料庫的主體,由于這一行為涉及作品數(shù)據(jù)庫的復制和發(fā)行,則依然存在被認定為侵權的可能性。
3
王立梅:在直接統(tǒng)一適用“合理使用”存在爭議的情況下,我們是否可以考慮在不同類型的案件中設置對語料庫侵權有區(qū)別的認定規(guī)則?或者說,是否應當針對不同的行業(yè)用途、不同的使用目的、不同的語料類型,對受到著作權法保護的訓練數(shù)據(jù)形成差異化的使用規(guī)則?
陶乾:對于語料庫復制作品的侵權認定,有必要區(qū)分語料庫中語料的來源和語料庫的類型。
從語料的來源來看,較多語料源于互聯(lián)網(wǎng)上可公開訪問的數(shù)據(jù),還有一些語料源于創(chuàng)建者定向采買的數(shù)據(jù),還有一些創(chuàng)建者本身也是網(wǎng)絡平臺的運營者,其在經(jīng)營過程中積累了大量的“用戶生成內(nèi)容”。對于第一類,數(shù)據(jù)可以被公開訪問,不等于數(shù)據(jù)中的作品可以被無償使用;對于第二類,數(shù)據(jù)持有者與語料庫創(chuàng)建者之間交易的是數(shù)據(jù),數(shù)據(jù)持有者應當承擔數(shù)據(jù)中內(nèi)容的版權合規(guī)義務;對于第三類,平臺運營者應當通過服務協(xié)議的方式,就用戶創(chuàng)作的作品的后續(xù)使用問題,與用戶達成許可。
從語料庫的類型來看,應區(qū)分通用語料庫與專用語料庫。通用語料庫的數(shù)據(jù)體量巨大,數(shù)據(jù)內(nèi)容多樣,其價值也正是基于所含數(shù)據(jù)的廣泛性、綜合性和全面性。當一部作品被包含于通用語料庫中時,單一作品的價值對于整個通用語料庫而言是極其微小的,通用語料庫的價值是若干條數(shù)據(jù)的價值的疊加,而非作品價值的疊加。而且,對于單一作品的著作權人而言,其作品被復制于通用語料庫的行為對其造成的損害也是極度輕微的。此時,從通用語料庫的全面性能夠為人工智能產(chǎn)業(yè)帶來的發(fā)展繼而對社會公共福祉所帶來的益處的角度,可以將此時的侵犯復制權行為作為一種停止侵權的例外情形來處理,且鑒于著作權人的損失輕微,可以判定不承擔賠償責任。
從通用語料庫的價值和目的來看,數(shù)據(jù)越全面,越能夠降低后續(xù)機器學習過程中的偏見,增加后續(xù)內(nèi)容輸出的準確性。如果要求通用數(shù)據(jù)集在創(chuàng)建環(huán)節(jié)需要獲得每一部單一作品的著作權人的授權,那么作品是否落入公有領域的判斷、著作權人的查找、許可費的磋商和支付,都需要數(shù)據(jù)集創(chuàng)建者通過人力來解決,這不具有可操作性。而且,通用語料庫的語料多源于互聯(lián)網(wǎng),權利人分散,這更加劇了形成許可關系的難度。版權合規(guī)義務過重會不合理地加大語料庫創(chuàng)建成本,影響語料的數(shù)量和質(zhì)量。這樣的合規(guī)要求還會加劇掌握著作品使用獨家授權的大企業(yè)與中小企業(yè)之間的差距。
專門語料庫的數(shù)據(jù)內(nèi)容具有特定性,聚焦于特定領域、特定類型、特定時期、特定作者等,其價值更倚重數(shù)據(jù)質(zhì)量和數(shù)據(jù)內(nèi)容。專門語料庫與通用語料庫的區(qū)分還需要更加精細化的區(qū)分規(guī)則。在特定的采集規(guī)則之下,諸多作品被復制于專門語料庫中,語料庫的價值是這些被匯編的若干個單一作品的價值疊加,此時,作為作品載體的數(shù)據(jù)的價值與作品本身的價值產(chǎn)生了重合。考慮到專門語料庫的上述特點,又鑒于專門語料庫的創(chuàng)建者通常具有特定的目的性,那么,其復制和匯編作品的行為,具有明顯的侵權性質(zhì),不能免責。
劉曉春:根據(jù)不同情況對訓練數(shù)據(jù)適用差異化著作權規(guī)則,這種思路在使用“合理使用”規(guī)則來解決著作權免責問題方面,是可以考慮的,也具有現(xiàn)實可操作性。因為“合理使用”規(guī)則可以針對具體的應用場景進行比較明確、具體的規(guī)定,這個規(guī)則既可以通過立法來解決,例如《著作權法實施條例》,也可以通過司法個案中對于“合理使用”規(guī)則的解釋和適用來確立。
其中一種類型化的解決思路是通過基于獲取訓練數(shù)據(jù)的不同交易成本來區(qū)分,當交易成本過高導致市場失靈的時候,例如,對于過于分散的個體作為著作權人的情形,分別獲取授權的成本高于單個作品納入訓練數(shù)據(jù)可能帶來的價值,則應當適用“合理使用”來解決交易成本過高的問題。這也是“合理使用”制度設立在經(jīng)濟學上的重要理論基礎。
另外一種類型化的解決思路,是在“合理使用”規(guī)則適用中確立對應的要素和規(guī)則,比如,特定的目的、特定的使用方式、特定的利益權衡,來界定出免責的特定領域。這實際上也是遵循“合理使用”規(guī)則的模式。
不過,這種類型化、差異化的規(guī)則也會帶來比較高的適用成本。對于人工智能產(chǎn)業(yè)來說,區(qū)分交易成本也好,識別特定目的和利益關系也好,都面臨著較高的事先識別的制度成本。過于細分的規(guī)則,會導致不同領域和場景的成本差異,進而引導資源在不同場景下進行選擇性、傾斜性分配。實際上,這相當于通過著作權法規(guī)則的選擇,來局部確立人工智能不同領域發(fā)展的激勵優(yōu)先程度。而這個決策很可能不是在人工智能技術和應用發(fā)展的早期階段,決策者有充分的信息和能力去作出最優(yōu)決定的。因此,在我看來,直接將數(shù)據(jù)訓練行為排除出著作權的權能,無須通過“合理使用”或者其他途徑進行類型化的規(guī)則建構,建立清晰、明確的產(chǎn)業(yè)預期,是目前階段較為明智的選擇方案。
鄭瑋:在評估著作權侵權問題時,訓練數(shù)據(jù)與生成結果之間的重合度、近似度、相關度作為顯性特征至關重要。然而,由于生成結果的應用領域各異,對二者差異度的要求不可避免地存在差別,這實質(zhì)上反映了不同領域、行業(yè)、目的對大模型“幻覺”容忍度或偏好性的不同。一方面,我們依賴大模型生成的概率模式,以產(chǎn)生更為豐富的內(nèi)容;另一方面,在特定場景下,我們需對大模型的“想象力”加以調(diào)控,防止過度偏離預期。例如,在醫(yī)學、法律、金融等行業(yè)應用中,對生成結果的精確度有更高要求。因此,大多數(shù)行業(yè)內(nèi)的人工智能應用會在生成結果時設置諸多約束條件,以避免大模型“幻覺”產(chǎn)生誤導性結果。然而,在寫作、繪畫、音樂等創(chuàng)造性較強的領域,則需要更大的發(fā)散空間,以輔助用戶創(chuàng)作,同時避免與訓練數(shù)據(jù)過度相似。因此,在具體案件中進行侵權認定時,應充分考慮具體的使用場景、行業(yè)、領域、目的等因素,特別是以下差異點:
(1)該領域訓練數(shù)據(jù)的總量。訓練數(shù)據(jù)總量越豐富,生成結果對單一訓練數(shù)據(jù)的依賴度則越低。反之,在細分領域,為確保結果的準確性,對特定數(shù)據(jù)的引用可能性則越高。
(2)該領域優(yōu)質(zhì)訓練數(shù)據(jù)的數(shù)量。在專業(yè)、細分領域,由于專業(yè)壁壘較高,優(yōu)質(zhì)、可信數(shù)據(jù)的總量相對較少,但生成內(nèi)容對此類數(shù)據(jù)的依賴度更高。同時,這些高質(zhì)量數(shù)據(jù)所承載的智力成果亦更具保護價值。
(3)該領域的行業(yè)特征。例如,音樂、繪畫等行業(yè)更注重創(chuàng)造性和多樣性,而新聞寫作、代碼生成等行業(yè)則更強調(diào)確定性和嚴謹性。教育行業(yè)的數(shù)據(jù)共享氛圍較濃,但醫(yī)療、金融、安全等行業(yè)對數(shù)據(jù)保護的需求更為迫切。
(4)該領域的使用目的中的即時商業(yè)屬性。雖然大部分人工智能具有商業(yè)屬性,但在侵權責任認定時,應區(qū)分即時的商業(yè)應用與非即時的商業(yè)應用,即判斷該人工智能對語料的使用是否為應用者帶來直接利益(不僅限于直接收入)。在機器人訓練、生物科學等領域的科研性質(zhì)應用中,認定“合理使用”的可能性較大;而在面向消費者的應用中,無論收費與否,其即時商業(yè)屬性更為顯著,對侵權的認定責任也相應加大。
4
王立梅:語料庫本身既可以給生成式模型做訓練,也可以給非生成式模型(判別式模型)做訓練,結合兩類模型的不同特點和風險,可否適用不同規(guī)則?
劉曉春:這里要注意區(qū)分語料庫建設和提供行為,以及模型數(shù)據(jù)訓練行為。
我們談不構成侵權的時候,主要談的是模型數(shù)據(jù)訓練行為,當然,這一過程可能包括為了數(shù)據(jù)訓練而自行收集語料建成語料庫,這一行為可以認為能夠被數(shù)據(jù)訓練行為所吸收。數(shù)據(jù)訓練行為如果能夠滿足非特定性、過程性這些“非作品性使用”的特征,那么不管是生成式模型還是判別式模型,都應當認定為不構成侵權。實際上,在模型數(shù)據(jù)訓練過程中,有可能涉及對于特定作品使用的情形,例如,專為模仿某個特定作者作品風格而訓練的行為,此時如果能夠證明模型數(shù)據(jù)訓練是針對特定作品使用的,依然有可能構成“作品性使用”而需要獲得著作權人授權。在這個意義上,區(qū)分是否構成侵權,可能不是根據(jù)模型本身的技術特征,而是根據(jù)模型數(shù)據(jù)訓練中使用作品行為的特征來區(qū)分適用不同規(guī)則。
對于語料庫建設和提供行為,如果是獨立進行的,由于這涉及一個包含作品的數(shù)據(jù)庫的建設和提供,涉及復制、發(fā)行、信息網(wǎng)絡傳播等行為,目前看比較難以通過建立一個著作權法上的例外制度對其進行免責。在這個意義上,語料庫的建設和提供,還是一個需要經(jīng)過著作權人授權的行為。著作權人通常主張的利益補償和參與分配,可以通過對于語料庫建設行業(yè)的授權來實現(xiàn)。
鄭瑋:生成式模型與判別式模型在訓練數(shù)據(jù)的需求上存在一定差異。生成式模型側(cè)重于通過廣泛而大量的訓練數(shù)據(jù)來捕捉數(shù)據(jù)的潛在模式和統(tǒng)計特性,這要求數(shù)據(jù)具有高度的多樣性和廣泛的分布,以支持生成各種可能的場景。而判別式模型則更加依賴于已標注的數(shù)據(jù),對數(shù)據(jù)的質(zhì)量和標注的準確性有更高的要求,其目標是準確地區(qū)分和判斷數(shù)據(jù)。
鑒于這二者的區(qū)別,它們在處理訓練數(shù)據(jù)語料庫時也有不同的要求。對于生成式模型,由于它能夠生成新的數(shù)據(jù),因此需要特別關注新生成的數(shù)據(jù)與訓練數(shù)據(jù)之間的權利沖突問題。盡管生成的內(nèi)容可能難以與原數(shù)據(jù)進行直接比對,但仍需通過技術手段進行監(jiān)控和評估,以確保不侵犯任何原始數(shù)據(jù)的權利。
相比之下,判別式模型在訓練過程中主要在模型內(nèi)部處理數(shù)據(jù),不會生成新的內(nèi)容,因此不太可能引發(fā)與原權利的沖突。然而,這并不意味著判別式模型可以忽視數(shù)據(jù)權利問題。用于訓練判別式模型的數(shù)據(jù)同樣需要經(jīng)過嚴格的清洗和標注過程,以確保數(shù)據(jù)的合法性和準確性。此外,這些數(shù)據(jù)的加工過程也可能涉及數(shù)據(jù)加工者的智慧和勞動,因此在處理數(shù)據(jù)權利問題時需要給予充分的考慮。
總體而言,生成式模型在侵權注意義務和侵權責任后果方面通常面臨更高的要求。但需要注意的是,現(xiàn)有大模型產(chǎn)品基本采取多種、多個大模型協(xié)同調(diào)度的模式,其中既包含判別式模型(用于識別問題、分析數(shù)據(jù)等),也包含生成式模型(用于結果生成等),還可能包含知識圖譜、多模態(tài)模型等其他類型的模型。不同模型在訓練的過程中可能共享部分數(shù)據(jù),而在最終結果的生成過程中發(fā)揮各自作用。因此,實踐中很難對生成式和判別式模型制定單獨的侵權處理規(guī)則。
5
王立梅:具體到生成式模型項下,是否應區(qū)分模型訓練和模型推理(生成)環(huán)節(jié)討論?如果區(qū)分的話,模型訓練環(huán)節(jié)對語料庫中版權作品的使用行為涉及著作權下的哪種專有權利?復制權還是其他?
陶乾:就語料庫建設而言,當語料庫以商品的形式,在語料庫提供者與模型開發(fā)者之間進行交易時,該商品將被用于何種模型,這并非侵權判定的考量因素。就模型訓練而言,無論是生成式模型還是非生成式模型,機器學習的是數(shù)據(jù)中的文字、音符、色彩等表達符號之間的規(guī)律,而非使用表達本身。也就是說,模型使用的是作為載體的“訓練數(shù)據(jù)”,而不是載體上所承載的“作品”,這是一種“非表達性使用”。所以,模型訓練環(huán)節(jié)對語料庫中版權作品的使用行為不屬于著作權法意義上的作品使用行為,不落入著作權人的權利邊界之中,自然無須再去判斷使用目的和使用結果了。就模型生成而言,其是否構成著作權侵權,則通過生成結果與權利作品的相似性比對進行判斷。
劉曉春:模型訓練環(huán)節(jié)涉及的是對作品作為訓練數(shù)據(jù)的使用,即機器學習的過程,屬于模型能力形成的過程。模型推理環(huán)節(jié),通常是直接生成相關內(nèi)容,即使有對作品的使用,也不是訓練和學習意義上的使用,是模型能力的應用。這兩個環(huán)節(jié)對于作品的使用行為屬性有所不同,法律上的定性也有不同,因此有必要分開討論。
在模型訓練環(huán)節(jié),基于transformer架構的機器學習,體現(xiàn)出“非特定性”特征。傳統(tǒng)著作權法下對于作品的使用,基本體現(xiàn)了“特定性”和“表達性”這兩個特征,亦即通過對于特定作品個性化表達的復制或分析來實現(xiàn)對于作品的使用。在生成式人工智能模型訓練中,作品被作為訓練數(shù)據(jù)的使用方式,完全打破了這兩個特征,體現(xiàn)出鮮明的“非特定性”。大模型應用深度神經(jīng)網(wǎng)絡的數(shù)據(jù)訓練過程中,既不關心作品的特定表達,也不關心作品通過表達所傳遞的特定信息或者思想,而是將作品的表達全面打碎之后,從中計算和分析人類語言的規(guī)律,基于深度神經(jīng)網(wǎng)絡的參數(shù)分析,依據(jù)給定的輸入上文,判斷接下來每個詞的出現(xiàn)和語序概率。
在這個過程中,作品被打碎和分解為碎片化的“語料”,不再是獨立使用的對象,即使勉強認為對于語言規(guī)律的分析和計算,需要依據(jù)語詞的具體呈現(xiàn)方式,但這種碎片化的“表達”已完全不是作者創(chuàng)作作品過程中的獨創(chuàng)性表達。在總結人類語言規(guī)律的巨量分析和計算過程中,單個作品提供的價值并非獨立的整體表達及其蘊含的信息和思想,而是運用語言規(guī)律的隨機統(tǒng)計樣本。在這種使用過程中,作品不具有獨立價值,因為人工智能提煉和總結的語言規(guī)律,既不來自特定作者及其作品,也不來自特定的作品組合,單個作品在數(shù)據(jù)訓練中存在高度的可替代性。在人類歷史數(shù)據(jù)可能被耗盡的擔憂之下,大模型開始使用人工智能生成的內(nèi)容繼續(xù)進行數(shù)據(jù)訓練,就是這種高度可替代性的明顯例證。由此,我認為,作為“非作品性使用”的數(shù)據(jù)訓練行為,應當排除出復制權保護的范圍。
在模型推理或生成環(huán)節(jié),涉及的糾紛主要是輸出的生成物是否構成對于在先作品的侵權。此時需要比對生成物與在先作品之間的關系是否構成實質(zhì)性相似。這與訓練數(shù)據(jù)的作品使用行為是兩個截然不同的問題,訓練數(shù)據(jù)過程中并不涉及輸出相同或類似內(nèi)容的問題。
鄭瑋:的確,模型訓練和模型推理是兩個獨立且不同的階段,在涉及版權作品時,所涵蓋的法律問題和著作權考量點存在顯著區(qū)別。
在模型訓練階段,模型會讀取、處理并存儲版權作品的部分或全部內(nèi)容作為學習的基礎。盡管最終模型并不直接輸出原始作品的副本,但作品的數(shù)據(jù)形式在內(nèi)部學習和處理過程中會被模型所處理和記錄。一些學者嘗試通過“臨時復制”的概念,從是否“存儲”副本的角度進行區(qū)分,以避免被認定為侵權行為。然而,我更傾向于從模型學習與“復制權”中對完整性的不同要求,以及模型訓練的內(nèi)部性角度,來劃定是否構成侵權。
在模型推理或生成階段,生成式模型根據(jù)用戶輸入或隨機種子生成新的內(nèi)容。這些新內(nèi)容可能具備原創(chuàng)性,也可能帶有訓練數(shù)據(jù)的風格或特征。若生成的內(nèi)容具有足夠的原創(chuàng)性,理論上可以構成新的受著作權法保護的作品。若生成的內(nèi)容過于接近或?qū)嵸|(zhì)上復制了訓練數(shù)據(jù)中的版權作品,則可能觸發(fā)對原作品保護作品完整權、改編權、匯編權、翻譯權的探討。
此外,當生成物被公開展示、傳播、分發(fā)或商業(yè)化使用時,還可能涉及原作品的發(fā)行權、展覽權、信息網(wǎng)絡傳播權。隨著多模態(tài)技術的進步,生成式模型能夠衍生出新型作品,如文生聲音、文生圖、文生視頻等,這些新型作品可能進一步涉及表演權、攝制權、改編權等其他著作權問題。
6
王立梅:基于上述討論,語料庫的運營者在訓練數(shù)據(jù)侵權中可能的責任定位是什么?是否有符合產(chǎn)業(yè)發(fā)展需求、技術現(xiàn)實的合理免責方案?
鄭瑋:語料庫的構建涉及語料的匯集、授權、購買、篩選及加工等環(huán)節(jié),旨在實現(xiàn)對大模型訓練語料的集中管理。這一過程不僅在大模型運營方與版權方之間建立了權利隔離機制,更確保了語料庫在版權管理上的首要地位。通過標準化的法律和技術處理,語料庫能夠批量獲取有效授權或原始權利,從而有效避免侵權風險。對于使用語料庫的大模型企業(yè)及應用層企業(yè)而言,它們能夠通過調(diào)用語料庫的方式,規(guī)避與原始版權方的直接權利沖突。因此,語料庫的建設不僅服務于商業(yè)目的,更承載了為人工智能行業(yè)及相關產(chǎn)業(yè)提供基礎設施的公共利益屬性。
鑒于語料庫的這一特性,其運營方需承擔語料、素材的版權合規(guī)責任,確保使用方能夠“版權清潔”地調(diào)用語料進行訓練。然而,即便有此設計,訓練數(shù)據(jù)引發(fā)的侵權風險仍難以完全避免。在外部責任上,語料庫運營者與人工智能服務提供者應共同承擔責任,具體責任范圍取決于訓練數(shù)據(jù)在侵權行為中的影響程度。版權方有權向其中一方或多方主張權益。在內(nèi)部責任劃分上,則更多依賴于運營方與使用方的具體約定,包括責任范圍、責任限額及免責事由等。
除了版權問題,訓練數(shù)據(jù)還可能涉及人格權(如肖像、聲音等)、隱私權及個人數(shù)據(jù)引發(fā)的其他侵權風險。這些侵權事件的應對可參照版權責任承擔方式。
鑒于語料庫的基礎設施屬性及其可能引發(fā)的系列或批量侵權事件,現(xiàn)行規(guī)范對語料庫主體的明確認定顯得尤為重要。在此方面,歐盟《數(shù)字化單一市場版權指令》的“文本和數(shù)據(jù)挖掘例外”制度,以及美國法院在“谷歌和甲骨文案件”中,將機器閱讀排除在著作權法之外,放寬轉(zhuǎn)換性使用范圍,都是制度層面的創(chuàng)新規(guī)定。但在我國現(xiàn)行著作權法體系下,無論是“避風港規(guī)則”還是“合理使用”規(guī)定,都難以直接適用于語料庫和大模型企業(yè),因此,立法層面的與時俱進已經(jīng)勢在必行。
當前,國內(nèi)部分地方立法正大力推進“公共數(shù)據(jù)集”等語料庫的建設,將通用語料庫納入“公共數(shù)據(jù)”范疇,以開源或免費許可方式使用。這在一定程度上可以被視為非營利性使用,或成為語料庫免除侵權責任的基礎條件。然而,對于行業(yè)數(shù)據(jù)語料庫等運營者而言,其篩選、清洗語料數(shù)據(jù)的責任不容忽視。在發(fā)生侵權的情況下,這些運營者難辭其咎。因此,構建健全、合規(guī)的數(shù)據(jù)要素流通市場,采用嚴謹、科學的數(shù)據(jù)審計方法,以及合法購買或授權使用數(shù)據(jù)的方式,均為語料庫建設的重要前提。
王遷:糾紛的產(chǎn)生當然源于不同利益訴求之間的沖突。作者群體認為,未經(jīng)許可將其作品用于訓練人工智能,且在訓練完成之后商業(yè)性提供人工智能服務,使相關的研發(fā)者,特別是像微軟、谷歌和亞馬遜這樣的大型互聯(lián)網(wǎng)公司獲取巨額利潤,對自己是極端不公平的:一方面,會使自己喪失本應獲得的許可費;另一方面,剝奪了自己拒絕使用其作品訓練人工智能的機會。特別是考慮到使用高質(zhì)量作品訓練出的人工智能同樣可以生成高質(zhì)量的內(nèi)容,從而在相當程度上替代對人類作者作品的需求(需要注意的是,這并不屬于著作權法意義上的實質(zhì)性替代),由此威脅到相當一部分作者的生計,作者群體對這種不公平性的強烈感受是完全可以理解的。
人工智能的研發(fā)者也有自己的利益訴求。他們希望以盡可能便捷的方式和較低的成本利用海量作品訓練人工智能,以使人工智能生成的內(nèi)容質(zhì)量越來越高、越來越能滿足人們的需求。與此同時,雖然市場對人工智能的未來發(fā)展充滿了期待,與人工智能概念有關的股票價格也一直在上漲,但基于研發(fā)和訓練人工智能所需要的巨大投入,人工智能研發(fā)者要通過大規(guī)模地提供有償服務收回成本、實現(xiàn)盈利,可能還尚需時日。對于作者群體的訴求,人工智能的研發(fā)者既擔心如果允許作者們拒絕利用其作品訓練人工智能,人工智能生成的內(nèi)容在質(zhì)量上無法得到保證,也對隨時可能發(fā)生的侵權糾紛深感憂慮。如果研發(fā)者向某些特定的作者獲得了許可、支付了許可費,是否會引發(fā)更多的作者要求獲得許可和支付許可費呢?這除了會帶來訓練成本上升,可能更嚴重的問題在于人工智能的研發(fā)者即使愿意經(jīng)過許可和支付許可費,也難以找到能夠代表所有作者的集體管理組織或公會來協(xié)商許可條件和許可費。這同樣是可以理解的商業(yè)風險和運營成本。
如果對人工智能的訓練僅涉及作品的“臨時復制”,那么在我國目前尚無將該行為定性為侵犯著作權的法律依據(jù)。當然,這僅僅是針對“訓練”而言的,如果人工智能生成的內(nèi)容與他人在先作品實質(zhì)性相似,則無論訓練階段是僅涉及“臨時復制”還是實施了建立作品數(shù)據(jù)庫、存儲作品的復制行為,人工智能的研發(fā)者都可能承擔侵權責任。與之相反,如果為了訓練人工智能而建立了作品素材庫,則該行為無疑屬于受復制權規(guī)制的復制行為。對該行為是有可能依據(jù)司法政策將其認定為“合理使用”的。
對于使用作品訓練人工智能行為的定性,需要考慮我國的國情。目前,世界各國都在討論這一問題。如果歐美國家的立法或司法判例最終確認,為訓練人工智能而使用作品需要經(jīng)過權利人的許可和支付許可費,這一要求在歐美國家具有實現(xiàn)的可能性。例如,歐盟的集體管理比較發(fā)達,每個領域如文字作品、音樂作品等都有比較成熟的集體管理機制,而且大量本領域的作者都已經(jīng)加入了相關的集體管理組織,當人工智能的研發(fā)者需要利用某一領域的作品訓練人工智能時,可以從集體管理組織獲得許可。美國的集體管理(只對音樂作品有集體管理)雖不如歐盟國家發(fā)達,但是美國傳統(tǒng)上有比較成熟的集體談判機制。比如,編劇公會就能代表編劇們與好萊塢談判,協(xié)商編劇的報酬和分成,也相當于發(fā)揮了集體管理的作用。而我國集體管理起步較晚,尚未達到成熟的程度,有大量相關領域作品的作者和其他權利人都沒有加入集體管理組織,導致集體管理組織的代表性并不夠強。至于美術作品則根本就不存在集體管理組織。同時,我國也缺乏集體談判機制。即使我國把訓練人工智能時對海量作品的復制認定為需要經(jīng)許可才能實施的行為,否則構成侵權,人工智能的研發(fā)者也很難獲取海量作品的許可。在無法獲得許可的情況下,如果為了避免侵權,只能使用數(shù)量極其有限的、經(jīng)過許可的作品,而不是使用海量作品訓練人工智能,不僅會影響我國生成式人工智能技術的發(fā)展,也會因可供訓練的作品素材過少而降低人工智能生成的內(nèi)容的質(zhì)量,導致愿意使用國產(chǎn)生成式人工智能的用戶數(shù)量下降。
在人工智能技術與應用的不同階段、不同時期,應當有與當時的社會經(jīng)濟條件和國情相適應的政策。在目前國際間激烈的技術競爭格局下,促進我國生成式人工智能技術的發(fā)展、縮小與發(fā)達國家之間的差距應當成為首要的政策目標。為此,在人工智能算法設計本身合理、確保生成式人工智能生成的內(nèi)容不會常態(tài)化地與在先作品實質(zhì)性相似的前提下,在現(xiàn)階段允許使用作品訓練人工智能似乎是較為合適的政策選擇。
陶乾:司法實踐中,基于比例原則與公共利益考量的“停止侵權的例外”規(guī)則,是相對來說可行和合理的解決通用語料庫版權合規(guī)問題的方案?;谕ㄓ谜Z料庫對于基礎模型訓練的重要性,有必要降低版權合規(guī)要求,處理好數(shù)據(jù)權益保護與促進數(shù)據(jù)要素流通的關系、激勵人類創(chuàng)作與促進科技創(chuàng)新的關系、保護著作權與促進作品利用的關系、保護人工智能產(chǎn)出質(zhì)量與促進內(nèi)容多樣性的關系。
區(qū)別于通用語料庫,對于專門語料庫而言,當下通過司法的價值引領、未來通過制度的創(chuàng)設來推動著作權人群體與語料庫產(chǎn)業(yè)達成合作是非常重要的。在個案中,以判決支付許可費來代替判決停止侵權、基于單一作品對整個語料庫的價值貢獻輕微而判定支付較低的損害賠償金額來降低著作權人的過高期待,這均是化解矛盾、引導雙方達成合理的許可關系的舉措。
7
王立梅:涉及人工智能的訴訟一直備受關注,在訓練數(shù)據(jù)知識產(chǎn)權侵權案件中,造成糾紛的主要原因有哪些?語料庫的建設應如何化解相關矛盾?
陶乾:訓練數(shù)據(jù)知識產(chǎn)權侵權案件,可以分為四類。第一類是語料庫創(chuàng)建者與著作權人因?qū)⒆髌窂椭七M語料庫產(chǎn)生糾紛;第二類是模型開發(fā)者與語料庫創(chuàng)建者因未經(jīng)授權的語料庫使用產(chǎn)生糾紛;第三類是模型開發(fā)者與著作權人因使用作品進行訓練產(chǎn)生糾紛;第四類是語料庫創(chuàng)建者與數(shù)據(jù)持有平臺因未經(jīng)許可的數(shù)據(jù)抓取產(chǎn)生糾紛。前三類適用著作權法規(guī)則來判斷,第四類屬于反不正當競爭法的規(guī)制范疇。
造成糾紛的原因主要有:行為定性不清、溝通機制欠缺、許可路徑不暢。為避免糾紛產(chǎn)生,語料庫創(chuàng)建者需要注意數(shù)據(jù)來源的合規(guī),不得抓取設置了技術保護措施的網(wǎng)絡數(shù)據(jù);在采買數(shù)據(jù)時亦應要求數(shù)據(jù)提供方保證其數(shù)據(jù)中的作品有合法授權;在創(chuàng)建專門語料庫時,有著作權保護意識,積極獲得著作權人許可。
劉曉春:生成式人工智能在其開發(fā)和使用階段,都可能涉及著作權問題。其中,使用生成式人工智能工具輸出的內(nèi)容,面臨兩個著作權爭議問題:一是確權問題,即人工智能生成物是否可獲得著作權保護的問題;二是侵權認定問題,即如果人工智能生成物構成與在先作品相同或者實質(zhì)性相似,應當如何認定其侵權責任以及由誰來承擔責任。關于這兩個問題都已經(jīng)出現(xiàn)了司法案例和理論探討。而訓練數(shù)據(jù)中使用作品的合法性問題,則屬于生成式人工智能開發(fā)階段的問題,即在訓練數(shù)據(jù)中使用作品,是否落入著作權人權利范圍,是否需要事先獲得著作權人的許可。
生成式人工智能帶來巨大產(chǎn)業(yè)發(fā)展前景的同時,也令著作權人群體感受到對前景的擔憂。2023年12月,《紐約時報》以著作權侵權起訴微軟和OpenAI,主張ChatGPT訓練數(shù)據(jù)中使用其作品的行為構成侵權。OpenAI在其公開回應中反駁了這一主張,認為數(shù)據(jù)訓練行為構成美國法下的“合理使用”。這一糾紛將訓練數(shù)據(jù)在著作權法下的合法性問題推到全球關注的焦點。2024年3月,法國競爭管理局宣布對谷歌處以2.5億歐元罰款,原因是谷歌的人工智能服務對受著作權法保護內(nèi)容的使用未能按其承諾與權利人進行談判并支付費用。這些事件體現(xiàn)了世界范圍內(nèi)利益各方對訓練數(shù)據(jù)著作權法定位和規(guī)則的訴求與博弈。
造成這些糾紛的主要原因,一是法律上相應的規(guī)則尚未明確,亦未達成共識,例如,“復制權”概念是否適用于訓練數(shù)據(jù)過程中的復制行為,“合理使用”規(guī)則在訓練數(shù)據(jù)場景下如何認定,是否需要設立新型的豁免規(guī)則等;二是生成式人工智能產(chǎn)業(yè)的迅猛發(fā)展,使得大量的創(chuàng)作者面臨被人工智能生成物替代的挑戰(zhàn)和擔憂,而這一現(xiàn)象又是機器使用了海量人類作品進行訓練導致的結果,使得作者群體產(chǎn)生一種樸素的不公平感,因而出現(xiàn)進行相應補償?shù)膹娏以V求。
化解矛盾主要需要通過法律規(guī)則的明確來實現(xiàn)。語料庫的建設本身,如果構成獨立商業(yè)行為,也需要獲得著作權的授權,就這一產(chǎn)業(yè)發(fā)展而言,一定程度上可以對著作權人的利益進行補償。
鄭瑋:在現(xiàn)有的國內(nèi)外案例中,關于訓練數(shù)據(jù)知識產(chǎn)權侵權的問題,侵權的主要表現(xiàn)形式體現(xiàn)在生成物與版權數(shù)據(jù)之間存在顯著的相關性。例如,生成的圖片局部與版權作品特征高度吻合,這引發(fā)了對于大模型在訓練過程中是否未經(jīng)許可使用了版權作品作為訓練數(shù)據(jù)的猜測。此外,即便在提示詞未明確錄入作品內(nèi)容的情況下,大模型仍能生成某些版權作品的摘要,這進一步引發(fā)了對于大模型訓練中是否使用了版權作品內(nèi)容的疑慮。此類糾紛的核心爭議點包括:版權作品是否被實際用作訓練數(shù)據(jù);生成的內(nèi)容是否具備作品的屬性;生成的內(nèi)容是否構成對版權作品的侵權行為。這些爭議的產(chǎn)生,主要源于大模型企業(yè)或語料庫在數(shù)據(jù)授權模式上的合規(guī)性不足,導致難以提供充分的證據(jù)來證明其已獲得了版權作品的有效授權。
同時,此類案件反映出在大模型侵權糾紛領域的兩個顯著問題:一是訴爭侵權行為本身存在認定困難。由于大模型的原理,一般情況下不會大范圍、大比例、高精度使用單一訓練數(shù)據(jù),因此,生成結果僅有局部相似或者片段相似,對于“作品”的完整性認定、復制權與改編權之爭,以及“合理使用”中的“適當引用”規(guī)則理解,均存在討論空間。二是限于技術和舉證能力問題,版權方無法對所主張“訓練數(shù)據(jù)侵權”直接舉證,僅能從結果來推測、推定侵權行為的存在。而大模型及語料庫則需承擔“不存在侵權”的消極證明責任,考慮到大模型復現(xiàn)的難度,此種證明也難以實現(xiàn)。
語料庫的建設中,若想避免或化解此類矛盾,需要對語料庫數(shù)據(jù)的授權路徑合規(guī)性進行更嚴格的規(guī)范:對于通過購買第三方數(shù)據(jù)商獲得的數(shù)據(jù),應有效審查其上游數(shù)據(jù)來源及合規(guī)性鏈條,不應僅以合同相對性及單方承諾等理由來逃避合規(guī)性審查義務;對于可能涉及個人數(shù)據(jù)、用戶數(shù)據(jù)的數(shù)據(jù)內(nèi)容,應要求審查相關應用的用戶協(xié)議、授權許可協(xié)議等,確保不會對個人隱私、個人信息等數(shù)據(jù)安全造成侵害;對于來源不明、授權路徑不清的數(shù)據(jù),應盡量避免入庫,或者通過技術手段進行有效脫敏,以明顯區(qū)別于原始數(shù)據(jù),避免被潛在版權方溯源追責;建立有效的風險應對機制,一旦發(fā)生版權方投訴、訴訟等追責行動,應采取及時核查、快速反饋、即時刪除、通知相關利益主體、有效存證、責任溯源等一系列有效應對措施;積極配合人工智能服務提供者等終端內(nèi)容生產(chǎn)者應對糾紛,確認責任主體及責任范圍,并采取有效措施減輕侵權損害程度,避免同類型侵權再次發(fā)生。
8
王立梅:最后,希望各位專家談談對語料庫建設的未來展望,語料提供者、著作權權利人、著作權集體管理者、語料庫運營者、語料使用者等之間的法律關系應當如何?各方是否參加人工智能產(chǎn)業(yè)的收益分配?各方又以何種方式相互約束?
陶乾:語料的本質(zhì)是數(shù)據(jù),數(shù)據(jù)與作品是形式與內(nèi)容的關系。著作權人與語料提供者之間,前者享有的是著作權,后者享有的是數(shù)據(jù)權益;語料庫運營者從語料提供者處獲得語料,二者之間形成數(shù)據(jù)交易關系,語料庫運營者基于其在語料采集、整理上的獨創(chuàng)性而享有數(shù)據(jù)庫匯編作品著作權。語料庫運營者與語料庫使用者在一些情況下是同一主體,在另一些情況下,二者之間形成圍繞語料庫的交易關系,使用者從運營者處采購語料庫用于模型訓練。該交易可以是許可或轉(zhuǎn)讓。著作權集體管理組織與著作權人之間是一種信托關系,著作權人將其部分或全部著作財產(chǎn)權自愿授權著作權集體管理組織以自己名義進行對外許可和維權。
從預防和解決糾紛的角度,將著作權合規(guī)義務置于語料庫運營者而非模型開發(fā)者更有利于糾紛的溯源。較為理想的狀態(tài)是,在區(qū)分不同類型語料庫的前提下,建立起著作權人與語料庫運營者之間的溝通機制,對于專門語料庫復制和匯編作品的情形,能夠通過著作權集體管理組織建立有效的著作權許可機制。有觀點提議設立法定許可,即允許語料庫運營者不經(jīng)著作權人許可使用其作品,但應向著作權人支付相應報酬。域外也有學者提議設立“人工智能補償金”,以期著作權人能夠參與相關產(chǎn)業(yè)收益的分配,由生成式人工智能服務的使用者向集體管理組織交付這筆費用,用以補償著作權人在人工智能時代遭受的沖擊。但是,人工智能產(chǎn)業(yè)的發(fā)展有賴于海量語料,這些語料中所承載的作品的獨創(chuàng)性高低參差不齊,如何設定許可費價格并且能夠公平地在不同的著作權人之間進行分配,將會成為著作權集體管理組織非常棘手的事情。而且,上述理想的狀態(tài),需要非常成熟、被著作權人廣泛接受的著作權集體管理機制作為支撐。在我國,著作權集體管理組織所管理的作品數(shù)量較為有限,尚不足以為語料庫使用作品的付酬提供強有力的支撐。
人工智能產(chǎn)業(yè)鏈中有多個主體,涉及不同的市場經(jīng)營者。人工智能產(chǎn)業(yè)的收益屬于內(nèi)容輸出環(huán)節(jié)的收益,在語料庫建設環(huán)節(jié)和模型訓練環(huán)節(jié)之后,鑒于這三個環(huán)節(jié)需要分別進行法律評價,故這三個環(huán)節(jié)的著作權問題需要分別討論。內(nèi)容輸出環(huán)節(jié)所產(chǎn)生的內(nèi)容本質(zhì)上屬于數(shù)據(jù)衍生品,其收益應當在模型開發(fā)者與模型使用者之間通過合意進行分配,而與模型訓練所使用的語料庫中的作品的著作權人無關。若內(nèi)容輸出環(huán)節(jié)所產(chǎn)生的內(nèi)容與著作權人的作品構成實質(zhì)性相似,經(jīng)傳播給著作權人帶來損害或者給使用人帶來收益,那么,著作權人有權主張損害賠償。
從未來制度構建的角度,為避免版權合規(guī)問題成為我國人工智能產(chǎn)業(yè)發(fā)展的障礙,有必要構建三個機制。
第一,對于專門數(shù)據(jù)庫以特定標準和規(guī)則來定向采集網(wǎng)絡中公開傳播的作品引發(fā)的復制權侵權和匯編權侵權,引入“文本與數(shù)據(jù)挖掘”例外制度,該制度可以置于《著作權法實施條例》或者專為人工智能領域制定的法律法規(guī)中。借鑒歐盟《人工智能法案》所采取的路徑,使用者出于文本和數(shù)據(jù)挖掘的目的,可以復制和摘錄作品或其他客體,但是著作權人有選擇退出權,可以采取“具有機器可讀性的聲明”來排除自己作品被用于模型訓練。但與歐盟做法不同的是,識別權利人聲明的義務應當前置給語料庫創(chuàng)建者,而非人工智能模型提供者。語料庫創(chuàng)建者在數(shù)據(jù)采集時應當采取技術手段來識別出哪些作品的著作權人或者其授權的主體通過設置反爬蟲協(xié)議、采取技術措施、設置訪問限制等屬于行業(yè)慣例的方式來反對其作品被收錄于語料庫中。而且,對于著作權人的選擇退出權,還需要進行適當限制,在適用場景、時間、對象、程序、方法等方面進行精細化的制度設計,以避免選擇退出權的廣泛行使阻礙人工智能產(chǎn)業(yè)發(fā)展,避免大量著作權侵權訴訟的產(chǎn)生。
第二,如果專門數(shù)據(jù)庫所采集的數(shù)據(jù)中包含了已經(jīng)發(fā)表但未在網(wǎng)絡中公開傳播的作品,那么,可以考慮引入“強制披露”和“事后許可”模式。一方面,要求語料庫創(chuàng)建者應當向指定管理部門提交透明度報告以說明其語料中包含的作品的信息,在特定情況下,該義務后置于模型開發(fā)者;另一方面,當指定管理部門公示該報告之后,著作權人可以自主決定是否允許其作品被收錄?!皬娭婆丁焙汀笆潞笤S可”的有效實施需要管理部門出具細則。目前我國一些省份實施的數(shù)據(jù)知識產(chǎn)權登記,能夠與“強制披露”進行機制銜接。歐盟《人工智能法案》要求人工智能模型提供者起草并公開其模型訓練所使用內(nèi)容的足夠詳細的摘要,美國國會2024年4月發(fā)布的眾議院“生成式人工智能披露法案”的提案也要求數(shù)據(jù)集創(chuàng)建者向美國版權辦公室作品注冊處披露其數(shù)據(jù)集中包含了哪些作品。
第三,設計作品開放許可機制。參考《專利法》的開放許可制度,允許特定類型的作品的著作權人向指定管理部門或者作品登記部門聲明愿意任何語料庫創(chuàng)建者使用其作品,并明確許可使用費支付方式和標準。管理部門予以公告,設置開放許可的作品的數(shù)據(jù)庫。與此同時,可以考慮逐步建立已過著作權保護期的公有領域作品語料數(shù)據(jù)庫。
劉曉春:語料庫建設相關主體可以分為三類:第一類是權利主體,即著作權權利人、經(jīng)過著作權人授權的著作權集體管理組織或其他獲得授權的主體;第二類是語料提供者和語料庫運營者,他們作為獨立主體,是涉作品數(shù)據(jù)庫的運營者;第三類是語料使用者,通常就是從事人工智能數(shù)據(jù)訓練的主體。其中,第二類主體對于涉及作品語料庫的建設和運營,需要獲得第一類主體的著作權授權,因為其行為涉及作品的復制、發(fā)行、信息網(wǎng)絡傳播等行為。而第三類主體的數(shù)據(jù)訓練行為則應當在著作權法上獲得免責的法律地位。具體理由前面已經(jīng)進行了論證。
面向未來,生成式人工智能正在并將繼續(xù)帶來內(nèi)容生產(chǎn)方式的變革,推動內(nèi)容生產(chǎn)組織形式的迭代,形成內(nèi)容生產(chǎn)領域人工智能驅(qū)動的新質(zhì)生產(chǎn)力。在新型生產(chǎn)力和生產(chǎn)關系的快速變化中,著作權的激勵結構也需要進行相應的調(diào)整,激勵的方向是促使內(nèi)容產(chǎn)業(yè)的參與者能夠加入人工智能驅(qū)動的新型生產(chǎn)模式中,促進高效的生產(chǎn)模式快速整合成形。
在這一過程中,假以時日,人類創(chuàng)作者和人工智能生產(chǎn)工具不會保持在早期簡單的利益對立和割裂狀態(tài),而是會迅速在人工智能新型生產(chǎn)組織模式中找到合適的生態(tài)位和參與方式。在平臺經(jīng)濟下,通過平臺組織的內(nèi)容生產(chǎn)過程中,大量個體創(chuàng)作者實際上并不總是需要著作權提供的創(chuàng)作激勵,他們通過流量變現(xiàn)、禮物經(jīng)濟等模式獲取激勵。同樣的道理,在人工智能驅(qū)動和整合的新型內(nèi)容生產(chǎn)模式下,個人創(chuàng)作者可以從人工智能工具能力增強中獲得收益,這類收益很有可能遠遠超過其作品對于數(shù)據(jù)訓練過程的邊際價值,因而不需要將其著作權延伸到數(shù)據(jù)訓練行為來補償。
對于擁有高質(zhì)量作品庫的商業(yè)權利人來說,比如,以《紐約時報》為代表的媒體、期刊、出版社、數(shù)據(jù)庫出版商,由于他們相對集中,更有可能克服過高的交易成本導致的市場失靈,提出相應的補償主張?;趯Ω哔|(zhì)量作品數(shù)據(jù)庫的控制優(yōu)勢,他們可以通過提供高質(zhì)量的合法訓練數(shù)據(jù)庫來參與人工智能生產(chǎn)過程的利益分配,基于數(shù)據(jù)收集、處理、加工等投入——而非基于著作權——獲取收益。因為,盡管數(shù)據(jù)訓練行為不應屬于著作權控制的范圍,但是向人工智能開發(fā)商提供作品數(shù)據(jù)庫,即語料庫,依然是著作權人可以禁止的行為。商業(yè)權利人在數(shù)據(jù)產(chǎn)品建設上存在質(zhì)量、成本以及合法性上的優(yōu)勢,可以通過成為優(yōu)質(zhì)的數(shù)據(jù)提供方,參與生產(chǎn)過程并獲得收益分配。
鄭瑋:正如之前所言,關于從版權作品到訓練語料的參與主體,可明確劃分為以下三種角色:原始權利人、數(shù)據(jù)流轉(zhuǎn)交易主體、數(shù)據(jù)使用者。這三者共同構成了產(chǎn)業(yè)鏈的上下游結構。原始權利人在生成數(shù)據(jù)后,通過合法授權方式,將數(shù)據(jù)交由流轉(zhuǎn)交易主體進入數(shù)據(jù)市場,進而形成如語料庫等數(shù)據(jù)集合。數(shù)據(jù)使用者則通過購買或授權等方式,最終獲得這些數(shù)據(jù)的使用權,用于大模型訓練和內(nèi)容生成等應用場景。在完善的數(shù)據(jù)流通交易機制下,各主體應在其交易環(huán)節(jié)中,通過市場化方式獲得相應收益,如著作權人的授權使用費、數(shù)據(jù)交易的差價收益、語料庫運營者的使用收費以及人工智能服務提供者對其用戶的收費等,從而確保產(chǎn)業(yè)鏈各環(huán)節(jié)利益的合理分配。
然而,當前的情況是,大型互聯(lián)網(wǎng)公司壟斷了大量由用戶生成的數(shù)據(jù)。一方面,他們利用壟斷地位,對其用戶即實際著作權權利人采取免費授權模式,導致權利人無法分享最終利益;另一方面,他們憑借特定數(shù)據(jù)的壟斷地位,不參與市場化的數(shù)據(jù)交易,而是通過單獨交易方式提高許可費定價?;诨ヂ?lián)網(wǎng)行業(yè)的數(shù)據(jù)市場和人工智能產(chǎn)業(yè)也因此受到一定限制。
為了應對這一現(xiàn)狀,從公共數(shù)據(jù)的角度出發(fā),構建語料庫或成為一種可行的反擊模式。對于用戶生成的數(shù)據(jù),可以考慮通過強制免費許可方式,授權給具有公共利益屬性的非營利性語料庫,以此打破移動互聯(lián)網(wǎng)時代“App內(nèi)數(shù)據(jù)在互聯(lián)網(wǎng)上不存在”的壁壘,使這些數(shù)據(jù)能夠發(fā)揮更大的價值。非營利性語料庫在人工智能時代,一定程度上承擔了著作權集體管理組織的相應功能。其針對人工智能企業(yè)的許可收費、維權收益等,應在有關部門和社會公眾的監(jiān)督及管理下,反哺于人工智能產(chǎn)業(yè)的發(fā)展,從而推動產(chǎn)業(yè)正向循環(huán)的形成。
王遷:對隨著技術進步和社會發(fā)展而產(chǎn)生的復雜問題,僅僅考慮現(xiàn)行法的規(guī)定往往是不夠的。政策制定者不能忽視作者們對這種使用其作品訓練人工智能公平性的質(zhì)疑,以及對人工智能生成的內(nèi)容可以在一定程度上取代人類作品(如前所述,并非著作權法意義上的“實質(zhì)性替代”)的擔憂。畢竟法律制度的設計應當回應每一個社會群體對公平分配利益的合理訴求。從長遠來看,完善集體管理機制,使得具有廣泛代表性的集體管理組織能夠代表各類作品的權利人與人工智能的研發(fā)者協(xié)商使用作品訓練人工智能的合約,當然是最佳的選擇。而在此之前,在條件成熟時,引入類似“私人復制補償金”的機制,使得被用于訓練素材的作品的作者們能夠獲得公平的補償,是政策制定者可以考慮的方案。
王立梅:高質(zhì)量中文語料庫的建設迫在眉睫又任重道遠,需要各方共同努力,讓我們一起期待與見證高質(zhì)量中文語料庫的誕生,希望能有效助力我國人工智能產(chǎn)業(yè)的發(fā)展。再次感謝各位專家的精彩發(fā)言!
[責任編輯" 邢峻彬]