人工智能時代數(shù)據(jù)挖掘的限制與例外

2024-08-23 00:00:00叢溢柯

科技創(chuàng)業(yè)月刊 2024年8期

摘要：在人工智能時代，數(shù)據(jù)挖掘技術已成為科技創(chuàng)新與經(jīng)濟文化生活領域的重要技術。中國現(xiàn)行著作權例外制度無法使數(shù)據(jù)挖掘脫離著作權侵權窠臼。借鑒域外立法與司法經(jīng)驗，構建數(shù)據(jù)挖掘例外制度，是我國創(chuàng)新發(fā)展的需要。以目的是否具有商業(yè)性進行區(qū)分，將非商業(yè)目的下的數(shù)據(jù)挖掘納入合理使用制度范疇，將商業(yè)目的下的數(shù)據(jù)挖掘納入法定許可制度范疇，實現(xiàn)權利人利益與社會公益的平衡。

關鍵詞：數(shù)據(jù)挖掘；例外制度；合理使用；法定許可；利益平衡

中圖分類號：F49;TP311.13

文獻標識碼：A

doi：10.3969/j.issn.1672-2272.202404153

Analysis of Limitations and Exceptions in Data Mining in the Era of Artificial Intelligence

Cong Yike

（School of Intellectual Property， East China University of Political Science and Law， Shanghai 200042，China）

Abstract： In the era of artificial intelligence， data mining has become an important technical tool in the field of scientific and technological innovation and economic and cultural life. The current copyright exception system in our country can not make data mining out of the pattern of copyright infringement. Learning from foreign legislative and judicial experience and building an exception system for data mining is the need of China’s innovative development. According to whether the purpose is commercial， data mining for non-commercial purposes is included in the scope of the fair use system， and data mining for commercial purposes is included in the scope of the statutory licensing system， so as to achieve the balance between the interests of right holders and social welfare.

Key Words：Data Mining;Exceptions;Fair Use;Statutory Permission; Balance of Interests

0 引言

人工智能時代，計算機信息技術迅速發(fā)展，數(shù)據(jù)呈指數(shù)級爆炸式增長。運用數(shù)據(jù)挖掘技術對海量數(shù)據(jù)信息進行規(guī)?；咝诰?、處理和分析成為科研活動、教學活動、商業(yè)活動等自然與人文社會科學各領域的迫切需求。但數(shù)據(jù)挖掘涉及對大量受著作權保護的數(shù)據(jù)內容的復制、使用，受到著作權法的限制。諸多國家已經(jīng)建立數(shù)據(jù)挖掘的例外制度，為我國相關制度的構建提供了借鑒。

1 數(shù)據(jù)挖掘在人工智能時代的應用

數(shù)據(jù)挖掘在國際著作權中表述為Text and Data Mining（簡稱TDM），譯作文本與數(shù)據(jù)挖掘。此處的數(shù)據(jù)不包含文本等文字信息在內的狹義數(shù)據(jù)，TDM則包含對文本的挖掘與文本信息外其他類型數(shù)據(jù)的挖掘。本文所討論的數(shù)據(jù)挖掘，數(shù)據(jù)采用廣義概念，包括文本在內的一切符號信息，與國際著作權中的TDM具有相同的含義。數(shù)據(jù)挖掘是一種通過對海量數(shù)據(jù)進行挖掘、分析后從中得出有價值信息與知識的計算機處理技術。2019年生效的《歐盟數(shù)字化單一市場版權指令》規(guī)定，數(shù)據(jù)挖掘是以獲取信息為目的，對數(shù)字格式的文本與數(shù)據(jù)采取的自動分析手段，獲取的信息包括但不限于模式、趨勢與相關關系等。因此，可以將數(shù)據(jù)挖掘劃分為以下3個階段：①數(shù)據(jù)準備階段，將作為挖掘對象的數(shù)據(jù)信息進行復制與抓取，這一步驟中數(shù)據(jù)信息被復制并存儲于網(wǎng)絡服務器中；②數(shù)據(jù)處理階段，將數(shù)據(jù)進行轉化并挖掘分析，數(shù)據(jù)轉化是指將數(shù)據(jù)準備階段獲取的數(shù)據(jù)信息轉化為計算機可以處理的結構化數(shù)據(jù)，挖掘分析是依靠計算機算法對經(jīng)過轉化的結構化數(shù)據(jù)進行歸類、比較與解析，并從中發(fā)現(xiàn)潛在的規(guī)律與信息，生成模型、趨勢、相關性等新知識；③結果輸出階段，通過可視化手段將之前過程中得到的挖掘結果進行呈現(xiàn)，數(shù)據(jù)挖掘對海量數(shù)據(jù)的復制、轉碼改變了只能抽取少量數(shù)據(jù)樣本進行樣本分析的研究方法，而是可以處理分析與研究問題相關的所有數(shù)據(jù)，能夠更加全面、透徹地把握龐雜數(shù)據(jù)之間的相關關系。

1.1 以機器學習改變傳統(tǒng)人工閱讀模式

數(shù)據(jù)挖掘作為一種新型研究工具，通過算法技術自動分析海量數(shù)據(jù)資料，得出相關規(guī)律、趨勢等新的知識與信息，節(jié)省了人力查閱海量數(shù)據(jù)資料的時間與精力。研究人員如果想查詢針對某一特定問題的所有資料，面對龐雜的專著與文獻，純粹依靠人工進行閱讀與分析需要耗費數(shù)年，研究效率極低。而運用數(shù)據(jù)挖掘技術，以“機器閱讀”取代傳統(tǒng)的“人工閱讀”，從海量的文獻數(shù)據(jù)中找到與研究活動聯(lián)系最密切的資料，再經(jīng)過聚類、分析篩選出相關核心信息。這樣不僅將人類閱讀時間減少80%，極大提升閱讀效率，還同時將數(shù)據(jù)管理效率提升了50%[1]。機器閱讀是機器學習的一項重要內容。以數(shù)據(jù)為基礎的機器學習是人工智能技術的核心，是現(xiàn)代人工智能技術中的重要方法。其技術內容是從觀測數(shù)據(jù)中尋找規(guī)律，同時利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進行預測[2]。數(shù)據(jù)挖掘技術是機器學習的基石，機器學習對數(shù)據(jù)潛在規(guī)律的發(fā)現(xiàn)與對未來趨勢的預測建立在計算機對海量數(shù)據(jù)挖掘與分析上。數(shù)據(jù)挖掘技術對機器學習乃至整體人工智能技術的發(fā)展具有重要推動作用。因此，數(shù)據(jù)挖掘是機器與深度學習的基石，利用計算機分析大量數(shù)據(jù)并使用認知技術來發(fā)展學習模式的能力是人工智能存在的基礎[3]。

1.2 應用于抗擊新冠肺炎疫情

2020年新冠肺炎疫情發(fā)生后，數(shù)據(jù)挖掘技術應用于疫情動態(tài)檢測、防控措施匹配等方面，為打贏抗疫之戰(zhàn)提供了重要保障。清華大學AMiner團隊在數(shù)據(jù)挖掘服務的基礎上研發(fā)上線“知識疫圖”系統(tǒng)，通過對繁雜的數(shù)據(jù)信息進行挖掘分析，梳理出疫情發(fā)展脈絡，讓公眾及時了解疫情動態(tài)、輔助公眾參透疫情惠民政策、密切關注疫情對公眾社交與心理的影響?！爸R疫圖”系統(tǒng)對專家、論文、媒體平臺訊息等數(shù)據(jù)進行挖掘，以時間軸的方式集中呈現(xiàn)了最新學術成果與疫情動態(tài)信息。除此之外，“知識疫圖”還收集、展示并持續(xù)更新疫情下，各級政府、組織、機構制定的惠民惠企政策信息，用戶可以通過地圖對各地的政策進行查詢和搜索，幫助群眾和企業(yè)了解疫情優(yōu)惠政策動向，合理安排調整生產(chǎn)生活。同時，“知識疫圖”通過采集微信等社交程序的數(shù)據(jù)研究用戶的在線社交行為，生成研究分析圖，并憑此分析結果指導協(xié)助有關部門對重點疫情地區(qū)群體進行心理疏導與行為干預，防止群眾因為疫情原因出現(xiàn)大規(guī)模心理問題與沖動行為[4]。

1.3 應用于數(shù)據(jù)新聞

數(shù)據(jù)新聞是人工智能時代高速發(fā)展的互聯(lián)網(wǎng)與大數(shù)據(jù)相結合的媒體融合背景下興起的新型新聞形式[5]。與傳統(tǒng)的新聞形式相比，面對突發(fā)新聞事件，數(shù)據(jù)新聞無需等待記者實地調研，而是能夠通過迅速整合與新聞相關的海量數(shù)據(jù)資源，豐富記者采集數(shù)據(jù)的渠道，提升效率。作為一種新的新聞表現(xiàn)形式，數(shù)據(jù)新聞依靠數(shù)據(jù)分析與計算機技術在新聞敘述中使用數(shù)據(jù)來呈現(xiàn)傳統(tǒng)新聞形式中用文字難以表述的內容；或通過數(shù)據(jù)分析問題，并對此進行挖掘最終獲得新聞[6]。由此可見數(shù)據(jù)新聞的生成離不開數(shù)據(jù)挖掘技術對數(shù)據(jù)的收集、挖掘與分析，數(shù)據(jù)挖掘是數(shù)據(jù)新聞的基礎。

1.4 應用于人工智能創(chuàng)作

人工智能創(chuàng)作是人工智能技術發(fā)展的產(chǎn)物。人工智能創(chuàng)作的過程是通過搜集、積累海量現(xiàn)有作品創(chuàng)建語料數(shù)據(jù)庫，繼而對該語料庫進行計算機處理與算法分析，最終機械式輸出成果[7]。數(shù)據(jù)挖掘技術應用于語料數(shù)據(jù)庫的生成與處理，海量搜尋并復制現(xiàn)有作品后對其進行轉換、分析、編排等處理并在結果輸出階段以人工智能所作新作品的形式展現(xiàn)數(shù)據(jù)挖掘結果。例如2022年問世的人工智能數(shù)字作畫便是將畫家或消費者的想法輸入電腦，計算機程序通過對海量的畫作進行分析、挖掘、篩選后挑選出與要求最相符的作品并在此基礎上進行二創(chuàng)[8]。

除上述領域外，數(shù)據(jù)挖掘技術在科學研究、商業(yè)決策、風險預測、投資金融等領域也擁有廣泛適用空間與諸多成功案例。面對海量數(shù)據(jù)，僅僅依靠人工處理不僅成本過于高昂且越發(fā)變得不可行，提升效率與減少耗費的需要客觀上促使數(shù)據(jù)挖掘成為必須實行的項目[9]。數(shù)據(jù)挖掘已經(jīng)成為現(xiàn)實普遍運用的技術手段，對我國經(jīng)濟社會發(fā)展起到了重要作用。

2 中國《著作權法》對數(shù)據(jù)挖掘的限制

數(shù)據(jù)挖掘技術對經(jīng)濟社會發(fā)展的意義日趨顯著，但是作為挖掘對象的數(shù)據(jù)信息屬于受著作權法保護的作品范疇，數(shù)據(jù)挖掘過程中涉及的復制、轉換等行為符合著作權法框架下著作權侵權行為認定。同時，我國著作權例外規(guī)則采用封閉式列舉，法定許可與合理使用的情形中不包含數(shù)據(jù)挖掘，現(xiàn)行著作權例外規(guī)則無法為數(shù)據(jù)挖掘提供豁免，使得數(shù)據(jù)挖掘在應用時陷入著作權侵權困境，阻礙數(shù)據(jù)挖掘技術的推進。

2.1 對海量數(shù)據(jù)的復制行為侵犯復制權

數(shù)據(jù)挖掘在最初的數(shù)據(jù)準備階段會對作為挖掘對象的數(shù)據(jù)材料進行大規(guī)模的復制，在服務器中形成相對穩(wěn)定的復制件。目前由于技術的限制，數(shù)據(jù)挖掘系統(tǒng)在對挖掘對象進行復制時無法清晰識別挖掘對象的權利狀態(tài)，即無法判定復制的對象是否是經(jīng)過權利人授權的客體。而挖掘對象的數(shù)量龐大且繁雜，因此大多數(shù)情況下的數(shù)據(jù)挖掘行為在未獲權利人許可的情況下便已實施海量復制，對挖掘對象權利人的復制權造成侵犯。

同時，數(shù)據(jù)挖掘系統(tǒng)對于挖掘對象的復制不能構成臨時復制。臨時復制指的是計算機運行所必須的系統(tǒng)軟件在計算機運行過程中自動進入計算機內存，從而在計算機內存中形成對軟件存儲信息的臨時存儲。一旦計算機關機或運行新的指令，內存中暫時儲存的信息就會消失[10]。歐盟《關于協(xié)調信息社會版權及相關權利的指令》第5條規(guī)定：一項短暫或附帶性的臨時復制行為，如果它是技術過程中不可或缺的必要組成部分，且惟一目的是使作品或其他客體在網(wǎng)絡中與第三方之間通過媒介進行傳輸或合法使用成為可能，且該行為沒有獨立的經(jīng)濟意義，該臨時復制行為不受復制權的控制。臨時復制行為的構成需滿足“時間上具有短暫性”與“復制行為不具有獨立經(jīng)濟意義”。時間上的短暫性要求計算機系統(tǒng)能夠自動消除所存儲的信息，這些隨著計算機的運行而自動生成于系統(tǒng)中的信息停留時間極為短暫，無法被計算機讀取與再現(xiàn)。但是在數(shù)據(jù)挖掘中，準備階段被固定于計算機服務器的數(shù)據(jù)信息是以穩(wěn)定形態(tài)存在的，已經(jīng)在本地計算機中形成了長久、穩(wěn)定的復制件，可以被計算機所讀取、再現(xiàn)。復制行為的獨立經(jīng)濟價值體現(xiàn)在著作權人通過向公眾提供該復制行為所形成的復制件，使作品流通并獲得經(jīng)濟報酬[11]。臨時復制中計算機系統(tǒng)里形成的短暫附帶性存儲，其存儲信息是伴隨計算機運行與瀏覽、傳輸?shù)倪^程而存在，不能脫離該行為過程被單獨傳播或利用。但數(shù)據(jù)挖掘準備階段形成的挖掘對象復制件是穩(wěn)定的存在于計算機系統(tǒng)中，并脫離系統(tǒng)運行過程而獨立存在，行為人能夠將此類復制件進行單獨的傳播與利用，因而數(shù)據(jù)挖掘準備階段的復制行為具有獨立經(jīng)濟意義，不能將其納入“臨時復制”的例外中。

2.2 對數(shù)據(jù)的轉換與處理侵犯改編權

數(shù)據(jù)挖掘過程中的數(shù)據(jù)處理階段涉及對數(shù)據(jù)的轉碼，將作為挖掘對象的數(shù)據(jù)信息轉化成可供計算機處理的結構化數(shù)據(jù)。在未獲授權情況下，這一行為會侵害權利人的改編權。轉碼行為改變了挖掘對象的表達方式，但并未改變數(shù)據(jù)的實質內容。著作權法上的改編權是指在保留原作品基本內容的情況下，改變作品表現(xiàn)形式、給作品增加新的獨創(chuàng)性表達從而創(chuàng)作出新作品的行為。因此，數(shù)據(jù)挖掘中的轉碼行為與著作權法上的改變行為，本質都是在保留原對象實質內容的前提下改變其表現(xiàn)形式最終形成新的對象，轉碼行為落入改編權規(guī)制的范圍。

2.3 現(xiàn)行著作權例外制度無法對數(shù)據(jù)挖掘提供適當豁免

著作權的例外制度包括合理使用制度與法定許可制度。現(xiàn)行著作權法明確規(guī)定法定許可僅適用于教科書編寫、報刊轉載、錄音制品制作與播放他人已發(fā)表作品，數(shù)據(jù)挖掘并無解釋適用的空間。

我國《著作權法》二十四條規(guī)定的合理使用制度，對于適用情形的規(guī)定留有解釋空間，從主體、使用數(shù)量與行為方式3個角度對數(shù)據(jù)挖掘技術進行分析，研究其能否落入合理使用制度的規(guī)制范疇。

2.3.1 主體不適合

我國《著作權法》二十四條第（一）項規(guī)定的“個人使用例外”的行為要件是為“個人”學習、研究或欣賞，使用他人已發(fā)表的作品。這里要求的行為主體是“個人”。數(shù)據(jù)挖掘作為一項以大數(shù)據(jù)為基礎的高新技術，無論是技術研發(fā)還是技術實施都需要投入大量成本，需要雄厚的物質與技術支撐，個人不具備這樣物質技術條件。因此，開展數(shù)據(jù)挖掘的主體通常是公司或機構而非個人。我國《著作權法》二十四條第（六）項規(guī)定的“教學科研例外”為了教學或科研目的而使用的主體是教學或科研人員。實踐中，數(shù)據(jù)挖掘行為的開展越來越多的采用科研機構與商業(yè)機構合作的模式，即公私合營的PPP（Public—Private—Partnership）模式，科研機構提供技術，商業(yè)機構提供資金支持。但《著作權法》第（六）項將使用主體框定在教學、科研人員中，當數(shù)據(jù)挖掘有商業(yè)機構參與其中時，便無法滿足該項合理使用條款的主體要求。

2.3.2 使用的數(shù)量不符合要求

我國《著作權法》二十四條第（一）項供個人學習研究的范疇下，除了滿足“個人使用”這個主體要件，還要求對作品使用的數(shù)量是“少量”，大量復制并使用作品的行為仍不屬于合理使用的范疇。此外，《著作權法》二十四條第（六）項規(guī)定為了教學或科研目的“少量復制”已發(fā)表作品，也是將數(shù)量限定在“少量”之范圍內。但數(shù)據(jù)挖掘在前期的數(shù)據(jù)處理階段需要復制海量作品，對海量作品數(shù)據(jù)與信息的復制與抓取是數(shù)據(jù)挖掘開展的前提，因此數(shù)據(jù)挖掘過程中對作品的復制行為不符合合理使用的數(shù)量要求。

2.3.3 行為模式不符合要求

我國《著作權法》二十四條第（二）項規(guī)定的“適當引用”的例外，其行為模式是指以介紹、評論為目的，適當引用他人已發(fā)表作品，或者對某個問題進行解釋說明。然而數(shù)據(jù)挖掘是通過對作品相關信息的抓取和分析從而得出最終結果。同時，適當引用往往是對作品的片段進行引用，而數(shù)據(jù)挖掘是在對整篇作品復制后再對其中的有用信息進行抓取。兩者無論是在行為目的與行為方式上都迥異。因此，數(shù)據(jù)挖掘不屬于“適當引用”的行為范疇。我國《著作權法》第二十四條第（八）項規(guī)定了“館藏作品復制例外”。此項規(guī)定的復制館藏作品只能出于陳列或保存作品的需要，該項例外針對的是保存館藏作品的行為而非對館藏作品實施數(shù)據(jù)挖掘的行為?！缎畔⒕W(wǎng)絡傳播權保護條例》第七條對網(wǎng)絡環(huán)境下的“館藏作品復制例外”做了補充，規(guī)定出于陳列或保存版本的需要，而以數(shù)字化形式復制的作品需得已經(jīng)或瀕臨損毀、丟失，存儲形式已過時或在市場上無法購買或只能以明顯高于標定的價格購買。而數(shù)據(jù)挖掘中所復制的對象并不滿足前述要求，所以“館藏作品復制例外”的規(guī)則無法適用于數(shù)據(jù)挖掘行為。

3 數(shù)據(jù)挖掘行為的司法實踐

我國司法實踐中有關數(shù)據(jù)挖掘的案例逐年增多，由于現(xiàn)行著作權法對數(shù)據(jù)挖掘行為的限制，我國大部分法院依照著作權法的規(guī)定將涉及數(shù)據(jù)挖掘的相關案例作侵權判定，但也有少數(shù)法院突破著作權法的封閉式規(guī)定，開放性適用“三步檢驗法”將數(shù)據(jù)挖掘認定為合理使用，納入著作權侵權例外中，但這種做法在我國司法實踐中仍屬特例，不具普遍適用性。

3.1 涉及數(shù)據(jù)挖掘的司法案例

3.1.1 "案例一

涉案作品系由原告叢文輝創(chuàng)作，原登載于天涯社區(qū)，但在天涯社區(qū)刪除該作品后5個月，通過搜狗公司經(jīng)營的搜索引擎網(wǎng)站進行搜索時仍能搜索到該作品的網(wǎng)頁快照。原告叢文輝以被告行為侵犯其信息網(wǎng)絡傳播權為由向法院起訴。二審法院認為涉案網(wǎng)頁快照提供行為屬于信息網(wǎng)絡傳播行為，該行為雖然屬于受到著作權法控制的行為，但依據(jù)但并不會對叢文輝的權益造成不合理損害。二審法院指出一項行為如果對著作權人造成不合理損害，就要求該行為能構成對權利作品的實質性替代。此案中，網(wǎng)頁快照無法實質性替代涉案作品，也不會影響涉案作品的正常使用，如果把該行為認定為侵權會對公眾利益造成不合理的影響。因此搜狗公司通過搜索引擎提供叢文輝作品網(wǎng)頁快照的行為符合合理使用的實質要件，構成合理使用行為。

3.1.2案例二

精倫公司通過相關技術從互聯(lián)網(wǎng)上抓取影視鏈接地址，并由其提供的播放器進行播放。精倫H3播放器以及精倫公司的服務器只存儲影視內容的鏈接地址，不存儲影視內容，影視內容是由第三方互聯(lián)網(wǎng)服務器存儲提供，用戶通過精倫電子的搜索、鏈接服務，將第三方網(wǎng)站上的影視作品內容進行獲取與播放。精倫公司依據(jù)前述過程向公眾提供涉案影片鏈接時并未取得影片著作權人美亞公司的許可，也未支付相應對價。二審法院認定涉案精倫H3播放器的電視頁面出現(xiàn)了不同的作品和類型分類，并對這些信息進行編輯、分類、排行、評分、推薦。這表明精倫公司在主觀上有將涉案影視作品在內的一系列由該網(wǎng)站進行檢索并提供鏈接的作品向用戶進行推演的態(tài)度，在明知自己沒有獲取權利人許可的情況下，仍使其產(chǎn)品用戶獲取相關影視作品，通過信息網(wǎng)絡傳播涉案作品，主觀上具有過錯，構成信息網(wǎng)絡傳播權侵權。

3.1.3 案例三

深圳聚領威鋒公司通過其應用程序“石頭閱讀特別版”，通過網(wǎng)絡爬蟲工具追蹤用戶喜愛的網(wǎng)絡小說，在作者每次更新后該程序便會搜索整個中文網(wǎng)絡，將相關作品整理并提供給用戶。被告未經(jīng)許可在該程序中向公眾提供了包括涉案作品在內的多部作品的下載服務。法院在判決中指出，用戶在點擊涉案作品的詳情界面的鏈接后并未出現(xiàn)網(wǎng)頁跳轉，而是直接顯示了涉案作品的完整內容，被告的涉案行為侵犯了原告享有的信息網(wǎng)絡傳播權。

3.2 對中國數(shù)據(jù)挖掘司法實踐的評析

盡管我國現(xiàn)行《著作權法》合理使用規(guī)定中“三步檢驗法”的適用具有封閉性，只能適用于法定的十三種合理使用情形，不包括數(shù)據(jù)挖掘，但從我國法院目前涉及數(shù)據(jù)挖掘行為的司法判決來看，少數(shù)法院已經(jīng)突破了著作權法封閉性規(guī)定，結合合理使用四要素，并采用三步檢驗法對數(shù)據(jù)挖掘進行分析，并作出合理使用認定[12]。這一做法減少了數(shù)據(jù)挖掘所受的法律禁錮，有利于促進數(shù)據(jù)挖掘技術的發(fā)展與運用，提升我國相關行業(yè)的技術競爭力。但該做法存有弊端，一方面與《著作權法》的明文規(guī)定相沖突；另一方面由于缺乏成文法的指引，實踐中往往判決標準多樣化，影響司法公正性[13]。

目前，開放性適用三步檢驗法將數(shù)據(jù)挖掘行為判定為合理使用的法院仍是少數(shù)，大多數(shù)法院在相關案件中依據(jù)著作權法的明文規(guī)定，不將數(shù)據(jù)挖掘納入合理使用的范疇，按照著作權侵權的判定思路對此類案件進行審理。如果行為人運用數(shù)據(jù)挖掘技術向公眾提供檢索結果后，在未經(jīng)權利人許可的情況下直接在行為人網(wǎng)站上向公眾提供被檢索作品內容，該行為毫無疑問侵犯了權利人的信息網(wǎng)絡傳播權。但是，如果行為人通過設置淺層鏈接（用戶在點擊鏈接后會離開設鏈網(wǎng)站，而進入被鏈接的網(wǎng)站），使公眾在行為人的瀏覽器或網(wǎng)站中通過檢索尋得被檢索作品后需得跳轉到第三方網(wǎng)站方能獲取完整作品，那么設置鏈接這一行為本身不侵權。司法實踐中，第三方網(wǎng)站往往也未獲得權利人的許可，擅自使用并傳播作品構成侵權，法院便將案件爭議焦點放置于提供數(shù)據(jù)挖掘技術行為人的主觀過錯上，以此判定行為人是否構成幫助侵權。中國法院在處理此類案件時甚少關注數(shù)據(jù)挖掘行為本身的性質，其裁判焦點在于數(shù)據(jù)挖掘之后對挖掘結果的呈現(xiàn)方式，以此來確定是否構成侵權。

4 部分國家數(shù)據(jù)挖掘著作權例外制度的構建

與中國對數(shù)據(jù)挖掘予以限制的立法現(xiàn)狀相比，許多發(fā)達國家對數(shù)據(jù)挖掘已經(jīng)在立法與司法領域設置例外，為其發(fā)展減少版權障礙。此外，關于數(shù)據(jù)挖掘的例外規(guī)定實際上構成發(fā)達國家之間在技術發(fā)展與進步上的競爭，顯現(xiàn)在美國、日本和歐盟及其成員國關于數(shù)據(jù)挖掘例外的立法改革中[14]。

4.1 美國

美國《版權法》107條規(guī)定了合理使用的4個要素：①使用的目的與性質，即使用是否出于商業(yè)目的；②被使用作品的性質；③使用的數(shù)量與質量使用即使用是否涉及原作品的實質性內容、使用部分在原作中的比重；④使用行為對原作品潛在市場或者價值的影響。美國司法實踐中法官在援引合理使用條款判定數(shù)據(jù)挖掘性質時主要從“使用的目的和性質”要件出發(fā)，認為運用數(shù)據(jù)挖掘技術建立搜索引擎對作品進行檢索的過程中，對作品的復制與處理均屬于轉換性使用，無法替代原作品且不會對原作品市場產(chǎn)生負面的影響。同時轉換性使用的認定使美國法院削弱了四要素中，要素三的影響，即在數(shù)據(jù)挖掘中即使是對作品全文而非部分片段進行復制，但因其在使用目的上具有高度轉換性，仍將其納入合理使用的范疇，在此情形下，要素三無法決定合理使用的認定[15]。諸多案件中，可作典型案例的兩個案件分別是Authors Guild v HathiTrust（以下稱HathiTrust案）與Authors Guild v Google，Inc（以下稱 Google圖書館案）。

在HathiTrust案中，HathiTrust 數(shù)字圖書館允許 Google對其館藏所有作品進行全文掃描形成作品的數(shù)字化版本，并提供給HathiTrust及相關高校圖書館使用。HathiTrust的用戶可以對 HathiTrust 數(shù)字圖書館中的所有作品通過檢索詞進行全文搜索，但搜索結果僅能顯示檢索詞出現(xiàn)的頁碼，以及該檢索詞在該頁碼出現(xiàn)的頻率。法院認定HathiTrust 的全文檢索本質上是一種數(shù)據(jù)挖掘技術的應用，其不再是單純適用原作品，而是衍生出了新的科研用途，具有較強的轉換性[16]，故認定為合理使用。

在 Google圖書館案中，Google 對參與其項目的幾個圖書館中近兩千萬本圖書進行了全文電子化掃描，其中除了公有領域的作品，還包括仍在保護期限之內的大量作品。在對仍受版權保護的作品進行掃描時，Google 并沒有取得版權人同意，也沒有向版權人支付任何報酬。Google 將掃描后的電子版圖書向用戶提供片段瀏覽服務，在用戶通過輸入檢索詞后，檢索并顯示作品片段。片段瀏覽服務本事上是對數(shù)據(jù)挖掘技術的應用。此糾紛在美國持續(xù)了超過10年，直到2016年法院最終認定，片段瀏覽旨在為用戶提供更為完善的文字搜索工具，與圖書原有使用目的完全不同，具有較高的轉換性，應當認定為合理使用[17]。

4.2 日本

2020年日本修訂的《著作權法》規(guī)定，為了創(chuàng)造新知識和信息，任何主體都可以利用公眾可獲得或已發(fā)表的作品進行計算機化數(shù)據(jù)分析并提供分析結果（即進行數(shù)據(jù)挖掘），但明知構成侵權或將不合理地損害版權人利益的除外。日本《著作權法》對數(shù)據(jù)挖掘的目的規(guī)定較寬松，沒有限制在商業(yè)性范疇。

4.3 歐盟

歐盟在2016年發(fā)布的《數(shù)字化單一市場指令》（提案）中第3條規(guī)定了出于科學研究目的適用數(shù)據(jù)挖掘技術的例外規(guī)則。其規(guī)定：成員國應對第2001/29/EC號指令第2條，第96/9/EC號指令第5（a）和7（1）條與本指令第11（1）條規(guī)定的權利作出例外規(guī)定，允許研究機構出于科學研究目的對其合法訪問的作品或其他客體進行數(shù)據(jù)挖掘。最終于2019年生效的歐盟《數(shù)字化單一市場版權指令》第3條基本保留了指令草案第3條的規(guī)定，但是在科研目的下，數(shù)據(jù)挖掘例外規(guī)則的適用主體從草案規(guī)定中單一的研究機構拓展至研究機構和文化遺產(chǎn)機構，允許這兩類非商業(yè)性機構采用復制、提取的方式進行數(shù)據(jù)挖掘。同時《數(shù)字化單一市場版權指令》（2019）增加了第4條作為新的數(shù)據(jù)挖掘例外規(guī)則。與第3條有所區(qū)別，第4條并未將數(shù)據(jù)挖掘的目的限定在第3條所述的科學研究目的，也未對主體進行限制。第4條第（3）項允許權利人事先以恰當方式保留數(shù)據(jù)挖掘的權利，而第3條并無此項規(guī)定。這意味著對權利人出于科研目的下的數(shù)據(jù)挖掘行為進行限制與規(guī)避和聲明或合同條款無效，權利人無權對科研目的下的數(shù)據(jù)挖掘行為進行保留。但權利人有權對科研目的外的數(shù)據(jù)挖掘行為進行保留，在權利人未對此項權利做出保留聲明的情況下，可以推定權利人默示允許第三人就其享有權利的作品展開數(shù)據(jù)挖掘。因此，歐盟發(fā)布的《數(shù)字化單一市場版權指令》（2019）第4條對于不限目的且不限主體的數(shù)據(jù)挖掘行為采用默示許可的授權方式。

4.4 英國

2014 年英國修訂的《版權、設計和專利法案1988》中第 29A條規(guī)定，一切主體對于其合法獲取的作品基于非商業(yè)性研究目的，為了對作品實施數(shù)據(jù)挖掘與分析而進行的復制行為，不構成版權侵權。同時，合同中對權利人就前述不侵權的數(shù)據(jù)挖掘行為進行保留與限制的條款無效。

4.5 德國

德國2017年修訂的《著作權與鄰接權法》關于數(shù)據(jù)挖掘的例外規(guī)定，為了自動分析大量的作品（原始資料）以便于科學研究，可以復制所需的原始資料創(chuàng)建可供分析和使用的資料庫，并出于非商業(yè)目的向特定主體提供資料庫。因此，德國數(shù)據(jù)挖掘例外適用的行為不限于復制，還包括在一定范圍內向公眾提供復制行為生成的復制件，但此項傳播例外必須出于非商業(yè)目的，而對與復制行為則沒有限定目的。

4.6 法國

法國2016年修訂的《知識產(chǎn)權法典》規(guī)定，一切主體出于非商業(yè)性科學研究目的，為實施數(shù)據(jù)挖掘而對其合法獲取的科學作品，以及數(shù)據(jù)庫進行復制與提取的行為不侵犯版權。

5 建立數(shù)據(jù)挖掘例外制度建議

國際社會在立法與司法層面創(chuàng)建的數(shù)據(jù)挖掘例外為中國數(shù)據(jù)挖掘的著作權限制建立例外制度提供了借鑒。數(shù)據(jù)挖掘例外規(guī)則是著作權法利益平衡原則的重要體現(xiàn)，旨在權利人與數(shù)據(jù)挖掘行為人、私人利益與公共利益之間達成新的平衡點[18]，既保護著作權人的利益從而促進文化創(chuàng)作；又正視數(shù)據(jù)挖掘技術對社會發(fā)展的重要作用，促進技術進步，實現(xiàn)社會公共利益。為了實現(xiàn)這一平衡，我國需要在著作權立法層面構建合理的數(shù)據(jù)挖掘例外制度。

5.1 對商業(yè)目的與非商業(yè)目的下的數(shù)據(jù)挖掘實行“雙軌制”

數(shù)據(jù)挖掘技術在實踐中應用的目的整體可分為商業(yè)目的與非商業(yè)目的兩類。從國際實踐來看，歐盟的數(shù)據(jù)挖掘默示許可模式、日本的例外規(guī)定與美國的合理使用的司法實踐未將非商業(yè)目的作為數(shù)據(jù)挖掘例外適用的前提，而歐盟的數(shù)據(jù)挖掘一般例外規(guī)則與英國、法國、德國的數(shù)據(jù)挖掘例外規(guī)定均將數(shù)據(jù)挖掘的目的限制于非商業(yè)目的。

作為一項高效率地對大數(shù)據(jù)進行分析后發(fā)現(xiàn)潛在有用信息的過程[19]，人工智能時代，數(shù)據(jù)挖掘應用的領域愈發(fā)廣泛。除了傳統(tǒng)科學研究領域，在政府決策、企業(yè)決策、商業(yè)策略抉擇、信息中介服務等領域，運用數(shù)據(jù)挖掘技術對海量信息進行提取、分析并從中得出結果也對相關領域的發(fā)展具有重要意義。這些領域既包含商業(yè)領域，又包含非商業(yè)領域，因此無論是商業(yè)目的下的數(shù)據(jù)挖掘還是非商業(yè)目的下的數(shù)據(jù)挖掘，其適用都對社會發(fā)展具有重要意義，都應該建立著作權例外制度，掃除阻礙其發(fā)展的著作權障礙。但商業(yè)目的下的數(shù)據(jù)挖掘同非商業(yè)目的相比，其應用往往會給使用者帶來巨大利潤，出于權利義務平衡的考慮，行為人出于商業(yè)目的實施數(shù)據(jù)挖掘行為時，應該承擔較非商業(yè)目的下的數(shù)據(jù)挖掘更多的義務。因此，我國在數(shù)據(jù)挖掘例外制度立法構建中，應該對商業(yè)目的下和非商業(yè)目的下的數(shù)據(jù)挖掘實行“雙軌制”規(guī)定，避免一刀切。

5.2 將非商業(yè)目的下的數(shù)據(jù)挖掘納入合理使用范疇

非商業(yè)目的下的數(shù)據(jù)挖掘，例如基于非商業(yè)性科學研究的數(shù)據(jù)挖掘或為了實現(xiàn)公共服務目的進行的商業(yè)挖掘，其在適用中增進了實現(xiàn)了社會公共利益，且行為人并未從數(shù)據(jù)挖掘中獲取私利，因此在滿足一定條件的情形下應將其納入合理使用的范疇。

5.2.1 主體

當前，非商業(yè)機構與商業(yè)性機構合作開展技術開發(fā)越發(fā)普遍，PPP模式下，有了商業(yè)性機構的資金支持，在開展數(shù)據(jù)挖掘等技術過程時效率大幅提升。如果對商業(yè)性主體加以限制，就將排除PPP模式的合法性，因此在滿足非商業(yè)目的前提下，適用數(shù)據(jù)挖掘合理使用規(guī)則時無需再對主體是否具有商業(yè)性進行區(qū)分。

5.2.2 客體

數(shù)據(jù)挖掘對象是海量且繁雜的數(shù)據(jù)與信息，目前由于技術限制數(shù)據(jù)挖掘在實施前無法判斷挖掘對象的來源合法性，若因挖掘對象來源不合法而將違法性延伸至挖掘結果，將造成技術投入的浪費。因此，科研機構在沒有合法接觸權的情況下應當有權實施數(shù)據(jù)挖掘，而權利人對此可以要求使用人支付合理的許可費[20]，直接否定了合法來源要件。但若將合法來源要件摒棄，可能出現(xiàn)行為人故意通過購買盜版資源等低成本手段非法獲取數(shù)據(jù)挖掘材料，這會極大損害挖掘對象權利人的合法權益，打破利益平衡機制。所以，客體合法來源要件在適用時應考慮行為人的主觀狀態(tài)，排除惡意使用人，允許善意使用人在繳納許可費后繼續(xù)實施。

5.2.3 行為方式

數(shù)據(jù)挖掘在數(shù)據(jù)準備階段與數(shù)據(jù)處理階段分別涉及對的數(shù)據(jù)信息的復制與轉換，所謂轉換即歐盟指令與法國《知識產(chǎn)權法典》規(guī)定的提取行為，進入改編權的范疇。德國還規(guī)定了基于非商業(yè)目的下的向公眾傳播行為，即將數(shù)據(jù)挖掘過程中復制階段產(chǎn)生的復制件集合提供給公眾，這一行為超出了數(shù)據(jù)挖掘技術目的的范疇，不合理地限制了挖掘對象著作權人的權益。

5.3 商業(yè)目的下的數(shù)據(jù)挖掘納入法定許可范疇

綜上所述，在諸多商業(yè)領域，數(shù)據(jù)挖掘技術起到重要作用，若數(shù)據(jù)挖掘在商業(yè)領域的運用遭到著作權限制，將不利于行業(yè)發(fā)展。同時，如果采納歐盟的默示許可立法模式，將數(shù)據(jù)挖掘的授權權利交由挖掘對象的權利人，則可能導致壟斷。能夠提供高額許可費的規(guī)模較大的機構掌握大批量材料的數(shù)據(jù)挖掘權，而財力相對薄弱的小機構無法掌握可供挖掘的材料，規(guī)模較大的市場主體占據(jù)了優(yōu)勢，逐漸形成市場壟斷。為了避免這一情況，本文認為可以對商業(yè)目的下的數(shù)據(jù)挖掘行為設置法定許可，對他人作品實施數(shù)據(jù)挖掘時可以不經(jīng)權利人許可但應向其支付報酬。關于該項法定許可下客體規(guī)定、主體要求與行為方式應與非商業(yè)目的下數(shù)據(jù)挖掘合理使用規(guī)則一致。

綜上，我國《著作權》法在下次修訂中，可在合理使用條款下增設非商業(yè)性數(shù)據(jù)挖掘的例外情形：機構或個人基于非商業(yè)目的利用數(shù)據(jù)挖掘技術對他人作品進行復制與轉換，可以不經(jīng)著作權人許可且無需支付報酬，但不得將復制結果向他人提供。同時，在法定許可條款下增設商業(yè)性數(shù)據(jù)挖掘的例外情形：機構或個人基于商業(yè)目的利用數(shù)據(jù)挖掘技術對合法獲得的他人作品進行復制與轉換，可以不經(jīng)著作權人許可但需向其支付報酬，且不得將復制結果向他人提供。對于挖掘對象來源的限制，商業(yè)目的與非商業(yè)目的下的數(shù)據(jù)挖掘例外條款應采相同規(guī)定：在挖掘對象并非行為人合法獲取的作品時，如行為人知道或應該知道作品來源違法，則數(shù)據(jù)挖掘行為構成侵權；反之，數(shù)據(jù)挖掘行為不構成侵權，但行為人應向權利人支付許可費。

6 "結語

數(shù)據(jù)挖掘作為人工智能時代的重要技術工具，解開束縛其的著作權為其發(fā)展應用提供便利是時代的選擇。歐洲各國、美國、日本均在立法與司法上為數(shù)據(jù)挖掘設置著作權例外，給中國提供了參考借鑒。中國應完善著作權立法，以數(shù)據(jù)挖掘是否具有商業(yè)目的進行劃分，將非商業(yè)目的下的數(shù)據(jù)挖掘納入合理范疇，將商業(yè)目的下的數(shù)據(jù)挖掘納入法定許可范疇。

參考文獻

參考文獻：

[1] DIANE MCDONALD.Value and benefits of text mining[EB/OL].（2020-01-03）[2024-03-03]. https：//beta.jisc.ac.uk/reports/value-and-benefits-of-text-mining.

[2] 中國電子技術標準化研究院.人工智能標準化白皮書[EB/OL]. （2018-01-24） [2024-03-05].https：//www.cesi.cn/201801/3545.html.

[3] EUROPEAN UNION.Maximising the benefits of Artificial Intelligence through future-proof rules on Text and Data Mining[EB/OL]. （2018-04-09） [2024-03-05] https：//eare.eu/open-letter-maximising-the-benefits-of-artificial-intelligence-through-future-proof-rules-on-text-and-data-mining/.

[4] 張鵬，何文莉. AI+大數(shù)據(jù)，新冠肺炎知識智能服務應用大揭秘[EB/OL].（2020-05-28）[2024-03-05] https：//zhuanlan.zhihu.com/p/144251783.

[5] 賈磊.數(shù)據(jù)新聞數(shù)據(jù)挖掘的著作權侵權風險與例外制度構建[J].新聞愛好者，2020（6）：42-45.

[6] 吳小坤.數(shù)據(jù)新聞：理論承遞、概念適用與界定維度[J].新聞與傳播研究，2017，24（10）：120-126.

[7] 曹源.人工智能創(chuàng)作物獲得版權保護的合理性[J].科技與法律，2016（3）：488-508.

[8] 高笑笑. 人工智能對著作權制度的法律挑戰(zhàn)與機遇——以ChatGPT生成“作品”為例 [J]. 科技創(chuàng)業(yè)月刊， 2023， 36（10）： 30-34.

[9] 楊娟.文本與數(shù)據(jù)挖掘合理使用例外規(guī)范的體系化設置[J].圖書館論壇，2020，40（4）：141-150.

[10] KATRINE LEVIN.Intellectual property law-Mai V. Peak.Should loading operating system software into RAM constitute copyright infringement[J]. Golden Gate University Law Review，1994，24（1）：649-683.

[11] 王遷.網(wǎng)絡環(huán)境中的著作權保護研究［M］.北京：法律出版社，2011.

[12] 李楊.著作權合理使用制度的體系構造與司法互動[J].法學評論，2020，38（4）：88-97.

[13] 張惠彬，肖啟賢.人工智能時代文本與數(shù)據(jù)挖掘的版權豁免規(guī)則建構[J].科技與法律（中英文），2021（6）：74-84.

[14] MICHAEL CA RROLL.Copyright and the progress of science： why text and data mining is lawful[J]. U C Davis Law Review，2019，53（2）：893-964.

[15] 羅嬌，張曉林.支持文本與數(shù)據(jù)挖掘的著作權法律政策建議[J].中國圖書館學報，2018，44（3）：21-34.

[16] 萬勇，劉永沛.伯克利科技與法律評論：美國知識產(chǎn)權經(jīng)典案例年度評論（2013）［M］.北京：知識產(chǎn)權出版社，2016．

[17] VICTORIA CAMPBELL.Authors Guild v. Google， Inc. [J].De Paul Journal of Art， Technology and Intellectual Property Law， 2016，27（1）：59-72.

[18] 唐思慧.大數(shù)據(jù)環(huán)境下文本和數(shù)據(jù)挖掘的版權例外研究——以歐盟《DSM版權指令》提案為視角[J].知識產(chǎn)權，2017（10）：109-116.

[19] 徐軒，孫益武.英國數(shù)據(jù)挖掘著作權例外條款研究及其啟示[J].圖書館建設，2015（9）：10-14.

[20] RETO M. HI CHTER. Position statement of the Max Planck institute for innovation and competition on the proposed mode modernisation of European copyright rules[J]. Max Planck Institute for Innovation and Competition Research Paper，2017，9（2）：7-10.

（責任編輯：要毅）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能時代數(shù)據(jù)挖掘的限制與例外