內(nèi)容提要:當(dāng)前,數(shù)據(jù)已經(jīng)成為人工智能快速發(fā)展的催化劑。黨的二十屆三中全會(huì)提出,要完善推動(dòng)新一代信息技術(shù)、人工智能等戰(zhàn)略性產(chǎn)業(yè)發(fā)展政策和治理體系,引導(dǎo)新興產(chǎn)業(yè)健康有序發(fā)展;建設(shè)和運(yùn)營(yíng)國家數(shù)據(jù)基礎(chǔ)設(shè)施,促進(jìn)數(shù)據(jù)共享。從我國產(chǎn)業(yè)實(shí)踐來看,相關(guān)數(shù)據(jù)法律制度在應(yīng)對(duì)人工智能發(fā)展方面還存在一定的滯后性,導(dǎo)致數(shù)據(jù)“不能用”“不夠用”“不好用”等問題,一定程度上制約了我國人工智能技術(shù)和產(chǎn)業(yè)發(fā)展。從國際社會(huì)來看,主要國家和地區(qū)積極通過立法修法、發(fā)布指南等方式為解決人工智能數(shù)據(jù)制度“瓶頸”提供法律依據(jù)和實(shí)踐指引。面向新一代人工智能發(fā)展需求,我國需盡快調(diào)整完善相關(guān)數(shù)據(jù)法律規(guī)則,推動(dòng)數(shù)據(jù)合法高效利用,為人工智能高質(zhì)量發(fā)展提供制度支撐。
關(guān)鍵詞:人工智能 數(shù)據(jù)制度 數(shù)據(jù)共享 數(shù)據(jù)質(zhì)量
一、問題的提出
人工智能是發(fā)展新質(zhì)生產(chǎn)力的重要引擎,正在成為整個(gè)經(jīng)濟(jì)社會(huì)發(fā)展變革的基礎(chǔ)性力量。隨著人工智能技術(shù)的快速發(fā)展和經(jīng)濟(jì)效用的逐步體現(xiàn),算力、算法、數(shù)據(jù)作為人工智能核心三要素的重要性日漸凸顯,“而在這三大核心要素中,數(shù)據(jù)值得特別關(guān)注”【丁曉東:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,載《中國法律評(píng)論》2023年第6期。】。大模型時(shí)代的到來,加速推動(dòng)人工智能發(fā)展從以模型為中心向以數(shù)據(jù)為中心轉(zhuǎn)變,數(shù)據(jù)資源成為人工智能尤其是大模型發(fā)展中最核心、最基礎(chǔ)的要素。構(gòu)建合理適宜的法律制度是促進(jìn)人工智能健康發(fā)展的重要基礎(chǔ),立法通過明確權(quán)利和義務(wù)為人工智能的創(chuàng)新和規(guī)范提供確定性、激勵(lì)性和指導(dǎo)性?!拘劣嘛w:《在法治軌道上推進(jìn)人工智能高質(zhì)量發(fā)展》,載《人民論壇·學(xué)術(shù)前沿》2024年第13期。】在數(shù)據(jù)領(lǐng)域,目前我國已經(jīng)建立以《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》等法律法規(guī)為核心,涵蓋數(shù)據(jù)安全與發(fā)展、個(gè)人信息保護(hù)、商業(yè)數(shù)據(jù)流通等多方面的數(shù)據(jù)法律制度體系,【謝祎、何波:《中國數(shù)據(jù)法律制度體系研究》,載《大數(shù)據(jù)》2024年第1期?!恳苍凇渡墒饺斯ぶ悄芊?wù)管理暫行辦法》等部門規(guī)章中規(guī)定了相關(guān)數(shù)據(jù)處理要求。人工智能技術(shù)的突破式發(fā)展對(duì)高質(zhì)量數(shù)據(jù)提出了巨大需求,但現(xiàn)有的數(shù)據(jù)制度規(guī)則并未及時(shí)作相應(yīng)調(diào)整,部分領(lǐng)域還存在制度空白,出現(xiàn)數(shù)據(jù)“不能用”“不夠用”“不好用”等問題,導(dǎo)致當(dāng)前人工智能技術(shù)產(chǎn)業(yè)發(fā)展中面臨數(shù)據(jù)資源的“掣肘”。黨的二十屆三中全會(huì)通過的《中共中央關(guān)于進(jìn)一步全面深化改革 推進(jìn)中國式現(xiàn)代化的決定》提出,完善推動(dòng)人工智能等戰(zhàn)略性產(chǎn)業(yè)發(fā)展政策和治理體系,引導(dǎo)新興產(chǎn)業(yè)健康有序發(fā)展;加快建立數(shù)據(jù)產(chǎn)權(quán)歸屬認(rèn)定、市場(chǎng)交易、權(quán)益分配、利益保護(hù)制度,提升數(shù)據(jù)安全治理監(jiān)管能力等。隨著全球人工智能持續(xù)快速發(fā)展,我國亟須進(jìn)一步構(gòu)建完善數(shù)據(jù)合規(guī)處理、數(shù)據(jù)安全保障以及數(shù)據(jù)質(zhì)量管理等相關(guān)法律制度規(guī)則,為人工智能創(chuàng)新發(fā)展提供有力法治保障。
二、人工智能發(fā)展的數(shù)據(jù)制度“瓶頸”分析
當(dāng)前,人工智能發(fā)展正處在以大模型為代表的生成式人工智能階段,大規(guī)模、高質(zhì)量、多樣性的數(shù)據(jù)集是提升人工智能大模型性能的關(guān)鍵。實(shí)踐中,人工智能大模型訓(xùn)練數(shù)據(jù)來源主要包括公開數(shù)據(jù)集、企業(yè)內(nèi)部數(shù)據(jù)、合作伙伴數(shù)據(jù)、購買第三方數(shù)據(jù)以及用戶生成內(nèi)容等。目前我國大模型企業(yè)在獲取和使用高質(zhì)量數(shù)據(jù)資源及語料庫時(shí),存在有效數(shù)據(jù)量不足、部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)合法性存疑、數(shù)據(jù)質(zhì)量無法保障等問題,成為制約新一代人工智能發(fā)展的數(shù)據(jù)“瓶頸”。
(一)安全保障規(guī)則不明確,數(shù)據(jù)“不能用”矛盾凸顯
目前,我國相關(guān)法律法規(guī)對(duì)數(shù)據(jù)安全保護(hù)、數(shù)據(jù)收集使用規(guī)則等作了明確規(guī)定。例如,《網(wǎng)絡(luò)安全法》規(guī)定任何個(gè)人和組織不得從事竊取網(wǎng)絡(luò)數(shù)據(jù)等危害網(wǎng)絡(luò)安全的活動(dòng),《個(gè)人信息保護(hù)法》明確了個(gè)人信息處理的合法性基礎(chǔ)。隨著人工智能技術(shù)的快速發(fā)展,諸如數(shù)據(jù)爬取合法性、公開個(gè)人信息的合法使用等問題不斷涌現(xiàn),但相關(guān)制度規(guī)則尚未及時(shí)作出回應(yīng)調(diào)整,導(dǎo)致人工智能大模型在獲取和使用數(shù)據(jù)時(shí)可能存在合法性問題,部分類型數(shù)據(jù)“不能用”問題突出。
其一,爬取數(shù)據(jù)行為的合法性不明影響人工智能大模型訓(xùn)練基礎(chǔ)的建構(gòu)。從互聯(lián)網(wǎng)公開渠道獲取數(shù)據(jù)是人工智能大模型訓(xùn)練數(shù)據(jù)的重要來源,如根據(jù)OpenAI披露的數(shù)據(jù)統(tǒng)計(jì),GPT3的訓(xùn)練數(shù)據(jù)大多來自Common Crawl等網(wǎng)絡(luò)爬蟲數(shù)據(jù)集?!綛rown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020a. “Language Models are Few-Shot Learners.” arXiv.Org. May 28, 2020. https://arxiv.org/abs/2005.14165.】然而,目前大量網(wǎng)站采用Robots協(xié)議、驗(yàn)證碼登錄等方式限制爬取行為,企業(yè)通過爬取數(shù)據(jù)進(jìn)行人工智能大模型訓(xùn)練可能存在違法風(fēng)險(xiǎn)。從我國司法實(shí)踐看,近年涉數(shù)據(jù)不正當(dāng)競(jìng)爭(zhēng)案例已顯示出數(shù)據(jù)權(quán)益保護(hù)的復(fù)雜性,關(guān)于數(shù)據(jù)授權(quán)使用、設(shè)置Robots協(xié)議限制他人爬取數(shù)據(jù)、不同類型數(shù)據(jù)保護(hù)等問題仍處于討論中。在監(jiān)管立法方面,2024年5月國家市場(chǎng)監(jiān)督管理總局公布的《網(wǎng)絡(luò)反不正當(dāng)競(jìng)爭(zhēng)暫行規(guī)定》明確指出,經(jīng)營(yíng)者不得利用技術(shù)手段,非法獲取、使用其他經(jīng)營(yíng)者合法持有的數(shù)據(jù)。【《網(wǎng)絡(luò)反不正當(dāng)競(jìng)爭(zhēng)暫行規(guī)定》第19條規(guī)定:“經(jīng)營(yíng)者不得利用技術(shù)手段,非法獲取、使用其他經(jīng)營(yíng)者合法持有的數(shù)據(jù),妨礙、破壞其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)的正常運(yùn)行,擾亂市場(chǎng)公平競(jìng)爭(zhēng)秩序。”】從司法和監(jiān)管實(shí)踐看,由于人工智能大模型訓(xùn)練中公開爬取數(shù)據(jù)來源多樣、數(shù)量巨大,判斷爬取數(shù)據(jù)行為是否合法變得更為復(fù)雜。此外,爬取數(shù)據(jù)的行為若產(chǎn)生危害計(jì)算機(jī)信息系統(tǒng)安全、數(shù)據(jù)安全等破壞性后果,還有可能被認(rèn)定為相關(guān)刑事犯罪。由于爬取數(shù)據(jù)進(jìn)行人工智能大模型訓(xùn)練存在這些合法性風(fēng)險(xiǎn),人工智能訓(xùn)練數(shù)據(jù)集的構(gòu)建面臨法律上的不確定性。
其二,以個(gè)人信息作為訓(xùn)練數(shù)據(jù)可能侵犯?jìng)€(gè)人信息權(quán)益。人工智能大模型訓(xùn)練數(shù)據(jù)來源廣,可能包含大量個(gè)人信息。我國《個(gè)人信息保護(hù)法》《生成式人工智能服務(wù)管理暫行辦法》明確了使用個(gè)人信息訓(xùn)練人工智能大模型的合法性基礎(chǔ),包括取得個(gè)人同意或者為履行法定職責(zé)或者法定義務(wù)所必需、為應(yīng)對(duì)突發(fā)公共衛(wèi)生事件或者緊急情況下為保護(hù)自然人的生命健康和財(cái)產(chǎn)安全所必需等情形。【《個(gè)人信息保護(hù)法》第13條規(guī)定:“符合下列情形之一的,個(gè)人信息處理者方可處理個(gè)人信息:(一)取得個(gè)人的同意;(二)為訂立、履行個(gè)人作為一方當(dāng)事人的合同所必需,或者按照依法制定的勞動(dòng)規(guī)章制度和依法簽訂的集體合同實(shí)施人力資源管理所必需;(三)為履行法定職責(zé)或者法定義務(wù)所必需;(四)為應(yīng)對(duì)突發(fā)公共衛(wèi)生事件,或者緊急情況下為保護(hù)自然人的生命健康和財(cái)產(chǎn)安全所必需;(五)為公共利益實(shí)施新聞報(bào)道、輿論監(jiān)督等行為,在合理的范圍內(nèi)處理個(gè)人信息;(六)依照本法規(guī)定在合理的范圍內(nèi)處理個(gè)人自行公開或者其他已經(jīng)合法公開的個(gè)人信息;(七)法律、行政法規(guī)規(guī)定的其他情形。依照本法其他有關(guān)規(guī)定,處理個(gè)人信息應(yīng)當(dāng)取得個(gè)人同意,但是有前款第二項(xiàng)至第七項(xiàng)規(guī)定情形的,不需取得個(gè)人同意?!薄砍煞ㄒ?guī)明確規(guī)定的特定情形外,“告知—同意”被認(rèn)為是處理個(gè)人信息的必需要件,但實(shí)踐中存在個(gè)人同意形式化的問題,也導(dǎo)致了其他處理個(gè)人信息的合法性基礎(chǔ)被忽視。從實(shí)踐來看,在獲取用戶同意方面,由于大模型語料庫可能包含的個(gè)人信息量巨大,逐一獲得個(gè)人信息主體的同意十分困難。同時(shí),對(duì)于使用個(gè)人同意公開的個(gè)人信息、訓(xùn)練人工智能大模型的行為是否屬于《個(gè)人信息保護(hù)法》第27條規(guī)定的“在合理的范圍內(nèi)處理個(gè)人自行公開或者其他已經(jīng)合法公開的個(gè)人信息”存在不確定性,促進(jìn)個(gè)人信息合理利用面臨實(shí)踐困難。
其三,以版權(quán)數(shù)據(jù)訓(xùn)練人工智能大模型可能構(gòu)成版權(quán)侵權(quán)。人工智能大模型需要高質(zhì)量訓(xùn)練數(shù)據(jù)作為性能的保證,但高質(zhì)量的訓(xùn)練數(shù)據(jù)集可能包含大量版權(quán)作品。目前,關(guān)于人工智能大模型使用未獲得著作權(quán)人授權(quán)的作品進(jìn)行訓(xùn)練是否構(gòu)成侵權(quán)已成為爭(zhēng)議焦點(diǎn),相關(guān)訴訟糾紛屢見不鮮。在域外,包括OpenAI、Stability AI、Meta、Anthropic等大模型公司均因在人工智能大模型訓(xùn)練中使用版權(quán)數(shù)據(jù)深陷糾紛。如2023年年底,《紐約時(shí)報(bào)》向OpenAI和微軟提起訴訟,認(rèn)為OpenAI在訓(xùn)練大語言模型時(shí)未經(jīng)授權(quán)復(fù)制和使用了《紐約時(shí)報(bào)》的文章,構(gòu)成版權(quán)侵權(quán)?!尽捌鹪VOpenAI和微軟,《紐約時(shí)報(bào)》打響維權(quán)第一槍”,載環(huán)球網(wǎng),https://world.huanqiu.com/article/4FwtTF1RV4f,2024年9月8日訪問?!?024年2月,我國廣州互聯(lián)網(wǎng)法院對(duì)某人工智能公司在提供生成式人工智能服務(wù)過程中侵犯著作權(quán)人對(duì)奧特曼作品所享有的復(fù)制權(quán)和改編權(quán)一案作出生效判決。廣州互聯(lián)網(wǎng)法院認(rèn)為,經(jīng)營(yíng)人工智能生成繪畫服務(wù)的被告侵害了原告對(duì)涉案奧特曼作品享有的復(fù)制權(quán)、改編權(quán),應(yīng)承擔(dān)停止侵害、賠償損失等民事責(zé)任。判決書指出,“考慮到生成式人工智能產(chǎn)業(yè)正處于發(fā)展的初期,需要同時(shí)兼顧權(quán)利保障和產(chǎn)業(yè)發(fā)展,不宜過度加重服務(wù)提供者的義務(wù)”?!緟⒁姀V州互聯(lián)網(wǎng)法院(2024)粵0192民初113號(hào)民事判決書?!磕壳?,產(chǎn)業(yè)界、學(xué)術(shù)界、法律實(shí)務(wù)界就人工智能背景下解釋適用著作權(quán)法,特別是關(guān)于人工智能大模型在訓(xùn)練階段使用版權(quán)數(shù)據(jù)是否構(gòu)成“合理使用”、在現(xiàn)有法律規(guī)定下推進(jìn)版權(quán)數(shù)據(jù)授權(quán)等問題進(jìn)行了諸多討論。
(二)共享流通規(guī)則不健全,數(shù)據(jù)“不夠用”現(xiàn)象普遍
在人工智能大模型訓(xùn)練對(duì)巨量、優(yōu)質(zhì)數(shù)據(jù)需求增長(zhǎng)的同時(shí),產(chǎn)業(yè)界、學(xué)術(shù)界也提出數(shù)據(jù)“不夠用”的擔(dān)憂。研究機(jī)構(gòu)Epoch估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。美國加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授、《人工智能——現(xiàn)代方法》作者斯圖爾特·羅素(Stuart Russell)發(fā)出警告稱,ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會(huì)“耗盡宇宙中的文本”,通過收集大量文本來訓(xùn)練機(jī)器人的技術(shù)“開始遇到困難”?!緟⒁娚畚模骸洞竽P统奔磳⒑谋M全宇宙文本,高質(zhì)量數(shù)據(jù)從哪里來?》,載澎湃網(wǎng),https://www.thepaper.cn/newsDetail_forward_23865563,2024年8月26日訪問?!繑?shù)據(jù)流通共享是釋放數(shù)據(jù)要素價(jià)值的關(guān)鍵,也是擴(kuò)容人工智能大模型語料庫的重要方式?!皵?shù)據(jù)融合匯聚不僅是人工智能發(fā)展的基礎(chǔ),而且對(duì)消除人工智能偏見、促進(jìn)社會(huì)公平具有重要意義?!薄径詵|:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,載《中國法律評(píng)論》2023年第6期?!磕壳?,我國在數(shù)據(jù)共享、數(shù)據(jù)交易及數(shù)據(jù)開放等方面仍存在薄弱點(diǎn)和空白區(qū),亟須打通數(shù)據(jù)共享流通在法律制度上的卡點(diǎn)堵點(diǎn),“構(gòu)建滿足人工智能發(fā)展需要的數(shù)據(jù)開放、共享、流通、交易的模式”【《國家數(shù)據(jù)局黨組書記、局長(zhǎng)劉烈宏最新發(fā)言:首談人工智能大模型》,載騰訊網(wǎng),https://new.qq.com/rain/a/20240304A07DB600,2024年8月16日訪問?!?。
其一,企業(yè)間數(shù)據(jù)共享缺乏激勵(lì)導(dǎo)致各自為據(jù)。頭部人工智能企業(yè)很多也是傳統(tǒng)大型互聯(lián)網(wǎng)企業(yè)或平臺(tái)企業(yè),其基于原有互聯(lián)網(wǎng)服務(wù)掌握了大量的數(shù)據(jù)資源,并以自有數(shù)據(jù)對(duì)人工智能大模型進(jìn)行訓(xùn)練,在發(fā)展中形成了一定的競(jìng)爭(zhēng)優(yōu)勢(shì)。與此同時(shí),部分頭部企業(yè)已明確禁止其他企業(yè)獲取、使用其大模型數(shù)據(jù)。如谷歌公司、OpenAI等在其生成式人工智能服務(wù)使用協(xié)議中均明確規(guī)定,禁止利用其服務(wù)開發(fā)競(jìng)爭(zhēng)性產(chǎn)品或服務(wù),禁止未經(jīng)允許爬取數(shù)據(jù)等。此外,也有互聯(lián)網(wǎng)企業(yè)設(shè)置“柵欄”或“高墻”,防止其他企業(yè)特別是有競(jìng)爭(zhēng)關(guān)系的企業(yè)獲取其數(shù)據(jù)?!緟⒁姟短詫毿颊狡帘伟俣人阉鳌?,載新浪科技,https://tech.sina.com.cn/i/2008-09-08/17022443143.shtml,2024年8月21日訪問。】互聯(lián)網(wǎng)企業(yè)的這類做法有打造自身生態(tài)系統(tǒng)、增加競(jìng)爭(zhēng)優(yōu)勢(shì)、增強(qiáng)安全等目的,但也導(dǎo)致行業(yè)數(shù)據(jù)孤島現(xiàn)象加劇,數(shù)據(jù)無法互聯(lián)互通,影響數(shù)據(jù)流動(dòng)和利用。對(duì)于人工智能發(fā)展而言,此類情形已經(jīng)造成了明顯的影響。
其二,數(shù)據(jù)流通交易規(guī)則尚不健全未能適應(yīng)人工智能快速發(fā)展。向第三方購買的數(shù)據(jù)、合作伙伴數(shù)據(jù)是人工智能大模型訓(xùn)練中的重要數(shù)據(jù)來源。據(jù)中國信息通信研究院《數(shù)據(jù)要素白皮書(2023年)》統(tǒng)計(jì),目前場(chǎng)外交易仍是數(shù)據(jù)交易的主要形式。【參見中國信息通信研究院《數(shù)據(jù)要素白皮書(2023年)》第33頁。】我國《數(shù)據(jù)安全法》中明確了國家建立健全數(shù)據(jù)交易管理制度,規(guī)定了數(shù)據(jù)交易中介服務(wù)機(jī)構(gòu)的具體義務(wù)和相應(yīng)的法律責(zé)任,但該法側(cè)重于數(shù)據(jù)安全,較少涉及數(shù)據(jù)交易市場(chǎng)規(guī)則和具體制度。目前,數(shù)據(jù)場(chǎng)外交易在數(shù)據(jù)安全管理、數(shù)據(jù)定價(jià)規(guī)則、交易雙方權(quán)利義務(wù)等方面缺乏明確規(guī)則指引,導(dǎo)致數(shù)據(jù)提供方、使用方難以就數(shù)據(jù)共享交易達(dá)成共識(shí),或者存在數(shù)據(jù)定價(jià)不合理或不公平等問題,一定程度上阻礙了數(shù)據(jù)交易流通的實(shí)現(xiàn),制約了大模型企業(yè)構(gòu)建多樣化訓(xùn)練數(shù)據(jù)集。
其三,公共數(shù)據(jù)開放不足影響人工智能大模型獲取高質(zhì)量訓(xùn)練數(shù)據(jù)。公共數(shù)據(jù)是人工智能產(chǎn)業(yè)發(fā)展和模型訓(xùn)練的重要數(shù)據(jù)來源。從全球范圍來看,主要國家和地區(qū)深入推進(jìn)公共數(shù)據(jù)開放,歐盟《人工智能法》前言中強(qiáng)調(diào)以歐洲共同數(shù)據(jù)空間為人工智能發(fā)展提供數(shù)據(jù)資源,【Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act) (Text with EEA relevance), Whereas(68).】美國商務(wù)部等適應(yīng)人工智能發(fā)展提升公共數(shù)據(jù)開放水平和質(zhì)量。【Request for Information: AI-Ready Open Government Data Assets, April 17, 2024,at https://www.commerce.gov/news/blog/2024/04/request-information-ai-ready-open-government-data-assets (Last Visited on Sept.8,2024). 】據(jù)《全球數(shù)據(jù)晴雨表》最新統(tǒng)計(jì),我國公共數(shù)據(jù)開放排名第41。【Global Data Barometer, at https://globaldatabarometer.org/(Last Visited on Sept.8,2024). 】目前,我國立法層面僅有《數(shù)據(jù)安全法》對(duì)政務(wù)數(shù)據(jù)開放進(jìn)行原則性規(guī)定,【《數(shù)據(jù)安全法》第42條規(guī)定:“國家制定政務(wù)數(shù)據(jù)開放目錄,構(gòu)建統(tǒng)一規(guī)范、互聯(lián)互通、安全可控的政務(wù)數(shù)據(jù)開放平臺(tái),推動(dòng)政務(wù)數(shù)據(jù)開放利用?!薄康珜?duì)于公共數(shù)據(jù)開放主體、范圍、方式及法律責(zé)任等尚未出臺(tái)具體規(guī)則,一定程度上影響了公共數(shù)據(jù)開放推進(jìn)。
(三)質(zhì)量管理規(guī)則不到位,數(shù)據(jù)“不好用”問題顯現(xiàn)
數(shù)據(jù)是人工智能的基石,數(shù)據(jù)的質(zhì)量關(guān)乎人工智能發(fā)展水平。高質(zhì)量的數(shù)據(jù)集可以幫助人工智能大模型更好地理解和捕捉不同的概念、語義和語法結(jié)構(gòu),使模型在各種任務(wù)和領(lǐng)域中表現(xiàn)出更好的泛化能力,推動(dòng)大模型的價(jià)值躍遷。【郭毅可:《關(guān)于人工智能大模型發(fā)展的思考與展望》,載《人民論壇·學(xué)術(shù)前沿》2024年第13期。】簡(jiǎn)言之,高質(zhì)量數(shù)據(jù)是提升模型的準(zhǔn)確性、穩(wěn)定性和可解釋性的關(guān)鍵。目前,對(duì)數(shù)據(jù)質(zhì)量的管理要求主要停留在行業(yè)自律、標(biāo)準(zhǔn)規(guī)范等層面,相關(guān)立法對(duì)數(shù)據(jù)質(zhì)量的規(guī)定較少,僅有《生成式人工智能服務(wù)管理暫行辦法》規(guī)定選擇訓(xùn)練數(shù)據(jù)要采取有效措施防止歧視,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性等。訓(xùn)練數(shù)據(jù)質(zhì)量管理尚缺乏統(tǒng)一、可執(zhí)行的標(biāo)準(zhǔn),一定程度上影響了人工智能大模型訓(xùn)練質(zhì)效。
其一,數(shù)據(jù)不準(zhǔn)確問題突出。以低質(zhì)量數(shù)據(jù)訓(xùn)練人工智能大模型會(huì)對(duì)模型能力產(chǎn)生破壞性影響,使人工智能大模型記憶有偏差信息,發(fā)生事實(shí)性錯(cuò)誤,導(dǎo)致人工智能產(chǎn)生“幻覺”等問題。目前,人工智能大模型訓(xùn)練中大量數(shù)據(jù)是從公開渠道獲取,或多或少存在噪音問題。標(biāo)注數(shù)據(jù)的質(zhì)量也會(huì)受到標(biāo)注人員自身素養(yǎng)、文化水平等主觀因素影響。此外,人工智能大模型采用“人類反饋強(qiáng)化學(xué)習(xí)”的訓(xùn)練方法,在缺乏對(duì)齊標(biāo)準(zhǔn)的情況下,反饋提供者的個(gè)人觀點(diǎn)可能被人工智能大模型學(xué)習(xí)和加強(qiáng),導(dǎo)致生成結(jié)果缺乏客觀性。
其二,數(shù)據(jù)代表性不足。人工智能大模型訓(xùn)練中需要學(xué)習(xí)大量多樣的知識(shí)和價(jià)值觀層的數(shù)據(jù),以保證人工智能大模型在全球化背景下實(shí)現(xiàn)多樣性和獨(dú)特性。但有研究顯示,在全球網(wǎng)站中,英文占59.8%,而中文僅占1.3%。ChatGPT的中文語料庫占比不足0.1%?!緩埿溃骸渡墒饺斯ぶ悄艿臄?shù)據(jù)風(fēng)險(xiǎn)與治理路徑》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第5期。】除體量上的差距外,數(shù)據(jù)背后的價(jià)值觀差異也是影響我國人工智能大模型發(fā)展的重要因素。例如,有研究指出,當(dāng)詢問對(duì)某些事件的評(píng)價(jià)時(shí),ChatGPT可能生成蘊(yùn)含西方價(jià)值觀的內(nèi)容?!緩埿溃骸渡墒饺斯ぶ悄艿臄?shù)據(jù)風(fēng)險(xiǎn)與治理路徑》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第5期?!?/p>
其三,數(shù)據(jù)時(shí)效性難保證。時(shí)效性是數(shù)據(jù)質(zhì)量的關(guān)鍵屬性。錯(cuò)誤或過時(shí)的數(shù)據(jù)可能導(dǎo)致錯(cuò)誤的決策。但人工智能大模型通常使用歷史數(shù)據(jù)進(jìn)行訓(xùn)練,缺乏對(duì)最近發(fā)生的事情或正在發(fā)生的事情的了解。語料庫中數(shù)據(jù)的時(shí)效性不足導(dǎo)致數(shù)據(jù)質(zhì)量低,尤其針對(duì)新聞出版、法律或者金融等對(duì)數(shù)據(jù)時(shí)效性要求較高的行業(yè)而言,由于語料庫中的數(shù)據(jù)沒有及時(shí)更新,可能導(dǎo)致生成的內(nèi)容缺乏準(zhǔn)確性?!距囌橛睿骸敦?fù)責(zé)任的發(fā)展生成式人工智能的挑戰(zhàn)及應(yīng)對(duì)路徑》,載《網(wǎng)絡(luò)安全與數(shù)據(jù)治理》2024年第7期。】
三、國際社會(huì)的立法趨勢(shì)與主要做法
當(dāng)前,全球人工智能產(chǎn)業(yè)進(jìn)入加速發(fā)展階段,世界主要國家和地區(qū)紛紛加速戰(zhàn)略布局,搶占人工智能發(fā)展高地。在數(shù)據(jù)方面,多個(gè)人工智能發(fā)展領(lǐng)先的國家和地區(qū)積極出臺(tái)相關(guān)立法、指南文件,力圖為人工智能發(fā)展提供更為充足、質(zhì)量更高的數(shù)據(jù)資源。
(一)促進(jìn)數(shù)據(jù)開放共享,充實(shí)人工智能數(shù)據(jù)供給
為促進(jìn)數(shù)據(jù)的開放、共享和流通,向人工智能發(fā)展提供充分的數(shù)據(jù)供給,以歐盟、美國為代表的經(jīng)濟(jì)體在立法中對(duì)數(shù)據(jù)開放和流通進(jìn)行了明確規(guī)定。在歐盟,2024年8月1日生效的歐盟《人工智能法》明確規(guī)定,歐洲共同數(shù)據(jù)空間為人工智能提供可信、負(fù)責(zé)、非歧視的高質(zhì)量數(shù)據(jù)訪問;提供或支持?jǐn)?shù)據(jù)訪問的主管部門為AI提供數(shù)據(jù)訪問。2024年4月生效的《歐洲互操作法》中也指出,要建立跨境互操作的治理框架,加強(qiáng)歐洲公共部門間的數(shù)據(jù)跨境交換?!緟⒁姟稓W洲互操作法》第1條?!看送?,歐盟《數(shù)據(jù)法》明確了企業(yè)和個(gè)人訪問、獲取、共享數(shù)據(jù)的具體規(guī)則,《數(shù)據(jù)治理法》規(guī)范歐盟及成員國公共部門持有數(shù)據(jù)的再使用等,均為構(gòu)建人工智能訓(xùn)練數(shù)據(jù)集提供了合法支撐。在美國,推動(dòng)政府?dāng)?shù)據(jù)開放、促進(jìn)數(shù)據(jù)流通一直是相關(guān)立法、政策、標(biāo)準(zhǔn)方面的發(fā)力點(diǎn)。2024年4月,美國商務(wù)部發(fā)布關(guān)于《人工智能就緒的開放政府?dāng)?shù)據(jù)資產(chǎn)》的信息請(qǐng)求,以改進(jìn)政府?dāng)?shù)據(jù)資產(chǎn)的創(chuàng)建和使用,為生成式人工智能技術(shù)發(fā)展提供高質(zhì)量數(shù)據(jù)?!緟⒁奟equest for Information: AI-Ready Open Government Data Assets,https://www.commerce.gov/news/blog/2024/04/request-information-ai-ready-open-government-data-assets,2024年9月8日訪問。】
(二)規(guī)范數(shù)據(jù)收集使用,完善人工智能數(shù)據(jù)處理
2024年以來,為解決人工智能發(fā)展中以相關(guān)類型數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)合法性不明的問題,部分國家和地區(qū)出臺(tái)相關(guān)指引、指南及法律解釋,為人工智能合法合規(guī)收集使用相關(guān)數(shù)據(jù)提供規(guī)范指引。如2024年5月,荷蘭數(shù)據(jù)保護(hù)機(jī)構(gòu)發(fā)布《數(shù)據(jù)爬取指南》,【參見Scraping door particulieren en private organisaties, 載https://www.autoriteitpersoonsgegevens.nl/actueel/ap-scraping-bijna-altijd-illegaal,2024年9月4日訪問?!繛檫M(jìn)行數(shù)據(jù)爬取時(shí)遵守歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)要求提供具體指引。2024年6月,法國國家信息和自由委員會(huì)(CNIL)發(fā)布《AI系統(tǒng)開發(fā)的數(shù)據(jù)保護(hù)指南》,【AI system development: CNIL’s recommendations to comply with the GDPR, 07 June 2024, at https://www.cnil.fr/en/ai-system-development-cnils-recommendations-comply-gdpr (Last Visited on Aug.22, 2024).】從AI系統(tǒng)開發(fā)全周期入手,結(jié)合歐盟《通用數(shù)據(jù)保護(hù)條例》和《人工智能法》為相關(guān)技術(shù)人員、業(yè)務(wù)決策者等提供數(shù)據(jù)保護(hù)的具體指引,包括確認(rèn)職責(zé)、明確數(shù)據(jù)處理的合法性基礎(chǔ)。2024年6月,歐盟數(shù)據(jù)保護(hù)監(jiān)督機(jī)構(gòu)(EDPS)發(fā)布《生成式AI數(shù)據(jù)合規(guī)指引》,【Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, 03 June 2024,https://www.edps.europa.eu/system/files/2024-06/24-06-03_genai_orientations_en.pdf (Last Visited on Aug.22, 2024).】通過對(duì)人工智能是否涉及個(gè)人信息處理、何時(shí)進(jìn)行數(shù)據(jù)保護(hù)影響評(píng)估等關(guān)鍵問題進(jìn)行說明,結(jié)合具體實(shí)例,為歐盟機(jī)構(gòu)使用和開發(fā)生成式人工智能工具提供數(shù)據(jù)保護(hù)的具體指導(dǎo)。
(三)強(qiáng)調(diào)數(shù)據(jù)質(zhì)量管理,提升人工智能數(shù)據(jù)質(zhì)量
隨著生成式人工智能的快速發(fā)展,數(shù)據(jù)質(zhì)量問題成為各國關(guān)注的重點(diǎn),相關(guān)立法開始對(duì)人工智能訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)行強(qiáng)制要求,以數(shù)據(jù)質(zhì)量為人工智能大模型質(zhì)量提升提供基礎(chǔ)保障。歐盟《人工智能法》明確高風(fēng)險(xiǎn)人工智能系統(tǒng)的訓(xùn)練數(shù)據(jù)集應(yīng)當(dāng)滿足多方面要求:(1)應(yīng)當(dāng)遵循適當(dāng)?shù)臄?shù)據(jù)治理和管理實(shí)踐,如對(duì)所需數(shù)據(jù)集的可得性、數(shù)量和適用性進(jìn)行事先評(píng)估,審查可能的偏見等;(2)應(yīng)具有相關(guān)性、代表性、無差錯(cuò)和完整性,還應(yīng)具有適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)意義;(3)在預(yù)期目的要求的范圍內(nèi),考慮高風(fēng)險(xiǎn)人工智能系統(tǒng)只在特定地理范圍、行為或功能設(shè)置的特定特征或元素使用;(4)為了避免AI系統(tǒng)中的偏見可能導(dǎo)致的歧視,供應(yīng)商應(yīng)處理特殊類別的個(gè)人數(shù)據(jù),以確保對(duì)高風(fēng)險(xiǎn)AI系統(tǒng)的偏見進(jìn)行監(jiān)測(cè)、檢測(cè)和糾正?!練W盟《人工智能法》第10條。】此外,美國白宮科技政策辦公室發(fā)布的《人工智能權(quán)利法案藍(lán)圖》也提出,人工智能的訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)具有相關(guān)性、高質(zhì)量并適合當(dāng)前任務(wù),應(yīng)當(dāng)對(duì)部署地的社群具有代表性,并經(jīng)過歷史偏見和社會(huì)偏見的審查等,跟蹤和審查派生數(shù)據(jù)源,對(duì)敏感領(lǐng)域數(shù)據(jù)提供額外監(jiān)督?!緟⒁夿ulueprint for an AI Bill of Rights,載https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf,2024年8月22日訪問?!?/p>
四、人工智能時(shí)代數(shù)據(jù)制度的構(gòu)建完善
近年來,我國高度重視網(wǎng)絡(luò)法律規(guī)范體系建設(shè),持續(xù)完善新興領(lǐng)域立法,為人工智能規(guī)范發(fā)展夯實(shí)制度基礎(chǔ)。下一步,面對(duì)實(shí)踐中存在的數(shù)據(jù)制度“瓶頸”,建議順應(yīng)新一代人工智能技術(shù)快速發(fā)展浪潮,持續(xù)優(yōu)化完善數(shù)據(jù)治理法律體系,調(diào)整和細(xì)化相關(guān)制度規(guī)則,為人工智能發(fā)展掃清數(shù)據(jù)制度障礙。
(一)完善促進(jìn)發(fā)展的數(shù)據(jù)制度體系
人工智能時(shí)代的數(shù)據(jù)治理應(yīng)把握發(fā)展和規(guī)范兩條主線,明確安全底線,結(jié)合權(quán)益保護(hù)與產(chǎn)業(yè)發(fā)展需求,構(gòu)建促進(jìn)型數(shù)據(jù)制度。在方法上,以完善現(xiàn)有法規(guī)為核心,通過修改、解釋現(xiàn)有法律規(guī)范,在保持法律體系的穩(wěn)定性基礎(chǔ)上,明確數(shù)據(jù)利用規(guī)范要求。在理念上,可考慮以鼓勵(lì)創(chuàng)新為目標(biāo),關(guān)注數(shù)據(jù)權(quán)益保護(hù)和數(shù)據(jù)流通利用制度對(duì)創(chuàng)新主體的激勵(lì),以數(shù)據(jù)要素發(fā)展促進(jìn)人工智能等行業(yè)創(chuàng)新。
(二)推動(dòng)釋放數(shù)據(jù)要素活力,用好存量數(shù)據(jù)
在提升訓(xùn)練數(shù)據(jù)量的問題上,分別考慮爬取數(shù)據(jù)、個(gè)人信息數(shù)據(jù)、版權(quán)數(shù)據(jù)的特殊性??舍槍?duì)人工智能大模型爬取數(shù)據(jù)進(jìn)行訓(xùn)練的客觀需求,通過修訂現(xiàn)行立法放寬對(duì)第三方數(shù)據(jù)服務(wù)商數(shù)據(jù)爬取的限制,對(duì)于商業(yè)數(shù)據(jù)及公眾可以無償獲取的數(shù)據(jù)等明確制度要求,為人工智能大模型開發(fā)者合法的數(shù)據(jù)爬取和使用留出制度空間。在實(shí)現(xiàn)人工智能大模型訓(xùn)練中個(gè)人信息合法使用方面,可考慮在《個(gè)人信息保護(hù)法》框架下,針對(duì)人工智能大模型訓(xùn)練階段、生成階段、應(yīng)用階段個(gè)人信息保護(hù)的具體問題出臺(tái)細(xì)則和指引,考慮使用已公開個(gè)人信息訓(xùn)練的合法性,幫助相關(guān)企業(yè)合法地研發(fā)、部署、應(yīng)用人工智能大模型。在協(xié)調(diào)人工智能創(chuàng)新和著作權(quán)保護(hù)方面,可考慮通過拓展合理使用條款或完善授權(quán)機(jī)制等方式,允許企業(yè)出于發(fā)展人工智能的公共利益需要,在不影響作品的正常使用,不減損著作權(quán)人合法權(quán)益的基礎(chǔ)上,使用作品進(jìn)行模型訓(xùn)練。
(三)暢通數(shù)據(jù)開放共享機(jī)制,擴(kuò)充人工智能數(shù)據(jù)體量
數(shù)據(jù)可謂人工智能時(shí)代的公共性難題,其癥結(jié)在于如何在保護(hù)個(gè)體或企業(yè)合法權(quán)益的同時(shí),實(shí)現(xiàn)數(shù)據(jù)的聚合與互聯(lián)?!径詵|:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,載《中國法律評(píng)論》2023年第6期?!繛閼?yīng)對(duì)人工智能發(fā)展對(duì)巨量數(shù)據(jù)的需求,需進(jìn)一步暢通數(shù)據(jù)開放、數(shù)據(jù)共享和流通的渠道,釋放存量數(shù)據(jù)潛力。建議以立法明確公共數(shù)據(jù)開放要求,將更多公共數(shù)據(jù)投入人工智能訓(xùn)練過程中??煽紤]加快從國家層面出臺(tái)公共數(shù)據(jù)開放相關(guān)立法,明確公共數(shù)據(jù)開放范圍、開放主體、開放方式等具體規(guī)則,編制公共數(shù)據(jù)開放目錄及相關(guān)責(zé)任清單,推進(jìn)公共數(shù)據(jù)開放利用,加速高質(zhì)量公共數(shù)據(jù)在人工智能背景下進(jìn)一步釋放價(jià)值。以立法明確數(shù)據(jù)共享、數(shù)據(jù)交易合法性,促進(jìn)企業(yè)間數(shù)據(jù)資源互通聚合。相關(guān)部門可出臺(tái)規(guī)則指引、實(shí)踐指南、最佳實(shí)踐案例等,以行政指導(dǎo)、行業(yè)自律等方式支持鼓勵(lì)企業(yè)間數(shù)據(jù)互聯(lián)互通。此外,可由數(shù)據(jù)交易較為先進(jìn)的地區(qū)先行探索,制定數(shù)據(jù)產(chǎn)權(quán)、數(shù)據(jù)流通、數(shù)據(jù)定價(jià)等相關(guān)規(guī)則、標(biāo)準(zhǔn),引導(dǎo)和促進(jìn)數(shù)據(jù)依法高效流通,讓數(shù)據(jù)“供得出、流得動(dòng)、用得好”,真正成為人工智能發(fā)展的催化劑?!尽秶覕?shù)據(jù)局黨組書記、局長(zhǎng)劉烈宏最新發(fā)言:首談人工智能大模型》,載騰訊網(wǎng),https://new.qq.com/rain/a/20240304A07DB600,2024年8月16日訪問?!?/p>
(四)“軟硬兼施”多維度提升人工智能數(shù)據(jù)質(zhì)量
高質(zhì)量數(shù)據(jù)可以更好地模擬世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力,提升模型準(zhǔn)確性、穩(wěn)定性、魯棒性和泛化能力。在強(qiáng)化數(shù)據(jù)質(zhì)量管理方面,需軟硬兼施全方位提升數(shù)據(jù)質(zhì)量管理水平。一方面,人工智能相關(guān)法律法規(guī)、政策文件可進(jìn)一步明確數(shù)據(jù)質(zhì)量要求,規(guī)范人工智能研發(fā)者、數(shù)據(jù)提供者、數(shù)據(jù)標(biāo)注者等的數(shù)據(jù)質(zhì)量管理義務(wù)。“對(duì)于生成式人工智能而言,研發(fā)者應(yīng)就模型訓(xùn)練時(shí)的數(shù)據(jù)類型、數(shù)據(jù)來源、數(shù)據(jù)處理方式、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注規(guī)則、減少數(shù)據(jù)中潛在偏見和歧視的措施,以及數(shù)據(jù)輸入后可能對(duì)個(gè)人、系統(tǒng)以及社會(huì)產(chǎn)生的影響與后果履行全面的告知義務(wù)?!薄緩埿溃骸渡墒饺斯ぶ悄艿臄?shù)據(jù)風(fēng)險(xiǎn)與治理路徑》,載《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第5期?!苛硪环矫?,我國相關(guān)主管部門、行業(yè)組織可通過發(fā)布實(shí)踐指引、行業(yè)標(biāo)準(zhǔn)的形式,明確對(duì)具體行業(yè)、具體類型數(shù)據(jù)質(zhì)量的具體要求。圍繞數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)合規(guī)化、數(shù)據(jù)完整性、數(shù)據(jù)一致性等要求,構(gòu)建數(shù)據(jù)集質(zhì)量評(píng)測(cè)基準(zhǔn)體系,開發(fā)數(shù)據(jù)標(biāo)注管理工具,為提升數(shù)據(jù)質(zhì)量提供明確指引。此外,可探索構(gòu)建數(shù)據(jù)標(biāo)注行業(yè)管理制度,完善數(shù)據(jù)標(biāo)注規(guī)則,包括標(biāo)注目標(biāo)、標(biāo)注格式、標(biāo)注方法以及數(shù)據(jù)質(zhì)量指標(biāo)等。同時(shí),構(gòu)建數(shù)據(jù)標(biāo)注從業(yè)者的資格準(zhǔn)入制度,針對(duì)數(shù)據(jù)標(biāo)注、數(shù)據(jù)審核等不同職能明確不同的任職要求等。
五、結(jié)論
整體來看,大規(guī)模、高質(zhì)量的數(shù)據(jù)資源對(duì)于以生成式人工智能為代表的新一代人工智能發(fā)展的重要性日益凸顯。在持續(xù)探索構(gòu)建數(shù)字經(jīng)濟(jì)時(shí)代數(shù)據(jù)基礎(chǔ)制度的背景下,有必要重新審視我國現(xiàn)有數(shù)據(jù)制度體系,“將規(guī)制目標(biāo)從權(quán)利保護(hù)進(jìn)階為公平使用,將規(guī)制路徑由命令控制轉(zhuǎn)變?yōu)榘輰徤鳌?,【張濤:《生成式人工智能?xùn)練數(shù)據(jù)集的法律風(fēng)險(xiǎn)與包容審慎規(guī)制》,載《比較法研究》2024年第4期?!吭诿鞔_監(jiān)管底線紅線的基礎(chǔ)上,通過優(yōu)化完善個(gè)人信息處理、版權(quán)數(shù)據(jù)保護(hù)、公共數(shù)據(jù)開放等法律制度,強(qiáng)化數(shù)據(jù)爬取行為規(guī)范性要求,健全數(shù)據(jù)流通交易規(guī)則,促進(jìn)數(shù)據(jù)合規(guī)流通,激發(fā)數(shù)據(jù)要素價(jià)值,為人工智能創(chuàng)新發(fā)展提供源源不斷的優(yōu)質(zhì)數(shù)據(jù)資源。
Abstract:Nowadays, data has become the catalyst for the rapid development of artificial intelligence. The Third Plenary Session of the 20th Central Committee of the Communist Party of China proposed that we should improve the policy and governance system to promote the development of new generation of information technology, artificial intelligence and other strategic industries, guide the healthy and orderly development of emerging industries, and build and operate the national data infrastructure to promote data sharing. In terms of China’s industrial practice, the relevant data legal system in response to the development of artificial intelligence is still lagging behind, resulting in unusable, insufficient or low quality data, which have restricted the development of artificial intelligence and relevant industries. Internationally, many countries and regions are actively tackling the bottleneck of AI data system through amending laws and regulations and issuing guidelines to provide legal basis and practical guidance for AI development. To meet the needs of developing a new generation of artificial intelligence, China should promptly improve relevant legal rules on data, promote the legitimate and efficient utilization of data, and clear the institutional obstacles for the high-quality development of artificial intelligence.
[責(zé)任編輯 邢峻彬]