□ 文 杜曉明 趙曄蕾 張媛玥 李一明
截至2023年7月底,國內(nèi)10億參數(shù)以上的各類大模型,已達113個,當(dāng)前模型的擴展速度比數(shù)據(jù)集快3倍。谷歌研究發(fā)現(xiàn),數(shù)據(jù)集大小至少與模型大小一樣重要,數(shù)據(jù)集和模型大小應(yīng)該大約1:1以達到給定數(shù)量的訓(xùn)練計算下的最佳性能。因此下階段AI的突破將得益于高質(zhì)量數(shù)據(jù),這是大模型性能提升、行業(yè)應(yīng)用落地的關(guān)鍵,能否掌控相應(yīng)的數(shù)據(jù)集,直接決定能否構(gòu)建產(chǎn)業(yè)競爭優(yōu)勢。
目前用于大模型訓(xùn)練的國內(nèi)數(shù)據(jù)集主要有公開數(shù)據(jù)、自有數(shù)據(jù)、合作伙伴數(shù)據(jù)、外部采購數(shù)據(jù)等。
通過梳理國內(nèi)機構(gòu)在訓(xùn)練大模型時所使用的數(shù)據(jù)來源,可以看到目前用于大模型訓(xùn)練的國內(nèi)數(shù)據(jù)集主要有公開數(shù)據(jù)、自有數(shù)據(jù)、合作伙伴數(shù)據(jù)、外部采購數(shù)據(jù)等。當(dāng)前100%的機構(gòu)使用公開和自有數(shù)據(jù),67%的機構(gòu)使用合作伙伴數(shù)據(jù),22%的機構(gòu)外部采購數(shù)據(jù),即從第三方機構(gòu)或平臺購買或租賃而獲得。
公開數(shù)據(jù)包括開源數(shù)據(jù)集和公開資料。目前有國內(nèi)的政府、行業(yè)巨頭、開源組織、學(xué)術(shù)界單獨或聯(lián)合發(fā)布開源數(shù)據(jù)集,如百度DuReader數(shù)據(jù)集、阿里天池數(shù)據(jù)集等??傮w來看數(shù)據(jù)質(zhì)量相對較低,存在噪聲、偏差或過時等問題。公開資料主要是電子、紙質(zhì)等媒介上的各類公開信息,數(shù)量較多,形態(tài)多樣,需要自行抓取并進行預(yù)訓(xùn)練才可使用,且行業(yè)專業(yè)度不深,如各類政府公開數(shù)據(jù)、新聞、網(wǎng)頁數(shù)據(jù)、百科類數(shù)據(jù)(百度百科等)、問答數(shù)據(jù)(知乎等)、共享文檔、自媒體等。
自有數(shù)據(jù)主要是指各個機構(gòu)在業(yè)務(wù)經(jīng)營、研究過程中,自行積累的數(shù)據(jù)。這類數(shù)據(jù)領(lǐng)域性和專業(yè)針對性較強,適合與行業(yè)大模型深度結(jié)合,并且因為私有性和壟斷性,具備差異化優(yōu)勢。如騰訊“混元”大模型的自有數(shù)據(jù)主要來自微信公眾號、廣告數(shù)據(jù)和微信搜索等,華為盤古大模型的行業(yè)數(shù)據(jù)涵蓋了B端的氣象、礦山、鐵路等,阿里通義大模型的部分自有數(shù)據(jù)來自阿里達摩院,包括一些專業(yè)知識和技術(shù)文檔等。這類數(shù)據(jù)存在質(zhì)量不佳、數(shù)量不足等情況且機構(gòu)一般不具備專業(yè)的數(shù)據(jù)處理能力,需要數(shù)據(jù)服務(wù)提供商協(xié)助企業(yè)構(gòu)建自有高質(zhì)量專業(yè)數(shù)據(jù)集。只有擁有大量數(shù)據(jù)積累并且具備行業(yè)know-how的企業(yè)才能夠在大模型的基礎(chǔ)上學(xué)習(xí)行業(yè)特色數(shù)據(jù)與知識打造出行業(yè)大模型。
機構(gòu)與其他機構(gòu)或企業(yè)進行合作或交換而獲得的數(shù)據(jù),合作伙伴以私有接口等方式或授權(quán)平臺方使用其數(shù)據(jù),這類數(shù)據(jù)通常是針對相關(guān)領(lǐng)域或任務(wù)的數(shù)據(jù),可靠性與實用性較高,但存在定向授權(quán),涉及隱私、安全或法律等合規(guī)性問題,如華為盤古大模型使用華為云平臺上脫敏后的企業(yè)數(shù)據(jù)等。
截至2022年末,全國已有56家正規(guī)數(shù)字交易所,通過API接口對外提供數(shù)據(jù),部分機構(gòu)也在自有平臺上對外銷售研究報告、聚合型數(shù)據(jù)表格等數(shù)據(jù)資源。這類數(shù)據(jù)可根據(jù)需求定制化采購,專業(yè)性或需求針對性較高,數(shù)據(jù)結(jié)構(gòu)性較強質(zhì)量較高,如上海數(shù)據(jù)交易所截至2023年7月底,已有1258條數(shù)據(jù)要素資產(chǎn)在線銷售,貴數(shù)所已上架產(chǎn)品1055個,交易888筆。萬得通過聚合并梳理宏觀、上市企業(yè)等公開經(jīng)濟、金融類數(shù)據(jù),整理形成數(shù)據(jù)字段,并以數(shù)據(jù)產(chǎn)品形式對外銷售,天眼查等工商信息網(wǎng)站聚合工商、司法等信息,形成關(guān)鍵字段,對外銷售。
相較于英文生態(tài)的數(shù)據(jù)總量而言,中文生態(tài)中的可用數(shù)據(jù)總量仍有差距。一方面是由全球互聯(lián)網(wǎng)語言現(xiàn)狀所導(dǎo)致,如維基百科數(shù)據(jù)截至2023年6月末,英文詞條超過600萬,而中文為113萬;在雜志期刊方面,中國高引用論文的數(shù)量占世界份額為27.3%,落后于美國的42.9%,若疊加其他類型英文文章,則落后幅度更大。另一方面,中文互聯(lián)網(wǎng)生態(tài)逐步邁向以移動互聯(lián)網(wǎng)為代表的私域化模式,限制了數(shù)據(jù)可采集性。根據(jù)IDC的研究,2022年中國數(shù)據(jù)總量為23.88ZB,與北美的28.05ZB相差無幾,但是在產(chǎn)業(yè)實際運營中,可供形成數(shù)據(jù)集的資源量卻不充足。以可供公開采集的互聯(lián)網(wǎng)站為例,截至2023年6月底,全球前100萬互聯(lián)網(wǎng)站中,英文為53.9%,而中文僅為1.4%。盡管百度、阿里等部分廠商開放了數(shù)據(jù),或者由民間基于數(shù)據(jù)抓取在Github上開放,但規(guī)模一般在10GB以下。數(shù)據(jù)集規(guī)模直接影響中文大模型的競爭潛力。
一是高質(zhì)量數(shù)據(jù)集需要從頂層設(shè)計、標(biāo)注規(guī)范、標(biāo)注質(zhì)量把控以及發(fā)布后更新升級各個方面嚴(yán)格把關(guān),是需要長期積累且持續(xù)性巨大資金投入的過程。一般是長期投入的企業(yè)或者自然基金項目才有能力開展,如Common Crawl 2008年起抓取網(wǎng)頁制定數(shù)據(jù)集,被公認全球大模型優(yōu)質(zhì)基礎(chǔ)數(shù)據(jù)集,目前規(guī)模已達TB級別。二是對于訓(xùn)練行業(yè)大模型所需要使用的工業(yè)、醫(yī)療、金融、交通等領(lǐng)域的數(shù)據(jù),公共數(shù)據(jù)來源顯著不足,除了彭博、萬得、恒生、天眼查、千里馬等聚合數(shù)據(jù)平臺之外,在政務(wù)、交通等領(lǐng)域需要逐一對接各地的公共數(shù)據(jù)開放平臺或大數(shù)據(jù)交易平臺。不僅如此,這些行業(yè)數(shù)據(jù)需要進一步預(yù)處理,例如對阿里天池等行業(yè)數(shù)據(jù)開放平臺的監(jiān)測,眾多開放的行業(yè)數(shù)據(jù)實際聚焦于某些單一場景,需要使用者經(jīng)過聚合整理后方能作為訓(xùn)練大數(shù)據(jù)的數(shù)據(jù)集。
目前網(wǎng)頁抓取、自有數(shù)據(jù)和開源數(shù)據(jù)集仍然是多模態(tài)大模型數(shù)據(jù)集的重要來源,其中通過機器翻譯開源數(shù)據(jù)集的方式仍存在風(fēng)險,如2023年3月,百度文心的AI繪圖功能上線,由于具有西方風(fēng)格,行業(yè)內(nèi)最初質(zhì)疑是“換皮”方式實現(xiàn),經(jīng)過研究主要是百度缺乏國內(nèi)高質(zhì)量圖片數(shù)據(jù)集進行模型訓(xùn)練,而使用國外的數(shù)據(jù)集并采用機器翻譯方式將英文標(biāo)注直接翻譯為中文導(dǎo)致。我們分析主要是因為多模態(tài)數(shù)據(jù)私域化或版權(quán)化保護導(dǎo)致國內(nèi)多模態(tài)數(shù)據(jù)集不足。當(dāng)前各類交通監(jiān)控、工業(yè)視覺等均保存于行業(yè)平臺,國內(nèi)2/3高質(zhì)量圖片版權(quán)歸屬于視覺中國,長短視頻主要由抖音等平臺方運營,這些高質(zhì)量多模態(tài)數(shù)據(jù)尚未形成多模態(tài)數(shù)據(jù)集或不對外開放。
運營商作為信息通信產(chǎn)業(yè)的基礎(chǔ)設(shè)施服務(wù)提供商,在人工智能大模型時代,需積極拓展業(yè)務(wù)邊界,將通信信息服務(wù)向戰(zhàn)略新興業(yè)務(wù)方向拓展。
電信運營商作為信息通信產(chǎn)業(yè)的基礎(chǔ)設(shè)施服務(wù)提供商,在人工智能大模型時代,需積極拓展業(yè)務(wù)邊界,將信息通信服務(wù)向戰(zhàn)略新興業(yè)務(wù)方向拓展。布局大模型的同時在數(shù)據(jù)能力方面夯實AI發(fā)展基礎(chǔ)能力,賦能企業(yè)自身和行業(yè)客戶數(shù)字化轉(zhuǎn)型。
電信運營商支撐著幾十億用戶24小時數(shù)字生活以及近百億的各類連接數(shù)據(jù),數(shù)據(jù)資產(chǎn)規(guī)模巨大。由此一方面可以通過有效的數(shù)據(jù)規(guī)劃,實現(xiàn)資源的內(nèi)部整合,匯聚多源數(shù)據(jù)打造成可復(fù)用的數(shù)據(jù)資產(chǎn),將“數(shù)據(jù)資源”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)資產(chǎn)”,進而將高質(zhì)量數(shù)據(jù)集用于自身網(wǎng)絡(luò)大模型的訓(xùn)練,借助大模型工具優(yōu)化網(wǎng)絡(luò)能力提升基礎(chǔ)業(yè)務(wù);另一方面要加強數(shù)據(jù)脫敏、隱私計算等核心技術(shù)能力培養(yǎng),融合數(shù)據(jù)、工具、算法、算力、服務(wù)等多種要素,抽取共性需求,實現(xiàn)數(shù)據(jù)的價值萃取,打造以高質(zhì)量數(shù)據(jù)集為基礎(chǔ)的數(shù)據(jù)價值經(jīng)營體系,實現(xiàn)基于數(shù)據(jù)集跨行業(yè)跨領(lǐng)域的交換、交易及安全管理。通過與相關(guān)垂直行業(yè)企業(yè)合作輸出高質(zhì)量行業(yè)數(shù)據(jù)集用于訓(xùn)練各行業(yè)大模型,進一步增強了行業(yè)大模型的領(lǐng)域?qū)I(yè)性和場景適配性,更有利的賦能企業(yè)數(shù)字化轉(zhuǎn)型。
一是與合作伙伴共享數(shù)據(jù)擴大數(shù)據(jù)規(guī)模,增加數(shù)據(jù)的維度和深度,以支持更復(fù)雜、更精細的模型訓(xùn)練,并持續(xù)推動優(yōu)質(zhì)數(shù)據(jù)集的構(gòu)建。二是聯(lián)合高校、互聯(lián)網(wǎng)巨頭、非盈利機構(gòu)等組織加強產(chǎn)學(xué)研聯(lián)合創(chuàng)新,打造開源數(shù)據(jù)集。作為國資央企,電信運營商需發(fā)揮產(chǎn)業(yè)鏈號召力鏈接產(chǎn)業(yè)鏈上下游,激活數(shù)據(jù)交易流通市場,促進數(shù)據(jù)集之間的合作共享,提供更多樣化的數(shù)據(jù)產(chǎn)品,如基于電信運營商特有的通信類數(shù)據(jù)打造通信類高質(zhì)量數(shù)據(jù)集,并實現(xiàn)數(shù)據(jù)集的采集、管理和運營的全棧式服務(wù)。三是加強與政府的溝通,推動國家、地方數(shù)據(jù)集標(biāo)準(zhǔn)化建設(shè),涵蓋對格式、合規(guī)性等要求,推動示范性數(shù)據(jù)集的建設(shè),如目前北京市已經(jīng)推出了標(biāo)桿數(shù)據(jù)集,電信運營商具備較高數(shù)據(jù)合規(guī)性能力,可以承擔(dān)數(shù)據(jù)交易領(lǐng)域的標(biāo)桿示范作用。
目前,數(shù)據(jù)集的規(guī)模和質(zhì)量已經(jīng)成為產(chǎn)業(yè)競爭關(guān)鍵之一??蒲蓄I(lǐng)域,人工智能領(lǐng)域權(quán)威學(xué)者吳恩達發(fā)起“以數(shù)據(jù)為中心運動”;產(chǎn)業(yè)實踐來看,在一個大模型項目中,數(shù)據(jù)工程(包括數(shù)據(jù)采集和標(biāo)注)時長,占總項目時長的80%,并對模型準(zhǔn)確率產(chǎn)生10%的影響;而模型工程(模型訓(xùn)練和部署),僅占總時長的10%,并僅影響1%的準(zhǔn)確率。
隨著支持政策發(fā)布、數(shù)據(jù)處理技術(shù)進步和數(shù)據(jù)服務(wù)產(chǎn)業(yè)發(fā)展,國內(nèi)可用的大模型數(shù)據(jù)集的數(shù)量、質(zhì)量和種類都將得到提升和完善,更好滿足大模型對數(shù)據(jù)集規(guī)模更大、樣式更多、質(zhì)量更高的需求,并為我國大模型的發(fā)展奠定良好基礎(chǔ)。