楊 琪,龔南寧
數(shù)據(jù)堂(北京)科技股份有限公司 北京 100190
我國(guó)大數(shù)據(jù)交易的主要問(wèn)題及建議
楊 琪,龔南寧
數(shù)據(jù)堂(北京)科技股份有限公司 北京 100190
數(shù)據(jù)的開(kāi)放和流通是數(shù)據(jù)資源價(jià)值體現(xiàn)的前提和基礎(chǔ),我國(guó)數(shù)據(jù)交易市場(chǎng)仍處在發(fā)展的初級(jí)階段,大數(shù)據(jù)在社會(huì)管理和經(jīng)濟(jì)發(fā)展中遠(yuǎn)未發(fā)揮應(yīng)起到的作用。為此,對(duì)國(guó)內(nèi)外大數(shù)據(jù)流通和交易市場(chǎng)的現(xiàn)狀及特點(diǎn)進(jìn)行了分析,提出當(dāng)前我國(guó)大數(shù)據(jù)流通交易環(huán)節(jié)面臨的主要問(wèn)題是價(jià)值鏈條的不完整和對(duì)數(shù)據(jù)資源流通過(guò)程中商業(yè)秘密和個(gè)人隱私泄露的恐懼。最后,從數(shù)據(jù)商品化、社會(huì)認(rèn)知建立和市場(chǎng)主體權(quán)益保護(hù)3個(gè)方面提出了對(duì)于推動(dòng)數(shù)據(jù)資源流通的建議。
大數(shù)據(jù);交易;商品化;數(shù)據(jù)開(kāi)放;隱私;安全
大數(shù)據(jù)的出現(xiàn),引發(fā)了全球范圍內(nèi)深刻的技術(shù)與商業(yè)變革,已經(jīng)成為全球發(fā)展的趨勢(shì)以及國(guó)家和企業(yè)間的競(jìng)爭(zhēng)焦點(diǎn),直接關(guān)系到國(guó)家安全、社會(huì)穩(wěn)定、經(jīng)濟(jì)發(fā)展和民生幸福等諸多方面。數(shù)據(jù)資源日益成為人類(lèi)社會(huì)的生產(chǎn)要素和戰(zhàn)略資產(chǎn),而數(shù)據(jù)的開(kāi)放和流通是其價(jià)值體現(xiàn)的前提和基礎(chǔ)。據(jù)Gartner Group公司預(yù)測(cè),到2017年,約2/3的大數(shù)據(jù)整合項(xiàng)目將是企業(yè)防火墻之外(外部數(shù)據(jù))的整合;根據(jù)Teradata天睿公司的調(diào)查顯示,很多公司僅存儲(chǔ)了15%與其業(yè)務(wù)相關(guān)的數(shù)據(jù),其他85%的數(shù)據(jù)駐留在其他公司或網(wǎng)站上。麥肯錫全球研究院預(yù)測(cè),開(kāi)放數(shù)據(jù)在全球的教育、交通運(yùn)輸、消費(fèi)市場(chǎng)、電力、石油/天然氣、醫(yī)療健康、消費(fèi)金融(包括銀行、保險(xiǎn)和房地產(chǎn))7個(gè)領(lǐng)域可以撬動(dòng)3.2萬(wàn)億~5.4萬(wàn)億美元的經(jīng)濟(jì)價(jià)值,如圖1所示。
由于多源頭、跨領(lǐng)域的關(guān)聯(lián)分析才有可能形成更完整的知識(shí)和更深刻的智能,數(shù)據(jù)資源的流通日益成為普遍認(rèn)知和客觀需求。在Bloomberg Ventures創(chuàng)始人Matt Turck的研究中,專(zhuān)門(mén)將與數(shù)據(jù)流通直接相關(guān)的數(shù)據(jù)生產(chǎn)者、匯集平臺(tái)以及數(shù)據(jù)集市(大意如此,原圖在各區(qū)塊內(nèi)部的細(xì)分邏輯上稍顯凌亂)歸納為產(chǎn)業(yè)鏈上的數(shù)據(jù)供給(data sources)環(huán)節(jié),如圖2所示。
針對(duì)任何一種商品交易,都可以從供需兩端入手進(jìn)行分析,以形成市場(chǎng)概貌。根據(jù)圖2的大數(shù)據(jù)產(chǎn)業(yè)區(qū)塊劃分,能夠最為直觀地反映數(shù)據(jù)交易流通概貌的就是對(duì)產(chǎn)業(yè)鏈條兩端的分析,即對(duì)數(shù)據(jù)源和應(yīng)用區(qū)塊的分析。
(1)數(shù)據(jù)源機(jī)構(gòu)或企業(yè)處于整個(gè)大數(shù)據(jù)市場(chǎng)的供給端,其主要特征是向用戶(hù)直接交付數(shù)據(jù)產(chǎn)品或服務(wù),包括原始數(shù)據(jù)、加工處理后的數(shù)據(jù)以及由多份數(shù)據(jù)整合后的新數(shù)據(jù),分別對(duì)應(yīng)數(shù)據(jù)產(chǎn)生者、數(shù)據(jù)加工者和數(shù)據(jù)整合者的角色。
(2)應(yīng)用端則反映了數(shù)據(jù)交易的客觀需求,是大數(shù)據(jù)交易市場(chǎng)的主要推動(dòng)力,而且還帶動(dòng)了分析區(qū)塊內(nèi)的企業(yè)進(jìn)入數(shù)據(jù)流通市場(chǎng)。應(yīng)用端的發(fā)展程度決定了大數(shù)據(jù)交易的規(guī)模上限。
圖1 全球數(shù)據(jù)開(kāi)放價(jià)值(來(lái)源于麥肯錫全球研究院)
圖2 大數(shù)據(jù)產(chǎn)業(yè)鏈分布
2.1 國(guó)外數(shù)據(jù)流通和交易現(xiàn)狀及特點(diǎn)
在數(shù)據(jù)的流通和交易方面,歐美發(fā)達(dá)國(guó)家尤其是美國(guó)已經(jīng)走在了前面,圖3為國(guó)外數(shù)據(jù)市場(chǎng)的概貌。
如圖3所示,數(shù)據(jù)中介通過(guò)政府、公開(kāi)和商業(yè)渠道,從數(shù)據(jù)源頭處獲取各類(lèi)信息,進(jìn)而向用戶(hù)直接交付數(shù)據(jù)產(chǎn)品或服務(wù)。其中,數(shù)據(jù)源頭、數(shù)據(jù)中介和最終用戶(hù)構(gòu)成了數(shù)據(jù)流通和交易的主體。
數(shù)據(jù)源頭和中介環(huán)節(jié)共同構(gòu)成了大數(shù)據(jù)資源的供給端,其中比較典型的案例見(jiàn)表1。
Twitter將自身數(shù)據(jù)授權(quán)給公司Gnip、DataSift和NTT DATA進(jìn)行售賣(mài);Acxiom等公司通過(guò)各種手段收集、匯聚關(guān)于企業(yè)和個(gè)人的信息;Sermo.com和Inrix等公司則通過(guò)網(wǎng)絡(luò)和傳感器直接從公眾采集數(shù)據(jù),獲得了傳統(tǒng)上單個(gè)企業(yè)難以采集的海量、實(shí)時(shí)數(shù)據(jù)。
圖3 國(guó)外數(shù)據(jù)市場(chǎng)概貌
表1 數(shù)據(jù)市場(chǎng)供給端典型案例
數(shù)據(jù)市場(chǎng)的另一端是數(shù)據(jù)的需求方,包括各類(lèi)數(shù)據(jù)分析服務(wù)商和行業(yè)用戶(hù),涉及政府決策、公共服務(wù)、影視娛樂(lè)、交通物流、醫(yī)療健康、金融、電信、人力資源、零售、廣告營(yíng)銷(xiāo)、農(nóng)業(yè)、能源等領(lǐng)域。表2為各行業(yè)或領(lǐng)域內(nèi)的數(shù)據(jù)用戶(hù)(即引入外部數(shù)據(jù)支撐自身產(chǎn)品或服務(wù)的企業(yè)或機(jī)構(gòu))總結(jié)。
根據(jù)數(shù)據(jù)供給端和需求端的概況,可以總結(jié)出以下特點(diǎn)。
(1)數(shù)據(jù)中介大多以采集和聚合為主
數(shù)據(jù)中介層在整個(gè)大數(shù)據(jù)流通和交易中地位突出。根據(jù)美國(guó)參議院商務(wù)、科學(xué)與運(yùn)輸委員會(huì)發(fā)布的報(bào)告,全美數(shù)據(jù)中介市場(chǎng)2012年的總規(guī)模已達(dá)1 500億美元,相當(dāng)于當(dāng)年美國(guó)情報(bào)總預(yù)算的兩倍。相反,數(shù)據(jù)生產(chǎn)者很少直接面向最終用戶(hù),大多通過(guò)中介渠道實(shí)現(xiàn)自身數(shù)據(jù)的變現(xiàn)。例如Twitter這樣的海量數(shù)據(jù)擁有者,也僅是通過(guò)授予公司Gnip、DataSift和NTT DATA數(shù)據(jù)轉(zhuǎn)售權(quán)實(shí)現(xiàn)數(shù)據(jù)資源的變現(xiàn)。
(2)集市類(lèi)的形態(tài)逐漸弱化
全球范圍內(nèi),相關(guān)平臺(tái)都最終在數(shù)據(jù)類(lèi)型上有所側(cè)重,不再以“綜合性”為主要策略。Datamarket公司以國(guó)民經(jīng)濟(jì)與工業(yè)相關(guān)的數(shù)據(jù)集為主;InfoChimps公司在地理位置、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)信息等方面的數(shù)據(jù)更為突出,且逐漸轉(zhuǎn)型為PaaS平臺(tái);Factual公司從提供全范圍的數(shù)據(jù)交易平臺(tái)轉(zhuǎn)為專(zhuān)注于提供地理位置相關(guān)的數(shù)據(jù)集。更為極端的例子是致力于社交網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)市場(chǎng)Kasabi(英國(guó))在2012年7月關(guān)閉,僅經(jīng)營(yíng)了一年多。
(3)用戶(hù)端需求廣泛、應(yīng)用典型
在大數(shù)據(jù)當(dāng)前主要的應(yīng)用領(lǐng)域內(nèi),都有比較典型的、引入外部數(shù)據(jù)支撐自身業(yè)務(wù)的案例。Rentrak公司基于機(jī)頂盒數(shù)據(jù),監(jiān)測(cè)各種屏幕上的媒體消費(fèi)情況,為影視制作公司和廣告公司提供咨詢(xún)服務(wù);Carolinas HealthCare System公司采集200多萬(wàn)客戶(hù)的消費(fèi)數(shù)據(jù),識(shí)別其中高風(fēng)險(xiǎn)的患者;SAP公司從運(yùn)營(yíng)商處收集智能手機(jī)使用信息和位置數(shù)據(jù),并銷(xiāo)售給市場(chǎng)營(yíng)銷(xiāo)機(jī)構(gòu);Kabbage公司使用來(lái)自于亞馬遜公司、UPS公司和Intuit公司的信用評(píng)分模型數(shù)據(jù),評(píng)估中小企業(yè)的風(fēng)險(xiǎn)等級(jí);Glassdoor和ResumUp等公司通過(guò)各種方式收集企業(yè)信息,為求職者提供企業(yè)評(píng)估服務(wù);Climate公司從200多萬(wàn)個(gè)采集點(diǎn)獲取天氣數(shù)據(jù),向農(nóng)民提供保險(xiǎn)服務(wù);Energy Hub公司與傳感器網(wǎng)絡(luò)廠商Earth Networks合作,利用氣象數(shù)據(jù)提高能源供給設(shè)施的效率。
表2 典型數(shù)據(jù)用戶(hù)總結(jié)
表3 國(guó)內(nèi)典型數(shù)據(jù)供給企業(yè)
表4 國(guó)內(nèi)潛在的大數(shù)據(jù)供給源
表5 國(guó)內(nèi)數(shù)據(jù)市場(chǎng)的用戶(hù)端典型案例
2.2 國(guó)內(nèi)數(shù)據(jù)流通和交易現(xiàn)狀及特點(diǎn)
在具體的領(lǐng)域或行業(yè)內(nèi),我國(guó)普遍未形成成型的數(shù)據(jù)采集、加工、分析和應(yīng)用鏈條,以數(shù)據(jù)為主要服務(wù)或產(chǎn)品的案例較少,國(guó)內(nèi)典型數(shù)據(jù)供給企業(yè)見(jiàn)表3[1]。
盡管案例較少,但實(shí)際上我國(guó)有大量掌握海量、高價(jià)值數(shù)據(jù)的企業(yè)或機(jī)構(gòu),具有成為社會(huì)化數(shù)據(jù)商品源頭的潛質(zhì),見(jiàn)表4。
除了上述企業(yè)外,特定地區(qū)和行業(yè)內(nèi)部也有基本的數(shù)據(jù)流通機(jī)制,比如行業(yè)內(nèi)的數(shù)據(jù)共享聯(lián)盟。而在政府端,各地政府也已逐步推動(dòng)數(shù)據(jù)開(kāi)放的工作,其中比較典型的是北京市政務(wù)數(shù)據(jù)資源網(wǎng)和上海市公共信用信息服務(wù)平臺(tái)。
我國(guó)數(shù)據(jù)市場(chǎng)中,引入外部數(shù)據(jù)支撐業(yè)務(wù)的典型案例見(jiàn)表5。
結(jié)合我國(guó)數(shù)據(jù)市場(chǎng)的供給端和用戶(hù)端,可以得出以下主要特點(diǎn)。
(1)大量數(shù)據(jù)源未被激活。大多數(shù)數(shù)據(jù)擁有者沒(méi)有數(shù)據(jù)價(jià)值外化的路徑。比如,各醫(yī)療健康類(lèi)應(yīng)用收集了大量的數(shù)據(jù),但沒(méi)有像Sermo.com那樣面向醫(yī)藥公司售賣(mài)數(shù)據(jù)。
(2)需求端以互聯(lián)網(wǎng)企業(yè)為主,覆蓋面不廣。尤其在O2O趨勢(shì)下,大型互聯(lián)網(wǎng)廠商積極引入外部數(shù)據(jù)支撐金融、生活、語(yǔ)音、旅游、健康和教育等多種服務(wù)。但是,與國(guó)外相比覆蓋面偏窄,我國(guó)的政府、公共服務(wù)、農(nóng)業(yè)應(yīng)用基本缺位,而電信和銀行業(yè)缺少與外部數(shù)據(jù)的碰撞。
(3)諸多企業(yè)基于自身的海量高價(jià)值數(shù)據(jù)對(duì)外提供服務(wù)。比如阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司開(kāi)始做金融行業(yè)的數(shù)據(jù)分析應(yīng)用,中國(guó)民航信息網(wǎng)絡(luò)股份有限公司通過(guò)“航旅縱橫”應(yīng)用提供航班信息服務(wù)。
數(shù)據(jù)源活性不夠、應(yīng)用覆蓋面較窄等問(wèn)題的根本結(jié)癥在于我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展還處于非常初級(jí)的階段。除了語(yǔ)音和地理信息類(lèi)數(shù)據(jù)之外,其他數(shù)據(jù)的價(jià)值實(shí)現(xiàn)鏈條尚未成型。而且,在面對(duì)數(shù)據(jù)資源流通的問(wèn)題上,數(shù)據(jù)擁有者普遍存在恐懼心理或沒(méi)有足夠的動(dòng)力。
3.1 大數(shù)據(jù)價(jià)值實(shí)現(xiàn)鏈條的缺位
參照國(guó)外市場(chǎng)的發(fā)展現(xiàn)狀,數(shù)據(jù)市場(chǎng)的成熟離不開(kāi)供給、中介(匯集、清洗和加工)和需求端的協(xié)調(diào)發(fā)展,這3個(gè)環(huán)節(jié)構(gòu)成了大數(shù)據(jù)價(jià)值實(shí)現(xiàn)鏈條的基本要素。
國(guó)內(nèi)外典型的數(shù)據(jù)價(jià)值鏈如圖4所示。一個(gè)典型的國(guó)外大數(shù)據(jù)價(jià)值鏈案例:Sprint公司將設(shè)備位置信息提供給數(shù)據(jù)集成與分析商Locately,由后者在匯總分析之后將結(jié)果提供給市場(chǎng)營(yíng)銷(xiāo)公司HAVAS和Mobext,最終Whole Foods、Sears、Target和沃爾瑪?shù)冗B鎖超市獲得相應(yīng)的市場(chǎng)調(diào)研報(bào)告及咨詢(xún)建議。與之相對(duì)應(yīng),我國(guó)較為成型的數(shù)據(jù)價(jià)值鏈主要體現(xiàn)在語(yǔ)音和圖像領(lǐng)域,比如數(shù)據(jù)堂(北京)科技股份有限公司采集眾客的語(yǔ)音數(shù)據(jù),在經(jīng)過(guò)加工標(biāo)注之后提供給科大訊飛股份有限公司等企業(yè)。
相對(duì)于其他商品,數(shù)據(jù)作為商品被用來(lái)交易的歷史十分短暫。尤其在我國(guó),數(shù)據(jù)中介的環(huán)節(jié)極度缺乏,而這正是大數(shù)據(jù)流通和交易的中樞所在。
大數(shù)據(jù)的本質(zhì)并未脫離傳統(tǒng)的數(shù)據(jù)分析概念,已有的專(zhuān)業(yè)化分工模式不會(huì)因?yàn)榇髷?shù)據(jù)帶來(lái)的新特征而消亡,相反,進(jìn)一步強(qiáng)化了對(duì)各環(huán)節(jié)專(zhuān)業(yè)化水平的要求。
(1)多源數(shù)據(jù)的匯集。由于數(shù)據(jù)來(lái)自于政府機(jī)構(gòu)、企事業(yè)單位、科研院所及社會(huì)大眾等多個(gè)源頭,集成整合的技術(shù)方法還處于摸索階段。
(2)非結(jié)構(gòu)化數(shù)據(jù)的處理。音頻、視頻、圖像和文本等非結(jié)構(gòu)化數(shù)據(jù)迅猛增長(zhǎng),使得傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和工具無(wú)法滿(mǎn)足大數(shù)據(jù)時(shí)代的需求。比如,對(duì)于紙質(zhì)票據(jù),要經(jīng)過(guò)自動(dòng)化標(biāo)注的環(huán)節(jié)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),才能為后續(xù)的分析挖掘環(huán)節(jié)所用,紙質(zhì)票據(jù)的處理過(guò)程如圖5所示。
(3)應(yīng)用場(chǎng)景的探索。應(yīng)用環(huán)節(jié)是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的落足點(diǎn),數(shù)據(jù)在不同行業(yè)的利用離不開(kāi)特定領(lǐng)域的知識(shí),需要大量傳統(tǒng)行業(yè)信息技術(shù)和業(yè)務(wù)人員的積極參與。
圖4 國(guó)內(nèi)外典型的數(shù)據(jù)價(jià)值鏈
圖5 紙質(zhì)票據(jù)的處理過(guò)程
上述制約因素嚴(yán)重妨礙了數(shù)據(jù)的分析和挖掘工作,使得數(shù)據(jù)商品的價(jià)值無(wú)法充分體現(xiàn),導(dǎo)致數(shù)據(jù)供給和需求之間存在巨大的差距,嚴(yán)重抑制了數(shù)據(jù)流通和交易的活躍度。而數(shù)據(jù)類(lèi)型越單一、應(yīng)用場(chǎng)景越聚焦,技術(shù)和業(yè)務(wù)模式相對(duì)就越容易成型,數(shù)據(jù)產(chǎn)品或服務(wù)才越有可能實(shí)現(xiàn)規(guī)?;纳a(chǎn)和交付。因此,數(shù)據(jù)集市型的平臺(tái)由于很難對(duì)所有數(shù)據(jù)都進(jìn)行深度的價(jià)值提升,正逐漸淡出或轉(zhuǎn)型。
3.2 對(duì)于數(shù)據(jù)流通的恐懼和回避心理
價(jià)值認(rèn)知的鴻溝和避險(xiǎn)心理。數(shù)據(jù)交易的目的是促進(jìn)數(shù)據(jù)的流動(dòng)和價(jià)值體現(xiàn),但是不同數(shù)據(jù)擁有者對(duì)數(shù)據(jù)資產(chǎn)的價(jià)值和風(fēng)險(xiǎn)認(rèn)知存在較大差異。因?yàn)閷?duì)數(shù)據(jù)中蘊(yùn)含的信息缺乏足夠的洞察,很多數(shù)據(jù)擁有者不放心讓自身的數(shù)據(jù)進(jìn)入流通環(huán)節(jié),擔(dān)心用戶(hù)隱私或企業(yè)機(jī)密泄露。
對(duì)數(shù)據(jù)外部性認(rèn)知不足。數(shù)據(jù)擁有者無(wú)法意識(shí)到自身數(shù)據(jù)的資產(chǎn)屬性,缺乏足夠的動(dòng)力將自己的數(shù)據(jù)公開(kāi)。比如,搜索引擎出于服務(wù)的目的,記錄了用戶(hù)搜索所輸入的關(guān)鍵字,而這些數(shù)據(jù)可以被衛(wèi)生部門(mén)用來(lái)進(jìn)行疾病的監(jiān)控與防治。數(shù)據(jù)能夠?qū)?shù)據(jù)生產(chǎn)業(yè)務(wù)相關(guān)方之外的第三方產(chǎn)生影響。從另一方面而言,政府、企業(yè)或組織都還未充分認(rèn)識(shí)到引入外部數(shù)據(jù)可以對(duì)自身工作或業(yè)務(wù)起到巨大的提升作用。
數(shù)據(jù)資源的壟斷意識(shí)較強(qiáng)。大多數(shù)數(shù)據(jù)源企業(yè)仍然較為關(guān)注自己的小生態(tài)圈,尤其是一些大型企業(yè)往往不愿意把自己的數(shù)據(jù)資源向自己業(yè)務(wù)圈外的市場(chǎng)提供,從而形成了多個(gè)規(guī)模和性質(zhì)各異的數(shù)據(jù)封閉生態(tài)。尤其在我國(guó),全社會(huì)普遍還未形成數(shù)據(jù)分析的傳統(tǒng)。在大數(shù)據(jù)氛圍的激發(fā)下,對(duì)于擁有海量數(shù)據(jù)資源的企業(yè)或機(jī)構(gòu)而言,撬動(dòng)自身數(shù)據(jù)資源支撐業(yè)務(wù)的優(yōu)先級(jí)必然會(huì)高過(guò)通過(guò)數(shù)據(jù)交易獲得收益。
針對(duì)上面提到的兩個(gè)主要問(wèn)題,可以通過(guò)商品化改造、社會(huì)認(rèn)知提升、安全顧慮消解等幾個(gè)方面著手解決。
4.1 數(shù)據(jù)的商品化改造環(huán)節(jié)
對(duì)比美國(guó)的數(shù)據(jù)市場(chǎng)形態(tài),對(duì)于價(jià)值鏈條缺位的問(wèn)題,最關(guān)鍵的是培育數(shù)據(jù)的商品化環(huán)節(jié),包括糾錯(cuò)、補(bǔ)漏、標(biāo)準(zhǔn)化、整合等方面。數(shù)據(jù)商品化改造的核心目的在于降低數(shù)據(jù)利用的門(mén)檻,為用戶(hù)端進(jìn)行數(shù)據(jù)分析和挖掘提供便利。數(shù)據(jù)商品化環(huán)節(jié)是數(shù)據(jù)價(jià)值鏈條上的共性需求,比如美國(guó)三大信用機(jī)構(gòu)之一的Equifax,專(zhuān)門(mén)引入外部的技術(shù)力量進(jìn)行重復(fù)數(shù)據(jù)的刪除和清洗工作。
對(duì)于商品化改造效果的評(píng)估,不同數(shù)據(jù)必然有不同的標(biāo)準(zhǔn)。不過(guò)總體而言,有一些共性的抽象指標(biāo)可以作為參考,比如準(zhǔn)確性(是否真實(shí)反映了客觀現(xiàn)實(shí))、完整性(數(shù)據(jù)是否有缺漏)、一致性(同類(lèi)數(shù)據(jù)表述形式是否一致、多次出現(xiàn)的同一數(shù)據(jù)是否存在差異)、及時(shí)性(數(shù)據(jù)是否根據(jù)客觀現(xiàn)實(shí)的變化而及時(shí)更新)和可用性(是否容易被用戶(hù)理解、是否便于通過(guò)用戶(hù)現(xiàn)有的技術(shù)手段進(jìn)行分析和挖掘)等。除了上述共性指向之外,針對(duì)每類(lèi)具體的數(shù)據(jù)都有必要根據(jù)用戶(hù)共有的需求,提煉出針對(duì)具體行業(yè)的數(shù)據(jù)商品化標(biāo)準(zhǔn)。比如,語(yǔ)音數(shù)據(jù)所需的元數(shù)據(jù)包括是否包含有效語(yǔ)音、語(yǔ)音對(duì)應(yīng)的文字、語(yǔ)言本身的描述、噪音情況、時(shí)長(zhǎng)、錄音設(shè)備描述以及發(fā)音人的性別、年齡、地域、口音等。
除根據(jù)數(shù)據(jù)市場(chǎng)的客觀規(guī)律打造專(zhuān)業(yè)的商品化改造環(huán)節(jié)之外,根據(jù)數(shù)據(jù)價(jià)值鏈條還處于發(fā)展初期、廣大用戶(hù)端企業(yè)缺乏專(zhuān)業(yè)數(shù)據(jù)處理和分析手段的現(xiàn)狀,我國(guó)還具有孕育新型產(chǎn)業(yè)形態(tài)的可能性。就我國(guó)具體情況而言,由于大部分企業(yè)尤其是傳統(tǒng)行業(yè)用戶(hù)缺乏對(duì)數(shù)據(jù)進(jìn)行改造的能力,很難直接對(duì)原始形態(tài)的數(shù)據(jù)進(jìn)行挖掘和分析,再加之文本、圖像和音視頻等非結(jié)構(gòu)數(shù)據(jù)的激增,使得市場(chǎng)對(duì)更為“強(qiáng)大”的數(shù)據(jù)中介層有著強(qiáng)烈的需求。此外,一個(gè)兼具技術(shù)、信息安全和法律責(zé)任的數(shù)據(jù)價(jià)值轉(zhuǎn)化渠道,還可以在很大程度上消除數(shù)據(jù)擁有者的顧慮,使之能夠?qū)ψ陨頂?shù)據(jù)資源在市場(chǎng)中的流通具有一定的控制力,從而比多對(duì)多的交易集市類(lèi)平臺(tái)更具安全感。與銀行所具有的金融資產(chǎn)供需對(duì)接的中介功能相似,這類(lèi)數(shù)據(jù)中介的新形態(tài)可以稱(chēng)之為數(shù)據(jù)銀行。數(shù)據(jù)銀行和數(shù)據(jù)中介的對(duì)比如圖6所示。
數(shù)據(jù)銀行的特點(diǎn)在于承擔(dān)了部分源頭和用戶(hù)端的職能,將資源的對(duì)接提升到資產(chǎn)改造、優(yōu)化和組合的層面,更加強(qiáng)調(diào)對(duì)數(shù)據(jù)價(jià)值的深挖。比如,數(shù)據(jù)銀行可能根據(jù)用戶(hù)端的要求,定向采集當(dāng)前并未實(shí)現(xiàn)電子化的信息(這與數(shù)據(jù)中介只是實(shí)現(xiàn)各現(xiàn)有數(shù)據(jù)源的物理匯集有著根本區(qū)別),或在市場(chǎng)需求和技術(shù)都就位的前提下,開(kāi)展一定的分析活動(dòng),包括對(duì)非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化和標(biāo)注。
圖6 數(shù)據(jù)銀行和數(shù)據(jù)中介的對(duì)比
同時(shí),數(shù)據(jù)銀行還更多地承擔(dān)起粘合作用,比如,通過(guò)API(application programming interface,應(yīng)用程序編程接口)或應(yīng)用開(kāi)發(fā)平臺(tái)的形式,保證用戶(hù)可以方便地訪問(wèn)和利用所需數(shù)據(jù);在開(kāi)拓?cái)?shù)據(jù)源和最終用戶(hù)時(shí),需要對(duì)數(shù)據(jù)應(yīng)用場(chǎng)景和方案進(jìn)行預(yù)先的儲(chǔ)備,以此讓市場(chǎng)供需兩端確信數(shù)據(jù)流通所能帶來(lái)的價(jià)值,即storytelling、布道或咨詢(xún)的職能。從實(shí)際的情況來(lái)看,國(guó)內(nèi)的綜合性流通平臺(tái)已經(jīng)有朝數(shù)據(jù)銀行形態(tài)轉(zhuǎn)變的趨勢(shì)。
數(shù)據(jù)銀行與交易型平臺(tái)都為數(shù)據(jù)資源的流通提供了規(guī)?;耐?,但是兩者具有重要的區(qū)別。交易平臺(tái)更關(guān)注數(shù)據(jù)的買(mǎi)賣(mài)交易,以規(guī)?;癁橹饕非竽繕?biāo),是一種商品集散的概念;而數(shù)據(jù)銀行則在追求流通規(guī)模的同時(shí),注重?cái)?shù)據(jù)價(jià)值的深層挖掘,是資產(chǎn)改造、組合和融通的平臺(tái),核心能力不在于實(shí)現(xiàn)客戶(hù)數(shù)量的最大化,而是讓數(shù)據(jù)資源能深度嵌入到特定領(lǐng)域的價(jià)值鏈條中。直觀地說(shuō),數(shù)據(jù)銀行就是以?xún)r(jià)值實(shí)現(xiàn)鏈條為基礎(chǔ)的橫向聚合,可能更符合數(shù)據(jù)市場(chǎng)發(fā)展的客觀規(guī)律和我國(guó)國(guó)情。
4.2 以政府?dāng)?shù)據(jù)開(kāi)放帶動(dòng)社會(huì)認(rèn)知的提升
站在數(shù)據(jù)擁有者的角度,對(duì)數(shù)據(jù)的外流心懷恐懼是很正常的:用戶(hù)數(shù)據(jù)被外界挖掘(即便已經(jīng)經(jīng)過(guò)脫敏和處理),需要承擔(dān)暴露隱私的風(fēng)險(xiǎn);數(shù)據(jù)內(nèi)容極有可能暴露企業(yè)的戰(zhàn)略和具體方法;擔(dān)心數(shù)據(jù)歸屬問(wèn)題導(dǎo)致企業(yè)無(wú)形資產(chǎn)受損。而在數(shù)據(jù)用戶(hù)一端,同樣會(huì)擔(dān)心隱私問(wèn)題導(dǎo)致的連帶風(fēng)險(xiǎn)以及質(zhì)疑引入外部數(shù)據(jù)的投入產(chǎn)出比。這些因素使得數(shù)據(jù)交易在北美從未被完全曬在陽(yáng)光下,諸如Axicom公司和Experian公司等數(shù)據(jù)中介巨頭都拒絕向調(diào)查委員會(huì)透露自身的數(shù)據(jù)源頭以及最終的用戶(hù)[2];2012年,當(dāng)美國(guó)政府要求數(shù)據(jù)中介保障公民獲知自身信息被采集情況的權(quán)利時(shí),Axciom公司就以沒(méi)有通過(guò)姓名查詢(xún)數(shù)據(jù)庫(kù)的功能為由拒絕。
盡管如此,上述種種顧慮在我國(guó)多是由于輿論影響而形成的,不能成為行動(dòng)遲緩的正當(dāng)理由。而且,通過(guò)正確認(rèn)知的樹(shù)立,疑惑和顧慮是可以被淡化乃至消除的。
消除市場(chǎng)參與者的顧慮,達(dá)成正確認(rèn)知,最有效的方法就是以政府?dāng)?shù)據(jù)開(kāi)放為切入口,為全社會(huì)起到正面的示范作用,原因在于以下幾點(diǎn)。
(1)從企業(yè)角度來(lái)說(shuō),在數(shù)據(jù)意識(shí)剛剛覺(jué)醒的階段,如果自身數(shù)據(jù)還未充分利用于本身業(yè)務(wù),則自然會(huì)將數(shù)據(jù)首先視為一種差異化競(jìng)爭(zhēng)的資本。要想打破數(shù)據(jù)藩籬,必須用現(xiàn)實(shí)案例說(shuō)明數(shù)據(jù)外部性的巨大價(jià)值,才能讓企業(yè)意識(shí)到數(shù)據(jù)的流通也可以帶來(lái)可觀的收益。
(2)政府?dāng)?shù)據(jù)的開(kāi)放最可能快速催生巨大的經(jīng)濟(jì)和社會(huì)價(jià)值,從而形成巨大的示范作用。政府以及相關(guān)機(jī)構(gòu)擁有最高價(jià)值的數(shù)據(jù)(如統(tǒng)計(jì)、稅收、治安、土地、就業(yè)、環(huán)境、交通等各類(lèi)數(shù)據(jù)),可以為各行各業(yè)所充分利用。當(dāng)前,美國(guó)、英國(guó)、法國(guó)、日本、德國(guó)、加拿大、澳大利亞、新西蘭和新加坡等都紛紛提出了政府或公共數(shù)據(jù)開(kāi)放的戰(zhàn)略,并付諸實(shí)施。
(3)橫向比較,我國(guó)政府?dāng)?shù)據(jù)的規(guī)模和價(jià)值總量更為可觀。由于國(guó)土、人口、經(jīng)濟(jì)規(guī)模以及政治體制的原因,我國(guó)已成為僅次于美國(guó)的數(shù)據(jù)大國(guó)。其中,據(jù)麥肯錫全球研究院分析,我國(guó)1/3的數(shù)據(jù)屬于政府和公共事業(yè)單位,在政府決策、公共管理和經(jīng)濟(jì)發(fā)展方面具有極大的挖潛可能。
在具體的行動(dòng)措施上,北京、上海等地都建設(shè)了政府?dāng)?shù)據(jù)開(kāi)放網(wǎng)站,貴陽(yáng)和武漢等地也上線了大數(shù)據(jù)交易平臺(tái),但是仍然可能受機(jī)密數(shù)據(jù)和個(gè)人隱私泄露風(fēng)險(xiǎn)的羈絆。盡管?chē)?guó)情不同,在此仍以美國(guó)政府?dāng)?shù)據(jù)開(kāi)放為例,希望能起到一定的借鑒作用。美國(guó)政府首任首席信息官昆德拉在負(fù)責(zé)Data.gov建設(shè)的過(guò)程中,對(duì)于數(shù)據(jù)原始性、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)價(jià)值和是否物理匯集等主要爭(zhēng)議,僅就原始性和是否物理匯集做出了明確的應(yīng)對(duì),而對(duì)于其他問(wèn)題則采取迂回的策略,從沒(méi)有爭(zhēng)議的數(shù)據(jù)入手,快速上線、不斷迭代。
從上面美國(guó)政府?dāng)?shù)據(jù)開(kāi)放推進(jìn)的例子還可以看出,對(duì)于大數(shù)據(jù)交易乃至大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,快速起步、不斷迭代的模式可能比傳統(tǒng)的自頂向下、集中化、大一統(tǒng)的模式更為適用,尤其是在發(fā)展初期更是如此。同時(shí),應(yīng)該正確識(shí)別市場(chǎng)發(fā)展的真正推動(dòng)力量,在具體推進(jìn)過(guò)程中多從最終用戶(hù)端入手,讓各行各業(yè)的業(yè)務(wù)和技術(shù)力量參與、發(fā)聲。
最后,大數(shù)據(jù)本就不是一個(gè)嚴(yán)格的、有明確邊界限定的技術(shù)或商業(yè)詞匯,理解內(nèi)涵遠(yuǎn)比呆板的詞句更為重要,而且各方面的探索才剛剛起步。因此,如果伴隨著政府?dāng)?shù)據(jù)開(kāi)放的動(dòng)作有相關(guān)的標(biāo)準(zhǔn)或規(guī)范出臺(tái),需要考慮留出足夠的彈性和想象空間,謹(jǐn)防成為數(shù)據(jù)市場(chǎng)和產(chǎn)業(yè)本身發(fā)展的限制因素。
4.3 信息安全顧慮的消解
數(shù)據(jù)商品中可能蘊(yùn)含涉及國(guó)家機(jī)密、企業(yè)核心信息和個(gè)人隱私的內(nèi)容,當(dāng)前數(shù)據(jù)源最擔(dān)心是數(shù)據(jù)不受控制地流動(dòng)。同時(shí),在單份數(shù)據(jù)內(nèi)容安全的情況下,對(duì)多個(gè)數(shù)據(jù)整合在一起進(jìn)行關(guān)聯(lián)分析,也有可能會(huì)造成隱私的泄露[3]。對(duì)于消除信息安全方面的顧慮,可分解到制度建設(shè)和數(shù)據(jù)中介機(jī)構(gòu)業(yè)務(wù)兩個(gè)層面進(jìn)行考慮。
(1)制度層面的舉措
作為數(shù)據(jù)市場(chǎng)的關(guān)鍵主體,數(shù)據(jù)中介是相關(guān)制度的主要針對(duì)對(duì)象。具體的舉措可以包括資質(zhì)認(rèn)定、信息披露和日常評(píng)估等。其中,需要特別注意的是信息披露環(huán)節(jié),要在披露的形式和范圍上精心設(shè)計(jì),否則可能導(dǎo)致數(shù)據(jù)交易市場(chǎng)停滯不前。
相對(duì)于事前預(yù)防,更重要的是事后追責(zé)。風(fēng)險(xiǎn)永遠(yuǎn)存在,正如關(guān)聯(lián)、跨域分析可能會(huì)造成的隱私泄露,事前預(yù)防的難度極大。因此,除上述措施之外,更為重要的是事后的懲戒制度。只有足夠高的違規(guī)成本,才能比較徹底地消除數(shù)據(jù)中介和最終用戶(hù)泄密的可能性,并促使數(shù)據(jù)中介切實(shí)承擔(dān)起確保數(shù)據(jù)資源安全的責(zé)任??梢宰鳛閭?cè)面印證的是,有觀點(diǎn)認(rèn)為,F(xiàn)acebook、LinkedIn等企業(yè)因?yàn)樨?cái)力雄厚才能承受各類(lèi)法律官司和公關(guān)成本[4]。
此外,在立法和規(guī)范之間,應(yīng)該首先以行業(yè)自律規(guī)范類(lèi)的形式來(lái)確保數(shù)據(jù)的信息安全??梢宰鳛榕宰C的是,在認(rèn)為數(shù)據(jù)服務(wù)商總體上是為社會(huì)帶來(lái)更多正面影響的前提下,美國(guó)政府一直以行業(yè)組織的形式來(lái)規(guī)范相關(guān)企業(yè)和機(jī)構(gòu)的行為,直至數(shù)據(jù)規(guī)模增長(zhǎng)到能夠?qū)е螺^大負(fù)面效應(yīng)時(shí),才開(kāi)始制定相應(yīng)的法律法規(guī)。
(2)數(shù)據(jù)中介的舉措
站在數(shù)據(jù)中介的角度,需要在兩個(gè)界面上對(duì)數(shù)據(jù)安全作出應(yīng)對(duì)。首先,要在經(jīng)濟(jì)利益、資產(chǎn)歸屬、技術(shù)實(shí)現(xiàn)、業(yè)務(wù)限定等各個(gè)方面打消數(shù)據(jù)源的顧慮。根據(jù)數(shù)據(jù)源性質(zhì)、數(shù)據(jù)所包含的信息、未來(lái)數(shù)據(jù)服務(wù)面向的受眾等因素不同,在具體協(xié)議制定上必然會(huì)有所不同,但有些注意事項(xiàng)是具有普適性的。
● 數(shù)據(jù)產(chǎn)品和服務(wù)的受眾控制。對(duì)數(shù)據(jù)中介可以售賣(mài)的受眾加以限制,或者對(duì)數(shù)據(jù)服務(wù)接口的訪問(wèn)進(jìn)行限制(如果以API形式提供)。
● 對(duì)可流通的數(shù)據(jù)范圍進(jìn)行規(guī)定。對(duì)數(shù)據(jù)中哪些信息可以進(jìn)入流通市場(chǎng)加以限制,防止商業(yè)機(jī)密或個(gè)人隱私外泄。
● 系統(tǒng)對(duì)接的安全性要求。與數(shù)據(jù)源一起就系統(tǒng)對(duì)接、數(shù)據(jù)傳輸和存儲(chǔ)等環(huán)節(jié)進(jìn)行協(xié)商。
● 就收益和版權(quán)事宜進(jìn)行協(xié)商。這一點(diǎn)主要針對(duì)需要進(jìn)行深度改造的數(shù)據(jù)商品,雙方針對(duì)預(yù)期的清洗和加工環(huán)節(jié)進(jìn)行評(píng)估,對(duì)數(shù)據(jù)增值幅度和市場(chǎng)定價(jià)進(jìn)行溝通,達(dá)成收益雙贏的局面。另外,對(duì)數(shù)據(jù)版權(quán)進(jìn)行明確的規(guī)定,規(guī)避可能發(fā)生的糾紛。
● 對(duì)違約行為的追責(zé)。在數(shù)據(jù)源穩(wěn)定性、更新頻率、數(shù)據(jù)擴(kuò)散范圍等方面商定明確的責(zé)任界定和處罰協(xié)議,打消源頭的顧慮,并為對(duì)外的數(shù)據(jù)服務(wù)提供保障。
對(duì)于與最終用戶(hù)的條款,可以參照與數(shù)據(jù)源之間的協(xié)議,并且可以通過(guò)API等技術(shù)手段進(jìn)行輔助,控制數(shù)據(jù)的流向、訪問(wèn)對(duì)象和擴(kuò)散范圍。
從對(duì)國(guó)內(nèi)外數(shù)據(jù)流通市場(chǎng)的分析和對(duì)比可以看出,我國(guó)大數(shù)據(jù)流通和交易仍缺乏基本的產(chǎn)業(yè)鏈支撐,同時(shí)大數(shù)據(jù)相關(guān)企業(yè)尤其是位于產(chǎn)業(yè)鏈最上游的數(shù)據(jù)源對(duì)數(shù)據(jù)資源的外流存在較大的疑慮。數(shù)據(jù)資源的流通和交易必須以相對(duì)成熟的數(shù)據(jù)價(jià)值鏈條為基礎(chǔ),否則數(shù)據(jù)價(jià)值的挖掘和體現(xiàn)只能停留在較低層面,遠(yuǎn)不能發(fā)揮數(shù)據(jù)在社會(huì)管理和經(jīng)濟(jì)發(fā)展中本應(yīng)起到的作用。無(wú)論政府、行業(yè)還是科研機(jī)構(gòu),應(yīng)聚焦重點(diǎn)應(yīng)用領(lǐng)域,著力數(shù)據(jù)采集、處理和分析環(huán)節(jié)的培育,避免目標(biāo)泛化、過(guò)分追求規(guī)模效應(yīng)以及對(duì)隱私和安全的過(guò)分憂(yōu)慮,這對(duì)國(guó)內(nèi)各大數(shù)據(jù)交易平臺(tái)以及相關(guān)規(guī)劃工作尤為重要。
[1] 數(shù)據(jù)堂(北京)科技有限公司.大數(shù)據(jù)產(chǎn)業(yè)調(diào)研及分析報(bào)告. http://www.datamall.com/ article-news_gongsidongtai-164, 2015 Datatang(Beijing)Technology Co, Ltd. Research and analysis report of big data industry. http://www.datamall.com/articlenews_gongsidongtai-164, 2015
[2] Committee on Commerce, Science, and Transportation. A review of the data broker industry: collection, use, and sale of consumer data for marketing purposes. http://www.commerce.senate.gov/ public/?a=Files.Serve&File_id=0d2b3642-6221-4888-a631-08f2f255b577, 2013
[3] Samarati P, Sweeney L. Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression. Proceedings of the IEEE Symposium on Research in Security and Privacy, Oakland, USA, 1998
[4] Ken G. Business Models for the Data Economy. Sebastopol: O’Reilly Media Inc, 2013
楊琪,男,數(shù)據(jù)堂(北京)科技股份有限公司企業(yè)發(fā)展部副總監(jiān),主要研究方向?yàn)閿?shù)據(jù)交易、大數(shù)據(jù)產(chǎn)業(yè)、基礎(chǔ)架構(gòu)。先后獲得國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)、信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎(jiǎng)、北京市科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、教育部科技進(jìn)步獎(jiǎng)二等獎(jiǎng)。
龔南寧,男,數(shù)據(jù)堂(北京)科技股份有限公司對(duì)外合作部副總監(jiān),主要研究方向?yàn)閿?shù)據(jù)商品化、數(shù)據(jù)銀行。
Yang Q, Gong N N. Reflections on big data exchange of China. Big Data Research, 2015017
Reflections on Big Data Exchange of China
Yang Qi, Gong Nanning
Datatang(Beijing) Technology Co., Ltd., Beijing 100190, China
Data circulation is the decisive factor realizing big data value. The benefits of big data in social management and economic development are highly restricted because of immature of data exchange market of China. Based on the contrast analysis of the data circulation market, awareness was proposed that the data exchange was mainly hindered by the integrity of the value chain as well as the fear of business secret and personal privacy leakage. Finally, solutions were advised from the following aspects: the commercialization of data, the establishment of social cognition, the protection of the rights and interests of market entities.
big data, exchange, commoditization, open data, privacy, security
10.11959/j.issn.2096-0271.2015017
2015-07-03
楊琪,龔南寧. 我國(guó)大數(shù)據(jù)交易的主要問(wèn)題及建議. 大數(shù)據(jù), 2015017