沈俊鑫,趙雪杉
(昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,云南昆明 650093)
數(shù)字經(jīng)濟(jì)時(shí)代,如何利用好、發(fā)揮出數(shù)據(jù)要素的價(jià)值是當(dāng)下生產(chǎn)力發(fā)展和提高的關(guān)鍵,也是經(jīng)濟(jì)政策和經(jīng)濟(jì)研究格局變革的關(guān)鍵[1];企業(yè)轉(zhuǎn)型、技術(shù)經(jīng)濟(jì)與發(fā)展范式躍遷、國(guó)民經(jīng)濟(jì)循環(huán)效率提升都要依靠數(shù)據(jù)要素這一新時(shí)代下的基礎(chǔ)生產(chǎn)要素來(lái)提供新動(dòng)力、加快新進(jìn)程[2]。數(shù)據(jù)資源可以在所有社會(huì)成員和生產(chǎn)部門(mén)之間自由流轉(zhuǎn)是數(shù)據(jù)要素市場(chǎng)化的基本要求[3],但數(shù)據(jù)交易平臺(tái)存在定價(jià)標(biāo)準(zhǔn)模糊、交易規(guī)則缺失、買(mǎi)賣(mài)雙方信息不對(duì)稱(chēng)的問(wèn)題[4],極大的制約了數(shù)據(jù)資源的流動(dòng)及數(shù)字經(jīng)濟(jì)的發(fā)展[5]。我國(guó)數(shù)據(jù)要素市場(chǎng)化建設(shè)要求加快數(shù)據(jù)標(biāo)準(zhǔn)制定、健全數(shù)據(jù)評(píng)估和定價(jià)機(jī)制、拓展數(shù)據(jù)市場(chǎng)交易平臺(tái)、優(yōu)化數(shù)據(jù)資源配置、完善數(shù)據(jù)交易系統(tǒng)[6]。現(xiàn)階段,國(guó)內(nèi)大數(shù)據(jù)交易市場(chǎng)已經(jīng)初見(jiàn)規(guī)模,但仍不夠規(guī)范和統(tǒng)一,其可持續(xù)發(fā)展還需要依靠合理的定價(jià)及政府性指導(dǎo)[7]。現(xiàn)有數(shù)據(jù)交易的交易成本普遍偏高且數(shù)據(jù)質(zhì)量無(wú)法得到有力保障,是由于目前數(shù)據(jù)交易環(huán)境存在定價(jià)標(biāo)準(zhǔn)模糊、交易規(guī)則缺失、交易雙方信息不對(duì)稱(chēng)的問(wèn)題,這些問(wèn)題極大地限制了數(shù)據(jù)資產(chǎn)的流動(dòng),阻礙了數(shù)字經(jīng)濟(jì)的發(fā)展[8],而數(shù)據(jù)能夠在所有社會(huì)成員和各生產(chǎn)部門(mén)之間流通是數(shù)據(jù)要素市場(chǎng)化的要求。數(shù)據(jù)定價(jià)作為數(shù)據(jù)交易市場(chǎng)的基礎(chǔ),在數(shù)據(jù)被當(dāng)作重要生產(chǎn)要素過(guò)程中有著關(guān)鍵作用。目前數(shù)據(jù)交易市場(chǎng),交易價(jià)格混亂、數(shù)據(jù)資源利用率低下、企業(yè)盈利能力不足的現(xiàn)狀,亟待合理的數(shù)據(jù)定價(jià)方法來(lái)改變[9];同時(shí),合理的數(shù)據(jù)定價(jià)方法還可以吸引更多的潛在用戶(hù)參與交易,進(jìn)一步提高企業(yè)盈利,從而為數(shù)據(jù)產(chǎn)業(yè)的發(fā)展注入活力。在當(dāng)前的數(shù)據(jù)交易市場(chǎng)中,透明度低的買(mǎi)賣(mài)雙方、嚴(yán)重不對(duì)稱(chēng)的信息,造成了目前數(shù)據(jù)市場(chǎng)上數(shù)據(jù)定價(jià)的混亂。若能建立合理的價(jià)值評(píng)估機(jī)制及數(shù)據(jù)資源定價(jià)標(biāo)準(zhǔn),既能促進(jìn)數(shù)據(jù)流通也能改善數(shù)據(jù)市場(chǎng)交易效率。
缺乏合理且有效的數(shù)據(jù)資源價(jià)值評(píng)估定價(jià)方法是限制目前數(shù)據(jù)要素市場(chǎng)化、大數(shù)據(jù)交易平臺(tái)發(fā)展的關(guān)鍵卡點(diǎn)[10]。實(shí)現(xiàn)以?xún)r(jià)值為導(dǎo)向的持續(xù)運(yùn)營(yíng)能力提升是數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)的核心目標(biāo),其關(guān)鍵在于數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估環(huán)節(jié)的補(bǔ)全,多維量化分析企業(yè)數(shù)字資產(chǎn)價(jià)值并為企業(yè)數(shù)據(jù)資產(chǎn)價(jià)值運(yùn)營(yíng)決策提供支持,真正意義上地做到數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)的價(jià)值閉環(huán),有效盤(pán)活數(shù)據(jù)資產(chǎn)價(jià)值。
國(guó)內(nèi)外學(xué)者針對(duì)數(shù)據(jù)資源價(jià)值評(píng)估展開(kāi)了相關(guān)研究,大致可以分為無(wú)形資產(chǎn)評(píng)估方法、定量影響因子評(píng)估方法和智能評(píng)估方法等三類(lèi)。
無(wú)形資產(chǎn)評(píng)估方法指將數(shù)據(jù)資產(chǎn)當(dāng)成無(wú)形資產(chǎn),應(yīng)用一種或者多種傳統(tǒng)的無(wú)形資產(chǎn)評(píng)估方法來(lái)評(píng)估數(shù)據(jù)資源價(jià)值的方法,包括成本法、市場(chǎng)法、收益法[11]。數(shù)據(jù)資源具有與傳統(tǒng)無(wú)形資產(chǎn)、金融資產(chǎn)不同的特點(diǎn),不能直接應(yīng)用無(wú)形資產(chǎn)評(píng)估方法[12]。定量影響因子評(píng)價(jià)方法是基于分析方法確定數(shù)據(jù)資產(chǎn)價(jià)值影響因子權(quán)重以構(gòu)建數(shù)據(jù)資產(chǎn)評(píng)估模型。Saiko 等[13]提出通過(guò)對(duì)數(shù)據(jù)本身和質(zhì)量等多維度的特征進(jìn)行重要性和價(jià)值定量評(píng)估,再結(jié)合價(jià)值矩陣等定性分析方法,最后得到數(shù)據(jù)的綜合價(jià)值。李菲菲等[14]從不同角度建立了基于層次分析法的數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估模型。Yu等[15]根據(jù)數(shù)據(jù)的內(nèi)在屬性,即顆粒度和隱私,提出了數(shù)據(jù)評(píng)估方法。智能評(píng)估方法是指使用聚類(lèi)、分類(lèi)、回歸類(lèi)機(jī)器學(xué)習(xí)方法計(jì)算數(shù)據(jù)資產(chǎn)的價(jià)值。智能評(píng)估方法相比上述方法對(duì)數(shù)據(jù)資源的特征具有更好的適用性,具體表現(xiàn)為:評(píng)估標(biāo)準(zhǔn)更客觀、處理能力更強(qiáng)大、數(shù)據(jù)特征更適應(yīng)。Agarwal等[16]使用機(jī)器學(xué)習(xí)算法設(shè)計(jì)用于購(gòu)買(mǎi)和出售機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)市場(chǎng)。Cong等[17]提出了機(jī)器學(xué)習(xí)部署的步驟中為終端用戶(hù)的模型定價(jià)。倪淵等[18]建立了基于AGA-BP神經(jīng)網(wǎng)絡(luò)且考慮諸多數(shù)據(jù)指標(biāo)及其價(jià)值非線(xiàn)性關(guān)系的數(shù)據(jù)資源評(píng)估模型。智能算法評(píng)估相對(duì)于傳統(tǒng)算法在非線(xiàn)性擬合能力、預(yù)測(cè)精度、可量化程度和運(yùn)算效率等方面有強(qiáng)大的優(yōu)勢(shì)。但目前,智能算法在數(shù)據(jù)資源價(jià)值評(píng)估領(lǐng)域的應(yīng)用還不夠深入,需要進(jìn)一步研究以充分發(fā)揮智能算法在數(shù)據(jù)資源價(jià)值評(píng)估領(lǐng)域的優(yōu)勢(shì)。
學(xué)者們從不同角度對(duì)數(shù)據(jù)資源價(jià)值影響因素的挖掘逐漸趨于全面,缺乏各影響因素與數(shù)據(jù)資源價(jià)值的定量影響分析。現(xiàn)有方法通過(guò)借鑒傳統(tǒng)無(wú)形資產(chǎn)評(píng)估方法初見(jiàn)成效,但均存在不同程度的局限性:
(1)傳統(tǒng)的無(wú)形資產(chǎn)評(píng)估方法通過(guò)單種或者多種混合的傳統(tǒng)無(wú)形資產(chǎn)評(píng)估方法來(lái)衡量數(shù)據(jù)資產(chǎn)的價(jià)值,一部分研究直接將數(shù)據(jù)資產(chǎn)視為無(wú)形資產(chǎn);另一部分研究根據(jù)數(shù)據(jù)資產(chǎn)的增值特性與無(wú)形資產(chǎn)相區(qū)別,但是并未考慮數(shù)據(jù)資源增值的問(wèn)題。
(2)定量影響因素評(píng)估方法從數(shù)據(jù)資產(chǎn)成本、應(yīng)用、維護(hù)等不同角度提出了數(shù)據(jù)資產(chǎn)價(jià)值的影響因素,并根據(jù)層次分析法對(duì)各種價(jià)值影響因素進(jìn)行權(quán)重分析,最后建立數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估模型,但其主觀性較強(qiáng),不能形成客觀量化的價(jià)值判斷指標(biāo)。
智能算法可以通過(guò)時(shí)間維度的指標(biāo)設(shè)計(jì)解決數(shù)據(jù)增值的測(cè)量問(wèn)題;可以通過(guò)算法的計(jì)算規(guī)避以往研究數(shù)據(jù)資源價(jià)值時(shí)主觀給定價(jià)值影響系數(shù)等問(wèn)題。綜合判斷,智能算法在數(shù)據(jù)資源價(jià)值評(píng)估的應(yīng)用更客觀,更有效率,適用性也更廣。為解決上述問(wèn)題,本文提出了基于Stacked-GBDT集成學(xué)習(xí)的數(shù)據(jù)資源價(jià)值評(píng)估方法。首先,基于敏感性分析,從數(shù)據(jù)的本身因素和市場(chǎng)因素兩個(gè)維度歸納建立了數(shù)據(jù)資源價(jià)值影響要素指標(biāo)體系;然后,基于梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)機(jī)器學(xué)習(xí)算法與模型堆疊(Stacking)集成學(xué)習(xí)算法,提出了基于Stacked-GBDT的數(shù)據(jù)資源價(jià)值評(píng)估算法,并與Random Forest(隨機(jī)森林算法)和XGBoost(極限梯度提升算法)以驗(yàn)證本文所提方法的正確性及有效性[19-20];最后,應(yīng)用Stacked-GBDT模型對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)定價(jià)。
數(shù)據(jù)資源價(jià)值受到本身因素與市場(chǎng)因素的雙重影響。從數(shù)據(jù)資源本身因素考慮,數(shù)據(jù)規(guī)模、數(shù)據(jù)類(lèi)型、數(shù)據(jù)所屬行業(yè)、數(shù)據(jù)內(nèi)容和數(shù)據(jù)質(zhì)量等均對(duì)數(shù)據(jù)資源價(jià)值有顯著影響[8-10],其中數(shù)據(jù)質(zhì)量相關(guān)指標(biāo)主要包括數(shù)據(jù)的完整性、獨(dú)特性、有效性、準(zhǔn)確性和一致性[21];從數(shù)據(jù)資源市場(chǎng)因素考慮,數(shù)據(jù)購(gòu)買(mǎi)量、數(shù)據(jù)應(yīng)用價(jià)值度和數(shù)據(jù)稀缺度等對(duì)數(shù)據(jù)資源價(jià)值有顯著影響[6,10,15]。
將影響數(shù)據(jù)資源價(jià)值指標(biāo)作為機(jī)器學(xué)習(xí)算法模型的輸入特征,將數(shù)據(jù)資源累計(jì)成交額即數(shù)據(jù)資源價(jià)值(由價(jià)格×購(gòu)買(mǎi)量得到)作為算法模型的輸出特征。對(duì)各特征的描述性統(tǒng)計(jì)如表1所示。
表1 數(shù)據(jù)資源價(jià)值特征描述統(tǒng)計(jì)
在數(shù)據(jù)資源價(jià)值影響因素中,數(shù)據(jù)行業(yè)分類(lèi)、數(shù)據(jù)分類(lèi)標(biāo)簽,共計(jì)2個(gè)指標(biāo)為離散值指標(biāo),其余為數(shù)值型指標(biāo);所有特征相互獨(dú)立,不存在線(xiàn)性影響關(guān)系;所選取的數(shù)據(jù)指標(biāo)都是以往學(xué)者研究所得影響數(shù)據(jù)資源價(jià)值的因素,所以屬于價(jià)值稠密型;整體指標(biāo)體系共計(jì)11個(gè)維度,相較于其他類(lèi)型大數(shù)據(jù)屬于低維度數(shù)據(jù),可得該指標(biāo)體系下的數(shù)據(jù)資源數(shù)據(jù)屬于低維稠密型。
GBDT算法是基于加法模型通過(guò)迭代訓(xùn)練提升模型效果的決策樹(shù)算法[22],相較于其他算法具備如下優(yōu)點(diǎn)[23]:(1)靈活性高;可靈活處理數(shù)據(jù)交易信息中的離散數(shù)據(jù);(2)性能良好;處理數(shù)據(jù)資源價(jià)值評(píng)估問(wèn)題應(yīng)用的非線(xiàn)性數(shù)據(jù)表現(xiàn)優(yōu)異;(3)抗干擾能力強(qiáng);在面對(duì)數(shù)據(jù)資源價(jià)值差異大的數(shù)據(jù)時(shí)魯棒性很強(qiáng);(4)數(shù)據(jù)適用度高;數(shù)據(jù)資源價(jià)值可量化指標(biāo)體系整體屬于低維稠密,GBDT相較于其他算法可以很好地處理該特點(diǎn)的數(shù)據(jù);(5)預(yù)測(cè)精度高;對(duì)評(píng)估數(shù)據(jù)資源價(jià)值有很大的幫助。
GBDT算法的每次迭代都是在殘差降低的梯度方向上創(chuàng)建新決策樹(shù),并基于加法模型對(duì)每個(gè)決策樹(shù)的結(jié)果進(jìn)行加權(quán)求和以獲得最終的數(shù)據(jù)資源價(jià)值評(píng)估結(jié)果,模型結(jié)構(gòu)如圖1所示。
圖1 GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型
循環(huán)執(zhí)行構(gòu)建決策樹(shù)的步驟并不斷更新,可以得出GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型。將數(shù)據(jù)資源價(jià)值本身影響因素和市場(chǎng)影響因素輸入模型,即可得出該數(shù)據(jù)資源的價(jià)值評(píng)估結(jié)果。單獨(dú)的GBDT模型對(duì)于數(shù)據(jù)資源價(jià)值評(píng)估準(zhǔn)確精度提升有限,且受隨機(jī)性限制導(dǎo)致泛化能力不足,但數(shù)據(jù)資源價(jià)值評(píng)估對(duì)精度要求較高,于是需要進(jìn)一步地優(yōu)化以提升整體模型的評(píng)估精度。
集成學(xué)習(xí)指由多種算法融合形成的機(jī)器學(xué)習(xí)算法。目前提升機(jī)器學(xué)習(xí)效果最好的方法就是集成學(xué)習(xí),可以在原有的機(jī)器學(xué)習(xí)模型的基礎(chǔ)上表現(xiàn)得更好,通過(guò)集成策略對(duì)抗過(guò)擬合而且不需要太多的額外調(diào)參等工作。常見(jiàn)的集成學(xué)習(xí)算法有模型堆疊算法(Stacking)、引導(dǎo)聚集算法(Bagging)、框架提升(Boosting)。Stacking是一種將弱學(xué)習(xí)器集成進(jìn)行輸出的策略,屬非線(xiàn)性融合;剩余集成學(xué)習(xí)都屬基于加權(quán)平均的組合預(yù)測(cè)算法,不能夠體現(xiàn)樣本內(nèi)單個(gè)樣本預(yù)測(cè)誤差對(duì)整體權(quán)重的影響[24]。由此,選用Stacking算法對(duì)預(yù)測(cè)模型進(jìn)行融合,以提高模型精度和泛化能力。
基于GBDT的數(shù)據(jù)資源價(jià)值預(yù)測(cè)方法具有輸入數(shù)據(jù)量需求小、可解釋性強(qiáng)的特點(diǎn),將決策樹(shù)算法GBDT與集成學(xué)習(xí)相結(jié)合,可以進(jìn)一步提高模型的預(yù)測(cè)精度與泛化能力。在構(gòu)建GBDT數(shù)據(jù)資源價(jià)值預(yù)測(cè)模型時(shí),每一個(gè)當(dāng)前決策樹(shù)的模型建立都依賴(lài)上一個(gè)決策數(shù)模型的預(yù)測(cè)結(jié)果,屬于串行計(jì)算模型。將Stacking集成學(xué)習(xí)與GBDT相結(jié)合,在Stacking集成學(xué)習(xí)的第一階段可并行運(yùn)行多個(gè)GBDT模型,在第二個(gè)階段集成上階段的預(yù)測(cè)結(jié)果作為輸入再次進(jìn)行預(yù)測(cè),提高整體預(yù)測(cè)精度。
Stacking集成學(xué)習(xí)方式是通過(guò)組合多個(gè)預(yù)測(cè)模型的信息然后生成新模型的集成方法,通過(guò)對(duì)多個(gè)不同模型的組合用以獲得比單一的算法更優(yōu)越的性能。第1步將原始輸入的數(shù)據(jù)集劃分成若干個(gè)子數(shù)據(jù)集,作為第1層預(yù)測(cè)模型的各個(gè)基學(xué)習(xí)器的輸入,然后由各個(gè)基學(xué)習(xí)器分別輸出各自的預(yù)測(cè)結(jié)果;第2步,第1層的預(yù)測(cè)結(jié)果作為第2層模型的輸入,然后對(duì)第2層元學(xué)習(xí)器的預(yù)測(cè)模型進(jìn)行訓(xùn)練,最后由第2層的模型輸出得到最終的預(yù)測(cè)結(jié)果。將Xi作為輸入,記第1層第k個(gè)基學(xué)習(xí)器為Bk,第2層的元學(xué)習(xí)器為P,則第1層第k個(gè)基學(xué)習(xí)器的輸出為,將第一層的輸出結(jié)果作為第2層元學(xué)習(xí)器的輸入,最終第2層的輸出結(jié)果為,如式(1)所示。
Stacking的集成學(xué)習(xí)方式如圖2所示。
圖2 Stacking集成學(xué)習(xí)模式
本文將Stacking模型融合應(yīng)用于多個(gè)GBDT模型的集成,用以提升數(shù)據(jù)價(jià)值預(yù)測(cè)精度?;贕BDT與Stacking模型具體融合過(guò)程如圖3所示。
圖3 基于GBDT與Stacking模型融合的數(shù)據(jù)資源價(jià)值預(yù)測(cè)模型
(1)利用第1層的基學(xué)習(xí)器生成訓(xùn)練集與測(cè)試集的N組數(shù)據(jù)資源價(jià)值預(yù)測(cè)值。根據(jù)交叉驗(yàn)證的思想,首先將數(shù)據(jù)資源指標(biāo)的訓(xùn)練集分成5份,記作S1,S2, ,S5。首先應(yīng)用訓(xùn)練集S1,S2,S3,S4訓(xùn)練基學(xué)習(xí)器1,并基于訓(xùn)練好的基學(xué)習(xí)器1對(duì)S5和測(cè)試集進(jìn)行預(yù)測(cè);然后,再用S1,S2,S3,S5重新訓(xùn)練基學(xué)習(xí)器1,繼續(xù)對(duì)S4和測(cè)試集進(jìn)行預(yù)測(cè)。以此類(lèi)推,得到基學(xué)習(xí)器1對(duì)S1,S2,S3,S5的預(yù)測(cè)值(將其組合成第一組的訓(xùn)練集預(yù)測(cè)值)和測(cè)試集的5組預(yù)測(cè)值(將這5組預(yù)測(cè)值的平均值作為第一組測(cè)試集預(yù)測(cè)值)。
同理對(duì)基學(xué)習(xí)器2-N進(jìn)行同樣上述操作,得出訓(xùn)練集與測(cè)試集的第2-N組數(shù)據(jù)資源價(jià)值預(yù)測(cè)值。
(2)利用第1層的基學(xué)習(xí)器輸出的訓(xùn)練集的N組預(yù)測(cè)值構(gòu)建成第2層的訓(xùn)練集;利用第2層的基學(xué)習(xí)器輸出的測(cè)試集的N組數(shù)據(jù)資源價(jià)值預(yù)測(cè)值構(gòu)建成第2層的測(cè)試集,得到最終數(shù)據(jù)資源價(jià)值的預(yù)測(cè)結(jié)果。
不同的基學(xué)習(xí)器存在不同的特性,進(jìn)行模型融合的目的是減少單一基學(xué)習(xí)器的誤差影響等,使得整體模型融合系統(tǒng)預(yù)測(cè)性能提升。
將多個(gè)GBDT模型作為Stacking集成模型的第1層基學(xué)習(xí)器,考慮到使用Stacking集成學(xué)習(xí)容易帶來(lái)過(guò)擬合,所以將簡(jiǎn)單的Linear模型作為第2層的元學(xué)習(xí)器?;鶎W(xué)習(xí)器的數(shù)量對(duì)Stacking的融合效果有直接影響,基學(xué)習(xí)器的數(shù)量較少會(huì)造成各學(xué)習(xí)器間不能有效互補(bǔ),數(shù)量較多會(huì)造成模型冗余且調(diào)參更復(fù)雜。一般情況Stacking模型的基學(xué)習(xí)器數(shù)量在3~5個(gè),經(jīng)過(guò)測(cè)試可得最佳融合效果的基學(xué)習(xí)數(shù)量為3個(gè)。因此,Stacking第一層基學(xué)習(xí)器為3個(gè)GBDT模型,第二層為L(zhǎng)inear模型。
數(shù)據(jù)資源價(jià)值的評(píng)估與定價(jià)是目前數(shù)據(jù)經(jīng)濟(jì)發(fā)展研究的要點(diǎn)所在,而數(shù)據(jù)資源的價(jià)值與定價(jià)息息相關(guān)。數(shù)據(jù)本身的質(zhì)量和特點(diǎn)與其在市場(chǎng)上的應(yīng)用在數(shù)據(jù)資源的價(jià)值形成中有很重要的影響。數(shù)據(jù)本身特性決定了數(shù)據(jù)是否能經(jīng)受住市場(chǎng)的考驗(yàn),能否長(zhǎng)久地發(fā)揮它的價(jià)值;而市場(chǎng)則是檢驗(yàn)該種數(shù)據(jù)資源的實(shí)際應(yīng)用情況如何,是否與時(shí)代社會(huì)的發(fā)展息息相關(guān),是否能產(chǎn)生積極的意義進(jìn)而促進(jìn)數(shù)據(jù)經(jīng)濟(jì)的發(fā)展。
數(shù)據(jù)資源的價(jià)格隨著時(shí)間變化,其本身的質(zhì)量和市場(chǎng)因素都會(huì)發(fā)生變化,例如:隨著時(shí)間的變化數(shù)據(jù)的時(shí)效性會(huì)變差,數(shù)據(jù)獨(dú)特性會(huì)降低,其價(jià)格也應(yīng)當(dāng)發(fā)生變化,通過(guò)數(shù)據(jù)資源價(jià)值最大化的思想可確定在不同階段數(shù)據(jù)資源的最佳售出價(jià)格。
對(duì)于新上架的數(shù)據(jù)資源,采用提出的Stacked-GBDT數(shù)據(jù)資源價(jià)值預(yù)測(cè)模型,第一步從數(shù)據(jù)資源的本身因素和市場(chǎng)因素分析,對(duì)數(shù)據(jù)資源本身特性指標(biāo)進(jìn)行量化,例如數(shù)據(jù)資源的規(guī)模度、結(jié)構(gòu)化程度、所屬行業(yè)等可以通過(guò)數(shù)據(jù)資源的內(nèi)容直接得出,其次由專(zhuān)家基于市場(chǎng)的角度橫向?qū)Ρ仍摂?shù)據(jù)資源與其他數(shù)據(jù)資源,得出部分市場(chǎng)化指標(biāo);第二步,通過(guò)改變價(jià)格,得出不同的價(jià)格下Stacked-GBDT模型預(yù)測(cè)出的數(shù)據(jù)資源的價(jià)值,得到數(shù)據(jù)資源價(jià)值隨價(jià)格變化的曲線(xiàn);第三步,由于數(shù)據(jù)整體的變化過(guò)程是算法驅(qū)動(dòng)的,與實(shí)際情況是有一定出入的,應(yīng)當(dāng)根據(jù)數(shù)據(jù)資源的實(shí)際情況,由專(zhuān)家考慮市場(chǎng)情況之后,提前確定一個(gè)合理的數(shù)據(jù)可售價(jià)格區(qū)間,在該區(qū)間內(nèi)尋找使得數(shù)據(jù)資源價(jià)值最大的價(jià)格點(diǎn)。當(dāng)數(shù)據(jù)交易一段時(shí)間后,其本身因素和市場(chǎng)因素的量化值會(huì)有相應(yīng)的改變,將改變后的信息重新輸入Stacked-GBDT模型,即可得出新的數(shù)據(jù)資源價(jià)值隨價(jià)格變化的曲線(xiàn),重新確定價(jià)格,實(shí)現(xiàn)了數(shù)據(jù)資源的動(dòng)態(tài)定價(jià)。至此,在數(shù)據(jù)資源每個(gè)階段都有使得數(shù)據(jù)資源價(jià)值最大的策略可采用。
5.1.1 數(shù)據(jù)來(lái)源
國(guó)信優(yōu)易數(shù)據(jù)公司是由國(guó)家信息中心于2015年發(fā)起成立的科技平臺(tái)型企業(yè),擁有大數(shù)據(jù)、人工智能、區(qū)塊鏈和物聯(lián)網(wǎng)等新一代信息技術(shù)。優(yōu)易數(shù)據(jù)的數(shù)據(jù)集市是一個(gè)數(shù)據(jù)交易平臺(tái),該平臺(tái)擁有多行業(yè)數(shù)據(jù)交易資源。本研究建模所需數(shù)據(jù)均來(lái)自該平臺(tái),使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取該網(wǎng)站上產(chǎn)業(yè)經(jīng)濟(jì)、健康醫(yī)療、交通地理、金融征信、精準(zhǔn)營(yíng)銷(xiāo)、科研技術(shù)、企業(yè)管理、生活服務(wù)、輿情監(jiān)測(cè)和行業(yè)檢測(cè)報(bào)告共計(jì)10類(lèi)數(shù)據(jù)資源交易數(shù)據(jù)。
5.1.2 數(shù)據(jù)預(yù)處理
國(guó)信優(yōu)易數(shù)據(jù)的數(shù)據(jù)資源交易數(shù)據(jù)存在如下問(wèn)題影響模型預(yù)測(cè)精度:數(shù)據(jù)信息不全;重復(fù);數(shù)據(jù)量綱差別大;包含文本型數(shù)據(jù)。
對(duì)獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理:
第一步處理規(guī)則:若指標(biāo)體系中有關(guān)字段缺失,則刪除這條數(shù)據(jù);若出現(xiàn)重復(fù)數(shù)據(jù),則只保留一條有效數(shù)據(jù);數(shù)據(jù)量的計(jì)量單位,統(tǒng)一以KB為單位。
第二步數(shù)據(jù)處理:類(lèi)別化標(biāo)識(shí):數(shù)據(jù)行業(yè)分類(lèi)、數(shù)據(jù)分類(lèi)標(biāo)簽共2個(gè)類(lèi)別字段采取one-hot編碼的方式進(jìn)行數(shù)據(jù)數(shù)值化;歸一化處理:由于不同數(shù)據(jù)的規(guī)模度相差很大,需要將其進(jìn)行歸一化處理,以此提高模型的收斂速度,歸一化公式為:
式(2)中,x為歸一化前的數(shù)據(jù);max(x)和min(x)為數(shù)據(jù)集中x的最大值和最小值。
最終獲得可使用數(shù)據(jù)5 813條,將總數(shù)據(jù)量的80%,即4 650條數(shù)據(jù)作為訓(xùn)練集,總數(shù)據(jù)量的20%,即1 163條數(shù)據(jù)作為測(cè)試集。
預(yù)測(cè)指標(biāo)采用均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE)衡量預(yù)測(cè)結(jié)果的全局和局部絕對(duì)誤差,采用均方根百分誤差(Root Mean Square Percentage Error,RMSPE)和平均絕對(duì)百分誤差(mean absolute percentage error,MAPE)衡量預(yù)測(cè)結(jié)果的全局和局部的相對(duì)誤差,采用決定系數(shù)(r-square,R2)衡量預(yù)測(cè)的整體效果5個(gè)評(píng)價(jià)指標(biāo),如下所示。
基于上述預(yù)處理數(shù)據(jù)分別構(gòu)建基于GBDT、Random Forest、XGBoost的單獨(dú)模型和與 Stacking集成的數(shù)據(jù)資源價(jià)值評(píng)估模型,并進(jìn)行對(duì)比分析以驗(yàn)證本文所提Stacked-GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型的有效性與準(zhǔn)確性。6種模型的數(shù)據(jù)資源價(jià)值預(yù)測(cè)結(jié)果如圖4所示。圖4中橫縱坐標(biāo)的柱狀圖分別表示真實(shí)值和預(yù)測(cè)值的分布情況,散點(diǎn)表示預(yù)測(cè)值。
圖4 數(shù)據(jù)資源價(jià)值預(yù)測(cè)6種模型數(shù)值擬合情況
由圖4可見(jiàn),總體來(lái)看,根據(jù)柱狀圖顯示的數(shù)據(jù)分布可以看到,數(shù)據(jù)點(diǎn)的分布大致圍繞在中心線(xiàn)周?chē)?,?shù)據(jù)在價(jià)值0~10 000的范圍分布較密集,總體預(yù)測(cè)更準(zhǔn)確;當(dāng)數(shù)據(jù)價(jià)值更大時(shí),不同模型預(yù)測(cè)精度有不同程度的下降,預(yù)測(cè)精度下降表現(xiàn)為數(shù)據(jù)點(diǎn)呈放射狀遠(yuǎn)離中心線(xiàn);分別來(lái)看,三種算法的單獨(dú)模型與其Stacking集成模型相對(duì)比,集成后的模型相較于集成之前都有不同程度的精度提高,其中XGBoost算法在數(shù)據(jù)價(jià)值增大之后精度下降最多,Random Forest算法次之,而GBDT算法在數(shù)據(jù)價(jià)值更大的階段仍有良好的表現(xiàn),Stacked-GBDT又比GBDT稍有提升。
將設(shè)定好的5個(gè)預(yù)測(cè)評(píng)價(jià)指標(biāo)對(duì)6種模型的預(yù)測(cè)效果進(jìn)行對(duì)比,這6種模型的預(yù)測(cè)評(píng)價(jià)指標(biāo)計(jì)算結(jié)果如表2所示,并根據(jù)此結(jié)果繪制指標(biāo)偏差率對(duì)比如圖5所示。
表2 6種模型預(yù)測(cè)效果評(píng)價(jià)
圖5 Stacking集成模型與未集成模型誤差對(duì)比
由表2易得,首先根據(jù)整體預(yù)測(cè)指標(biāo)R2可以發(fā)現(xiàn),基于機(jī)器學(xué)習(xí)算法與Stacking的融合模型和未集成的機(jī)器學(xué)習(xí)模型都能比較好的預(yù)測(cè)數(shù)據(jù)資源價(jià)值,說(shuō)明機(jī)器學(xué)習(xí)是一種可用于數(shù)據(jù)資源價(jià)值預(yù)測(cè)的方法。相比較來(lái)看,Stacked-XGBoost、XGBoost、Stacked-Random Forest、Random Forest誤差指標(biāo)偏大,預(yù)測(cè)效果欠佳;Stacked-GBDT與GBDT對(duì)于數(shù)據(jù)資源價(jià)值預(yù)測(cè)的效果更好,Stacked-GBDT預(yù)測(cè)評(píng)估效果最佳。
從圖5可以看到,通過(guò)Stacking集成模型與未集成模型橫向?qū)Ρ日`差,發(fā)現(xiàn)集成模型的預(yù)測(cè)效果均優(yōu)于未集成模型,通過(guò)GBDT與其他機(jī)器學(xué)習(xí)模型的縱向?qū)Ρ日`差,發(fā)現(xiàn)GBDT的預(yù)測(cè)效果均優(yōu)于其他模型。
通過(guò)輸入數(shù)據(jù)資源本身指標(biāo)和歷史數(shù)據(jù)交易信息完成模型訓(xùn)練后得出的Stacked-GBDT模型可有效解決目前數(shù)據(jù)資源價(jià)值評(píng)估中主觀性強(qiáng)、缺乏定量標(biāo)準(zhǔn)的問(wèn)題,對(duì)促進(jìn)數(shù)據(jù)要素市場(chǎng)化、數(shù)字經(jīng)濟(jì)的發(fā)展很有意義。
基于本文所提的Stacked-GBDT模型對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)定價(jià),選擇國(guó)信優(yōu)易數(shù)據(jù)集的具體信息如表3所示。
表3 國(guó)信優(yōu)易數(shù)據(jù)集示例具體信息
保證數(shù)據(jù)價(jià)值評(píng)估指標(biāo)恒定,動(dòng)態(tài)調(diào)整數(shù)據(jù)的價(jià)格(設(shè)定價(jià)格區(qū)間0~2 000),并將上述數(shù)據(jù)集相關(guān)指標(biāo)輸入至Stacked-GBDT數(shù)據(jù)價(jià)值評(píng)估模型,并繪制價(jià)值隨價(jià)格變化曲線(xiàn),如圖6(a)所示。
圖6 由給定區(qū)間確定價(jià)格示例
從圖6(a)可以看出,數(shù)據(jù)集的價(jià)值隨價(jià)格增加呈現(xiàn)先上升后下降的趨勢(shì)。變化趨勢(shì)符合常規(guī)認(rèn)知,隨價(jià)格從低到高,數(shù)據(jù)資源的價(jià)值整體呈上升趨勢(shì);價(jià)格到達(dá)較高水平后,數(shù)據(jù)資源價(jià)值因購(gòu)買(mǎi)量下降幅度超過(guò)價(jià)格增加幅度而下降。但是并不能直接根據(jù)最高的價(jià)值點(diǎn)進(jìn)行價(jià)格的選擇,數(shù)據(jù)整體的變化過(guò)程是算法驅(qū)動(dòng)的,與實(shí)際情況是有一定出入的,應(yīng)當(dāng)根據(jù)數(shù)據(jù)資源的實(shí)際情況,由專(zhuān)家考慮市場(chǎng)情況之后,提前確定數(shù)據(jù)可售價(jià)格區(qū)間,然后根據(jù)數(shù)據(jù)價(jià)值隨價(jià)格的變化曲線(xiàn),在數(shù)據(jù)可售區(qū)間(m,n)內(nèi)選擇使得數(shù)據(jù)價(jià)值最大時(shí)對(duì)應(yīng)的價(jià)格o作為數(shù)據(jù)的售出價(jià)格,示例如圖6(b)所示。
當(dāng)新上架的數(shù)據(jù)交易一段時(shí)間以后,根據(jù)指標(biāo)的評(píng)分變化,例如數(shù)據(jù)時(shí)效性、數(shù)據(jù)獨(dú)特性等、以及用戶(hù)的評(píng)分反饋調(diào)整,重新將數(shù)據(jù)信息輸出模型,得出新的價(jià)值隨價(jià)格的變化曲線(xiàn),重新確定售出價(jià)格,以此實(shí)現(xiàn)數(shù)據(jù)資源的動(dòng)態(tài)定價(jià)數(shù)據(jù)資源價(jià)值最大化。
數(shù)據(jù)資源價(jià)值的準(zhǔn)確評(píng)估和定價(jià)是促進(jìn)數(shù)據(jù)要素市場(chǎng)化、發(fā)展數(shù)字經(jīng)濟(jì)的關(guān)鍵步驟。本文使用人工智能及機(jī)器學(xué)習(xí)領(lǐng)域的前沿技術(shù)來(lái)解決數(shù)據(jù)資源泛濫背景下的價(jià)值難以準(zhǔn)確快速確定、主觀性強(qiáng)、缺乏定量標(biāo)準(zhǔn)的問(wèn)題,并建立數(shù)據(jù)資源價(jià)值隨價(jià)格變化曲線(xiàn)用于精確、動(dòng)態(tài)定價(jià)。首先對(duì)以往學(xué)者對(duì)數(shù)據(jù)資源價(jià)值評(píng)估的研究進(jìn)行了系統(tǒng)的梳理和分類(lèi);然后基于數(shù)據(jù)資源的本身因素和市場(chǎng)因素兩個(gè)維度構(gòu)建了數(shù)據(jù)資源價(jià)值評(píng)估指標(biāo)體系,針對(duì)數(shù)據(jù)資源交易平臺(tái)的交易數(shù)據(jù)的特點(diǎn),從智能算法角度出發(fā)提出了基于Stacked-GBDT模型的數(shù)據(jù)資源價(jià)值評(píng)估模型,以國(guó)信優(yōu)易數(shù)據(jù)平臺(tái)的5 813條交易數(shù)據(jù)為例,進(jìn)行了實(shí)證研究和多種模型的對(duì)比分析;最后使用Stacked-GBDT模型建立了數(shù)據(jù)資源價(jià)值隨價(jià)格變化曲線(xiàn),實(shí)現(xiàn)了精確、動(dòng)態(tài)定價(jià)。
本研究的意義包括三個(gè)方面:
(1)從數(shù)據(jù)資源本身和數(shù)據(jù)市場(chǎng)因素兩個(gè)角度深度挖掘了均可量化的價(jià)值影響因素并建立了指標(biāo)體系,為以往研究中指標(biāo)難獲取、影響因素排序主觀性強(qiáng)、最終數(shù)據(jù)資源價(jià)值難量化的問(wèn)題提出了可行的解決方案;
(2)提出了一種基礎(chǔ)歷史交易數(shù)據(jù)進(jìn)行模型訓(xùn)練的機(jī)器學(xué)習(xí)集成模型。以國(guó)信優(yōu)易數(shù)據(jù)為例,在Stacking集成算法模型中,充分測(cè)算了多種算法與Stacking集成模型在數(shù)據(jù)資源價(jià)值預(yù)測(cè)方面的表現(xiàn)并且對(duì)比了未集成算法的效果;
(3)運(yùn)用Stacked-GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型對(duì)數(shù)據(jù)資源的定價(jià)提供了準(zhǔn)確、動(dòng)態(tài)調(diào)整的支撐。結(jié)果證明,Stacked-GBDT算法是一種可評(píng)估且評(píng)估效果佳的數(shù)據(jù)資源價(jià)值評(píng)估與動(dòng)態(tài)定價(jià)方法。