基于動(dòng)態(tài)Stacked-GBDT算法的數(shù)據(jù)資源價(jià)值評(píng)估方法研究

2023-02-22 11:46:48沈俊鑫趙雪杉

科技管理研究 2023年1期

沈俊鑫，趙雪杉

（昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院，云南昆明 650093）

1 研究背景

數(shù)字經(jīng)濟(jì)時(shí)代，如何利用好、發(fā)揮出數(shù)據(jù)要素的價(jià)值是當(dāng)下生產(chǎn)力發(fā)展和提高的關(guān)鍵，也是經(jīng)濟(jì)政策和經(jīng)濟(jì)研究格局變革的關(guān)鍵[1]；企業(yè)轉(zhuǎn)型、技術(shù)經(jīng)濟(jì)與發(fā)展范式躍遷、國(guó)民經(jīng)濟(jì)循環(huán)效率提升都要依靠數(shù)據(jù)要素這一新時(shí)代下的基礎(chǔ)生產(chǎn)要素來(lái)提供新動(dòng)力、加快新進(jìn)程[2]。數(shù)據(jù)資源可以在所有社會(huì)成員和生產(chǎn)部門(mén)之間自由流轉(zhuǎn)是數(shù)據(jù)要素市場(chǎng)化的基本要求[3]，但數(shù)據(jù)交易平臺(tái)存在定價(jià)標(biāo)準(zhǔn)模糊、交易規(guī)則缺失、買(mǎi)賣(mài)雙方信息不對(duì)稱(chēng)的問(wèn)題[4]，極大的制約了數(shù)據(jù)資源的流動(dòng)及數(shù)字經(jīng)濟(jì)的發(fā)展[5]。我國(guó)數(shù)據(jù)要素市場(chǎng)化建設(shè)要求加快數(shù)據(jù)標(biāo)準(zhǔn)制定、健全數(shù)據(jù)評(píng)估和定價(jià)機(jī)制、拓展數(shù)據(jù)市場(chǎng)交易平臺(tái)、優(yōu)化數(shù)據(jù)資源配置、完善數(shù)據(jù)交易系統(tǒng)[6]。現(xiàn)階段，國(guó)內(nèi)大數(shù)據(jù)交易市場(chǎng)已經(jīng)初見(jiàn)規(guī)模，但仍不夠規(guī)范和統(tǒng)一，其可持續(xù)發(fā)展還需要依靠合理的定價(jià)及政府性指導(dǎo)[7]。現(xiàn)有數(shù)據(jù)交易的交易成本普遍偏高且數(shù)據(jù)質(zhì)量無(wú)法得到有力保障，是由于目前數(shù)據(jù)交易環(huán)境存在定價(jià)標(biāo)準(zhǔn)模糊、交易規(guī)則缺失、交易雙方信息不對(duì)稱(chēng)的問(wèn)題，這些問(wèn)題極大地限制了數(shù)據(jù)資產(chǎn)的流動(dòng)，阻礙了數(shù)字經(jīng)濟(jì)的發(fā)展[8]，而數(shù)據(jù)能夠在所有社會(huì)成員和各生產(chǎn)部門(mén)之間流通是數(shù)據(jù)要素市場(chǎng)化的要求。數(shù)據(jù)定價(jià)作為數(shù)據(jù)交易市場(chǎng)的基礎(chǔ)，在數(shù)據(jù)被當(dāng)作重要生產(chǎn)要素過(guò)程中有著關(guān)鍵作用。目前數(shù)據(jù)交易市場(chǎng)，交易價(jià)格混亂、數(shù)據(jù)資源利用率低下、企業(yè)盈利能力不足的現(xiàn)狀，亟待合理的數(shù)據(jù)定價(jià)方法來(lái)改變[9]；同時(shí)，合理的數(shù)據(jù)定價(jià)方法還可以吸引更多的潛在用戶(hù)參與交易，進(jìn)一步提高企業(yè)盈利，從而為數(shù)據(jù)產(chǎn)業(yè)的發(fā)展注入活力。在當(dāng)前的數(shù)據(jù)交易市場(chǎng)中，透明度低的買(mǎi)賣(mài)雙方、嚴(yán)重不對(duì)稱(chēng)的信息，造成了目前數(shù)據(jù)市場(chǎng)上數(shù)據(jù)定價(jià)的混亂。若能建立合理的價(jià)值評(píng)估機(jī)制及數(shù)據(jù)資源定價(jià)標(biāo)準(zhǔn)，既能促進(jìn)數(shù)據(jù)流通也能改善數(shù)據(jù)市場(chǎng)交易效率。

缺乏合理且有效的數(shù)據(jù)資源價(jià)值評(píng)估定價(jià)方法是限制目前數(shù)據(jù)要素市場(chǎng)化、大數(shù)據(jù)交易平臺(tái)發(fā)展的關(guān)鍵卡點(diǎn)[10]。實(shí)現(xiàn)以?xún)r(jià)值為導(dǎo)向的持續(xù)運(yùn)營(yíng)能力提升是數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)的核心目標(biāo)，其關(guān)鍵在于數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估環(huán)節(jié)的補(bǔ)全，多維量化分析企業(yè)數(shù)字資產(chǎn)價(jià)值并為企業(yè)數(shù)據(jù)資產(chǎn)價(jià)值運(yùn)營(yíng)決策提供支持，真正意義上地做到數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)的價(jià)值閉環(huán)，有效盤(pán)活數(shù)據(jù)資產(chǎn)價(jià)值。

2 相關(guān)研究述評(píng)

2.1 數(shù)據(jù)資源價(jià)值評(píng)估方法

國(guó)內(nèi)外學(xué)者針對(duì)數(shù)據(jù)資源價(jià)值評(píng)估展開(kāi)了相關(guān)研究，大致可以分為無(wú)形資產(chǎn)評(píng)估方法、定量影響因子評(píng)估方法和智能評(píng)估方法等三類(lèi)。

無(wú)形資產(chǎn)評(píng)估方法指將數(shù)據(jù)資產(chǎn)當(dāng)成無(wú)形資產(chǎn)，應(yīng)用一種或者多種傳統(tǒng)的無(wú)形資產(chǎn)評(píng)估方法來(lái)評(píng)估數(shù)據(jù)資源價(jià)值的方法，包括成本法、市場(chǎng)法、收益法[11]。數(shù)據(jù)資源具有與傳統(tǒng)無(wú)形資產(chǎn)、金融資產(chǎn)不同的特點(diǎn)，不能直接應(yīng)用無(wú)形資產(chǎn)評(píng)估方法[12]。定量影響因子評(píng)價(jià)方法是基于分析方法確定數(shù)據(jù)資產(chǎn)價(jià)值影響因子權(quán)重以構(gòu)建數(shù)據(jù)資產(chǎn)評(píng)估模型。Saiko 等[13]提出通過(guò)對(duì)數(shù)據(jù)本身和質(zhì)量等多維度的特征進(jìn)行重要性和價(jià)值定量評(píng)估，再結(jié)合價(jià)值矩陣等定性分析方法，最后得到數(shù)據(jù)的綜合價(jià)值。李菲菲等[14]從不同角度建立了基于層次分析法的數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估模型。Yu等[15]根據(jù)數(shù)據(jù)的內(nèi)在屬性，即顆粒度和隱私，提出了數(shù)據(jù)評(píng)估方法。智能評(píng)估方法是指使用聚類(lèi)、分類(lèi)、回歸類(lèi)機(jī)器學(xué)習(xí)方法計(jì)算數(shù)據(jù)資產(chǎn)的價(jià)值。智能評(píng)估方法相比上述方法對(duì)數(shù)據(jù)資源的特征具有更好的適用性，具體表現(xiàn)為：評(píng)估標(biāo)準(zhǔn)更客觀、處理能力更強(qiáng)大、數(shù)據(jù)特征更適應(yīng)。Agarwal等[16]使用機(jī)器學(xué)習(xí)算法設(shè)計(jì)用于購(gòu)買(mǎi)和出售機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)市場(chǎng)。Cong等[17]提出了機(jī)器學(xué)習(xí)部署的步驟中為終端用戶(hù)的模型定價(jià)。倪淵等[18]建立了基于AGA-BP神經(jīng)網(wǎng)絡(luò)且考慮諸多數(shù)據(jù)指標(biāo)及其價(jià)值非線(xiàn)性關(guān)系的數(shù)據(jù)資源評(píng)估模型。智能算法評(píng)估相對(duì)于傳統(tǒng)算法在非線(xiàn)性擬合能力、預(yù)測(cè)精度、可量化程度和運(yùn)算效率等方面有強(qiáng)大的優(yōu)勢(shì)。但目前，智能算法在數(shù)據(jù)資源價(jià)值評(píng)估領(lǐng)域的應(yīng)用還不夠深入，需要進(jìn)一步研究以充分發(fā)揮智能算法在數(shù)據(jù)資源價(jià)值評(píng)估領(lǐng)域的優(yōu)勢(shì)。

2.2 研究述評(píng)

學(xué)者們從不同角度對(duì)數(shù)據(jù)資源價(jià)值影響因素的挖掘逐漸趨于全面，缺乏各影響因素與數(shù)據(jù)資源價(jià)值的定量影響分析。現(xiàn)有方法通過(guò)借鑒傳統(tǒng)無(wú)形資產(chǎn)評(píng)估方法初見(jiàn)成效，但均存在不同程度的局限性：

（1）傳統(tǒng)的無(wú)形資產(chǎn)評(píng)估方法通過(guò)單種或者多種混合的傳統(tǒng)無(wú)形資產(chǎn)評(píng)估方法來(lái)衡量數(shù)據(jù)資產(chǎn)的價(jià)值，一部分研究直接將數(shù)據(jù)資產(chǎn)視為無(wú)形資產(chǎn)；另一部分研究根據(jù)數(shù)據(jù)資產(chǎn)的增值特性與無(wú)形資產(chǎn)相區(qū)別，但是并未考慮數(shù)據(jù)資源增值的問(wèn)題。

（2）定量影響因素評(píng)估方法從數(shù)據(jù)資產(chǎn)成本、應(yīng)用、維護(hù)等不同角度提出了數(shù)據(jù)資產(chǎn)價(jià)值的影響因素，并根據(jù)層次分析法對(duì)各種價(jià)值影響因素進(jìn)行權(quán)重分析，最后建立數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估模型，但其主觀性較強(qiáng)，不能形成客觀量化的價(jià)值判斷指標(biāo)。

智能算法可以通過(guò)時(shí)間維度的指標(biāo)設(shè)計(jì)解決數(shù)據(jù)增值的測(cè)量問(wèn)題；可以通過(guò)算法的計(jì)算規(guī)避以往研究數(shù)據(jù)資源價(jià)值時(shí)主觀給定價(jià)值影響系數(shù)等問(wèn)題。綜合判斷，智能算法在數(shù)據(jù)資源價(jià)值評(píng)估的應(yīng)用更客觀，更有效率，適用性也更廣。為解決上述問(wèn)題，本文提出了基于Stacked-GBDT集成學(xué)習(xí)的數(shù)據(jù)資源價(jià)值評(píng)估方法。首先，基于敏感性分析，從數(shù)據(jù)的本身因素和市場(chǎng)因素兩個(gè)維度歸納建立了數(shù)據(jù)資源價(jià)值影響要素指標(biāo)體系；然后，基于梯度提升決策樹(shù)（gradient boosting decision tree，GBDT）機(jī)器學(xué)習(xí)算法與模型堆疊（Stacking）集成學(xué)習(xí)算法，提出了基于Stacked-GBDT的數(shù)據(jù)資源價(jià)值評(píng)估算法，并與Random Forest（隨機(jī)森林算法）和XGBoost（極限梯度提升算法）以驗(yàn)證本文所提方法的正確性及有效性[19-20]；最后，應(yīng)用Stacked-GBDT模型對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)定價(jià)。

3 數(shù)據(jù)資源價(jià)值評(píng)估指標(biāo)體系

數(shù)據(jù)資源價(jià)值受到本身因素與市場(chǎng)因素的雙重影響。從數(shù)據(jù)資源本身因素考慮，數(shù)據(jù)規(guī)模、數(shù)據(jù)類(lèi)型、數(shù)據(jù)所屬行業(yè)、數(shù)據(jù)內(nèi)容和數(shù)據(jù)質(zhì)量等均對(duì)數(shù)據(jù)資源價(jià)值有顯著影響[8-10]，其中數(shù)據(jù)質(zhì)量相關(guān)指標(biāo)主要包括數(shù)據(jù)的完整性、獨(dú)特性、有效性、準(zhǔn)確性和一致性[21]；從數(shù)據(jù)資源市場(chǎng)因素考慮，數(shù)據(jù)購(gòu)買(mǎi)量、數(shù)據(jù)應(yīng)用價(jià)值度和數(shù)據(jù)稀缺度等對(duì)數(shù)據(jù)資源價(jià)值有顯著影響[6,10,15]。

將影響數(shù)據(jù)資源價(jià)值指標(biāo)作為機(jī)器學(xué)習(xí)算法模型的輸入特征，將數(shù)據(jù)資源累計(jì)成交額即數(shù)據(jù)資源價(jià)值（由價(jià)格×購(gòu)買(mǎi)量得到）作為算法模型的輸出特征。對(duì)各特征的描述性統(tǒng)計(jì)如表1所示。

表1 數(shù)據(jù)資源價(jià)值特征描述統(tǒng)計(jì)

在數(shù)據(jù)資源價(jià)值影響因素中，數(shù)據(jù)行業(yè)分類(lèi)、數(shù)據(jù)分類(lèi)標(biāo)簽，共計(jì)2個(gè)指標(biāo)為離散值指標(biāo)，其余為數(shù)值型指標(biāo)；所有特征相互獨(dú)立，不存在線(xiàn)性影響關(guān)系；所選取的數(shù)據(jù)指標(biāo)都是以往學(xué)者研究所得影響數(shù)據(jù)資源價(jià)值的因素，所以屬于價(jià)值稠密型；整體指標(biāo)體系共計(jì)11個(gè)維度，相較于其他類(lèi)型大數(shù)據(jù)屬于低維度數(shù)據(jù)，可得該指標(biāo)體系下的數(shù)據(jù)資源數(shù)據(jù)屬于低維稠密型。

4 基于Stacked-GBDT集成學(xué)習(xí)的數(shù)據(jù)資源價(jià)值評(píng)估模型

4.1 GBDT算法原理

GBDT算法是基于加法模型通過(guò)迭代訓(xùn)練提升模型效果的決策樹(shù)算法[22]，相較于其他算法具備如下優(yōu)點(diǎn)[23]：（1）靈活性高；可靈活處理數(shù)據(jù)交易信息中的離散數(shù)據(jù)；（2）性能良好；處理數(shù)據(jù)資源價(jià)值評(píng)估問(wèn)題應(yīng)用的非線(xiàn)性數(shù)據(jù)表現(xiàn)優(yōu)異；（3）抗干擾能力強(qiáng)；在面對(duì)數(shù)據(jù)資源價(jià)值差異大的數(shù)據(jù)時(shí)魯棒性很強(qiáng)；（4）數(shù)據(jù)適用度高；數(shù)據(jù)資源價(jià)值可量化指標(biāo)體系整體屬于低維稠密，GBDT相較于其他算法可以很好地處理該特點(diǎn)的數(shù)據(jù)；（5）預(yù)測(cè)精度高；對(duì)評(píng)估數(shù)據(jù)資源價(jià)值有很大的幫助。

GBDT算法的每次迭代都是在殘差降低的梯度方向上創(chuàng)建新決策樹(shù)，并基于加法模型對(duì)每個(gè)決策樹(shù)的結(jié)果進(jìn)行加權(quán)求和以獲得最終的數(shù)據(jù)資源價(jià)值評(píng)估結(jié)果，模型結(jié)構(gòu)如圖1所示。

圖1 GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型

循環(huán)執(zhí)行構(gòu)建決策樹(shù)的步驟并不斷更新，可以得出GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型。將數(shù)據(jù)資源價(jià)值本身影響因素和市場(chǎng)影響因素輸入模型,即可得出該數(shù)據(jù)資源的價(jià)值評(píng)估結(jié)果。單獨(dú)的GBDT模型對(duì)于數(shù)據(jù)資源價(jià)值評(píng)估準(zhǔn)確精度提升有限，且受隨機(jī)性限制導(dǎo)致泛化能力不足，但數(shù)據(jù)資源價(jià)值評(píng)估對(duì)精度要求較高，于是需要進(jìn)一步地優(yōu)化以提升整體模型的評(píng)估精度。

4.2 Stacking集成學(xué)習(xí)算法原理

集成學(xué)習(xí)指由多種算法融合形成的機(jī)器學(xué)習(xí)算法。目前提升機(jī)器學(xué)習(xí)效果最好的方法就是集成學(xué)習(xí)，可以在原有的機(jī)器學(xué)習(xí)模型的基礎(chǔ)上表現(xiàn)得更好，通過(guò)集成策略對(duì)抗過(guò)擬合而且不需要太多的額外調(diào)參等工作。常見(jiàn)的集成學(xué)習(xí)算法有模型堆疊算法（Stacking）、引導(dǎo)聚集算法（Bagging）、框架提升（Boosting）。Stacking是一種將弱學(xué)習(xí)器集成進(jìn)行輸出的策略，屬非線(xiàn)性融合；剩余集成學(xué)習(xí)都屬基于加權(quán)平均的組合預(yù)測(cè)算法，不能夠體現(xiàn)樣本內(nèi)單個(gè)樣本預(yù)測(cè)誤差對(duì)整體權(quán)重的影響[24]。由此，選用Stacking算法對(duì)預(yù)測(cè)模型進(jìn)行融合，以提高模型精度和泛化能力。

基于GBDT的數(shù)據(jù)資源價(jià)值預(yù)測(cè)方法具有輸入數(shù)據(jù)量需求小、可解釋性強(qiáng)的特點(diǎn)，將決策樹(shù)算法GBDT與集成學(xué)習(xí)相結(jié)合，可以進(jìn)一步提高模型的預(yù)測(cè)精度與泛化能力。在構(gòu)建GBDT數(shù)據(jù)資源價(jià)值預(yù)測(cè)模型時(shí)，每一個(gè)當(dāng)前決策樹(shù)的模型建立都依賴(lài)上一個(gè)決策數(shù)模型的預(yù)測(cè)結(jié)果，屬于串行計(jì)算模型。將Stacking集成學(xué)習(xí)與GBDT相結(jié)合，在Stacking集成學(xué)習(xí)的第一階段可并行運(yùn)行多個(gè)GBDT模型，在第二個(gè)階段集成上階段的預(yù)測(cè)結(jié)果作為輸入再次進(jìn)行預(yù)測(cè)，提高整體預(yù)測(cè)精度。

Stacking集成學(xué)習(xí)方式是通過(guò)組合多個(gè)預(yù)測(cè)模型的信息然后生成新模型的集成方法，通過(guò)對(duì)多個(gè)不同模型的組合用以獲得比單一的算法更優(yōu)越的性能。第1步將原始輸入的數(shù)據(jù)集劃分成若干個(gè)子數(shù)據(jù)集，作為第1層預(yù)測(cè)模型的各個(gè)基學(xué)習(xí)器的輸入，然后由各個(gè)基學(xué)習(xí)器分別輸出各自的預(yù)測(cè)結(jié)果；第2步，第1層的預(yù)測(cè)結(jié)果作為第2層模型的輸入，然后對(duì)第2層元學(xué)習(xí)器的預(yù)測(cè)模型進(jìn)行訓(xùn)練，最后由第2層的模型輸出得到最終的預(yù)測(cè)結(jié)果。將Xi作為輸入，記第1層第k個(gè)基學(xué)習(xí)器為Bk，第2層的元學(xué)習(xí)器為P,則第1層第k個(gè)基學(xué)習(xí)器的輸出為,將第一層的輸出結(jié)果作為第2層元學(xué)習(xí)器的輸入，最終第2層的輸出結(jié)果為，如式（1）所示。

Stacking的集成學(xué)習(xí)方式如圖2所示。

圖2 Stacking集成學(xué)習(xí)模式

4.3 Stacked-GBDT算法

本文將Stacking模型融合應(yīng)用于多個(gè)GBDT模型的集成，用以提升數(shù)據(jù)價(jià)值預(yù)測(cè)精度?；贕BDT與Stacking模型具體融合過(guò)程如圖3所示。

圖3 基于GBDT與Stacking模型融合的數(shù)據(jù)資源價(jià)值預(yù)測(cè)模型

（1）利用第1層的基學(xué)習(xí)器生成訓(xùn)練集與測(cè)試集的N組數(shù)據(jù)資源價(jià)值預(yù)測(cè)值。根據(jù)交叉驗(yàn)證的思想，首先將數(shù)據(jù)資源指標(biāo)的訓(xùn)練集分成5份，記作S1,S2, ,S5。首先應(yīng)用訓(xùn)練集S1,S2,S3,S4訓(xùn)練基學(xué)習(xí)器1，并基于訓(xùn)練好的基學(xué)習(xí)器1對(duì)S5和測(cè)試集進(jìn)行預(yù)測(cè)；然后，再用S1,S2,S3,S5重新訓(xùn)練基學(xué)習(xí)器1，繼續(xù)對(duì)S4和測(cè)試集進(jìn)行預(yù)測(cè)。以此類(lèi)推，得到基學(xué)習(xí)器1對(duì)S1,S2,S3,S5的預(yù)測(cè)值（將其組合成第一組的訓(xùn)練集預(yù)測(cè)值）和測(cè)試集的5組預(yù)測(cè)值（將這5組預(yù)測(cè)值的平均值作為第一組測(cè)試集預(yù)測(cè)值）。

同理對(duì)基學(xué)習(xí)器2-N進(jìn)行同樣上述操作，得出訓(xùn)練集與測(cè)試集的第2-N組數(shù)據(jù)資源價(jià)值預(yù)測(cè)值。

（2）利用第1層的基學(xué)習(xí)器輸出的訓(xùn)練集的N組預(yù)測(cè)值構(gòu)建成第2層的訓(xùn)練集；利用第2層的基學(xué)習(xí)器輸出的測(cè)試集的N組數(shù)據(jù)資源價(jià)值預(yù)測(cè)值構(gòu)建成第2層的測(cè)試集，得到最終數(shù)據(jù)資源價(jià)值的預(yù)測(cè)結(jié)果。

不同的基學(xué)習(xí)器存在不同的特性，進(jìn)行模型融合的目的是減少單一基學(xué)習(xí)器的誤差影響等，使得整體模型融合系統(tǒng)預(yù)測(cè)性能提升。

將多個(gè)GBDT模型作為Stacking集成模型的第1層基學(xué)習(xí)器，考慮到使用Stacking集成學(xué)習(xí)容易帶來(lái)過(guò)擬合，所以將簡(jiǎn)單的Linear模型作為第2層的元學(xué)習(xí)器?；鶎W(xué)習(xí)器的數(shù)量對(duì)Stacking的融合效果有直接影響，基學(xué)習(xí)器的數(shù)量較少會(huì)造成各學(xué)習(xí)器間不能有效互補(bǔ)，數(shù)量較多會(huì)造成模型冗余且調(diào)參更復(fù)雜。一般情況Stacking模型的基學(xué)習(xí)器數(shù)量在3～5個(gè)，經(jīng)過(guò)測(cè)試可得最佳融合效果的基學(xué)習(xí)數(shù)量為3個(gè)。因此，Stacking第一層基學(xué)習(xí)器為3個(gè)GBDT模型，第二層為L(zhǎng)inear模型。

4.4 基于數(shù)據(jù)資源價(jià)值評(píng)估模型的動(dòng)態(tài)定價(jià)方法

數(shù)據(jù)資源價(jià)值的評(píng)估與定價(jià)是目前數(shù)據(jù)經(jīng)濟(jì)發(fā)展研究的要點(diǎn)所在，而數(shù)據(jù)資源的價(jià)值與定價(jià)息息相關(guān)。數(shù)據(jù)本身的質(zhì)量和特點(diǎn)與其在市場(chǎng)上的應(yīng)用在數(shù)據(jù)資源的價(jià)值形成中有很重要的影響。數(shù)據(jù)本身特性決定了數(shù)據(jù)是否能經(jīng)受住市場(chǎng)的考驗(yàn)，能否長(zhǎng)久地發(fā)揮它的價(jià)值；而市場(chǎng)則是檢驗(yàn)該種數(shù)據(jù)資源的實(shí)際應(yīng)用情況如何，是否與時(shí)代社會(huì)的發(fā)展息息相關(guān)，是否能產(chǎn)生積極的意義進(jìn)而促進(jìn)數(shù)據(jù)經(jīng)濟(jì)的發(fā)展。

數(shù)據(jù)資源的價(jià)格隨著時(shí)間變化，其本身的質(zhì)量和市場(chǎng)因素都會(huì)發(fā)生變化，例如：隨著時(shí)間的變化數(shù)據(jù)的時(shí)效性會(huì)變差，數(shù)據(jù)獨(dú)特性會(huì)降低，其價(jià)格也應(yīng)當(dāng)發(fā)生變化，通過(guò)數(shù)據(jù)資源價(jià)值最大化的思想可確定在不同階段數(shù)據(jù)資源的最佳售出價(jià)格。

對(duì)于新上架的數(shù)據(jù)資源，采用提出的Stacked-GBDT數(shù)據(jù)資源價(jià)值預(yù)測(cè)模型，第一步從數(shù)據(jù)資源的本身因素和市場(chǎng)因素分析，對(duì)數(shù)據(jù)資源本身特性指標(biāo)進(jìn)行量化，例如數(shù)據(jù)資源的規(guī)模度、結(jié)構(gòu)化程度、所屬行業(yè)等可以通過(guò)數(shù)據(jù)資源的內(nèi)容直接得出，其次由專(zhuān)家基于市場(chǎng)的角度橫向?qū)Ρ仍摂?shù)據(jù)資源與其他數(shù)據(jù)資源，得出部分市場(chǎng)化指標(biāo)；第二步，通過(guò)改變價(jià)格，得出不同的價(jià)格下Stacked-GBDT模型預(yù)測(cè)出的數(shù)據(jù)資源的價(jià)值，得到數(shù)據(jù)資源價(jià)值隨價(jià)格變化的曲線(xiàn)；第三步，由于數(shù)據(jù)整體的變化過(guò)程是算法驅(qū)動(dòng)的，與實(shí)際情況是有一定出入的，應(yīng)當(dāng)根據(jù)數(shù)據(jù)資源的實(shí)際情況，由專(zhuān)家考慮市場(chǎng)情況之后，提前確定一個(gè)合理的數(shù)據(jù)可售價(jià)格區(qū)間，在該區(qū)間內(nèi)尋找使得數(shù)據(jù)資源價(jià)值最大的價(jià)格點(diǎn)。當(dāng)數(shù)據(jù)交易一段時(shí)間后，其本身因素和市場(chǎng)因素的量化值會(huì)有相應(yīng)的改變，將改變后的信息重新輸入Stacked-GBDT模型，即可得出新的數(shù)據(jù)資源價(jià)值隨價(jià)格變化的曲線(xiàn)，重新確定價(jià)格，實(shí)現(xiàn)了數(shù)據(jù)資源的動(dòng)態(tài)定價(jià)。至此，在數(shù)據(jù)資源每個(gè)階段都有使得數(shù)據(jù)資源價(jià)值最大的策略可采用。

5 算例分析

5.1 數(shù)據(jù)來(lái)源及處理

5.1.1 數(shù)據(jù)來(lái)源

國(guó)信優(yōu)易數(shù)據(jù)公司是由國(guó)家信息中心于2015年發(fā)起成立的科技平臺(tái)型企業(yè)，擁有大數(shù)據(jù)、人工智能、區(qū)塊鏈和物聯(lián)網(wǎng)等新一代信息技術(shù)。優(yōu)易數(shù)據(jù)的數(shù)據(jù)集市是一個(gè)數(shù)據(jù)交易平臺(tái)，該平臺(tái)擁有多行業(yè)數(shù)據(jù)交易資源。本研究建模所需數(shù)據(jù)均來(lái)自該平臺(tái)，使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取該網(wǎng)站上產(chǎn)業(yè)經(jīng)濟(jì)、健康醫(yī)療、交通地理、金融征信、精準(zhǔn)營(yíng)銷(xiāo)、科研技術(shù)、企業(yè)管理、生活服務(wù)、輿情監(jiān)測(cè)和行業(yè)檢測(cè)報(bào)告共計(jì)10類(lèi)數(shù)據(jù)資源交易數(shù)據(jù)。

5.1.2 數(shù)據(jù)預(yù)處理

國(guó)信優(yōu)易數(shù)據(jù)的數(shù)據(jù)資源交易數(shù)據(jù)存在如下問(wèn)題影響模型預(yù)測(cè)精度：數(shù)據(jù)信息不全；重復(fù)；數(shù)據(jù)量綱差別大；包含文本型數(shù)據(jù)。

對(duì)獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理：

第一步處理規(guī)則：若指標(biāo)體系中有關(guān)字段缺失，則刪除這條數(shù)據(jù)；若出現(xiàn)重復(fù)數(shù)據(jù)，則只保留一條有效數(shù)據(jù)；數(shù)據(jù)量的計(jì)量單位，統(tǒng)一以KB為單位。

第二步數(shù)據(jù)處理：類(lèi)別化標(biāo)識(shí)：數(shù)據(jù)行業(yè)分類(lèi)、數(shù)據(jù)分類(lèi)標(biāo)簽共2個(gè)類(lèi)別字段采取one-hot編碼的方式進(jìn)行數(shù)據(jù)數(shù)值化；歸一化處理：由于不同數(shù)據(jù)的規(guī)模度相差很大，需要將其進(jìn)行歸一化處理，以此提高模型的收斂速度，歸一化公式為：

式（2）中，x為歸一化前的數(shù)據(jù)；max(x)和min(x)為數(shù)據(jù)集中x的最大值和最小值。

最終獲得可使用數(shù)據(jù)5 813條，將總數(shù)據(jù)量的80%，即4 650條數(shù)據(jù)作為訓(xùn)練集，總數(shù)據(jù)量的20%，即1 163條數(shù)據(jù)作為測(cè)試集。

5.2 模型評(píng)價(jià)指標(biāo)

預(yù)測(cè)指標(biāo)采用均方根誤差（root mean square error，RMSE）和平均絕對(duì)誤差（mean absolute error，MAE）衡量預(yù)測(cè)結(jié)果的全局和局部絕對(duì)誤差，采用均方根百分誤差（Root Mean Square Percentage Error，RMSPE）和平均絕對(duì)百分誤差（mean absolute percentage error，MAPE）衡量預(yù)測(cè)結(jié)果的全局和局部的相對(duì)誤差，采用決定系數(shù)（r-square，R2）衡量預(yù)測(cè)的整體效果5個(gè)評(píng)價(jià)指標(biāo)，如下所示。

5.3 模型預(yù)測(cè)精度評(píng)價(jià)

基于上述預(yù)處理數(shù)據(jù)分別構(gòu)建基于GBDT、Random Forest、XGBoost的單獨(dú)模型和與 Stacking集成的數(shù)據(jù)資源價(jià)值評(píng)估模型，并進(jìn)行對(duì)比分析以驗(yàn)證本文所提Stacked-GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型的有效性與準(zhǔn)確性。6種模型的數(shù)據(jù)資源價(jià)值預(yù)測(cè)結(jié)果如圖4所示。圖4中橫縱坐標(biāo)的柱狀圖分別表示真實(shí)值和預(yù)測(cè)值的分布情況，散點(diǎn)表示預(yù)測(cè)值。

圖4 數(shù)據(jù)資源價(jià)值預(yù)測(cè)6種模型數(shù)值擬合情況

由圖4可見(jiàn)，總體來(lái)看，根據(jù)柱狀圖顯示的數(shù)據(jù)分布可以看到，數(shù)據(jù)點(diǎn)的分布大致圍繞在中心線(xiàn)周?chē)?，?shù)據(jù)在價(jià)值0～10 000的范圍分布較密集，總體預(yù)測(cè)更準(zhǔn)確；當(dāng)數(shù)據(jù)價(jià)值更大時(shí)，不同模型預(yù)測(cè)精度有不同程度的下降，預(yù)測(cè)精度下降表現(xiàn)為數(shù)據(jù)點(diǎn)呈放射狀遠(yuǎn)離中心線(xiàn)；分別來(lái)看，三種算法的單獨(dú)模型與其Stacking集成模型相對(duì)比，集成后的模型相較于集成之前都有不同程度的精度提高，其中XGBoost算法在數(shù)據(jù)價(jià)值增大之后精度下降最多，Random Forest算法次之，而GBDT算法在數(shù)據(jù)價(jià)值更大的階段仍有良好的表現(xiàn)，Stacked-GBDT又比GBDT稍有提升。

將設(shè)定好的5個(gè)預(yù)測(cè)評(píng)價(jià)指標(biāo)對(duì)6種模型的預(yù)測(cè)效果進(jìn)行對(duì)比，這6種模型的預(yù)測(cè)評(píng)價(jià)指標(biāo)計(jì)算結(jié)果如表2所示，并根據(jù)此結(jié)果繪制指標(biāo)偏差率對(duì)比如圖5所示。

表2 6種模型預(yù)測(cè)效果評(píng)價(jià)

圖5 Stacking集成模型與未集成模型誤差對(duì)比

由表2易得，首先根據(jù)整體預(yù)測(cè)指標(biāo)R2可以發(fā)現(xiàn)，基于機(jī)器學(xué)習(xí)算法與Stacking的融合模型和未集成的機(jī)器學(xué)習(xí)模型都能比較好的預(yù)測(cè)數(shù)據(jù)資源價(jià)值，說(shuō)明機(jī)器學(xué)習(xí)是一種可用于數(shù)據(jù)資源價(jià)值預(yù)測(cè)的方法。相比較來(lái)看，Stacked-XGBoost、XGBoost、Stacked-Random Forest、Random Forest誤差指標(biāo)偏大，預(yù)測(cè)效果欠佳；Stacked-GBDT與GBDT對(duì)于數(shù)據(jù)資源價(jià)值預(yù)測(cè)的效果更好，Stacked-GBDT預(yù)測(cè)評(píng)估效果最佳。

從圖5可以看到，通過(guò)Stacking集成模型與未集成模型橫向?qū)Ρ日`差，發(fā)現(xiàn)集成模型的預(yù)測(cè)效果均優(yōu)于未集成模型，通過(guò)GBDT與其他機(jī)器學(xué)習(xí)模型的縱向?qū)Ρ日`差，發(fā)現(xiàn)GBDT的預(yù)測(cè)效果均優(yōu)于其他模型。

通過(guò)輸入數(shù)據(jù)資源本身指標(biāo)和歷史數(shù)據(jù)交易信息完成模型訓(xùn)練后得出的Stacked-GBDT模型可有效解決目前數(shù)據(jù)資源價(jià)值評(píng)估中主觀性強(qiáng)、缺乏定量標(biāo)準(zhǔn)的問(wèn)題，對(duì)促進(jìn)數(shù)據(jù)要素市場(chǎng)化、數(shù)字經(jīng)濟(jì)的發(fā)展很有意義。

5.4 定價(jià)方法評(píng)估

基于本文所提的Stacked-GBDT模型對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)定價(jià)，選擇國(guó)信優(yōu)易數(shù)據(jù)集的具體信息如表3所示。

表3 國(guó)信優(yōu)易數(shù)據(jù)集示例具體信息

保證數(shù)據(jù)價(jià)值評(píng)估指標(biāo)恒定，動(dòng)態(tài)調(diào)整數(shù)據(jù)的價(jià)格（設(shè)定價(jià)格區(qū)間0～2 000），并將上述數(shù)據(jù)集相關(guān)指標(biāo)輸入至Stacked-GBDT數(shù)據(jù)價(jià)值評(píng)估模型，并繪制價(jià)值隨價(jià)格變化曲線(xiàn)，如圖6（a）所示。

圖6 由給定區(qū)間確定價(jià)格示例

從圖6（a）可以看出，數(shù)據(jù)集的價(jià)值隨價(jià)格增加呈現(xiàn)先上升后下降的趨勢(shì)。變化趨勢(shì)符合常規(guī)認(rèn)知，隨價(jià)格從低到高，數(shù)據(jù)資源的價(jià)值整體呈上升趨勢(shì)；價(jià)格到達(dá)較高水平后，數(shù)據(jù)資源價(jià)值因購(gòu)買(mǎi)量下降幅度超過(guò)價(jià)格增加幅度而下降。但是并不能直接根據(jù)最高的價(jià)值點(diǎn)進(jìn)行價(jià)格的選擇，數(shù)據(jù)整體的變化過(guò)程是算法驅(qū)動(dòng)的，與實(shí)際情況是有一定出入的，應(yīng)當(dāng)根據(jù)數(shù)據(jù)資源的實(shí)際情況，由專(zhuān)家考慮市場(chǎng)情況之后，提前確定數(shù)據(jù)可售價(jià)格區(qū)間，然后根據(jù)數(shù)據(jù)價(jià)值隨價(jià)格的變化曲線(xiàn)，在數(shù)據(jù)可售區(qū)間（m，n）內(nèi)選擇使得數(shù)據(jù)價(jià)值最大時(shí)對(duì)應(yīng)的價(jià)格o作為數(shù)據(jù)的售出價(jià)格，示例如圖6（b）所示。

當(dāng)新上架的數(shù)據(jù)交易一段時(shí)間以后，根據(jù)指標(biāo)的評(píng)分變化，例如數(shù)據(jù)時(shí)效性、數(shù)據(jù)獨(dú)特性等、以及用戶(hù)的評(píng)分反饋調(diào)整，重新將數(shù)據(jù)信息輸出模型，得出新的價(jià)值隨價(jià)格的變化曲線(xiàn)，重新確定售出價(jià)格，以此實(shí)現(xiàn)數(shù)據(jù)資源的動(dòng)態(tài)定價(jià)數(shù)據(jù)資源價(jià)值最大化。

6 結(jié)論

數(shù)據(jù)資源價(jià)值的準(zhǔn)確評(píng)估和定價(jià)是促進(jìn)數(shù)據(jù)要素市場(chǎng)化、發(fā)展數(shù)字經(jīng)濟(jì)的關(guān)鍵步驟。本文使用人工智能及機(jī)器學(xué)習(xí)領(lǐng)域的前沿技術(shù)來(lái)解決數(shù)據(jù)資源泛濫背景下的價(jià)值難以準(zhǔn)確快速確定、主觀性強(qiáng)、缺乏定量標(biāo)準(zhǔn)的問(wèn)題，并建立數(shù)據(jù)資源價(jià)值隨價(jià)格變化曲線(xiàn)用于精確、動(dòng)態(tài)定價(jià)。首先對(duì)以往學(xué)者對(duì)數(shù)據(jù)資源價(jià)值評(píng)估的研究進(jìn)行了系統(tǒng)的梳理和分類(lèi)；然后基于數(shù)據(jù)資源的本身因素和市場(chǎng)因素兩個(gè)維度構(gòu)建了數(shù)據(jù)資源價(jià)值評(píng)估指標(biāo)體系，針對(duì)數(shù)據(jù)資源交易平臺(tái)的交易數(shù)據(jù)的特點(diǎn)，從智能算法角度出發(fā)提出了基于Stacked-GBDT模型的數(shù)據(jù)資源價(jià)值評(píng)估模型，以國(guó)信優(yōu)易數(shù)據(jù)平臺(tái)的5 813條交易數(shù)據(jù)為例，進(jìn)行了實(shí)證研究和多種模型的對(duì)比分析；最后使用Stacked-GBDT模型建立了數(shù)據(jù)資源價(jià)值隨價(jià)格變化曲線(xiàn)，實(shí)現(xiàn)了精確、動(dòng)態(tài)定價(jià)。

本研究的意義包括三個(gè)方面：

（1）從數(shù)據(jù)資源本身和數(shù)據(jù)市場(chǎng)因素兩個(gè)角度深度挖掘了均可量化的價(jià)值影響因素并建立了指標(biāo)體系，為以往研究中指標(biāo)難獲取、影響因素排序主觀性強(qiáng)、最終數(shù)據(jù)資源價(jià)值難量化的問(wèn)題提出了可行的解決方案；

（2）提出了一種基礎(chǔ)歷史交易數(shù)據(jù)進(jìn)行模型訓(xùn)練的機(jī)器學(xué)習(xí)集成模型。以國(guó)信優(yōu)易數(shù)據(jù)為例，在Stacking集成算法模型中，充分測(cè)算了多種算法與Stacking集成模型在數(shù)據(jù)資源價(jià)值預(yù)測(cè)方面的表現(xiàn)并且對(duì)比了未集成算法的效果；

（3）運(yùn)用Stacked-GBDT數(shù)據(jù)資源價(jià)值評(píng)估模型對(duì)數(shù)據(jù)資源的定價(jià)提供了準(zhǔn)確、動(dòng)態(tài)調(diào)整的支撐。結(jié)果證明，Stacked-GBDT算法是一種可評(píng)估且評(píng)估效果佳的數(shù)據(jù)資源價(jià)值評(píng)估與動(dòng)態(tài)定價(jià)方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡