黨雪寧 李明,2
(1.廣西科技大學(xué)經(jīng)濟(jì)與管理學(xué)院 廣西柳州 545000;2.廣西科技大學(xué)廣西工業(yè)高質(zhì)量發(fā)展研究中心 廣西柳州 545000)
近年來,互聯(lián)網(wǎng)產(chǎn)業(yè)迅猛發(fā)展,數(shù)據(jù)資源比重不斷提高,同時數(shù)據(jù)挖掘、數(shù)據(jù)分析技術(shù)的發(fā)展加快了數(shù)據(jù)資源價值的評估,從而能夠最大程度地發(fā)揮數(shù)據(jù)資產(chǎn)的效用。數(shù)據(jù)資產(chǎn)評估研究存在數(shù)據(jù)資源龐大難以有效利用、數(shù)據(jù)資產(chǎn)不能合理評估造成互聯(lián)網(wǎng)行業(yè)發(fā)展緩慢、數(shù)據(jù)資產(chǎn)本身特性造成評估困難等問題。因此,我們需要觀察行業(yè)發(fā)展現(xiàn)狀,充分考慮衡量數(shù)據(jù)資產(chǎn)價值的因素,構(gòu)建適用于數(shù)據(jù)資產(chǎn)價值的評估模型,從而提高數(shù)據(jù)資產(chǎn)價值評估的精確性。
孟小峰、慈祥(2013)[1]提出大數(shù)據(jù)具有規(guī)模大、多樣性、高速性的特點;張興旺等(2019)[2]認(rèn)為數(shù)據(jù)資源經(jīng)過加工處理實現(xiàn)價值增值后形成數(shù)據(jù)資產(chǎn)。具體特征包括:控制、可變現(xiàn)、可計量、可估值、可流通?;诖?,將數(shù)據(jù)資產(chǎn)的特征歸納為非實體性、類型多樣性、可變性、權(quán)屬不清晰等四個方面。對不同行業(yè)來說,影響數(shù)據(jù)資產(chǎn)價值的因素也不同;黃萃(2014)[3]提出不同的定價策略及定價方法的選擇會受到獲取公共信息的目的、價值估算、成本及融資、市場競爭狀況及社會信息公平等五個因素的影響;吳江(2015)在探討數(shù)據(jù)交易時,數(shù)據(jù)產(chǎn)權(quán)、數(shù)據(jù)的有用性數(shù)據(jù)交易成本、交易機(jī)制等會對數(shù)據(jù)資產(chǎn)價值造成影響。通過總結(jié)不同學(xué)者的觀點,本文認(rèn)為數(shù)據(jù)資產(chǎn)與質(zhì)量、稀缺性、效用等息息相關(guān)。
BP神經(jīng)網(wǎng)絡(luò)由三部分構(gòu)成,分別是輸入層、隱藏層、輸出層。神經(jīng)網(wǎng)絡(luò)的每一層由若干個神經(jīng)元組成,神經(jīng)元作為BP神經(jīng)網(wǎng)絡(luò)的感知器,經(jīng)過激活函數(shù)的處理完成傳播過程。BP神經(jīng)網(wǎng)絡(luò)由輸入、權(quán)重、偏置、激活函數(shù)、輸出等組成。BP神經(jīng)網(wǎng)絡(luò)包含正向傳播和反向反饋。BP神經(jīng)網(wǎng)絡(luò)的正向傳播通過激活函數(shù)來實現(xiàn),將訓(xùn)練樣本作為輸入層,與權(quán)重計算加上偏置,經(jīng)過激活函數(shù)的處理,得到的輸出結(jié)果作為下一次節(jié)點的輸入,將輸出結(jié)果與期望值進(jìn)行比較,結(jié)果達(dá)不到期望值,不斷調(diào)整迭代得到滿意的結(jié)果,將最終的結(jié)果進(jìn)行測試,并應(yīng)用于適用領(lǐng)域。
遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)分為BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定、遺傳算法優(yōu)化和BP神經(jīng)網(wǎng)絡(luò)預(yù)測3個部分。其中,BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)確定部分根據(jù)擬合函數(shù)的輸入輸出參數(shù)個數(shù)確定BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而確定遺傳算法個體的長度。遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,種群中的每個個體都包含一個網(wǎng)絡(luò)所有的權(quán)值和閾值,每個個體通過適應(yīng)度函數(shù)計算適應(yīng)度值,遺傳算法通過選擇、交叉、變異操作找到最優(yōu)的適應(yīng)度值對應(yīng)的個體。
百度公司于2000年1月1日由李彥宏攜“超鏈分析”搜索引擎專利技術(shù)在中關(guān)村科技園創(chuàng)建,這一技術(shù)專利使百度成為國內(nèi)高科技企業(yè),掌握了世界尖端科學(xué)核心技術(shù),也使中國躋身于全球包括美國、俄羅斯、韓國在內(nèi)僅有的4個具有搜索引擎核心技術(shù)的國家之列。百度互聯(lián)網(wǎng)服務(wù)用戶達(dá)10億,每天響應(yīng)數(shù)十億次搜索請求,已成為100余個國家和地區(qū)上網(wǎng)民眾接收中文信息和服務(wù)的重要途徑。
百度搜索引擎價值受網(wǎng)站內(nèi)在技術(shù)、用戶角度等多方面影響,通過搜索引擎統(tǒng)計網(wǎng)站,我們盡可能較多的搜集影響搜索引擎數(shù)據(jù)資產(chǎn)價值的因素,從網(wǎng)站了解到用戶因素占了較大的部分,因此本文主要從用戶角度出發(fā)對搜索引擎價值進(jìn)行預(yù)測,以流量指標(biāo)作為評價標(biāo)準(zhǔn),選取瀏覽量、訪客數(shù)、IP數(shù)、跳出率、平均訪問時長、轉(zhuǎn)換次數(shù)6個指標(biāo)作為百度搜索引擎數(shù)據(jù)資產(chǎn)的價值影響因素。
本文將百度搜索引擎包括瀏覽量、訪客數(shù)、IP數(shù)、跳出率、平均訪問時長、轉(zhuǎn)換次數(shù)6個指標(biāo)作為百度搜索引擎數(shù)據(jù)資產(chǎn)的價值影響因素,將6個指標(biāo)數(shù)值歸一化處理作為神經(jīng)網(wǎng)絡(luò)輸入層。搜集了百度搜索引擎一個月的股票單價,根據(jù)股票單價和股數(shù)計算預(yù)測值,將預(yù)測值作為神經(jīng)網(wǎng)絡(luò)輸出層的訓(xùn)練樣本,價值預(yù)測計算表達(dá)式如下:
其中:
V:百度搜索引擎市場價值;
C:百度搜索引擎價值預(yù)測當(dāng)日股數(shù);
Smax:百度日最高股價;
Smin:百度日最低股價;
T:美元與人民幣換算匯率。
本文從百度統(tǒng)計網(wǎng)站統(tǒng)計了百度搜索引擎相關(guān)指標(biāo)樣本值,選取2021年10月—11月共計32天的數(shù)據(jù),確定了3216個自變量樣本數(shù)據(jù)和32個因變量數(shù)據(jù)值進(jìn)行后續(xù)的處理。
3.4.1 傳遞函數(shù)
神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)一般選purelin、tansig、logsig三種傳遞函數(shù),將其組合成9種不同形式,經(jīng)過程序處理得到相對應(yīng)的均方誤差,均方誤差越小,BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的效果最優(yōu),因此選擇均方誤差最小的tansig、purelin的組合作為神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)。
3.4.2 神經(jīng)網(wǎng)絡(luò)層數(shù)
神經(jīng)網(wǎng)絡(luò)隱藏層個數(shù)決定了其結(jié)構(gòu)的復(fù)雜程度,本文選擇一個相同的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練迭代50次,比較網(wǎng)絡(luò)運行時間和結(jié)果精度,通過預(yù)測結(jié)果得出在誤差百分比相近的情況下,雙層網(wǎng)絡(luò)結(jié)構(gòu)均方誤差和訓(xùn)練時間最為合適。
3.4.3 各層神經(jīng)元節(jié)點數(shù)
本文選取了瀏覽量、訪客數(shù)、IP數(shù)、跳出率、平均訪問時長、轉(zhuǎn)換次數(shù)6個指標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入層,即輸入層神經(jīng)元節(jié)點數(shù)為6。被解釋變量為百度輸出層節(jié)點數(shù)為1,表示百度搜索引擎數(shù)據(jù)資產(chǎn)的市值。神經(jīng)元隱藏層節(jié)點的多少決定了神經(jīng)網(wǎng)絡(luò)模型擬合的效果,因此確定合適的隱藏層節(jié)點數(shù)至關(guān)重要。最優(yōu)的隱藏層節(jié)點數(shù)確定方式公式如下:
其中:
l:隱藏層節(jié)點數(shù);
m:輸出單元神經(jīng)元數(shù);
n:輸入單元神經(jīng)元數(shù);
a:0~10的調(diào)節(jié)常數(shù);
本文經(jīng)過查閱相關(guān)文獻(xiàn)及測試,將第一層隱藏層神經(jīng)元個數(shù)設(shè)置為10,第二層神經(jīng)元個數(shù)設(shè)置為1。
3.4.4 學(xué)習(xí)率
本文將學(xué)習(xí)率初始值確定為0.001,在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中,用梯度下降法不斷調(diào)整,直至收斂達(dá)到局部最優(yōu),得到最終的學(xué)習(xí)率。
3.5.1 聲明全局變量
(1)確定訓(xùn)練集輸入數(shù)據(jù)p和訓(xùn)練集輸出數(shù)據(jù)t
訓(xùn)練集輸入數(shù)據(jù)選取樣本數(shù)據(jù)中前29組數(shù)據(jù),即確定一個629的矩陣p。訓(xùn)練集輸出數(shù)據(jù)也就是預(yù)測的百度搜索引擎的市值,確定一個129的矩陣t。
(2)輸入層、隱藏層、輸出層神經(jīng)元的個數(shù)
輸入神經(jīng)元個數(shù)R=6,隱藏層神經(jīng)元個數(shù)S1=10,輸出神經(jīng)元個數(shù)S2=1。
(3)編碼長度
3.5.2 數(shù)據(jù)歸一化
根據(jù)歸一化數(shù)學(xué)原理,在Matlab R2018a中運用premnmx()函數(shù)進(jìn)行初始數(shù)值的歸一化。表達(dá)如下:
其中:
3.5.3 確定種群個數(shù)并初始化種群
設(shè)定種群個數(shù)popu=50,初始化種群借用功能函數(shù)確定過程如下:
通過運行上述程序,得到最優(yōu)的權(quán)值和閾值如下:
3.5.8 計算隱藏層和輸出層的輸出
用A1表示隱藏層的輸出,A2表示輸出層的輸出
隱藏層tansig函數(shù)表達(dá)式為:
輸出層purelin函數(shù)表達(dá)式為:
將上述計算的具體數(shù)值帶入求解,即可得到輸出層的輸出值。
上述計算在Matlab中表示為:
運行后得出:A1為由1和-1組成的1029的矩陣,A2為129的矩陣。
3.5.9 計算誤差平方和
在Matlab中表示為:
運行得誤差平方和SE=5.7460*106。
3.5.10 計算適應(yīng)度值
在matlab中運行得val=1.7403*10-7,適應(yīng)度值越小,說明尋出來的結(jié)果越好,因此用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)評估出來的值是可信的。
在Matlab中用postmnmx()函數(shù)將輸出的數(shù)據(jù)反歸一化得到預(yù)測數(shù)據(jù),同時輸出測試數(shù)據(jù)作為真實值,表示如下:
得出的預(yù)測值和真實值匯總?cè)绫?所示。
表1 預(yù)測值和真實值對比
通過表1中預(yù)測值和真實值的比較,計算的誤差百分比大部分在5%以內(nèi),說明GA-BP神經(jīng)網(wǎng)絡(luò)模型擬合效果良好,預(yù)測的結(jié)果可信,因此用該模型預(yù)測的結(jié)果作為百度搜索引擎數(shù)據(jù)資產(chǎn)的價值是可行的。
根據(jù)設(shè)置的參數(shù),在軟件MATLABR2018a中進(jìn)行模型的構(gòu)建和訓(xùn)練,得出遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的預(yù)測值與實際值效果如圖1所示。
圖1 GA-BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)擬合圖
圖1反映兩種模型預(yù)測結(jié)果的大體走勢,本文給出了GA-BP神經(jīng)網(wǎng)絡(luò)模型評估百度搜索引擎31組數(shù)據(jù)資產(chǎn)價值的預(yù)測值和真實值,因百度公司目前市場份額及財務(wù)狀況較為穩(wěn)定,可將31組數(shù)據(jù)的平均值作為最終確定的搜索引擎數(shù)據(jù)資產(chǎn)預(yù)測的價值,最終計算確定的百度搜索引擎數(shù)據(jù)資產(chǎn)的價值為452.6萬元。通過計算我們可以看出最終確定的預(yù)測值與真實值的平均值差值較小,說明模型訓(xùn)練的預(yù)測值和真實值的曲線圖的擬合效果較好,得出的結(jié)論真實可靠,具有較大的參考性。