摘要:數(shù)字經(jīng)濟(jì)時(shí)代,云計(jì)算、區(qū)塊鏈、物聯(lián)網(wǎng)等尖端信息技術(shù)正日益成為推動(dòng)數(shù)據(jù)量指數(shù)級(jí)增長的關(guān)鍵動(dòng)力。數(shù)據(jù)作為當(dāng)代經(jīng)濟(jì)體系中的一種新興要素,不僅在技術(shù)層面扮演著至關(guān)重要的角色,而且在經(jīng)濟(jì)領(lǐng)域催生了一種全新的價(jià)值轉(zhuǎn)換模式。文章的研究目的在于探索有效的數(shù)據(jù)要素統(tǒng)計(jì)測(cè)算方法,并將其作為產(chǎn)品建立其在市場(chǎng)中的流通機(jī)制?,F(xiàn)有研究主要集中于對(duì)數(shù)據(jù)經(jīng)濟(jì)的整體規(guī)模和國民經(jīng)濟(jì)發(fā)展水平的評(píng)估,而對(duì)數(shù)據(jù)要素的統(tǒng)計(jì)測(cè)算方法仍處于探索階段。針對(duì)這一研究空白,文章提出了一套創(chuàng)新的統(tǒng)計(jì)測(cè)算框架,旨在為理解和高效利用數(shù)據(jù)要素提供科學(xué)、系統(tǒng)的指導(dǎo)。研究的核心分為三個(gè)部分:數(shù)據(jù)要素化水平、數(shù)據(jù)要素結(jié)構(gòu)化水平以及對(duì)數(shù)據(jù)要素中數(shù)據(jù)關(guān)系模式的探索。關(guān)于數(shù)據(jù)要素化水平,文章深入研究了數(shù)據(jù)如何從原始狀態(tài)轉(zhuǎn)換為可在市場(chǎng)上流通的有形資產(chǎn),構(gòu)建了一個(gè)包含資源化、資產(chǎn)化和資本化多個(gè)維度的評(píng)價(jià)指標(biāo)體系,并運(yùn)用全局主成分分析方法對(duì)這些指標(biāo)進(jìn)行了篩選和冗余度檢驗(yàn)。在對(duì)數(shù)據(jù)要素結(jié)構(gòu)化水平的研究中,綜合考慮了數(shù)據(jù)特征的異質(zhì)性、數(shù)據(jù)對(duì)象的異質(zhì)性、數(shù)據(jù)關(guān)系的異質(zhì)性和數(shù)據(jù)的時(shí)效性等關(guān)鍵因素,并基于上述因素構(gòu)建了數(shù)據(jù)要素結(jié)構(gòu)化水平的量化模型。針對(duì)同頻數(shù)據(jù)與混頻數(shù)據(jù)之間的關(guān)系,通過對(duì)不同數(shù)據(jù)關(guān)系進(jìn)行精準(zhǔn)建模和量化測(cè)算,深入理解數(shù)據(jù)間的復(fù)雜關(guān)系,為數(shù)據(jù)要素的有效管理和價(jià)值最大化提供了重要的理論支持。
關(guān)鍵詞:數(shù)據(jù)要素化;數(shù)據(jù)要素結(jié)構(gòu)化;數(shù)據(jù)要素關(guān)系模式
中圖分類號(hào):F49
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1673-8268(2024)03-0138-10
隨著互聯(lián)網(wǎng)、云計(jì)算和人工智能等信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)逐漸成為經(jīng)濟(jì)活動(dòng)中不可或缺的生產(chǎn)資料。自從黨的十九屆四中全會(huì)正式將數(shù)據(jù)作為一種新型生產(chǎn)要素介入經(jīng)濟(jì)體系后[1],數(shù)據(jù)要素便成為推動(dòng)產(chǎn)業(yè)升級(jí)與經(jīng)濟(jì)增長的新引擎。同時(shí),數(shù)字經(jīng)濟(jì)規(guī)模逐年增大,中國信息通信研究院公布的《中國數(shù)字經(jīng)濟(jì)發(fā)展報(bào)告》(2023年)顯示,中國數(shù)字經(jīng)濟(jì)規(guī)模在2022年已達(dá)50.2萬億元,占GDP的比重上升到了41.5%[2]。數(shù)字經(jīng)濟(jì)包括數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化,其中數(shù)字產(chǎn)業(yè)化指數(shù)字技術(shù)帶來的技術(shù)、產(chǎn)品和服務(wù)等所形成的產(chǎn)業(yè),產(chǎn)業(yè)數(shù)字化指數(shù)字技術(shù)對(duì)傳統(tǒng)產(chǎn)業(yè)的賦能和改造;數(shù)字經(jīng)濟(jì)資本化則是私人資本通過控制信息化的生產(chǎn)資料形成數(shù)字平臺(tái),進(jìn)而控制市場(chǎng)、勞動(dòng)者以及消費(fèi)者喜好[3-4]。
數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)資源成為最核心、最具價(jià)值的生產(chǎn)要素[5]。然而,并非所有的數(shù)據(jù)都是生產(chǎn)要素,或者應(yīng)當(dāng)被視為生產(chǎn)要素,只有能夠被計(jì)算機(jī)等數(shù)字設(shè)備識(shí)別、處理和分析的原始數(shù)據(jù),才有可能成為生產(chǎn)要素。從數(shù)據(jù)使用角度來看,數(shù)據(jù)要素具有非競爭性、屬權(quán)界定困難、非消耗性以及融合增值等價(jià)值特征[6]。數(shù)據(jù)資源需要經(jīng)過要素化處理才能成為數(shù)據(jù)要素,并對(duì)數(shù)據(jù)要素進(jìn)行預(yù)處理,使之成為可以被企業(yè)自身利用或者向市場(chǎng)流通的數(shù)據(jù)要素產(chǎn)品,從而具有無限的價(jià)值,為決策行動(dòng)提供指導(dǎo)性信息。而所謂數(shù)據(jù)要素化,是指使數(shù)據(jù)資源滿足原始性、機(jī)讀性以及質(zhì)量要求的過程[7]。
對(duì)數(shù)據(jù)要素的統(tǒng)計(jì)測(cè)算能更好地釋放數(shù)據(jù)要素價(jià)值和加快社會(huì)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型。然而,現(xiàn)有的測(cè)算模型主要針對(duì)國民經(jīng)濟(jì)發(fā)展水平、數(shù)字經(jīng)濟(jì)發(fā)展水平進(jìn)行測(cè)算,例如,方圓從經(jīng)濟(jì)基礎(chǔ)、產(chǎn)業(yè)結(jié)構(gòu)、社會(huì)效益、綠色發(fā)展和支撐條件五個(gè)維度構(gòu)建評(píng)價(jià)指標(biāo)體系,實(shí)現(xiàn)對(duì)縣域經(jīng)濟(jì)發(fā)展水平的測(cè)算[8];彭剛等基于數(shù)據(jù)經(jīng)濟(jì)包括基礎(chǔ)層和融合應(yīng)用層這一假定來測(cè)算我國數(shù)字經(jīng)濟(jì)的總量規(guī)模[9];張紅霞從最終產(chǎn)品出發(fā),基于Ghosh投入產(chǎn)出模型構(gòu)建了我國數(shù)字經(jīng)濟(jì)規(guī)模測(cè)算方法[10]。而針對(duì)數(shù)據(jù)要素化水平的測(cè)算模型才剛剛起步,如何從數(shù)字經(jīng)濟(jì)發(fā)展水平測(cè)算實(shí)現(xiàn)數(shù)據(jù)要素化水平的測(cè)算,是目前我國國民經(jīng)濟(jì)核算體系面臨的一個(gè)重大問題。
因此,本研究以數(shù)字經(jīng)濟(jì)發(fā)展水平測(cè)算為基礎(chǔ),分別構(gòu)建數(shù)據(jù)要素化水平測(cè)算模型、數(shù)據(jù)要素結(jié)構(gòu)化水平測(cè)算模型以及數(shù)據(jù)要素中關(guān)系模式測(cè)算模型,旨在實(shí)現(xiàn)對(duì)我國數(shù)據(jù)要素的統(tǒng)計(jì)測(cè)算。其中,數(shù)據(jù)要素化水平的測(cè)算是數(shù)據(jù)要素結(jié)構(gòu)化水平測(cè)算的前提,也是數(shù)據(jù)要素測(cè)算的必要過程,可通過構(gòu)建系列指標(biāo)體系及測(cè)算模型,實(shí)現(xiàn)數(shù)據(jù)要素化水平的測(cè)算。
一、數(shù)據(jù)要素化水平的統(tǒng)計(jì)測(cè)算
數(shù)據(jù)要素化是數(shù)據(jù)要素市場(chǎng)化的前提,對(duì)數(shù)據(jù)要素化水平進(jìn)行準(zhǔn)確的測(cè)算是測(cè)算數(shù)據(jù)要素總量的前提。從數(shù)據(jù)資源向數(shù)據(jù)要素的跨越過程就是數(shù)據(jù)的要素化過程,數(shù)據(jù)經(jīng)過資源化、資產(chǎn)化和資本化等三個(gè)過程實(shí)現(xiàn)要素化。其具體實(shí)現(xiàn)過程為構(gòu)建資源化、資產(chǎn)化和資本化三個(gè)維度下的指標(biāo)體系,通過全局主成分分析、RD冗余度檢驗(yàn)、主成分熵信息量以及熵權(quán)法等統(tǒng)計(jì)方法測(cè)算全國數(shù)據(jù)要素化程度,并能根據(jù)測(cè)算結(jié)果對(duì)比分析不同區(qū)域要素化程度的差異。
(一)數(shù)據(jù)采樣方式
針對(duì)數(shù)字化的產(chǎn)業(yè),例如銀行交易事務(wù)、購物中心記錄和政府部門歸檔,可在數(shù)據(jù)存儲(chǔ)服務(wù)器端,結(jié)合自動(dòng)采樣與人工采樣方式設(shè)計(jì)靜態(tài)抽樣路徑;針對(duì)結(jié)構(gòu)不穩(wěn)定的數(shù)據(jù)要素,如網(wǎng)頁數(shù)據(jù)和事務(wù)日志等,可在應(yīng)用層服務(wù)器結(jié)合網(wǎng)絡(luò)協(xié)議和多粒度自動(dòng)識(shí)別結(jié)果,以現(xiàn)有類似結(jié)構(gòu)的數(shù)據(jù)為基礎(chǔ),設(shè)計(jì)抽樣框進(jìn)行動(dòng)態(tài)抽樣,并隨著數(shù)據(jù)要素特征的改變對(duì)抽樣框進(jìn)行不斷調(diào)整,以適應(yīng)新的數(shù)據(jù)結(jié)構(gòu)。
將自動(dòng)采樣和人工采樣的數(shù)據(jù)傳輸?shù)酱鎯?chǔ)系統(tǒng)后,存儲(chǔ)系統(tǒng)采用集中式或者分布式進(jìn)行管理,即使用Hadoop+MapReduce進(jìn)行數(shù)據(jù)存儲(chǔ)、處理和分析[11]。此外,由于數(shù)據(jù)要素存在規(guī)模海量、種類繁多和流轉(zhuǎn)快速等特點(diǎn),需要采用預(yù)處理技術(shù),包括數(shù)據(jù)要素集成、數(shù)據(jù)要素清洗以及冗余消除來提升數(shù)據(jù)要素的存儲(chǔ)質(zhì)量和降低冗余量[12]。
要構(gòu)建數(shù)據(jù)要素資源的多層次結(jié)構(gòu)自動(dòng)識(shí)別模型,應(yīng)結(jié)合數(shù)據(jù)要素的指標(biāo)體系,重點(diǎn)從數(shù)據(jù)要素的歸屬、數(shù)據(jù)要素來源性質(zhì)、數(shù)據(jù)應(yīng)用領(lǐng)域等維度構(gòu)建數(shù)據(jù)要素資源多維綜合描述模型。通過借鑒數(shù)據(jù)挖掘中的數(shù)據(jù)鉆取技術(shù),如數(shù)據(jù)切塊、切片、多層鉆取等,可對(duì)數(shù)據(jù)資源要素進(jìn)行多粒度識(shí)別與分析研究。
(二)指標(biāo)體系的構(gòu)建原則
1.客觀性原則
數(shù)據(jù)要素水平化測(cè)度指標(biāo)體系從實(shí)際出發(fā),選取的指標(biāo)能客觀反映所觀察對(duì)象的基本現(xiàn)狀和規(guī)律。
2.科學(xué)性原則
以相應(yīng)的理論為基礎(chǔ),從數(shù)據(jù)要素內(nèi)涵出發(fā),根據(jù)數(shù)據(jù)要素的特征與基本內(nèi)容構(gòu)建指標(biāo)體系,使構(gòu)建的指標(biāo)具有一定的準(zhǔn)確性和可靠性,能滿足測(cè)度結(jié)果具有科學(xué)合理性的要求。
3.可比性原則
構(gòu)建的指標(biāo)體系遵循普適性原則,適用于各個(gè)區(qū)域,可以對(duì)比分析不同或者相同區(qū)域之間的差異,更具有科學(xué)性和可比性。
4.可操作性原則
一方面,選取的指標(biāo)具有可測(cè)度性,指標(biāo)的數(shù)據(jù)來源要可靠且易獲得,有利于進(jìn)行定量計(jì)算,從官方渠道獲取最佳;另一方面,盡量使指標(biāo)體系中的指標(biāo)精簡,大量冗余的指標(biāo)不但會(huì)影響評(píng)價(jià)結(jié)果,而且會(huì)增加操作成本。
(三)指標(biāo)體系的構(gòu)建
本文整理了國內(nèi)關(guān)于數(shù)據(jù)要素測(cè)量的研究文獻(xiàn),并從資源化、資本化和資產(chǎn)化三個(gè)維度來構(gòu)建數(shù)據(jù)要素化水平測(cè)度的指標(biāo)體系,其中包含11個(gè)一級(jí)指標(biāo),21個(gè)二級(jí)指標(biāo)。資源化指標(biāo)維度下包含數(shù)據(jù)真實(shí)性(數(shù)據(jù)閾值合理率、數(shù)據(jù)缺失率)、覆蓋面廣度(數(shù)據(jù)涉及的行業(yè)數(shù)、數(shù)據(jù)可評(píng)估范圍)和數(shù)據(jù)質(zhì)量(數(shù)據(jù)行業(yè)匹配度、數(shù)據(jù)健全程度);資產(chǎn)化指標(biāo)維度下設(shè)有數(shù)據(jù)確權(quán)(應(yīng)用場(chǎng)景的靈活性、數(shù)據(jù)流通率)、數(shù)據(jù)盒裝(數(shù)據(jù)產(chǎn)品形式的統(tǒng)一性、數(shù)據(jù)盒裝量)、數(shù)據(jù)定價(jià)(數(shù)據(jù)定價(jià)標(biāo)準(zhǔn)、數(shù)據(jù)定價(jià)場(chǎng)景)、數(shù)據(jù)折舊率(時(shí)間效力程度、數(shù)據(jù)用途范圍、數(shù)據(jù)資產(chǎn)維護(hù)成本)和增值估算(數(shù)據(jù)完整性提升維度、應(yīng)用場(chǎng)景挖掘程度);資本化指標(biāo)維度下的指標(biāo)有數(shù)據(jù)平臺(tái)數(shù)量(交易平臺(tái)數(shù)量)、壟斷程度(數(shù)據(jù)資源的歸屬權(quán))和擴(kuò)張程度(網(wǎng)民規(guī)模、網(wǎng)頁數(shù)量)。具體如表1所示。
(四)指標(biāo)體系的篩選與檢驗(yàn)
由于抽取的樣本數(shù)據(jù)存在統(tǒng)計(jì)口徑的差異,各個(gè)指標(biāo)的單位量綱也不同,因此,本文對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,避免指標(biāo)中數(shù)量級(jí)和量綱帶來的影響。接下來,將采取以下步驟對(duì)抽取到的樣本數(shù)據(jù)進(jìn)行分析。首先,將產(chǎn)業(yè)的指標(biāo)數(shù)據(jù)按照時(shí)間縱向開展,拼成面板數(shù)據(jù);其次,利用全局主成分分析方法對(duì)所構(gòu)造的整體數(shù)據(jù)表進(jìn)行分析,并通過計(jì)算主成分的方差貢獻(xiàn)率來確定指標(biāo)體系;再次,采用RD冗余度和主成分熵信息量對(duì)指標(biāo)體系的獨(dú)立性與精簡度進(jìn)行檢驗(yàn);最后,采用熵權(quán)法對(duì)各個(gè)維度的指標(biāo)賦予權(quán)重,并根據(jù)不同指標(biāo)的權(quán)重進(jìn)行加權(quán)求和,得到不同區(qū)域的數(shù)字化程度,再將各個(gè)區(qū)域的數(shù)字化程度綜合排序,實(shí)現(xiàn)對(duì)全國數(shù)據(jù)要素化水平的測(cè)算。本研究基于假設(shè)m個(gè)區(qū)域、r個(gè)年份、n個(gè)指標(biāo),則xtij為第t年區(qū)域i的第j個(gè)指標(biāo),對(duì)樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
1.數(shù)據(jù)預(yù)處理
式(1)中:min(xt1j,xt2j,…,xtmj)為指標(biāo)j的最小值,max(xt1j,xt2j,…,xtmj)為指標(biāo)j的最大值。
2.測(cè)度指標(biāo)的選取
在進(jìn)行全局主成分分析之前,分別對(duì)資源化、資產(chǎn)化以及資本化三個(gè)維度下的指標(biāo)進(jìn)行Bartlett和KMO(Kaiser-Meyer-Olkin)檢驗(yàn),來判斷是否適用于主成分分析。全局主成分分析法既可以進(jìn)行時(shí)間準(zhǔn)度的比較評(píng)價(jià),也可以進(jìn)行空間準(zhǔn)度的比較評(píng)價(jià),其主要作用是通過降維處理,將多個(gè)指標(biāo)轉(zhuǎn)換具有代表性的少數(shù)指標(biāo),其基本模型如下
Fz=αz1xz1+αz2xz2+…+αznxzn(2)
xzn=[xtij]n(3)
式(2)中:Fz為第z個(gè)主成分,z=1,2,3,…,k,k為主成分的個(gè)數(shù)。
根據(jù)標(biāo)準(zhǔn)化后的指標(biāo)值可得到相關(guān)系數(shù)矩陣R,其特征值λz為主成分Fz的方差,通常選擇分析特征根大于1的主成分,主成分Fz對(duì)原始數(shù)據(jù)的方差貢獻(xiàn)率ωz計(jì)算如下
根據(jù)選定的k個(gè)主成分的因子載荷值bzj,選取每個(gè)主成分的主要因子作為最終的綜合分析因子,即確定要保留的指標(biāo)。
3.指標(biāo)體系的檢驗(yàn)
為得到合理科學(xué)的數(shù)據(jù)要素化水平測(cè)算指標(biāo)體系,采用RD冗余度檢驗(yàn)和主成分熵信息量來衡量指標(biāo)體系的精簡性和獨(dú)立性。RD冗余度檢驗(yàn)需要先構(gòu)建相關(guān)系數(shù)矩陣,再計(jì)算冗余度,且一般接受RD≤0.5,其計(jì)算步驟見下
主成分熵信息量測(cè)算所篩選的指標(biāo)信息量占原始的指標(biāo)信息量比重,旨在檢測(cè)所篩選的指標(biāo)信息量反映原始的指標(biāo)信息量的程度,一般認(rèn)為95%及以上為合格[22]。假設(shè)原始指標(biāo)的信息量為js,所篩選的指標(biāo)個(gè)數(shù)為j-,其信息量為js-,其計(jì)算過程如下。
第一,計(jì)算出子目標(biāo)層所有的主成分指標(biāo)矩陣Fz=(fzj)k*n,需將累計(jì)貢獻(xiàn)率增加到100%;
第二,各主成分重新打分為Szj
第三,第z個(gè)主成分指標(biāo)的熵值計(jì)算如下
式(10)中:H是第二個(gè)主成分指標(biāo)的熵值。
第四,計(jì)算第z個(gè)主成分指標(biāo)的信息量In(Fz)和整個(gè)指標(biāo)體系的信息量Js
第五,根據(jù)式(11),可計(jì)算出js和js-,則所篩選的指標(biāo)對(duì)原始指標(biāo)的信息貢獻(xiàn)率J計(jì)算如下
4.數(shù)據(jù)要素化水平的測(cè)算
考慮到數(shù)據(jù)要素水平化的指標(biāo)較多,為了較好地避免人為因素的干擾,本研究采用客觀性較強(qiáng)的熵權(quán)法確定每個(gè)指標(biāo)的權(quán)重,并根據(jù)相應(yīng)的權(quán)重大小判斷各個(gè)區(qū)域的數(shù)字化程度,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)要素化水平的測(cè)算。
式(13)(15)中:wtij為第t年第i個(gè)區(qū)域的第j項(xiàng)指標(biāo)所占的權(quán)重,ej為第j項(xiàng)指標(biāo)的信息熵,q為第j項(xiàng)指標(biāo)的權(quán)重。
二、數(shù)據(jù)要素結(jié)構(gòu)化水平的統(tǒng)計(jì)測(cè)算
數(shù)據(jù)要素在投入生產(chǎn)使用的過程中有非對(duì)稱性,即使用目的不同,數(shù)據(jù)要素的結(jié)構(gòu)也不同,對(duì)數(shù)據(jù)要素結(jié)構(gòu)化水平的測(cè)算有助于確定數(shù)據(jù)要素在市場(chǎng)配置中的價(jià)值。影響數(shù)據(jù)質(zhì)量的根本原因是數(shù)據(jù)要素的異質(zhì)性,即數(shù)據(jù)類型和結(jié)構(gòu)的差異性和復(fù)雜性;時(shí)效性也是影響數(shù)據(jù)質(zhì)量的另一個(gè)重要因素[23],影響著數(shù)據(jù)檢索的精確程度以及數(shù)據(jù)分析結(jié)果的可靠程度。為避免過時(shí)性和異質(zhì)性影響數(shù)據(jù)要素的價(jià)值,本部分內(nèi)容擬從異質(zhì)性和時(shí)效性兩個(gè)方面對(duì)數(shù)據(jù)結(jié)構(gòu)化水平進(jìn)行測(cè)算。第一,分析數(shù)據(jù)要素中數(shù)據(jù)特征、數(shù)據(jù)對(duì)象和數(shù)據(jù)關(guān)系異構(gòu)特征,測(cè)算數(shù)據(jù)要素在不同維度和粒度的使用價(jià)值,為數(shù)據(jù)交互的應(yīng)用(如搜索、推薦等)提供精準(zhǔn)而高效的分析與預(yù)測(cè)結(jié)果;第二,分析數(shù)據(jù)要素的時(shí)效性,構(gòu)建識(shí)別數(shù)據(jù)要素時(shí)序關(guān)系的測(cè)算模型,為數(shù)據(jù)要素的分類使用做好鋪墊。
(一)數(shù)據(jù)要素的異質(zhì)性
針對(duì)數(shù)據(jù)特征的異質(zhì)性,鑒于改進(jìn)的注意力機(jī)制可以抑制數(shù)據(jù)中的噪聲,從而提高異構(gòu)特征提取的效率,因此設(shè)計(jì)改進(jìn)的注意力機(jī)制對(duì)數(shù)據(jù)的異構(gòu)特征進(jìn)行學(xué)習(xí)識(shí)別。主要通過壓縮和激勵(lì)兩個(gè)步驟來提取全局特征圖的局部特征,并將提取到的異構(gòu)特征進(jìn)行歸類并統(tǒng)計(jì)其數(shù)量。其特征提取過程如下
Ac(F)=σ(C3*1(Fc1*1)+C3*1(Fcavg)+C3*1(Fcmax)) (16)
As(F)=σ(C3*3(C1*1(Mc(F))))(17)
式(16)、(17)中:Ac和As分別代表通道注意力和空間注意力,F(xiàn)表示輸入注意力機(jī)制提取模塊的原始特征圖,σ代表Sigmoid函數(shù),C3*3、C3*1和C1*1分別表示卷積核大小為3×3、3×1和1×1的卷積操作,F(xiàn)c1*1、Fcavg和Fcmax表示分別通過1×1的卷積運(yùn)算,全局平均池化和全局最大池化得到的特征圖。
針對(duì)數(shù)據(jù)對(duì)象的異質(zhì)性,由于數(shù)據(jù)要素呈現(xiàn)文本、視頻、音頻以及圖像等多個(gè)模態(tài),存在檢索異構(gòu)多模態(tài)數(shù)據(jù)難度增加的問題。董震等提出一種基于異構(gòu)哈希網(wǎng)絡(luò)的跨模態(tài)人臉檢索方法[24]以解決多模態(tài)檢索的問題;Wang提出了一種基于跨模態(tài)哈希的多媒體信息檢索方法,主要學(xué)習(xí)文本和圖像兩種類別的哈希函數(shù)[25]。因?yàn)楣7椒ㄍㄟ^將高維數(shù)據(jù)嵌入低維相似性保護(hù)的Hamming空間以實(shí)現(xiàn)理想的多模態(tài)檢索精度[26],所以本研究構(gòu)建基于關(guān)聯(lián)的異構(gòu)哈希方法(RaHH)以實(shí)現(xiàn)跨數(shù)據(jù)域?qū)ο蟮母咝嗨茩z索。
針對(duì)數(shù)據(jù)關(guān)系的異質(zhì)性,通過相關(guān)性分析判斷不同領(lǐng)域間的相似度,利用異構(gòu)關(guān)系數(shù)據(jù)間的遷移學(xué)習(xí),抽取不同數(shù)據(jù)關(guān)系中的有用信息融合來自多領(lǐng)域的知識(shí),搭建不同數(shù)據(jù)關(guān)系的知識(shí)庫并對(duì)知識(shí)庫中的關(guān)系類型及數(shù)量進(jìn)行統(tǒng)計(jì)。
(二)數(shù)據(jù)要素的時(shí)效性
數(shù)據(jù)要素中,數(shù)據(jù)的時(shí)效性測(cè)算主要分為絕對(duì)時(shí)效性判定算法和相對(duì)時(shí)效性判定算法。絕對(duì)時(shí)效性判斷算法通過“過時(shí)”和“非過時(shí)”兩種狀態(tài)來判定給定的數(shù)據(jù)項(xiàng)和數(shù)據(jù)集合的時(shí)效性[27],主要分為基于時(shí)間戳的時(shí)效性判斷[28]和基于規(guī)則的時(shí)效性判斷[29],前者要求數(shù)據(jù)庫中存儲(chǔ)可用的具體時(shí)間戳,如Heinrich等認(rèn)為,在時(shí)間戳缺失或者不精確的情況下,數(shù)據(jù)的時(shí)效性判斷存在困難,因此,應(yīng)建立時(shí)效規(guī)則來判斷時(shí)效性[30]。段旭良等[31]提出了一種數(shù)據(jù)修復(fù)算法,該算法結(jié)合基于圖模型的時(shí)效規(guī)則來檢測(cè)數(shù)據(jù)的先后順序,并對(duì)亂序數(shù)據(jù)進(jìn)行還原。
高乙童[32]將數(shù)據(jù)質(zhì)量的時(shí)效性與數(shù)據(jù)可用性的其他指標(biāo)綜合起來考慮,利用時(shí)效規(guī)則和匹配規(guī)則修復(fù)多源異構(gòu)數(shù)據(jù)集,提高數(shù)據(jù)時(shí)效性判斷的準(zhǔn)確率并擴(kuò)大其覆蓋率。
相對(duì)時(shí)效性判斷算法主要針用戶查詢的時(shí)效性進(jìn)行判斷,通過將用戶查詢的數(shù)據(jù)和最新數(shù)據(jù)庫中的數(shù)據(jù)做比對(duì)來判斷數(shù)據(jù)項(xiàng)和數(shù)據(jù)結(jié)合的“過時(shí)”狀態(tài)和“非過時(shí)”狀態(tài)。
目前,關(guān)于相對(duì)時(shí)效性的研究較少,大部分學(xué)者都研究數(shù)據(jù)一致性、數(shù)據(jù)精確性、數(shù)據(jù)完整性以及實(shí)體同一性等其他數(shù)據(jù)可用性指標(biāo)。Leung等[33]在分布式數(shù)據(jù)庫中判斷查詢結(jié)果的時(shí)效性,其實(shí)現(xiàn)過程為采用泊松過程來更新數(shù)據(jù),以當(dāng)前查詢數(shù)據(jù)為最新數(shù)據(jù)概率,并以此概率來判斷數(shù)據(jù)的時(shí)效性。李默涵等[34]提出時(shí)效圖的概念,即以圖的形式來建模數(shù)據(jù)時(shí)序關(guān)系,提出數(shù)據(jù)相對(duì)于查詢的時(shí)效性判斷和數(shù)據(jù)相對(duì)于用戶的相關(guān)時(shí)效性判斷的求解算法。
上述研究中的時(shí)效規(guī)則、泊松過程和時(shí)效圖等方法能有效判斷數(shù)據(jù)的時(shí)效性,因此本文將借鑒其實(shí)現(xiàn)過程來判斷數(shù)據(jù)要素的時(shí)效性。
三、數(shù)據(jù)要素中數(shù)據(jù)關(guān)系模式的統(tǒng)計(jì)測(cè)算
在數(shù)據(jù)要素中,數(shù)據(jù)價(jià)值的本質(zhì)體現(xiàn)在數(shù)據(jù)之間的關(guān)系模式中。分析并使用統(tǒng)計(jì)模型對(duì)數(shù)據(jù)關(guān)系模式進(jìn)行測(cè)算能夠消除數(shù)據(jù)的不對(duì)稱性與不確定性。由于受統(tǒng)計(jì)口徑和方式的影響,不同類型的數(shù)據(jù)頻率存在差異,即解釋變量與被解釋變量或解釋變量之間的觀測(cè)頻率不一致[35]。例如,從時(shí)間方面來看,混頻數(shù)據(jù)類型分為日度數(shù)據(jù)、月度數(shù)據(jù)、季度數(shù)據(jù)及年度數(shù)據(jù)等,其中日度數(shù)據(jù)被視為高頻數(shù)據(jù),而月度、季度和年度數(shù)將被視為低頻數(shù)據(jù),當(dāng)把這些數(shù)據(jù)同時(shí)作為解釋變量進(jìn)行測(cè)度時(shí),就會(huì)存在解釋變量間數(shù)據(jù)頻率不一致的問題。本部分內(nèi)容擬通過對(duì)數(shù)據(jù)要素中不同類型的數(shù)據(jù)進(jìn)行建模并測(cè)算數(shù)據(jù)之間的關(guān)系模型,實(shí)現(xiàn)對(duì)數(shù)據(jù)關(guān)系模式的量化測(cè)算,將數(shù)據(jù)要素中的數(shù)據(jù)分為同頻數(shù)據(jù)和混頻數(shù)據(jù)。根據(jù)數(shù)據(jù)的完整性分析數(shù)據(jù)之間存在的各種關(guān)系,統(tǒng)計(jì)測(cè)算數(shù)據(jù)要素中數(shù)據(jù)關(guān)系模式。其統(tǒng)計(jì)測(cè)算模型如圖1所示。
(一)同頻數(shù)據(jù)
根據(jù)數(shù)據(jù)是否包含空間信息將同頻數(shù)據(jù)分為時(shí)空數(shù)據(jù)和時(shí)間序列數(shù)據(jù)。時(shí)間序列數(shù)據(jù)表述了目標(biāo)事件隨時(shí)間的不同而發(fā)生的變化,其中包含了大量不可見的信息,同時(shí)存在無序時(shí)間戳、缺失值、異常值和數(shù)據(jù)中的噪聲,因此,采用時(shí)間序列分析方法和面板數(shù)據(jù)分析方法,可對(duì)抽樣數(shù)據(jù)進(jìn)行異常值檢測(cè)、缺失值補(bǔ)齊、特征提取、擬合和未來趨勢(shì)的預(yù)測(cè)。時(shí)間序列的異常值檢測(cè)方法主要包括基于滾動(dòng)統(tǒng)計(jì)的方法、基于決策樹的孤立森林法[36]以及基于機(jī)器學(xué)習(xí)的K-means聚類法[37],通過以上方法將時(shí)間序列中導(dǎo)致趨勢(shì)線突然高峰或下降的異常值檢測(cè)出來,以防止在對(duì)數(shù)據(jù)進(jìn)行分析時(shí)影響結(jié)果。處理時(shí)間序列數(shù)據(jù)中的缺失值是一項(xiàng)具有挑戰(zhàn)性的任務(wù),傳統(tǒng)的插補(bǔ)技術(shù)不適用于時(shí)間序列數(shù)據(jù),因此可以采用基于時(shí)間的插值、樣條插值和線性插值完成缺失值補(bǔ)齊。在進(jìn)行擬合和未來趨勢(shì)預(yù)測(cè)之前,需要對(duì)數(shù)據(jù)集的穩(wěn)定性進(jìn)行分析,以避免出現(xiàn)虛假回歸或偽回歸。首先,對(duì)面板數(shù)據(jù)繪制時(shí)序圖,粗略觀測(cè)時(shí)序圖中是否含有趨勢(shì)項(xiàng)或截距項(xiàng)。其次,采用LLC法對(duì)相同單位根進(jìn)行檢測(cè)、對(duì)不同單位根進(jìn)行Fisher-ADF檢驗(yàn)[38],若基于單位根檢驗(yàn)的結(jié)果發(fā)現(xiàn)變量之間是同階單整的就進(jìn)行協(xié)整檢驗(yàn);若是非同階單整的,即面板數(shù)據(jù)中既存在平穩(wěn)序列又存在不平穩(wěn)序列,則對(duì)模型進(jìn)行修正以消除數(shù)據(jù)不平穩(wěn)對(duì)回歸造成的不利影響。最后,對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行滾動(dòng)平均值以最小化噪聲,解決噪聲造成的數(shù)據(jù)不穩(wěn)定的問題。
而對(duì)于時(shí)空數(shù)據(jù),考慮到其具有種類多、時(shí)空關(guān)系復(fù)雜和空間信息多樣的特點(diǎn),可采用圖卷積等方法識(shí)別時(shí)空數(shù)據(jù)在空間維度的特征[39],聚集所有相鄰的特征向量來表示節(jié)點(diǎn)特征,有效結(jié)合結(jié)構(gòu)信息和節(jié)點(diǎn)特征,并通過所提取的特征信息來建立空間站點(diǎn)之間的關(guān)系,以網(wǎng)絡(luò)圖的形式展示;然后根據(jù)特征的類型對(duì)這些特征進(jìn)行編碼[40],即對(duì)于離散且無序的特征采用One-Hot編碼,對(duì)于不連續(xù)但有序的數(shù)值采用標(biāo)簽編碼,而對(duì)特征具有內(nèi)在邏輯順序的采用序列編碼,若特征類別的頻數(shù)較多則采用頻數(shù)編碼,若特征是定性的且具有高基數(shù)的則采用均值編碼。由于編碼后的特征空間存在過于稀疏的問題,所以,應(yīng)采用嵌入式(embedding)方法計(jì)算特征之間的相似度[41],通過線性變化的方式以密集矩陣來表征所有類別的特征,對(duì)稀疏特征進(jìn)行稠密化以達(dá)到降低特征維度的目的,接著利用向量之間的距離能反映特征對(duì)象之間相似性這一特點(diǎn)對(duì)相似的特征進(jìn)行合并聚類,將不同維度空間的特征“嵌入”到同一空間,從而完成從復(fù)雜空間到簡單空間的過程。通過上述方式,可根據(jù)嵌入后所得特征的不同類別,再進(jìn)行重新編碼;對(duì)提取的特征數(shù)據(jù)進(jìn)行分析學(xué)習(xí),可構(gòu)建測(cè)算模型對(duì)時(shí)空數(shù)據(jù)之間的關(guān)系進(jìn)行測(cè)算。
(二)混頻數(shù)據(jù)
針對(duì)結(jié)構(gòu)較為簡單的混頻數(shù)據(jù),先將其轉(zhuǎn)換為同頻數(shù)據(jù)。數(shù)據(jù)同頻化主要有兩類,第一類是將高頻數(shù)據(jù)轉(zhuǎn)變?yōu)榈皖l數(shù)據(jù),通過計(jì)算均值或取離散點(diǎn)替代等算法進(jìn)行降頻;第二類是將低頻數(shù)據(jù)轉(zhuǎn)化為高頻數(shù)據(jù),通過插值擬合法或橋接模型法等算法進(jìn)行升頻,將低頻數(shù)據(jù)映射到高頻時(shí)間索引上,并用插值補(bǔ)全缺失值和擬合模型參數(shù),或者對(duì)高頻數(shù)據(jù)建立模型后集成數(shù)據(jù),使之與低頻數(shù)據(jù)的頻率一致,并對(duì)集成后的數(shù)據(jù)進(jìn)行橋接等式回歸,然后采用同頻數(shù)據(jù)的測(cè)算方式對(duì)其進(jìn)行測(cè)算。
針對(duì)結(jié)構(gòu)復(fù)雜的混頻數(shù)據(jù),直接進(jìn)行人為的數(shù)據(jù)累加或內(nèi)插會(huì)導(dǎo)致原始數(shù)據(jù)內(nèi)含的信息量增加和丟失,因此將利用兩類方式來處理結(jié)構(gòu)復(fù)雜的混頻數(shù)據(jù)以避免這一問題。第一類采用傅里葉變換、小波變換、EMD(empirical mode decomposition)等方法對(duì)混頻數(shù)據(jù)進(jìn)行分解[42],將其分解成不同頻率的數(shù)據(jù)集,其中EMD算法可以將原始信號(hào)序列分解為若干不同頻率和趨勢(shì)的固有模態(tài)函數(shù)(intrinsic mode function,IMF)和一個(gè)趨勢(shì)分量,分解所得的IMF是一系列具備相對(duì)固定波動(dòng)周期、能夠反映原始信號(hào)特征的獨(dú)立分量。針對(duì)不同頻率的數(shù)據(jù)集構(gòu)建測(cè)算模型,實(shí)現(xiàn)對(duì)數(shù)據(jù)要素總量的測(cè)算。第二類則直接使用混頻數(shù)據(jù)來構(gòu)建混頻數(shù)據(jù)測(cè)算模型,主要采用MIDAS(mixed-data sampling)應(yīng)用“集約參數(shù)化”使得高頻數(shù)據(jù)在無需集成的前提下就可以作為低頻數(shù)據(jù)的解釋變量[43],該方法形式簡單,參數(shù)約束靈活,可拓展性強(qiáng),且這種方式建立的模型充分利用了高頻數(shù)據(jù)中的信息,避免了由于數(shù)據(jù)處理過程中人為因素而導(dǎo)致的數(shù)據(jù)信息的虛增與丟失,在一定程度上可以提高宏觀模型估計(jì)的有效性和測(cè)算的準(zhǔn)確性。
四、結(jié)語
本文旨在對(duì)數(shù)據(jù)要素化水平、數(shù)據(jù)要素結(jié)構(gòu)化水平以及數(shù)據(jù)要素中數(shù)據(jù)關(guān)系模式分別進(jìn)行建模,實(shí)現(xiàn)對(duì)數(shù)據(jù)要素的統(tǒng)計(jì)測(cè)算。本文針對(duì)數(shù)據(jù)要素化水平的統(tǒng)計(jì)測(cè)算這一問題,從資源化、資產(chǎn)化和資本化等維度構(gòu)建指標(biāo)體系,結(jié)合全局成分分析、RD冗余度檢驗(yàn)、主成分熵信息量以及熵權(quán)法等方法來檢測(cè)全國數(shù)據(jù)要素化程度,并對(duì)比和分析不同地區(qū)的數(shù)據(jù)要素化水平及其差異,為加快推進(jìn)數(shù)據(jù)要素市場(chǎng)化提供決策信息;針對(duì)數(shù)據(jù)要素結(jié)構(gòu)化水平的統(tǒng)計(jì)測(cè)算,分析數(shù)據(jù)要素中數(shù)據(jù)特征、數(shù)據(jù)對(duì)象和數(shù)據(jù)關(guān)系異構(gòu)特征以構(gòu)建提取數(shù)據(jù)要素異質(zhì)特征的測(cè)算模型。同時(shí),分析數(shù)據(jù)要素的時(shí)效性以構(gòu)建識(shí)別數(shù)據(jù)要素時(shí)序關(guān)系的測(cè)算模型;針對(duì)數(shù)據(jù)要素中數(shù)據(jù)關(guān)系模式的統(tǒng)計(jì)測(cè)算這一問題,分別對(duì)同頻數(shù)據(jù)和混頻數(shù)據(jù)構(gòu)建不同數(shù)據(jù)類型的關(guān)系測(cè)算模型。
本文還以數(shù)據(jù)要素資源的類別、行業(yè)和應(yīng)用為主線,結(jié)合多粒度數(shù)據(jù)特征識(shí)別結(jié)果,研究分層分級(jí)的數(shù)據(jù)要素存量抽樣與測(cè)算模型;針對(duì)特征穩(wěn)定的靜態(tài)數(shù)據(jù),結(jié)合數(shù)據(jù)的存儲(chǔ)特點(diǎn),研究在數(shù)據(jù)存儲(chǔ)服務(wù)器端自動(dòng)采樣與人工采樣相結(jié)合的復(fù)合采樣模式;結(jié)合磁盤容量計(jì)算方法與傳統(tǒng)統(tǒng)計(jì)方法,構(gòu)建靜態(tài)數(shù)據(jù)要素資源測(cè)算模型;針對(duì)特征不穩(wěn)定的易變化數(shù)據(jù),研究在應(yīng)用層服務(wù)器結(jié)合網(wǎng)絡(luò)協(xié)議和多粒度自動(dòng)識(shí)別結(jié)果構(gòu)建自動(dòng)抽樣框模型,以現(xiàn)有類似數(shù)據(jù)為標(biāo)簽,基于遷移學(xué)習(xí)技術(shù)抽取易變數(shù)據(jù)特征,完成存量測(cè)算。
基于網(wǎng)絡(luò)流量測(cè)量技術(shù)構(gòu)建數(shù)據(jù)要素增量的多級(jí)抽樣與測(cè)算模型時(shí),應(yīng)充分考慮數(shù)據(jù)要素電子化的特點(diǎn),結(jié)合網(wǎng)絡(luò)流量測(cè)量技術(shù),依托網(wǎng)絡(luò)協(xié)議研究并構(gòu)建網(wǎng)絡(luò)流量拆分模型。以此為基礎(chǔ),本文研究了在主干網(wǎng)絡(luò)設(shè)備、支干網(wǎng)絡(luò)設(shè)備、分支網(wǎng)絡(luò)設(shè)備以及終端服務(wù)器里布置多級(jí)分層的數(shù)據(jù)要素自動(dòng)采樣點(diǎn),并構(gòu)建了數(shù)據(jù)要素流量動(dòng)態(tài)測(cè)算模型,結(jié)合系統(tǒng)動(dòng)力學(xué)模型,為數(shù)據(jù)要素的存量和增量統(tǒng)計(jì)提供支持。
參考文獻(xiàn):
[1]黃少安,張華慶,劉陽荷.數(shù)據(jù)要素的價(jià)值實(shí)現(xiàn)與市場(chǎng)化配置[J].東岳論叢,2022(2):115-121.
[2]中國信息通信研究院.中國數(shù)字經(jīng)濟(jì)發(fā)展報(bào)告(2023年)[R/OL].(2023-05-09)[2023-08-08].http://www.doc88.com/p-31699287355376.html.
[3]樊自甫,吳云.城市數(shù)字經(jīng)濟(jì)可持續(xù)發(fā)展的關(guān)鍵影響因素研究[J].重慶郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2021(5):106-115.
[4]杜慶昊.數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化的生成邏輯及主要路徑[J].經(jīng)濟(jì)體制改革,2021(5):85-91.
[5]崔平,彭鴿.數(shù)據(jù)要素參與分配:價(jià)值、困境與路徑[J].上海經(jīng)濟(jì)研究,2022(6):27-35.
[6]許憲春,胡亞茹,張美慧.數(shù)字經(jīng)濟(jì)增長測(cè)算與數(shù)據(jù)生產(chǎn)要素統(tǒng)計(jì)核算問題研究[J].中國科學(xué)院院刊,2022(10):1410-1417.
[7]高富平,冉高苒.數(shù)據(jù)要素市場(chǎng)形成論——一種數(shù)據(jù)要素治理的機(jī)制框架[J].上海經(jīng)濟(jì)研究,2022(9):70-86.
[8]方圓.吉林省縣域經(jīng)濟(jì)發(fā)展水平測(cè)度研究[D].長春:吉林大學(xué),2022:32-36.
[9]彭剛,趙樂新.中國數(shù)字經(jīng)濟(jì)總量測(cè)算問題研究——兼論數(shù)字經(jīng)濟(jì)與我國經(jīng)濟(jì)增長動(dòng)能轉(zhuǎn)換[J].統(tǒng)計(jì)學(xué)報(bào),2020(3):1-13.
[10]張紅霞.生產(chǎn)網(wǎng)絡(luò)視角下中國數(shù)字經(jīng)濟(jì)規(guī)模及其結(jié)構(gòu)——基于時(shí)序投入產(chǎn)出表的實(shí)證研究[J].中國人民大學(xué)學(xué)報(bào),2022(3):76-91.
[11]何文娜.大數(shù)據(jù)時(shí)代基于物聯(lián)網(wǎng)和云計(jì)算的地質(zhì)信息化研究[D].長春:吉林大學(xué),2013:13-18.
[12]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015(1):1-44.
[13]姚宇.公共數(shù)據(jù)資源化管理在地方立法中的檢視與制度構(gòu)造——基于數(shù)據(jù)經(jīng)濟(jì)要素統(tǒng)一大市場(chǎng)的構(gòu)想[J].經(jīng)濟(jì)研究導(dǎo)刊,2022(24):153-155.
[14]黃春芳,胡興華,胡浩.寧波公交大數(shù)據(jù)資源化與產(chǎn)業(yè)化發(fā)展對(duì)策[J].綜合運(yùn)輸,2021(11):128-132.
[15]左文進(jìn),賀小剛,聞傳震,等.大數(shù)據(jù)資源質(zhì)量評(píng)價(jià)指標(biāo)體系構(gòu)建研究——基于用戶感知視角對(duì)圖書館大數(shù)據(jù)的分析[J].價(jià)格理論與實(shí)踐,2022(8):55-58.
[16]葉雅珍,朱揚(yáng)勇.盒裝數(shù)據(jù):一種基于數(shù)據(jù)盒的數(shù)據(jù)產(chǎn)品形態(tài)[J].大數(shù)據(jù),2022(3):15-25.
[17]陳溪.數(shù)據(jù)流轉(zhuǎn)視域下數(shù)據(jù)權(quán)益定價(jià)的標(biāo)準(zhǔn)認(rèn)定[J].中阿科技論壇(中英文),2023(2):59-63.
[18]王重潤,王文靜,趙冬暖.基于討價(jià)還價(jià)模型的大數(shù)據(jù)資產(chǎn)定價(jià)研究[J].會(huì)計(jì)之友,2023(6):20-29.
[19]宋冬林,田廣輝.經(jīng)濟(jì)平臺(tái)化模式下數(shù)據(jù)的資本化與資本積累新特點(diǎn)[J].稅務(wù)與經(jīng)濟(jì),2023(1):1-7.
[20]蔡萬煥,張紫竹.作為生產(chǎn)要素的數(shù)據(jù):數(shù)據(jù)資本化、收益分配與所有權(quán)[J].教學(xué)與研究,2022(7):57-65.
[21]張?zhí)N萍,翟妙如.數(shù)據(jù)要素的價(jià)值釋放及反壟斷治理[J].河南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2022(6):59-65.
[22]遲國泰,李戰(zhàn)江.基于主成分熵的評(píng)價(jià)指標(biāo)體系信息貢獻(xiàn)模型[J].科研管理,2014(12):137-144.
[23]李建中,王宏志,高宏.大數(shù)據(jù)可用性的研究進(jìn)展[J].軟件學(xué)報(bào),2016(7):1605-1625.
[24]董震,裴明濤.基于異構(gòu)哈希網(wǎng)絡(luò)的跨模態(tài)人臉檢索方法[J].計(jì)算機(jī)學(xué)報(bào),2019(1):73-84.
[25]WANG X. A multimedia information retrieval method based on cross-modal hashing[EB/OL].[2023-10-08].https://xueshu.baidu.com/usercenter/paper/show?paperid=16700am0ff7e0jg038400mv0qh662712amp;site=xueshu_se.
[26]JIN L, LI Z, TANG J. Deep" semantic multimodal hashing network for scalable image-text and video-text retrievals[J]. IEEE transactions on Neural Networks and Learning Systems,2023(4):1838-1851.
[27]李默涵.數(shù)據(jù)時(shí)效性的理論和算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016:22-52.
[28]HEINRICH B, KLIER M, KAISER M. A procedure to develop metrics for currency and its application in CRM[J]. Journal of Data and Information Quality,2009(1):1-28.
[29]DONG X L, BERTI-EQUILLE L, HU Y, et al. Global detection of complex copying relationships between sources[J]. Proceedings of the VLDB Endowment,2010(1/2):1358-1369.
[30]HEINRICH B, KLIER M. Assessing data currency: A probabilistic approach[J]. Journal of Information Science,2011(1):86-100.
[31]段旭良,郭兵,沈艷,等.基于時(shí)效規(guī)則的數(shù)據(jù)修復(fù)方法[J].軟件學(xué)報(bào),2019(3):589-603.
[32]高乙童.大數(shù)據(jù)時(shí)效性關(guān)鍵技術(shù)的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016:7-45.
[33]LEUNG C H, WOLFENDEN K. Analysis and optimisation of data currency and consistency in replicated distributed databases[J]. The Computer Journal,1985(5):518-523.
[34]李默涵,李建中,高宏.數(shù)據(jù)時(shí)效性判定問題的求解算法[J].計(jì)算機(jī)學(xué)報(bào),2012(11):2348-2360.
[35]吳培,李哲敏.混頻數(shù)據(jù)模型應(yīng)用研究現(xiàn)狀及展望[J].統(tǒng)計(jì)與決策,2021(8):23-28.
[36]陳婷,許睿,孟維麗婭,等.基于孤立森林算法的電力營銷數(shù)據(jù)異常識(shí)別[J].微型電腦應(yīng)用,2022(6):75-78.
[37]孫琦宗,華爾天,孫麗穎.一種基于K-means算法的產(chǎn)品定制特征分類方法[J].江西科學(xué),2022(3):423-428.
[38]彭維湘.時(shí)間序列中DF單位根檢驗(yàn)存在的問題及方法改進(jìn)[J].統(tǒng)計(jì)與決策,2022(21):53-56.
[39]李志鵑.時(shí)空注意圖卷積網(wǎng)絡(luò)的交通流量預(yù)測(cè)研究[J].智能計(jì)算機(jī)與應(yīng)用,2022(11):253-257.
[40]王蒙蒙,楊小倩,劉勇.利用時(shí)空特征編碼的單目標(biāo)跟蹤網(wǎng)絡(luò)[J].中國圖象圖形學(xué)報(bào),2022(9):2733-2748.
[41]鞏敦衛(wèi),張永凱,郭一楠,等.融合多特征嵌入與注意力機(jī)制的中文電子病歷命名實(shí)體識(shí)別[J].工程科學(xué)學(xué)報(bào),2021(9):1190-1196.
[42]GE H, CHEN G, YU H, et al. Theoretical analysis of empirical mode decomposition[J]. Symmetry,2018(11):623-639.
[43]GAGLIARDINI P, GHYSELS E, RUBIN M. Indirect inference estimation of mixed frequency stochastic volatility state space models using MIDAS regressions and ARCH models[J]. Journal of Financial Econometrics,2017(4):509-560.
Exploration of statistical measurement methods for data elements
Abstract:
In the context of the digital economy, cutting-edge information technologies such as cloud computing, blockchain, and the Internet of Things are increasingly becoming key drivers of exponential growth in data volume. As an emerging element in the contemporary economic system, data not only plays a crucial role in technology, but also gives rise to a new value transformation model in the economic field. The research purpose of this article is to explore effective statistical calculation methods for data elements and establish their circulation mechanism in the market as products. Current research mainly focuses on evaluating the overall scale of the data economy and the level of national economic development, while statistical calculation methods for data elements are still in the exploratory stage. In response to this research gap, the article proposes an innovative statistical measurement framework aimed at providing scientific and systematic guidance for understanding and efficiently utilizing data elements. The core of the research is divided into three parts: the level of data element normalization, the level of data element structuring, and the exploration of data relationship patterns in data elements. The article delves into how data can be transformed from its original state into tangible assets that can circulate in the market, and constructs an evaluation index system that includes multiple dimensions of resource utilization, asset utilization, and capitalization. The global principal component analysis method is used to screen and redundancy test these indicators. In the study of data element structuring level, key factors such as heterogeneity of data features, heterogeneity of data objects, heterogeneity of data relationships, and timeliness of data were comprehensively considered, and a quantitative model of data element structuring level was constructed based on these factors. By accurately modeling and quantifying the relationship between co frequency data and mixed frequency data, we can gain a deeper understanding of the complex relationships between data, providing important theoretical support for effective management and value maximization of data elements.
Keywords:
data elementalization; data element structuring; data element relationship model