国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)倉庫的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法

2023-06-07 04:58:04安世俊
中國新技術(shù)新產(chǎn)品 2023年5期
關(guān)鍵詞:數(shù)據(jù)倉庫財(cái)務(wù)數(shù)據(jù)化工企業(yè)

安世俊

(蘭州資源環(huán)境職業(yè)技術(shù)大學(xué),甘肅 蘭州 730022)

0 引言

在信息化技術(shù)、自動化技術(shù)的發(fā)展背景下,化工企業(yè)也在面向信息化建設(shè),雖然取得了一定的成效,但是化工企業(yè)財(cái)務(wù)系統(tǒng)的數(shù)據(jù)受到封閉式管理的影響,很難進(jìn)一步推進(jìn)信息化建設(shè)的工作,無法滿足企業(yè)日常生產(chǎn)變化要求。針對該問題,研究人員設(shè)計(jì)了多種財(cái)務(wù)數(shù)據(jù)集成方法。其中,基于服務(wù)調(diào)用和消息隊(duì)列的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法,與基于Spark 的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法的應(yīng)用較為廣泛。

基于服務(wù)調(diào)用和消息隊(duì)列的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法,根據(jù)企業(yè)經(jīng)營需求,對數(shù)據(jù)查詢、數(shù)據(jù)發(fā)布等數(shù)據(jù)進(jìn)行集成,并根據(jù)企業(yè)財(cái)務(wù)情況,調(diào)用SOAP 與REST,企業(yè)財(cái)務(wù)數(shù)據(jù)實(shí)時(shí)訂閱,有效地避免了財(cái)務(wù)數(shù)據(jù)出現(xiàn)封閉的問題,提高化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成效果[1]?;赟park 的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法,是利用大數(shù)據(jù)分析的方法,以一種Spark Feature Weighted Stacking 方式,提取財(cái)務(wù)數(shù)據(jù)特征,根據(jù)特征選擇合理的集成小組,大幅度提高數(shù)據(jù)集成精準(zhǔn)度[2]。以上2 種方法都能對企業(yè)財(cái)務(wù)數(shù)據(jù)進(jìn)行集成,無論是SOAP 與REST,還是S-FWS,都不能消除相似重復(fù)記錄的數(shù)據(jù),影響數(shù)據(jù)集成效果[3]。數(shù)據(jù)倉庫是在企業(yè)決策的過程中,能夠提供數(shù)據(jù)支撐的方式,該文將其應(yīng)用在化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方面,為財(cái)務(wù)數(shù)據(jù)集成提供保障。

1 化工企業(yè)財(cái)務(wù)數(shù)據(jù)的數(shù)據(jù)倉庫集成方法

1.1 生成企業(yè)財(cái)務(wù)數(shù)據(jù)集成本體

數(shù)據(jù)集成指集合不同源、不同結(jié)構(gòu)的數(shù)據(jù)于一起并消除其多元性與異構(gòu)性的過程。對不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,用戶在訪問這些數(shù)據(jù)的過程中無須考慮對異構(gòu)數(shù)據(jù)訪問的實(shí)現(xiàn)方式,只需要了解數(shù)據(jù)的訪問方式即可。該文該文主要研究關(guān)于化工企業(yè)財(cái)務(wù)數(shù)據(jù)的基于數(shù)據(jù)倉庫的集成方法。數(shù)據(jù)倉庫是面向主題的、集成的、不可更新的,并隨時(shí)間不斷變化的數(shù)據(jù)集合,用以支持管理部門的決策分析過程,與一般數(shù)據(jù)庫相比,數(shù)據(jù)倉庫具有數(shù)據(jù)查詢量較大、對實(shí)時(shí)性要求不高、數(shù)據(jù)更新不頻繁、使用用戶較少等特點(diǎn),主要用于分析與決策。

不同的財(cái)務(wù)報(bào)表、生產(chǎn)報(bào)表存儲在不同的系統(tǒng)模塊中,數(shù)據(jù)繁多而且結(jié)構(gòu)復(fù)雜,集成較為困難?;て髽I(yè)財(cái)務(wù)數(shù)據(jù)包括企業(yè)資產(chǎn)收益數(shù)據(jù)、盈利數(shù)據(jù)、項(xiàng)目利潤數(shù)據(jù)、資產(chǎn)增長數(shù)據(jù)、負(fù)債數(shù)據(jù)以及融資數(shù)據(jù)等[4]。多種數(shù)據(jù)在集成的過程中,通過生成財(cái)務(wù)數(shù)據(jù)集成本體的方式,將命名不統(tǒng)一的數(shù)據(jù)進(jìn)行兼容,并根據(jù)主體模式的數(shù)據(jù)組織方式劃分出數(shù)據(jù)的字段元素,從而獲取數(shù)據(jù)倉庫的元數(shù)據(jù)信息。該文以字段表述或定義各個(gè)數(shù)據(jù)元素,本體部分的語法及含義見表1。

表1 本體部分的語法及含義

數(shù)據(jù)模式與本體機(jī)構(gòu)相似,可以通過制定數(shù)據(jù)集成規(guī)則,將數(shù)據(jù)模式轉(zhuǎn)換成本體[5],見表1。生成的本體與原本體映射結(jié)構(gòu)不同,用來反映不同的財(cái)務(wù)數(shù)據(jù),保證不同類別的數(shù)據(jù)能夠統(tǒng)一集成,提高集成效果。

1.2 基于數(shù)據(jù)倉庫清洗化工企業(yè)財(cái)務(wù)數(shù)據(jù)

數(shù)據(jù)清洗是指將集合后數(shù)據(jù)中發(fā)現(xiàn)的如缺失數(shù)據(jù)、無效數(shù)據(jù)、重復(fù)數(shù)據(jù)以及異常數(shù)據(jù)等錯(cuò)誤進(jìn)行修改,從而獲得高質(zhì)量數(shù)據(jù)的過程。對不準(zhǔn)確的數(shù)據(jù)進(jìn)行分析,有可能由于數(shù)據(jù)質(zhì)量的不足而使用錯(cuò)誤的分析方法,從而得出錯(cuò)誤的分析結(jié)論。該文對對數(shù)據(jù)集成本體進(jìn)行重復(fù)數(shù)據(jù)的檢測。

數(shù)據(jù)集成本體的重復(fù)數(shù)據(jù)檢測問題的成因復(fù)雜,其清洗方案一般基于特定領(lǐng)域設(shè)定其特定的規(guī)則,甚至采取需要人員干預(yù)的方式。該文利用數(shù)據(jù)倉庫,將生成的數(shù)據(jù)集成本體作為元數(shù)據(jù),輸出到數(shù)據(jù)倉庫中,按照倉庫的記錄統(tǒng)一后,將數(shù)據(jù)倉庫中的化工企業(yè)財(cái)務(wù)數(shù)據(jù)合并成一個(gè)數(shù)據(jù)集,再對其進(jìn)行數(shù)據(jù)清洗[6]。數(shù)據(jù)清洗的窗口滑動情況如圖1 所示。

圖1 數(shù)據(jù)清洗的窗口滑動示意圖

如圖1 所示,在數(shù)據(jù)清洗的過程中,在當(dāng)前窗口生成關(guān)鍵詞,按照順序依次生成不同窗口的關(guān)鍵詞。按照不同窗口的關(guān)鍵詞生成情況排序,并在數(shù)據(jù)倉庫中記錄。在已排序的數(shù)據(jù)集移動到一個(gè)固定大小的窗口中,通過檢測窗口內(nèi)的財(cái)務(wù)數(shù)據(jù),判斷數(shù)據(jù)之間的匹配程度[7]。W為的窗口大小,該窗口的可用數(shù)據(jù)個(gè)數(shù)用w表示,當(dāng)窗口移動時(shí),窗口第一條數(shù)據(jù)被移出,新進(jìn)的窗口的數(shù)據(jù)與第二條數(shù)據(jù)相比,如果相似程度較高則移出,相似程度不高則保存,由此消除數(shù)據(jù)倉庫中相似重復(fù)記錄的數(shù)據(jù)。數(shù)據(jù)相似度如公式(1)所示。

式中:sim(x,y)為數(shù)據(jù)倉庫中新進(jìn)數(shù)據(jù)與元數(shù)據(jù)的相似程度;simfi為主體字段的相似度;Wi為第i個(gè)數(shù)據(jù)窗口。在數(shù)據(jù)倉庫中存在n條數(shù)據(jù),窗口大小為w,那么生成的關(guān)鍵詞操作排序?yàn)镺(logn),當(dāng)w <O(logn)時(shí),數(shù)據(jù)清洗完畢,相似重復(fù)記錄的數(shù)據(jù)可以忽略或不存在;當(dāng)w≥O(logn)時(shí),數(shù)據(jù)清洗未完成或清洗終端,相似重復(fù)記錄的數(shù)據(jù)仍存在。

對數(shù)據(jù)是否為重復(fù)數(shù)據(jù)的判斷標(biāo)準(zhǔn),一般采用定位字符串比較方法,即計(jì)算相同字符個(gè)數(shù)與短字符串的長度的比值,其值即為相似度的匹配得分。該方法能夠有效解決部分名稱縮寫問題,但對一些名稱相似的非縮寫數(shù)據(jù)并不能起到很好的效果。因此改進(jìn)該計(jì)算方式,通過以計(jì)算相同字符個(gè)數(shù)與字符串長度平均值的比值避免出現(xiàn)類似問題。

1.3 構(gòu)建化工企業(yè)財(cái)務(wù)數(shù)據(jù)本體集成模型

為了實(shí)現(xiàn)化工企業(yè)財(cái)務(wù)數(shù)據(jù)的高效集成,該文在數(shù)據(jù)清洗完成后,構(gòu)建了化工企業(yè)財(cái)務(wù)數(shù)據(jù)本體集成模型,匹配化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成屬性。集成模型如圖2 所示。

圖2 數(shù)據(jù)本體集成模型圖

如圖2 所示,該文設(shè)計(jì)的集成模型中包括數(shù)據(jù)倉庫層、中間層、數(shù)據(jù)源層等3 個(gè)部分。數(shù)據(jù)倉庫層是數(shù)據(jù)倉庫中清洗完畢的數(shù)據(jù)按照主體進(jìn)行排序的數(shù)據(jù),清晰地表達(dá)了數(shù)據(jù)倉庫中各類財(cái)務(wù)數(shù)據(jù)的集成任務(wù)。中間層是標(biāo)記數(shù)據(jù)存儲與提取的數(shù)據(jù)倉庫模式,根據(jù)倉庫的詞匯指導(dǎo)建立數(shù)據(jù)源,與數(shù)據(jù)倉庫中的本體數(shù)據(jù)映射,自動實(shí)現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換與裝載過程[8]。數(shù)據(jù)源層是模型的數(shù)據(jù)輸入層,將清洗完成的數(shù)據(jù)通過DS1、DS2、DSn進(jìn)行數(shù)據(jù)對接,完成數(shù)據(jù)查詢?nèi)蝿?wù)。假設(shè)O是一組數(shù)據(jù)對應(yīng)的集合,G是O中所有對象的集合,則對模型中各類集成數(shù)據(jù)進(jìn)行屬性匹配,如公式(2)所示。

式中:t(x,y)為集成數(shù)據(jù)m與m'的屬性匹配程度;O(x,y)為一組數(shù)據(jù)集合中數(shù)據(jù)m與m'的相似度指標(biāo);G(O(x,y))為O中所有對象集合的數(shù)據(jù)相似度指標(biāo);c為帶有G(O(x,y))標(biāo)記數(shù)據(jù)出現(xiàn)的次數(shù)。根據(jù)t(x,y)的值,判斷集成任務(wù)完成的數(shù)據(jù)屬性匹配程度,進(jìn)一步提高數(shù)據(jù)集成精準(zhǔn)度。

2 數(shù)據(jù)集成方法的有效性試驗(yàn)

為了驗(yàn)證該文設(shè)計(jì)的企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法的有效性,該文以文獻(xiàn)[1]基于服務(wù)調(diào)用和消息隊(duì)列的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法、文獻(xiàn)[2]基于Spark 的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法作為對照,與該文設(shè)計(jì)的基于數(shù)據(jù)倉庫的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法進(jìn)行對照試驗(yàn)。試驗(yàn)結(jié)果則以對比三者的F1-score 值及不同節(jié)點(diǎn)模式情況下F1-score 值變化情況呈現(xiàn),后續(xù)試驗(yàn)過程及試驗(yàn)結(jié)果如下所述。

2.1 試驗(yàn)過程

這次試驗(yàn)選用Ontology Alignment Evaluation Initiative 提供的數(shù)據(jù)集作為測試數(shù)據(jù),該數(shù)據(jù)集中存在多種領(lǐng)域的數(shù)據(jù),其中,mark 數(shù)據(jù)集描述的是化工企業(yè)財(cái)務(wù)數(shù)據(jù),主要包括56 對本體數(shù)據(jù),將其劃分成I~VII 個(gè)類別,編號為101的本體作為原始數(shù)據(jù)的參考本體,描述了完整的化工企業(yè)財(cái)務(wù)數(shù)據(jù),用作匹配基準(zhǔn)數(shù)據(jù)。102 本體是與化工領(lǐng)域無關(guān)的本體,這次試驗(yàn)不考慮。將mark 數(shù)據(jù)集放在集成模型中進(jìn)行數(shù)據(jù)集成,集成流程如圖3 所示。

圖3 集成模型訓(xùn)練流程圖

如圖3 所示,試驗(yàn)過程中利用數(shù)據(jù)倉庫通過串行的方式,訓(xùn)練多個(gè)同類基分類器,并將mark 數(shù)據(jù)集的56 對本體數(shù)據(jù)依次訓(xùn)練,在子訓(xùn)練集1~n中訓(xùn)練,通過基分類器的數(shù)據(jù)分類,自動將化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成。數(shù)據(jù)集成后,該文利用F1-score 指標(biāo)作為判斷模型集成效果的依據(jù),F(xiàn)1-score指標(biāo)如公式(3)所示。

式中:F1-score為衡量模型集成準(zhǔn)確性的指標(biāo);P為數(shù)據(jù)集成精確度;R為數(shù)據(jù)集成查全率。F1-score值越高,模型集成的數(shù)據(jù)準(zhǔn)確性越高。

2.2 試驗(yàn)結(jié)果

在上述試驗(yàn)條件下,該文隨機(jī)選取I~VII 共7 個(gè)試驗(yàn)數(shù)據(jù)集,其中的化工企業(yè)財(cái)務(wù)數(shù)據(jù)各不相同,可以保證試驗(yàn)的真實(shí)性。分別使用文獻(xiàn)[1]基于服務(wù)調(diào)用和消息隊(duì)列的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法、文獻(xiàn)[2]基于Spark 的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法以及該文設(shè)計(jì)的基于數(shù)據(jù)倉庫的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法的集成模型,在單節(jié)點(diǎn)運(yùn)行模式與雙節(jié)點(diǎn)運(yùn)行模式下,對比3 種模型的F1-score 值。試驗(yàn)結(jié)果見表2。

表2 試驗(yàn)結(jié)果

如表2 所示,使用文獻(xiàn)[1]基于服務(wù)調(diào)用和消息隊(duì)列的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法后,集成模型在單節(jié)點(diǎn)與雙節(jié)點(diǎn)模式下的F1-score 值相對較低。其中,在單節(jié)點(diǎn)模式下,數(shù)據(jù)集I~VII 中F1-score 平均值約為0.869;在雙節(jié)點(diǎn)模式下,數(shù)據(jù)集I~VII 中的F1-score 平均值約為0.830。使用文獻(xiàn)[2]基于Spark 的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法后,集成模型在單節(jié)點(diǎn)與雙節(jié)點(diǎn)模式下的F1-score 值較為穩(wěn)定,均高于0.850 的集成標(biāo)準(zhǔn)。其中,在單節(jié)點(diǎn)模式下,數(shù)據(jù)集I~VII 中F1-score 平均值約為0.888;在雙節(jié)點(diǎn)模式下,數(shù)據(jù)集I~VII 中F1-score 平均值約為0.879。

使用該文設(shè)計(jì)的基于數(shù)據(jù)倉庫的化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法后,集成模型在單節(jié)點(diǎn)與雙節(jié)點(diǎn)模式下的F1-score 值相對較高,均超過0.950。其中,在單節(jié)點(diǎn)模式下,數(shù)據(jù)集I~VII 中F1-score 平均值約為0.981;在雙節(jié)點(diǎn)模式下,數(shù)據(jù)集I~VII 中F1-score 平均值約為0.981。由此可見,使用文獻(xiàn)[1]方法后,單節(jié)點(diǎn)與雙節(jié)點(diǎn)模式下F1-score 值均較低且不同節(jié)點(diǎn)模式下平均值相差較多,數(shù)據(jù)集成準(zhǔn)確性與穩(wěn)定性較低;使用文獻(xiàn)[2]方法后,單節(jié)點(diǎn)與雙節(jié)點(diǎn)模式下F1-score 值均比文獻(xiàn)[1]方法高且不同節(jié)點(diǎn)模式下平均值差值有所提高,因此與相較文獻(xiàn)[1]方法相比,集成模式更具有有效性;使用該文設(shè)計(jì)的方法后,單節(jié)點(diǎn)與雙節(jié)點(diǎn)模式下F1-score 值均比文獻(xiàn)[2]方法高且不同節(jié)點(diǎn)模式下平均值幾乎相同,表明說明該集成模型在進(jìn)行數(shù)據(jù)集成的過程中,準(zhǔn)確性與穩(wěn)定性更佳,集成的數(shù)據(jù)更加有效,因此該集成模型設(shè)計(jì)成功,符合該文的研究目的。

3 結(jié)語

隨著化工企業(yè)信息化建設(shè)發(fā)展,財(cái)務(wù)系統(tǒng)、自動化系統(tǒng)在化工企業(yè)得到了較為廣泛的應(yīng)用,逐漸達(dá)到企業(yè)實(shí)現(xiàn)財(cái)務(wù)信息化的建設(shè)目標(biāo)。由于化工企業(yè)財(cái)務(wù)數(shù)據(jù)相對獨(dú)立、封閉,因此通過財(cái)務(wù)軟件系統(tǒng)很難進(jìn)行數(shù)據(jù)整合,使財(cái)務(wù)數(shù)據(jù)不滿足企業(yè)不斷變化的經(jīng)營需求。該文利用數(shù)據(jù)倉庫設(shè)計(jì)了一種化工企業(yè)財(cái)務(wù)數(shù)據(jù)集成方法。通過生成數(shù)據(jù)本體、處理數(shù)據(jù)和集成模型等方式,將化工企業(yè)財(cái)務(wù)數(shù)據(jù)進(jìn)行有效地集成,將滯后的企業(yè)財(cái)務(wù)數(shù)據(jù)沉淀下來,及時(shí)提升企業(yè)的競爭力與決策力,對化工企業(yè)的進(jìn)一步發(fā)展具有重要的作用。

猜你喜歡
數(shù)據(jù)倉庫財(cái)務(wù)數(shù)據(jù)化工企業(yè)
基于雙重預(yù)防機(jī)制創(chuàng)新化工企業(yè)管理模式
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
化工企業(yè)中的工作票制度
2018上市公司中報(bào)主要財(cái)務(wù)數(shù)據(jù)(8)
2017上市公司年報(bào)主要財(cái)務(wù)數(shù)據(jù)(6)
2017年上市公司年報(bào)主要財(cái)務(wù)數(shù)據(jù)(1)
某化工企業(yè)清潔生產(chǎn)潛力分析
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
武川县| 龙门县| 焉耆| 平江县| 东方市| 孟津县| 河北区| 湖北省| 台北县| 舟山市| 连平县| 平安县| 漾濞| 祁阳县| 靖远县| 夏河县| 融水| 奈曼旗| 榆树市| 栾城县| 哈巴河县| 高雄县| 仲巴县| 汉阴县| 乐昌市| 鄂伦春自治旗| 安福县| 法库县| 雷山县| 通江县| 仙居县| 汽车| 罗田县| 阿拉尔市| 禹城市| 互助| 太原市| 宝清县| 高阳县| 康保县| 本溪市|