孟強(qiáng)
摘 要:文章運(yùn)用SQL Server 2008商務(wù)智能平臺(tái)和決策樹分析技術(shù),通過構(gòu)建決策樹挖掘模型,對(duì)倉(cāng)儲(chǔ)企業(yè)的綜合競(jìng)爭(zhēng)力進(jìn)行了科學(xué)的、準(zhǔn)確的、合理的評(píng)估分析,實(shí)現(xiàn)了認(rèn)知規(guī)則的提取和知識(shí)的發(fā)現(xiàn),具有一定的理論和現(xiàn)實(shí)意義。
關(guān)鍵詞:決策樹;倉(cāng)儲(chǔ)企業(yè);評(píng)估;SQL Server 2008
中圖分類號(hào):F253 文獻(xiàn)標(biāo)識(shí)碼:A
Ahstract: The use of SQL Server 2008 business intelligence
platform and decision tree analysis technology, by constructing a decision tree mining model, comprehensive competitiveness of enterprise logistics were analyzed and the scientific, accurate and reasonable assessment. The cognitive rules extraction and knowledge discovery have certain theoretical and practical significance.
Key words: decision tree; storage enterprise; evaluation; SQL Server 2008
倉(cāng)儲(chǔ)業(yè)是物流業(yè)的重要組成部分,也是第三產(chǎn)業(yè)中的獨(dú)立行業(yè),近10年來(lái),我國(guó)經(jīng)濟(jì)持續(xù)穩(wěn)定高速增長(zhǎng),電子商務(wù)迅猛發(fā)展,促使物流業(yè)的規(guī)模不斷擴(kuò)大,傳統(tǒng)物流企業(yè)逐步轉(zhuǎn)型,現(xiàn)代物流發(fā)展的生態(tài)環(huán)境日益優(yōu)化,物流基礎(chǔ)設(shè)施和信息化建設(shè)進(jìn)度加快,現(xiàn)代物流服務(wù)體系已逐漸形成,倉(cāng)儲(chǔ)物流配送服務(wù)的能力和水平得到了顯著的提高,現(xiàn)代物流業(yè)已成為現(xiàn)代服務(wù)業(yè)的重要支撐。然而,與西方發(fā)達(dá)國(guó)家相比,我國(guó)倉(cāng)儲(chǔ)業(yè)的發(fā)展還不夠成熟,存在著許多不足,需要進(jìn)一步加強(qiáng)和完善現(xiàn)代倉(cāng)儲(chǔ)物流體系的構(gòu)建,并對(duì)倉(cāng)儲(chǔ)物流企業(yè)進(jìn)行綜合評(píng)估和考察,促使倉(cāng)儲(chǔ)物流企業(yè)競(jìng)爭(zhēng)、創(chuàng)新和發(fā)展,不斷提升倉(cāng)儲(chǔ)物流企業(yè)的服務(wù)質(zhì)量和綜合競(jìng)爭(zhēng)力,以更好地適應(yīng)現(xiàn)代倉(cāng)儲(chǔ)業(yè)的發(fā)展。
1 SQL Server 2008 BI平臺(tái)概述
Business Intelligence Development Studio,即微軟公司SQL Server 2008商業(yè)智能平臺(tái),被用于創(chuàng)建和使用數(shù)據(jù)挖掘模型,通過對(duì)該平臺(tái)中數(shù)據(jù)挖掘算法和工具的使用,進(jìn)而為企業(yè)提供有價(jià)值的、高效的、可靠的商務(wù)智能決策方案。
SQL Server 2008系統(tǒng)結(jié)構(gòu)主要包括4個(gè)部分,即數(shù)據(jù)庫(kù)引擎、分析服務(wù)(Analysis Services)、報(bào)表服務(wù)(Reporting Services)和集成服務(wù)(Integration Services)。在用BI平臺(tái)進(jìn)行數(shù)據(jù)挖掘時(shí),主要使用的是Analysis Services,它不僅能夠被用來(lái)進(jìn)行多維數(shù)據(jù)分析,還能創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和模型,并且提供了9種比較常用的數(shù)據(jù)挖掘技術(shù)(Microsoft Naive Bayes、關(guān)聯(lián)規(guī)則、聚類分析、決策樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、時(shí)序、線性回歸、順序分析和聚類分析),除此之外用戶還能自定義算法。
2 決策樹簡(jiǎn)介
數(shù)據(jù)挖掘的本質(zhì)就是知識(shí)發(fā)現(xiàn)的過程,它是從海量的數(shù)據(jù)中提取有價(jià)值的、對(duì)人們有用的信息和知識(shí)[1],而決策樹是數(shù)據(jù)挖掘技術(shù)中常用的一種,在分類和預(yù)測(cè)中運(yùn)用比較廣泛,該技術(shù)就是通過分析已知類別訓(xùn)練集,挖掘并發(fā)現(xiàn)分類規(guī)則,再對(duì)未知數(shù)據(jù)的類別進(jìn)行分析預(yù)測(cè),從而給決策者提供參考[2-3]。
據(jù)此可知該技術(shù)的實(shí)施一般分為模型訓(xùn)練和應(yīng)用兩個(gè)步驟[4],該方法具有以下幾個(gè)優(yōu)點(diǎn):方法簡(jiǎn)單,計(jì)算量較??;容易挖掘和發(fā)現(xiàn)有價(jià)值的規(guī)則;連續(xù)和離散字段均能適用;能夠明顯直觀地顯現(xiàn)出各字段的重要性程度。然而也存在一些不足,比如對(duì)連續(xù)字段和時(shí)間順序這樣的字段需要進(jìn)一步轉(zhuǎn)化處理,類別太多會(huì)增加錯(cuò)誤決策的概率等。
3 數(shù)據(jù)挖掘的ETL過程
3.1 數(shù)據(jù)的獲取和導(dǎo)入
根據(jù)挖掘和分析的需要,文章隨機(jī)從物流產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)[5]中抽取全國(guó)倉(cāng)儲(chǔ)物流企業(yè)相關(guān)數(shù)據(jù)集,該樣本數(shù)據(jù)集合共有400條記錄,每條記錄主要選取了10個(gè)相關(guān)屬性,其屬性名稱分別為Comp_ID(企業(yè)ID)、Comp_Name(企業(yè)名稱)、Comp_Prop(企業(yè)性質(zhì))、Region(所屬區(qū)域)、Address(企業(yè)地址)、Cont_Way(聯(lián)系方式)、Asset(TTY)(企業(yè)資產(chǎn)(萬(wàn)元))、Income(TTY)(企業(yè)經(jīng)營(yíng)收入(萬(wàn)元))、Comp_Numb(企業(yè)員工數(shù))和Comp_Eval_Result(企業(yè)評(píng)估結(jié)果)。通過Excel對(duì)所需數(shù)據(jù)進(jìn)行初步的匯集和整理,再運(yùn)用SQL server 2008 Management Studio所提供的數(shù)據(jù)導(dǎo)入功能,進(jìn)行數(shù)據(jù)的導(dǎo)入并創(chuàng)建Basic_Info(基本信息)表,儲(chǔ)存在事先已創(chuàng)建好的名為倉(cāng)儲(chǔ)物流企業(yè)綜合競(jìng)爭(zhēng)力評(píng)估系統(tǒng)數(shù)據(jù)庫(kù)中。
3.2 數(shù)據(jù)的清洗和轉(zhuǎn)換
在隨機(jī)抽取的400條數(shù)據(jù)中,數(shù)據(jù)可能并不是非常完整,不能被直接用來(lái)進(jìn)行數(shù)據(jù)分析,需要根據(jù)分析需求對(duì)數(shù)據(jù)本身做進(jìn)一步的處理,也就是所謂的查缺補(bǔ)漏工作。如果某條記錄超過3個(gè)屬性值為空,則放棄錄入該條數(shù)據(jù)。為了能夠更好地對(duì)倉(cāng)儲(chǔ)物流企業(yè)的綜合競(jìng)爭(zhēng)力進(jìn)行評(píng)估,需要對(duì)相關(guān)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,基于Basic_Info表,需要對(duì)Asset(TTY)、Income(TTY)、Comp_Numb和Region字段的數(shù)據(jù)進(jìn)行離散化處理轉(zhuǎn)換,也就是把待處理字段的每個(gè)取值用“字符串”的形式進(jìn)行處理轉(zhuǎn)換[6],然后把各字段轉(zhuǎn)換后的值存儲(chǔ)在數(shù)據(jù)庫(kù)中,其轉(zhuǎn)換處理字段的具體結(jié)構(gòu)如表1所示。文章將Asset(TTY)(企業(yè)資產(chǎn)(萬(wàn)元))按照“高”、“中”、“低”3個(gè)級(jí)別進(jìn)行劃分、轉(zhuǎn)換并生成Comp_Asset_Class(企業(yè)資產(chǎn)級(jí)別)字段,基于此創(chuàng)建Asset_Class(資產(chǎn)級(jí)別表);將Income(TTY)(企業(yè)經(jīng)營(yíng)收入(萬(wàn)元))按照“強(qiáng)”、“中”、“弱”3個(gè)級(jí)別進(jìn)行劃分、轉(zhuǎn)換并生成Comp_Mana_Ability(企業(yè)經(jīng)營(yíng)能力)字段,基于此創(chuàng)建Mana_Ability(經(jīng)營(yíng)能力表);將Comp_Numb(企業(yè)員工數(shù))按照“大”、“中”、“小”3個(gè)級(jí)別進(jìn)行劃分、轉(zhuǎn)換并生成Comp_Empl_Size(企業(yè)員工規(guī)模)字段,基于此創(chuàng)建Empl_Size(員工規(guī)模表);將Region(所屬區(qū)域)按照“強(qiáng)”、“中”、“弱”3個(gè)級(jí)別進(jìn)行劃分、轉(zhuǎn)換并生成Comp_Regi_Adva(企業(yè)區(qū)域優(yōu)勢(shì))字段,基于此創(chuàng)建Regional_Adva(區(qū)域優(yōu)勢(shì)表)。
基于Basic_Info表,對(duì)S1、S2、S3、S4這4個(gè)字段進(jìn)行劃分與轉(zhuǎn)換時(shí)的SQL部分語(yǔ)句如圖1所示:
通過前期數(shù)據(jù)的導(dǎo)入、整合、清理和轉(zhuǎn)換,將所需不同表中字段的相關(guān)數(shù)據(jù)進(jìn)行拆分和合并,進(jìn)一步得到了適合數(shù)據(jù)挖掘的Wara_Logi_Comp_Eval(倉(cāng)儲(chǔ)物流企業(yè)評(píng)估表),其中部分?jǐn)?shù)據(jù)如表2所示。
4 決策樹挖掘模型的創(chuàng)建及準(zhǔn)確性驗(yàn)證
4.1 挖掘結(jié)構(gòu)和模型的構(gòu)建
啟動(dòng)BI Dev Studio,在開發(fā)環(huán)境中新建名為“倉(cāng)儲(chǔ)物流企業(yè)綜合競(jìng)爭(zhēng)力評(píng)估”的Analysis Services項(xiàng)目,以及定義項(xiàng)目保存位置信息和解決方案名稱,然后創(chuàng)建數(shù)據(jù)源和數(shù)據(jù)源視圖(DSV),最終所建DSV如圖2所示。
然后按照數(shù)據(jù)挖掘向?qū)У奶崾荆鸩綐?gòu)建挖掘結(jié)構(gòu)和挖掘模型,在創(chuàng)建的過程中,需要重視測(cè)試集的創(chuàng)建,即指定要為模型測(cè)試保留的事例數(shù),一般需要指定測(cè)試數(shù)據(jù)百分比和測(cè)試數(shù)據(jù)集中的最大事例數(shù),通常指定測(cè)試數(shù)據(jù)百分比為30%。本文隨機(jī)抽取120個(gè)作為測(cè)試集,用來(lái)測(cè)試和檢驗(yàn)?zāi)P停S?80個(gè)作為訓(xùn)練集,用來(lái)生成規(guī)則。最后將所創(chuàng)建的數(shù)據(jù)挖掘結(jié)構(gòu)和模型都命名為“倉(cāng)儲(chǔ)物流企業(yè)評(píng)估模型”。該挖掘模型成功部署處理之后,就可以查看所創(chuàng)建的挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器、挖掘準(zhǔn)確性圖表和挖掘模型預(yù)測(cè)相關(guān)的各種信息,通過挖掘模型查看器可以查看所生成的決策樹如圖3所示。
4.2 模型的準(zhǔn)確性驗(yàn)證
4.2.1 分類矩陣
分類矩陣(Classification Matrix)也稱無(wú)秩序矩陣,它能夠精確地顯示該算法測(cè)試的結(jié)果正確的次數(shù),并且顯示錯(cuò)誤的預(yù)測(cè)是什么。本文所創(chuàng)建的決策樹挖掘模型選取對(duì)應(yīng)的測(cè)試集共400*30%=120個(gè)事例來(lái)對(duì)所生成的挖掘模型進(jìn)行測(cè)試并將測(cè)試結(jié)果以分類矩陣的形式加以表示,如圖4所示。
根據(jù)分類矩陣所顯示的內(nèi)容可知,本模型預(yù)測(cè)的結(jié)果為:真“差”事例數(shù)目為3,假“差”事例數(shù)目為1;真“良”事例數(shù)目為67,假“良”事例數(shù)目為12;真“優(yōu)”事例數(shù)目為18,假“優(yōu)”事例數(shù)目為1;真“中”事例數(shù)目為18,假“中”事例數(shù)目為0[7]。綜上所述,可求出本模型在測(cè)試集上的平均分類評(píng)估的準(zhǔn)確率為:(3+67+18+18)/(3+1+10+67+2+1+18+18)
≈88.33%,該結(jié)果表明模型具有較強(qiáng)的可靠性。
4.2.2 挖掘提升圖
提升圖是按照測(cè)試數(shù)據(jù)集中可預(yù)測(cè)列的已知值來(lái)繪制從該測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)查詢的結(jié)果,并同時(shí)展示理想模型、隨機(jī)模型和所建模型的結(jié)果。本文測(cè)試數(shù)據(jù)集中共有120個(gè)事例,可以得到企業(yè)評(píng)估結(jié)果(可預(yù)測(cè)字段)分別為“優(yōu)”、“良”、“中”和“差”不同條件下的模型所對(duì)應(yīng)的提升圖,文章僅給出企業(yè)評(píng)估結(jié)果為“良”條件下模型所對(duì)應(yīng)的提升圖(如圖5所示)及其相應(yīng)的挖掘圖例(如圖6所示)。
從提升圖(圖5)明顯可以看出,紅色曲線不斷向綠色曲線靠攏,也就是所構(gòu)建模型的提升曲線十分靠近理想模型的提升曲線,此外由挖掘圖例(圖6)可知分?jǐn)?shù)為0.99,非常接近1,所以該模型性能非常好,且具有較高的預(yù)測(cè)準(zhǔn)確率。
4.2.3 綜合競(jìng)爭(zhēng)力評(píng)估依賴關(guān)系
通過挖掘模型查看器進(jìn)行模型挖掘,查看倉(cāng)儲(chǔ)物流企業(yè)綜合競(jìng)爭(zhēng)力評(píng)估主要強(qiáng)依賴關(guān)系如圖7所示,在Wara_Logi_Comp_Eval(倉(cāng)儲(chǔ)物流企業(yè)評(píng)估表)中,若干字段包括Comp_Mana_Ability(企業(yè)經(jīng)營(yíng)能力)、Comp_Asset_Class(企業(yè)資產(chǎn)級(jí)別)、Comp_Empl_Size(企業(yè)員工規(guī)模)和Comp_Regi_Adva(企業(yè)區(qū)域優(yōu)勢(shì)),對(duì)倉(cāng)儲(chǔ)物流企業(yè)綜合競(jìng)爭(zhēng)力評(píng)估影響最大的是企業(yè)經(jīng)營(yíng)能力,其次是企業(yè)資產(chǎn)級(jí)別,對(duì)于較弱的依賴關(guān)系圖中并沒有顯示出來(lái),這是由于微軟SQL Server 2008所提供的決策算法不同造成的,然而主要結(jié)論是一致的,那就是倉(cāng)儲(chǔ)物流企業(yè)綜合競(jìng)爭(zhēng)力評(píng)估主要依賴于企業(yè)經(jīng)營(yíng)能力和企業(yè)資產(chǎn)級(jí)別這兩個(gè)因素。