基于知識挖掘的產(chǎn)業(yè)集群競爭力評價指標體系構(gòu)建

2014-02-18 06:19:34蔡皎潔

統(tǒng)計與決策 2014年1期

蔡皎潔

（湖北工程學院，湖北孝感 432000）

0 引言

在產(chǎn)業(yè)集群競爭力評價研究中，評價指標體系的構(gòu)建顯得尤為重要，它的合理性及全面性直接影響了評價結(jié)果的準確率。國內(nèi)外學者在這方面做出了深入研究，其中波特最早提出了鉆石模型[1]，隨后該模型被廣泛應(yīng)用于我國早期對產(chǎn)業(yè)集群競爭力定性評價中，該模型把社會需求狀況、相關(guān)的支持企業(yè)、要素狀況以及企業(yè)戰(zhàn)略、結(jié)構(gòu)和競爭者等要素作為產(chǎn)業(yè)集群評價的定性指標；Padmore和Gibson[2]在鉆石模型的基礎(chǔ)上提出了GEM模型，該模型把競爭力評價指標分為3組6個指標，分別是基礎(chǔ)組，包括資源與設(shè)施；企業(yè)組，包括供應(yīng)商和相關(guān)輔助產(chǎn)業(yè)、企業(yè)結(jié)構(gòu)、戰(zhàn)略和競爭；市場組，包括當?shù)厥袌龊屯獠渴袌觥Ｎ覈鴮W者喻春光和劉友金[3]在GEM模型的基礎(chǔ)上提出了GEMN模型，充分考慮了產(chǎn)業(yè)集群網(wǎng)絡(luò)對評價的影響，因此添加了網(wǎng)絡(luò)組，包括內(nèi)網(wǎng)和外網(wǎng)兩個因素。

從國內(nèi)外有關(guān)產(chǎn)業(yè)集群競爭力評價指標體系構(gòu)建研究現(xiàn)狀總結(jié)發(fā)現(xiàn)：一是多數(shù)評價指標體系構(gòu)建的原理建立在鉆石模型和GEM模型基礎(chǔ)上，有其合理性；二是多數(shù)評價指標體系構(gòu)建仍缺乏定量化的科學指導和分析，構(gòu)建方法主要采用人為的、經(jīng)驗性的定性分析，且指標要素繁雜而重復(fù)，增加了產(chǎn)業(yè)集群競爭力評價的復(fù)雜性和冗余性。本文提出了基于知識挖掘方法構(gòu)建產(chǎn)業(yè)集群競爭力評價指標體系的思路，為定量研究開辟了新的研究途徑。

1 基于K-中心點聚類挖掘構(gòu)建競爭力評價指標

1.1 理論基礎(chǔ)

K-中心點聚類法是典型的局域劃分的聚類方法，其基本的處理流程如下[4]：

（1）對待聚類的文本集D，確定要生成的簇的數(shù)目K；

（2）按照某種原則（可隨機）生成K個聚類中心作為聚類的初始中心點S={s1,...sj,...,sk}；

（3）對D中的每一個文本di，依次計算它與各個中心點 sj的相似度 sim(di,sj)；

（4）選取具有最大的相似度的中心點arg max sim(di,sj)，將di歸入以sj為聚類中心的簇Cj，從而得到D的一個聚類C={c1,...,ck}；

（5）重新確定每個簇的中心點；

（6）反復(fù)執(zhí)行步驟（3）到（5），直到中心點不再改變，文本不再重新被分配為止。

1.2 構(gòu)建思路

1.2.1 K的確立

K值的確定會影響聚類結(jié)果的精確度，本文將上述K-中心點文本聚類方法進行適當演繹用于產(chǎn)業(yè)集群競爭力評價指標的確定中，目的是針對目前大多數(shù)指標體系多而雜的情況，找出關(guān)鍵評價指標，確定產(chǎn)業(yè)集群邊緣。K值確定的思路如下：

（1）將待研究的產(chǎn)業(yè)集群中的每個企業(yè)看成一個文本di，產(chǎn)業(yè)群看成文本集D；

（2）在對國內(nèi)外學者構(gòu)建產(chǎn)業(yè)集群競爭力評價指標體系研究成果總結(jié)的基礎(chǔ)上，列出一組初始的競爭力評價指標，形成[資源，成長]二維模式，綜合對比不同企業(yè)在最近5年中各種競爭資源的成長曲線平滑度，并按照這些資源對企業(yè)成長影響的大小賦予權(quán)值；

（3）計算每個企業(yè)在5年內(nèi)各種資源成長量的加權(quán)平均，利用區(qū)間劃分方法來確定K的值。

1.2.2 初始指標集的聚類

用K-中心點法對初始指標集進行聚類，即完成在K個初始企業(yè)簇群區(qū)間中，重新實施聚類，并找出影響企業(yè)重新聚類的關(guān)鍵因素，這些因素就是最終確定的競爭力評價指標。其基本思路如下：

（1）在K個初始企業(yè)簇群區(qū)間中，找出作為企業(yè)聚類的中心種子S={s1,...,sj,...,sk}，V(sj)=(W sj(d1),…,W sj(di),…,W sj(dn))，其中s代表資源，d代表企業(yè)，V代表資源—企業(yè)矩陣，W代表資源對企業(yè)影響的權(quán)值；

（2）對每個資源因子ti，依次計算它與各個種子sj的相似度sim(ti,sj)。其中ti和sj之間的相似度可以用向量V(ti)和V(sj)的余弦來計算，其公式[5]描述如下：

（3）選取具有最大相似度的種子arg max sim(ti,sj)，將ti歸入以sj為聚類中心的簇cj，從而得到初始指標集的聚類集C＝{c1,…,cj,…ck}；

（4）重新確定每個簇的中心點；

（5）重復(fù)步驟（2）、（3）、（4），直到中心點不再改變?yōu)橹埂?/p>

1.2.3 關(guān)鍵指標集的確定

該過程其實是對初始指標集聚類不斷反復(fù)實施的過程。其基本思路如下：

（1）抽取簇cj的中心點和孤立點，并存入關(guān)鍵指標集數(shù)據(jù)庫中；

（2）打亂已形成的聚類集C，重新進行[資源，成長]二維模式的數(shù)值評估，重新確定K值；

（3）利用K-中心點法重新實施聚類，把新生成的聚類集中心點和孤立點再抽取到關(guān)鍵指標集數(shù)據(jù)庫中；

（4）重復(fù)（1）、（2）、（3）步，直到企業(yè)簇群C穩(wěn)定為止。

2 基于關(guān)聯(lián)規(guī)則挖掘構(gòu)建競爭力評價指標間關(guān)系

2.1 理論基礎(chǔ)

關(guān)聯(lián)規(guī)則挖掘是知識挖掘中最為重要的方法，主要在大量數(shù)據(jù)項集中發(fā)現(xiàn)有意義的關(guān)聯(lián)。其描述如下[6]：

設(shè)I是一個項集，其中的元素稱為項。設(shè)D是事務(wù)集，其中每個事務(wù)T是項的集合，即T?I。關(guān)聯(lián)規(guī)則的形式可表達為X?Y的蘊含式，其中X?I，Y?I，且X∩Y=Φ。其中support(X?Y)=P(X∪Y)表示規(guī)則X?Y在事務(wù)集D中的支持度，即D中包含X∪Y的百分比；confidence(X?Y)=P(Y|X)表示規(guī)則X?Y在事務(wù)集D中的置信度，即D中包含X∪Y的事務(wù)與包含X的事務(wù)數(shù)之比。同時滿足大于最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則；如果項集的出現(xiàn)頻率大于或等于最小支持度閾值與D中事務(wù)總數(shù)的乘積時，則稱該項集為頻繁項集。

Apriori算法是關(guān)聯(lián)規(guī)則挖掘技術(shù)的核心方法。其基本思想是將關(guān)聯(lián)規(guī)則挖掘分解為兩步：

（1）找出所有支持度大于最小支持度的項集，即頻繁項集；

（2）使用第（1）步找到的頻繁項集產(chǎn)生所期望的規(guī)則。

2.2 構(gòu)建思路

2.2.1 基于Apriori算法發(fā)現(xiàn)關(guān)鍵指標間的關(guān)系

（1）設(shè)I是關(guān)鍵指標集，其中的元素為影響企業(yè)成長的關(guān)鍵資源；D為企業(yè)集，其中每個事務(wù)是由I中元素的子集構(gòu)成；

（2）設(shè)定最小支持度閾值min_sup，找出所有支持度大于min_sup值的項集，確定頻繁項集；

（3）在頻繁項集中產(chǎn)生有意義的規(guī)則，即企業(yè)間關(guān)鍵指標間的關(guān)聯(lián)規(guī)則。

2.2.2 基于企業(yè)本體賦予關(guān)鍵指標間關(guān)系權(quán)值

指標間關(guān)系權(quán)值的大小代表著企業(yè)相互影響量的多少，其總和代表了產(chǎn)業(yè)集群的凝聚力的大小。在計算兩指標之間關(guān)系權(quán)值時，我們需要參照企業(yè)本體全局概念體系，考量兩指標之間的語義相似度，從純客觀的角度來考慮兩指標之間互相影響的大小。本體作為共享的概念模型的形式化的規(guī)范說明，已普遍應(yīng)用于計算機領(lǐng)域。企業(yè)本體描述了企業(yè)各方面的資源及活動、及其之間復(fù)雜網(wǎng)絡(luò)關(guān)系的概念體系。基于企業(yè)本體賦予關(guān)鍵指標間關(guān)系權(quán)值P的方法如下：

（1）統(tǒng)計頻繁項集中兩指標發(fā)生關(guān)聯(lián)的頻度N；

（2）參照企業(yè)本體概念體系，計算指標t1和t2之間的語義相似度，其公式[7]描述如下：

其中，兩指標 t1和 t2的相似度記為SimWord(t1，t2)，兩指標t1和t2在企業(yè)本體全局概念體系的語義距離記為Dis(t1，t2)，L1和 L2是 t1和 t2分別所處的層次，α是相似度為0.5時t1和t2之間的距離，α是一個可調(diào)節(jié)的參數(shù)，一般α＞0。（3）兩指標間關(guān)系權(quán)值P記為以下公式：

3 實證分析

武漢城市圈是指以武漢市為核心、半徑為100公里的城市群落，包括武漢市、黃石、孝感、黃岡、咸寧、仙桃、潛江及天門等8個城市。武漢城市圈是湖北品牌服裝、醫(yī)用紡織品、中高檔汽車內(nèi)飾面料、工業(yè)用布、家用紡織品等的集中產(chǎn)地和銷售地，各項經(jīng)濟指標占全省紡織服務(wù)業(yè)收益的2/3以上。其中漢川市馬口鎮(zhèn)形成了紡織、染紗、制線、織布、服裝、紡織機械和紡機配件等一條龍產(chǎn)業(yè)鏈；仙桃市澎湖鎮(zhèn)聚集了無紡布制品及其相關(guān)企業(yè)116家；武漢市江漢區(qū)和橋口區(qū)依托漢正街批發(fā)市場形成服裝產(chǎn)業(yè)集群等[8]。

實證分析的目的是隨機從武漢城市圈紡織服務(wù)產(chǎn)業(yè)集群中抽取130家企業(yè)為研究對象，其中包括30家龍頭企業(yè)，100家涉及供應(yīng)、生產(chǎn)、配件等中小企業(yè)，運用上述提出的K-中心點聚類法、關(guān)聯(lián)規(guī)則挖掘等知識挖掘方法和技術(shù)，找出影響該產(chǎn)業(yè)集群競爭力的關(guān)鍵評價指標和指標間的關(guān)系，構(gòu)建評價指標體系，并與GEM模型進行對比驗證該評價指標體系的有效性。

3.1 基于K-中心點聚類挖掘競爭力評價指標

3.1.1 K的確立

首先，在國內(nèi)外學者關(guān)于產(chǎn)業(yè)集群競爭力評價指標構(gòu)建的研究成果基礎(chǔ)上，我們選擇以下指標作為初始的競爭力評價指標，并形成[資源，成長]二維數(shù)據(jù)模式，如表1所示：

表1 初始競爭力評價指標

其次，根據(jù)[資源，成長]二維數(shù)據(jù)模式，依次畫出愛帝、紅人、佐美爾等企業(yè)在最近5年內(nèi)的[資源，成長]曲線圖，綜合評價每個資源對不同企業(yè)成長影響度，即曲線平滑度，并賦予影響權(quán)值。圖1表示的是某企業(yè)最近5年內(nèi)凈利潤指標對成長影響的曲線圖，其權(quán)值的大小為曲線中每個頂點夾角余玄之和，即cos450+cos150+cos300+cos450+cos(-150)=0.87。同理可以計算其它相關(guān)資源對該企業(yè)的影響大小，即權(quán)值。

圖1 凈利潤對企業(yè)影響力曲線圖

最后，計算最近5年內(nèi)每個企業(yè)各種資源增長量的加權(quán)平均，經(jīng)計算分析得出武漢城市圈紡織服裝產(chǎn)業(yè)大致形成5個數(shù)值區(qū)間，即定K值為5。

3.1.2 初始指標集的聚類和關(guān)鍵指標集的確立

根據(jù)K值，我們按照上述所提出的方法對企業(yè)群進行初始聚類，然后按照[資源，成長]曲線平滑度不斷移出對聚類結(jié)果中心點和邊緣點影響較大的資源因素，即為要找的關(guān)鍵指標，直到聚類結(jié)果形狀不再改變?yōu)橹埂D2是經(jīng)過CARROT2聚類工具三次重新聚類后形成的結(jié)果，可見武漢城市圈的紡織服裝產(chǎn)業(yè)集群已相當成熟，資源中心的改變對產(chǎn)業(yè)集群的影響不大。

2.1.3 關(guān)鍵指標間關(guān)系的確立和權(quán)值的賦予

首先，將帶有權(quán)值的關(guān)鍵指標集整理為有利于關(guān)聯(lián)規(guī)則挖掘算法實施的形式，為了表達方便將事務(wù)集進行標號，其部分數(shù)據(jù)集如表2所示：

其次，設(shè)min_sup為2，運用Apriori算法從上述事務(wù)—項集數(shù)據(jù)集中發(fā)現(xiàn)頻繁項集，并在領(lǐng)域?qū)＜业闹笇逻x擇出有意義的指標間關(guān)聯(lián)規(guī)則模式，從中可見指標間關(guān)系的產(chǎn)生可來自于企業(yè)內(nèi)部，也可以來自于不同企業(yè)中。其部分關(guān)聯(lián)規(guī)則模式集如表3所示：

表2 部分事務(wù)—項集數(shù)據(jù)集示例

表3 部分指標間關(guān)聯(lián)規(guī)則模式集

最后，參照企業(yè)本體全局概念體系，按照公式3計算指標間關(guān)系權(quán)值，并用基于本體的知識表示方式來表示，形成一個復(fù)雜的帶有語義權(quán)值標簽的網(wǎng)絡(luò)結(jié)構(gòu)。部分競爭力評價指標體系如圖3所示：

圖3 競爭力評價指標間關(guān)系示意圖

3.2 競爭力評價指標體系有效性檢驗

本文對基于上述知識挖掘方法構(gòu)建的競爭力評價指標體系與基于GEM模型的評價指標體系進行有效性對比研究，其基本思路如下：

（1）從武漢城市圈紡織服裝產(chǎn)業(yè)集群中隨機抽取60家企業(yè)作為評價數(shù)據(jù)集，避免與生成評價指標集的企業(yè)群訓練數(shù)據(jù)集重復(fù)；

（2）分別根據(jù)基于上述知識挖掘方法構(gòu)建的競爭力評價指標體系與基于GEM模型的評價指標體系，對60家企業(yè)相對應(yīng)的數(shù)據(jù)進行預(yù)處理，整理為（0，1）的數(shù)據(jù)形式；

（3）針對不同的評價指標集，分別對這60家企業(yè)評價數(shù)據(jù)集的相應(yīng)數(shù)據(jù)進行神經(jīng)網(wǎng)絡(luò)分類，對比分類結(jié)果的準確率，并在領(lǐng)域?qū)＜业闹笇拢u價不同指標集對評價集影響的有效性。其準確率表示為分類正確的企業(yè)簇占所有分類評價企業(yè)簇的大小，其計算公式[9]如下：

經(jīng)過上述步驟驗證了基于知識挖掘方法所構(gòu)建的競爭力評價指標體系要比基于GEM模型的評價指標體系更為有效。其準確率對比如表4所示：

表4 基于不同評價指標體系的神經(jīng)網(wǎng)絡(luò)分類結(jié)果對比

4 結(jié)論

（1）本文在國內(nèi)外研究成果的基礎(chǔ)上，運用知識挖掘等先進技術(shù)和方法構(gòu)建指標體系，在定量研究方面有一定的理論創(chuàng)新性。

（2）在指標間關(guān)系權(quán)值計算中，引入了參照企業(yè)本體全局概念體系計算指標間語義相似度，使指標體系的構(gòu)建上升到語義層次，提高了指標體系構(gòu)建的準確度。

（3）以武漢城市圈紡織服裝產(chǎn)業(yè)集群為研究對象進行實證分析，驗證了本文所提出基于知識挖掘的競爭力評價指標構(gòu)建方法，并運用神經(jīng)網(wǎng)絡(luò)分類方法與基于GEM模型的指標體系對比了其有效性。

[1]邁克·波特著，鄭海燕譯.簇群與新競爭經(jīng)濟學[J].經(jīng)濟社會體制比較，2000，（2）.

[2]Padmore T.，Gibson H.Modeling Systems of the Innovation：a Framework for Industrial Cluster Analysis in Region[J].Research Policy，1998，（26）.

[3]喻春光，劉友金.產(chǎn)業(yè)集群競爭力定量評價GEMN模型及其應(yīng)用[J].系統(tǒng)工程，2008，5（26）.

[4]蘇新寧等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京：清華大學出版社，2006.

[5]張玉峰，蔡皎潔.基于數(shù)據(jù)挖掘的Web文本語義分析與標注研究[J].情報理論與實踐，2010，2（33）.

[6]唐濤.基于文本挖掘的領(lǐng)域本體學習研究[D].武漢大學博士論文，2009.

[7]劉群，李素鍵.基于《知網(wǎng)》的詞匯語義相似度計算[C].Processing of Computer Linguistics and Chinese Language Processing，2002，（2）.

[8]彭繼漢.武漢城市圈紡織服裝業(yè)布局新思路[N].中國紡織報，2012-3-11（10）.

[9]楊學明.基于本體學習的個性化網(wǎng)頁推薦[J].情報雜志，2009，18（3）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡