蔡皎潔
(湖北工程學院,湖北 孝感 432000)
在產(chǎn)業(yè)集群競爭力評價研究中,評價指標體系的構(gòu)建顯得尤為重要,它的合理性及全面性直接影響了評價結(jié)果的準確率。國內(nèi)外學者在這方面做出了深入研究,其中波特最早提出了鉆石模型[1],隨后該模型被廣泛應(yīng)用于我國早期對產(chǎn)業(yè)集群競爭力定性評價中,該模型把社會需求狀況、相關(guān)的支持企業(yè)、要素狀況以及企業(yè)戰(zhàn)略、結(jié)構(gòu)和競爭者等要素作為產(chǎn)業(yè)集群評價的定性指標;Padmore和Gibson[2]在鉆石模型的基礎(chǔ)上提出了GEM模型,該模型把競爭力評價指標分為3組6個指標,分別是基礎(chǔ)組,包括資源與設(shè)施;企業(yè)組,包括供應(yīng)商和相關(guān)輔助產(chǎn)業(yè)、企業(yè)結(jié)構(gòu)、戰(zhàn)略和競爭;市場組,包括當?shù)厥袌龊屯獠渴袌觥N覈鴮W者喻春光和劉友金[3]在GEM模型的基礎(chǔ)上提出了GEMN模型,充分考慮了產(chǎn)業(yè)集群網(wǎng)絡(luò)對評價的影響,因此添加了網(wǎng)絡(luò)組,包括內(nèi)網(wǎng)和外網(wǎng)兩個因素。
從國內(nèi)外有關(guān)產(chǎn)業(yè)集群競爭力評價指標體系構(gòu)建研究現(xiàn)狀總結(jié)發(fā)現(xiàn):一是多數(shù)評價指標體系構(gòu)建的原理建立在鉆石模型和GEM模型基礎(chǔ)上,有其合理性;二是多數(shù)評價指標體系構(gòu)建仍缺乏定量化的科學指導和分析,構(gòu)建方法主要采用人為的、經(jīng)驗性的定性分析,且指標要素繁雜而重復(fù),增加了產(chǎn)業(yè)集群競爭力評價的復(fù)雜性和冗余性。本文提出了基于知識挖掘方法構(gòu)建產(chǎn)業(yè)集群競爭力評價指標體系的思路,為定量研究開辟了新的研究途徑。
K-中心點聚類法是典型的局域劃分的聚類方法,其基本的處理流程如下[4]:
(1)對待聚類的文本集D,確定要生成的簇的數(shù)目K;
(2)按照某種原則(可隨機)生成K個聚類中心作為聚類的初始中心點S={s1,...sj,...,sk};
(3)對D中的每一個文本di,依次計算它與各個中心點 sj的相似度 sim(di,sj);
(4)選取具有最大的相似度的中心點arg max sim(di,sj),將di歸入以sj為聚類中心的簇Cj,從而得到D的一個聚類C={c1,...,ck};
(5)重新確定每個簇的中心點;
(6)反復(fù)執(zhí)行步驟(3)到(5),直到中心點不再改變,文本不再重新被分配為止。
1.2.1 K的確立
K值的確定會影響聚類結(jié)果的精確度,本文將上述K-中心點文本聚類方法進行適當演繹用于產(chǎn)業(yè)集群競爭力評價指標的確定中,目的是針對目前大多數(shù)指標體系多而雜的情況,找出關(guān)鍵評價指標,確定產(chǎn)業(yè)集群邊緣。K值確定的思路如下:
(1)將待研究的產(chǎn)業(yè)集群中的每個企業(yè)看成一個文本di,產(chǎn)業(yè)群看成文本集D;
(2)在對國內(nèi)外學者構(gòu)建產(chǎn)業(yè)集群競爭力評價指標體系研究成果總結(jié)的基礎(chǔ)上,列出一組初始的競爭力評價指標,形成[資源,成長]二維模式,綜合對比不同企業(yè)在最近5年中各種競爭資源的成長曲線平滑度,并按照這些資源對企業(yè)成長影響的大小賦予權(quán)值;
(3)計算每個企業(yè)在5年內(nèi)各種資源成長量的加權(quán)平均,利用區(qū)間劃分方法來確定K的值。
1.2.2 初始指標集的聚類
用K-中心點法對初始指標集進行聚類,即完成在K個初始企業(yè)簇群區(qū)間中,重新實施聚類,并找出影響企業(yè)重新聚類的關(guān)鍵因素,這些因素就是最終確定的競爭力評價指標。其基本思路如下:
(1)在K個初始企業(yè)簇群區(qū)間中,找出作為企業(yè)聚類的中心種子S={s1,...,sj,...,sk},V(sj)=(W sj(d1),…,W sj(di),…,W sj(dn)),其中s代表資源,d代表企業(yè),V代表資源—企業(yè)矩陣,W代表資源對企業(yè)影響的權(quán)值;
(2)對每個資源因子ti,依次計算它與各個種子sj的相似度sim(ti,sj)。其中ti和sj之間的相似度可以用向量V(ti)和V(sj)的余弦來計算,其公式[5]描述如下:
(3)選取具有最大相似度的種子arg max sim(ti,sj),將ti歸入以sj為聚類中心的簇cj,從而得到初始指標集的聚類集C={c1,…,cj,…ck};
(4)重新確定每個簇的中心點;
(5)重復(fù)步驟(2)、(3)、(4),直到中心點不再改變?yōu)橹埂?/p>
1.2.3 關(guān)鍵指標集的確定
該過程其實是對初始指標集聚類不斷反復(fù)實施的過程。其基本思路如下:
(1)抽取簇cj的中心點和孤立點,并存入關(guān)鍵指標集數(shù)據(jù)庫中;
(2)打亂已形成的聚類集C,重新進行[資源,成長]二維模式的數(shù)值評估,重新確定K值;
(3)利用K-中心點法重新實施聚類,把新生成的聚類集中心點和孤立點再抽取到關(guān)鍵指標集數(shù)據(jù)庫中;
(4)重復(fù)(1)、(2)、(3)步,直到企業(yè)簇群C穩(wěn)定為止。
關(guān)聯(lián)規(guī)則挖掘是知識挖掘中最為重要的方法,主要在大量數(shù)據(jù)項集中發(fā)現(xiàn)有意義的關(guān)聯(lián)。其描述如下[6]:
設(shè)I是一個項集,其中的元素稱為項。設(shè)D是事務(wù)集,其中每個事務(wù)T是項的集合,即T?I。關(guān)聯(lián)規(guī)則的形式可表達為X?Y的蘊含式,其中X?I,Y?I,且X∩Y=Φ。其中support(X?Y)=P(X∪Y)表示規(guī)則X?Y在事務(wù)集D中的支持度,即D中包含X∪Y的百分比;confidence(X?Y)=P(Y|X)表示規(guī)則X?Y在事務(wù)集D中的置信度,即D中包含X∪Y的事務(wù)與包含X的事務(wù)數(shù)之比。同時滿足大于最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則;如果項集的出現(xiàn)頻率大于或等于最小支持度閾值與D中事務(wù)總數(shù)的乘積時,則稱該項集為頻繁項集。
Apriori算法是關(guān)聯(lián)規(guī)則挖掘技術(shù)的核心方法。其基本思想是將關(guān)聯(lián)規(guī)則挖掘分解為兩步:
(1)找出所有支持度大于最小支持度的項集,即頻繁項集;
(2)使用第(1)步找到的頻繁項集產(chǎn)生所期望的規(guī)則。
2.2.1 基于Apriori算法發(fā)現(xiàn)關(guān)鍵指標間的關(guān)系
(1)設(shè)I是關(guān)鍵指標集,其中的元素為影響企業(yè)成長的關(guān)鍵資源;D為企業(yè)集,其中每個事務(wù)是由I中元素的子集構(gòu)成;
(2)設(shè)定最小支持度閾值min_sup,找出所有支持度大于min_sup值的項集,確定頻繁項集;
(3)在頻繁項集中產(chǎn)生有意義的規(guī)則,即企業(yè)間關(guān)鍵指標間的關(guān)聯(lián)規(guī)則。
2.2.2 基于企業(yè)本體賦予關(guān)鍵指標間關(guān)系權(quán)值
指標間關(guān)系權(quán)值的大小代表著企業(yè)相互影響量的多少,其總和代表了產(chǎn)業(yè)集群的凝聚力的大小。在計算兩指標之間關(guān)系權(quán)值時,我們需要參照企業(yè)本體全局概念體系,考量兩指標之間的語義相似度,從純客觀的角度來考慮兩指標之間互相影響的大小。本體作為共享的概念模型的形式化的規(guī)范說明,已普遍應(yīng)用于計算機領(lǐng)域。企業(yè)本體描述了企業(yè)各方面的資源及活動、及其之間復(fù)雜網(wǎng)絡(luò)關(guān)系的概念體系。基于企業(yè)本體賦予關(guān)鍵指標間關(guān)系權(quán)值P的方法如下:
(1)統(tǒng)計頻繁項集中兩指標發(fā)生關(guān)聯(lián)的頻度N;
(2)參照企業(yè)本體概念體系,計算指標t1和t2之間的語義相似度,其公式[7]描述如下:
其中,兩指標 t1和 t2的相似度記為SimWord(t1,t2),兩指標t1和t2在企業(yè)本體全局概念體系的語義距離記為Dis(t1,t2),L1和 L2是 t1和 t2分別所處的層次,α是相似度為0.5時t1和t2之間的距離,α是一個可調(diào)節(jié)的參數(shù),一般α>0。(3)兩指標間關(guān)系權(quán)值P記為以下公式:
武漢城市圈是指以武漢市為核心、半徑為100公里的城市群落,包括武漢市、黃石、孝感、黃岡、咸寧、仙桃、潛江及天門等8個城市。武漢城市圈是湖北品牌服裝、醫(yī)用紡織品、中高檔汽車內(nèi)飾面料、工業(yè)用布、家用紡織品等的集中產(chǎn)地和銷售地,各項經(jīng)濟指標占全省紡織服務(wù)業(yè)收益的2/3以上。其中漢川市馬口鎮(zhèn)形成了紡織、染紗、制線、織布、服裝、紡織機械和紡機配件等一條龍產(chǎn)業(yè)鏈;仙桃市澎湖鎮(zhèn)聚集了無紡布制品及其相關(guān)企業(yè)116家;武漢市江漢區(qū)和橋口區(qū)依托漢正街批發(fā)市場形成服裝產(chǎn)業(yè)集群等[8]。
實證分析的目的是隨機從武漢城市圈紡織服務(wù)產(chǎn)業(yè)集群中抽取130家企業(yè)為研究對象,其中包括30家龍頭企業(yè),100家涉及供應(yīng)、生產(chǎn)、配件等中小企業(yè),運用上述提出的K-中心點聚類法、關(guān)聯(lián)規(guī)則挖掘等知識挖掘方法和技術(shù),找出影響該產(chǎn)業(yè)集群競爭力的關(guān)鍵評價指標和指標間的關(guān)系,構(gòu)建評價指標體系,并與GEM模型進行對比驗證該評價指標體系的有效性。
3.1.1 K的確立
首先,在國內(nèi)外學者關(guān)于產(chǎn)業(yè)集群競爭力評價指標構(gòu)建的研究成果基礎(chǔ)上,我們選擇以下指標作為初始的競爭力評價指標,并形成[資源,成長]二維數(shù)據(jù)模式,如表1所示:
表1 初始競爭力評價指標
其次,根據(jù)[資源,成長]二維數(shù)據(jù)模式,依次畫出愛帝、紅人、佐美爾等企業(yè)在最近5年內(nèi)的[資源,成長]曲線圖,綜合評價每個資源對不同企業(yè)成長影響度,即曲線平滑度,并賦予影響權(quán)值。圖1表示的是某企業(yè)最近5年內(nèi)凈利潤指標對成長影響的曲線圖,其權(quán)值的大小為曲線中每個頂點夾角余玄之和,即cos450+cos150+cos300+cos450+cos(-150)=0.87。同理可以計算其它相關(guān)資源對該企業(yè)的影響大小,即權(quán)值。
圖1 凈利潤對企業(yè)影響力曲線圖
最后,計算最近5年內(nèi)每個企業(yè)各種資源增長量的加權(quán)平均,經(jīng)計算分析得出武漢城市圈紡織服裝產(chǎn)業(yè)大致形成5個數(shù)值區(qū)間,即定K值為5。
3.1.2 初始指標集的聚類和關(guān)鍵指標集的確立
根據(jù)K值,我們按照上述所提出的方法對企業(yè)群進行初始聚類,然后按照[資源,成長]曲線平滑度不斷移出對聚類結(jié)果中心點和邊緣點影響較大的資源因素,即為要找的關(guān)鍵指標,直到聚類結(jié)果形狀不再改變?yōu)橹埂D2是經(jīng)過CARROT2聚類工具三次重新聚類后形成的結(jié)果,可見武漢城市圈的紡織服裝產(chǎn)業(yè)集群已相當成熟,資源中心的改變對產(chǎn)業(yè)集群的影響不大。
2.1.3 關(guān)鍵指標間關(guān)系的確立和權(quán)值的賦予
首先,將帶有權(quán)值的關(guān)鍵指標集整理為有利于關(guān)聯(lián)規(guī)則挖掘算法實施的形式,為了表達方便將事務(wù)集進行標號,其部分數(shù)據(jù)集如表2所示:
其次,設(shè)min_sup為2,運用Apriori算法從上述事務(wù)—項集數(shù)據(jù)集中發(fā)現(xiàn)頻繁項集,并在領(lǐng)域?qū)<业闹笇逻x擇出有意義的指標間關(guān)聯(lián)規(guī)則模式,從中可見指標間關(guān)系的產(chǎn)生可來自于企業(yè)內(nèi)部,也可以來自于不同企業(yè)中。其部分關(guān)聯(lián)規(guī)則模式集如表3所示:
表2 部分事務(wù)—項集數(shù)據(jù)集示例
表3 部分指標間關(guān)聯(lián)規(guī)則模式集
最后,參照企業(yè)本體全局概念體系,按照公式3計算指標間關(guān)系權(quán)值,并用基于本體的知識表示方式來表示,形成一個復(fù)雜的帶有語義權(quán)值標簽的網(wǎng)絡(luò)結(jié)構(gòu)。部分競爭力評價指標體系如圖3所示:
圖3 競爭力評價指標間關(guān)系示意圖
本文對基于上述知識挖掘方法構(gòu)建的競爭力評價指標體系與基于GEM模型的評價指標體系進行有效性對比研究,其基本思路如下:
(1)從武漢城市圈紡織服裝產(chǎn)業(yè)集群中隨機抽取60家企業(yè)作為評價數(shù)據(jù)集,避免與生成評價指標集的企業(yè)群訓練數(shù)據(jù)集重復(fù);
(2)分別根據(jù)基于上述知識挖掘方法構(gòu)建的競爭力評價指標體系與基于GEM模型的評價指標體系,對60家企業(yè)相對應(yīng)的數(shù)據(jù)進行預(yù)處理,整理為(0,1)的數(shù)據(jù)形式;
(3)針對不同的評價指標集,分別對這60家企業(yè)評價數(shù)據(jù)集的相應(yīng)數(shù)據(jù)進行神經(jīng)網(wǎng)絡(luò)分類,對比分類結(jié)果的準確率,并在領(lǐng)域?qū)<业闹笇拢u價不同指標集對評價集影響的有效性。其準確率表示為分類正確的企業(yè)簇占所有分類評價企業(yè)簇的大小,其計算公式[9]如下:
經(jīng)過上述步驟驗證了基于知識挖掘方法所構(gòu)建的競爭力評價指標體系要比基于GEM模型的評價指標體系更為有效。其準確率對比如表4所示:
表4 基于不同評價指標體系的神經(jīng)網(wǎng)絡(luò)分類結(jié)果對比
(1)本文在國內(nèi)外研究成果的基礎(chǔ)上,運用知識挖掘等先進技術(shù)和方法構(gòu)建指標體系,在定量研究方面有一定的理論創(chuàng)新性。
(2)在指標間關(guān)系權(quán)值計算中,引入了參照企業(yè)本體全局概念體系計算指標間語義相似度,使指標體系的構(gòu)建上升到語義層次,提高了指標體系構(gòu)建的準確度。
(3)以武漢城市圈紡織服裝產(chǎn)業(yè)集群為研究對象進行實證分析,驗證了本文所提出基于知識挖掘的競爭力評價指標構(gòu)建方法,并運用神經(jīng)網(wǎng)絡(luò)分類方法與基于GEM模型的指標體系對比了其有效性。
[1]邁克·波特著,鄭海燕譯.簇群與新競爭經(jīng)濟學[J].經(jīng)濟社會體制比較,2000,(2).
[2]Padmore T.,Gibson H.Modeling Systems of the Innovation:a Framework for Industrial Cluster Analysis in Region[J].Research Policy,1998,(26).
[3]喻春光,劉友金.產(chǎn)業(yè)集群競爭力定量評價GEMN模型及其應(yīng)用[J].系統(tǒng)工程,2008,5(26).
[4]蘇新寧等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學出版社,2006.
[5]張玉峰,蔡皎潔.基于數(shù)據(jù)挖掘的Web文本語義分析與標注研究[J].情報理論與實踐,2010,2(33).
[6]唐濤.基于文本挖掘的領(lǐng)域本體學習研究[D].武漢大學博士論文,2009.
[7]劉群,李素鍵.基于《知網(wǎng)》的詞匯語義相似度計算[C].Processing of Computer Linguistics and Chinese Language Processing,2002,(2).
[8]彭繼漢.武漢城市圈紡織服裝業(yè)布局新思路[N].中國紡織報,2012-3-11(10).
[9]楊學明.基于本體學習的個性化網(wǎng)頁推薦[J].情報雜志,2009,18(3).