国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

產(chǎn)業(yè)集群知識圖譜構(gòu)建方法研究

2022-07-10 14:36:44范存慶余軍合戰(zhàn)洪飛
科技與經(jīng)濟(jì) 2022年3期
關(guān)鍵詞:集群圖譜實(shí)體

范存慶 余軍合 戰(zhàn)洪飛 王 瑞

(寧波大學(xué)機(jī)械工程與力學(xué)學(xué)院,浙江 寧波 315211)

產(chǎn)業(yè)集群是推動區(qū)域經(jīng)濟(jì)發(fā)展的重要形式,產(chǎn)業(yè)集群中包含企業(yè)、人員、機(jī)構(gòu)等眾多主體,各主體之間都有直接或間接的復(fù)雜關(guān)系,構(gòu)成龐大的網(wǎng)絡(luò)結(jié)構(gòu)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,通過獲取產(chǎn)業(yè)集群相關(guān)數(shù)據(jù),構(gòu)建產(chǎn)業(yè)集群網(wǎng)絡(luò)結(jié)構(gòu),從微觀的角度研究產(chǎn)業(yè)集群的發(fā)展規(guī)律,更能詳細(xì)研究產(chǎn)業(yè)集群的內(nèi)部演化規(guī)律。知識圖譜是研究網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的有效工具,其本質(zhì)是一個能對現(xiàn)實(shí)世界中事物之間的關(guān)系進(jìn)行直觀映射的語義網(wǎng)絡(luò),可以利用知識圖譜理論方法來研究產(chǎn)業(yè)集群的內(nèi)部結(jié)構(gòu)。知識圖譜作為大數(shù)據(jù)技術(shù)的重要組成部分,現(xiàn)在已經(jīng)被廣泛應(yīng)用[1]。

車金立等構(gòu)建了軍事裝備知識圖譜,用于實(shí)現(xiàn)軍事裝備領(lǐng)域的知識問答[2];在煤礦安全領(lǐng)域,劉鵬等將知識圖譜結(jié)合Lattice LSTM模型和語義相似度計(jì)算,提出了一種自然語言知識查詢方法,從而提高了煤礦安全信息資源整合[3];杜志強(qiáng)等圍繞自然災(zāi)害事件、災(zāi)害應(yīng)急任務(wù)等4個要素,結(jié)合本體建模方法和條件隨機(jī)場模型構(gòu)建了洪澇災(zāi)害應(yīng)急知識圖譜,根據(jù)數(shù)據(jù)關(guān)聯(lián),實(shí)現(xiàn)對相關(guān)數(shù)據(jù)節(jié)點(diǎn)的推薦應(yīng)用,為提高自然災(zāi)害應(yīng)急響應(yīng)研究提供了理論方法基礎(chǔ)[4];Rotmensch等提出了一種使用基本概念從大規(guī)模電子病歷中提取醫(yī)學(xué)信息并自動構(gòu)建高質(zhì)量健康知識圖譜的方法[5];Fang等將計(jì)算機(jī)視覺算法和本體模型相結(jié)合,開發(fā)出建筑安全知識圖譜,可依照安全法規(guī)自動識別建筑工地的安全隱患[6];Xiao等采用BiLSTM+CRF模型從大量文獻(xiàn)中提取氣象模擬知識并結(jié)合Neo4j圖數(shù)據(jù)庫構(gòu)建氣象模擬知識圖譜,實(shí)現(xiàn)氣象模擬知識的結(jié)構(gòu)化存儲和集成[7]。

本文選取寧波地區(qū)的注塑機(jī)產(chǎn)業(yè)集群作為研究對象,提出構(gòu)建產(chǎn)業(yè)集群知識圖譜的整體框架,構(gòu)建產(chǎn)業(yè)集群本體模型,并從互聯(lián)網(wǎng)平臺獲取數(shù)據(jù),構(gòu)建注塑機(jī)產(chǎn)業(yè)集群知識圖譜,探索產(chǎn)業(yè)集群知識圖譜的應(yīng)用。

1 產(chǎn)業(yè)集群知識圖譜整體框架設(shè)計(jì)

產(chǎn)業(yè)集群相關(guān)數(shù)據(jù)包括企業(yè)基本信息、專利信息、產(chǎn)品信息和人員需求信息等,這些數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),良莠不齊且數(shù)據(jù)量大,并非所有數(shù)據(jù)都可以用于構(gòu)建知識圖譜。因此構(gòu)建產(chǎn)業(yè)集群知識圖譜需要先明確產(chǎn)業(yè)集群的本體模型,根據(jù)建模結(jié)果從海量的數(shù)據(jù)中抽取相應(yīng)的實(shí)體和關(guān)系,構(gòu)建產(chǎn)業(yè)集群知識圖譜。本文提出的整體框架如圖1所示。

圖1 產(chǎn)業(yè)集群知識圖譜整體框架圖

數(shù)據(jù)獲取與預(yù)處理:數(shù)據(jù)的來源主要有天眼查之類的企業(yè)信息網(wǎng)站、企業(yè)專利庫及招聘網(wǎng)站等,通過數(shù)據(jù)挖掘等手段進(jìn)行獲取,并對獲取數(shù)據(jù)進(jìn)行預(yù)處理,為信息抽取做準(zhǔn)備。

本體建模和知識抽?。好鞔_集群中企業(yè)、人員、產(chǎn)品等實(shí)體的屬性以及各個實(shí)體之間的關(guān)系,構(gòu)建產(chǎn)業(yè)集群的本體模型;根據(jù)本體模型從已有數(shù)據(jù)中抽取相關(guān)的企業(yè)實(shí)體、產(chǎn)品實(shí)體,同時(shí)抽取實(shí)體關(guān)系,構(gòu)建知識圖譜。

知識存儲和可視化:在將數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上,抽取實(shí)體及其屬性以及關(guān)系,構(gòu)造“實(shí)體-關(guān)系-實(shí)體”三元組。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫難以直觀描述這種三元組關(guān)系,因此本文選用圖數(shù)據(jù)庫Neo4j存儲知識圖譜三元組。Neo4j可以直觀反應(yīng)實(shí)體之間的關(guān)系,并且利用Cypher圖數(shù)據(jù)庫查詢語句可以對知識圖譜進(jìn)行高效的增刪改查。

知識圖譜應(yīng)用:產(chǎn)業(yè)集群知識圖譜從數(shù)據(jù)層面描述了產(chǎn)業(yè)集群的物理關(guān)系。通過知識圖譜圖結(jié)構(gòu)分析方法和深度學(xué)習(xí)方法,對產(chǎn)業(yè)集群相關(guān)問題進(jìn)行研究。

2 產(chǎn)業(yè)集群知識圖譜構(gòu)建

研究選擇自頂向下的構(gòu)建方式,先構(gòu)建產(chǎn)業(yè)集群本體模型,再根據(jù)模型從數(shù)據(jù)中抽取相關(guān)實(shí)體和關(guān)系。

2.1 產(chǎn)業(yè)集群知識圖譜本體建模

產(chǎn)業(yè)集群知識圖譜建模側(cè)重于構(gòu)建知識圖譜的本體模型,明確產(chǎn)業(yè)集群知識圖譜中出現(xiàn)的實(shí)體概念和關(guān)系,實(shí)體概念可以理解為實(shí)體的類,關(guān)系是指對象之間的二元關(guān)系。其中實(shí)體概念一共包括6個:企業(yè)、人員、產(chǎn)品、地區(qū)、知識資源和科研院校。

企業(yè)類實(shí)體概念。企業(yè)是產(chǎn)業(yè)集群的主體,定義企業(yè)實(shí)體概念為{label;name;size;address;industry;time},中括號中是該實(shí)體的屬性。其中l(wèi)abel代表此類實(shí)體類別,比如“企業(yè)”;name代表企業(yè)名稱,比如“富**機(jī)械制造有限公司”;size代表企業(yè)規(guī)模,選取企業(yè)參保人數(shù)作為企業(yè)規(guī)模的衡量標(biāo)準(zhǔn);address代表企業(yè)所屬地區(qū),比如“北侖區(qū)”;industry代表企業(yè)所屬行業(yè),比如“通用設(shè)備制造業(yè)”;time代表企業(yè)成立時(shí)間,單位是年,如“2013”。

產(chǎn)品類實(shí)體概念。產(chǎn)品是產(chǎn)業(yè)集群經(jīng)營活動的體現(xiàn),也是產(chǎn)業(yè)集群的主體之一,定義產(chǎn)品實(shí)體概念為{label;name;class;frequency;function;price}。其中l(wèi)abel代表此類實(shí)體的類別,如“產(chǎn)品”;name代表產(chǎn)品名稱,如“注塑機(jī)”;class代表產(chǎn)品類別,如“生產(chǎn)設(shè)備”;frequency代表產(chǎn)品在集群中出現(xiàn)的頻次;function代表產(chǎn)品功能,如“加工塑料制品”;price代表產(chǎn)品價(jià)格。

人員類實(shí)體概念。人員是產(chǎn)業(yè)集群中知識資源的載體,將人員實(shí)體概念定義為{label;age;sex;education;skill;post}。其中l(wèi)abel代表此類實(shí)體的類別;age代表人員年齡;sex代表人員性別;education代表人員學(xué)歷;skill代表人員技能;post代表人員崗位。人員類概念分為法人、研究人員及職工。

其他實(shí)體概念。地區(qū)類實(shí)體概念主要描述空間信息,用于關(guān)聯(lián)企業(yè)業(yè)務(wù)活動。知識資源類實(shí)體概念主要描述產(chǎn)業(yè)集群的技術(shù)層面信息,包括專利、論文和技能等??蒲性盒n悓?shí)體概念是集群中區(qū)別于企業(yè)的另一類機(jī)構(gòu)實(shí)體,是論文等知識資源的主要輸出單元。

在對產(chǎn)業(yè)集群知識圖譜中的實(shí)體概念進(jìn)行建?;A(chǔ)上,需要對實(shí)體間關(guān)系進(jìn)行建模。關(guān)系包括實(shí)體間的二元關(guān)系以及實(shí)體和屬性之間的關(guān)系。由于產(chǎn)業(yè)集群數(shù)據(jù)中有大部分結(jié)構(gòu)化數(shù)據(jù),其中的關(guān)聯(lián)關(guān)系比較明確,方便對關(guān)系進(jìn)行建模。結(jié)合前述步驟所建模的實(shí)體類概念,使用protégé工具構(gòu)建出完整的產(chǎn)業(yè)集群知識圖譜模式層及其實(shí)體類概念、實(shí)體關(guān)系和實(shí)體屬性如圖2、圖3所示。

圖2 產(chǎn)業(yè)集群知識圖譜模式層概念關(guān)系

圖3 產(chǎn)業(yè)集群知識圖譜模式層概念及其關(guān)系

2.2 實(shí)體抽取和關(guān)系抽取

在本體建模基礎(chǔ)上,可以從已有的數(shù)據(jù)中抽取相關(guān)的實(shí)體和關(guān)系,組成三元組,構(gòu)建知識圖譜。

企業(yè)實(shí)體及其關(guān)系抽?。浩髽I(yè)基本信息主要存儲在結(jié)構(gòu)化數(shù)據(jù)中,由于結(jié)構(gòu)化數(shù)據(jù)質(zhì)量較高,具有規(guī)范的模式,對于結(jié)構(gòu)化數(shù)據(jù)采用直接映射和基于規(guī)則的抽取方式。根據(jù)知識圖譜建模部分所構(gòu)建的企業(yè)本體模型,從數(shù)據(jù)庫中提取“企業(yè)名稱”字段作為name屬性,“參保人數(shù)”字段作為size屬性,“所屬區(qū)縣”字段作為address屬性,“所屬行業(yè)”字段作為industry屬性,“成立日期”字段作為time屬性,一共抽取到1 958個企業(yè)實(shí)體,部分“企業(yè)”實(shí)體數(shù)據(jù)如表1所示。

表1 企業(yè)實(shí)體數(shù)據(jù)(部分)

企業(yè)-企業(yè)關(guān)系的地理臨近由企業(yè)地址計(jì)算得出,經(jīng)過數(shù)據(jù)預(yù)處理階段,每一個企業(yè)的地址都是唯一的,可以在地圖上準(zhǔn)確定位。結(jié)合百度地圖開發(fā)平臺API,將企業(yè)地址轉(zhuǎn)換為經(jīng)緯度進(jìn)而計(jì)算出企業(yè)之間的相對距離,計(jì)算公式為:

(1)

計(jì)算出所有企業(yè)兩兩之間的距離之后,將距離小于500m的兩個企業(yè)設(shè)定為具有“地理臨近”關(guān)系,并且將實(shí)際距離設(shè)置為該關(guān)系的權(quán)重。表2為部分企業(yè)關(guān)系數(shù)據(jù)。

表2 企業(yè)間關(guān)系數(shù)據(jù)(部分)

產(chǎn)品實(shí)體抽取:產(chǎn)品信息主要存儲在非結(jié)構(gòu)化文本中,然而由于這部分?jǐn)?shù)據(jù)沒有規(guī)范模式,因此使用BERT+BiLSTM+CRF模型進(jìn)行實(shí)體識別。該模型有3個模塊組成,第一個模塊是BERT模塊,負(fù)責(zé)將輸入的文本轉(zhuǎn)換成字向量輸入到下一模塊;第二層是BiLSTM模塊,負(fù)責(zé)提取上下文語義特征并將結(jié)果輸入第三模塊;第三模塊是CRF,負(fù)責(zé)對第二模塊輸出結(jié)果進(jìn)行解碼,對輸入文本進(jìn)行序列標(biāo)注。

將文本輸入該模型之前,需要先對文本進(jìn)行標(biāo)注,目前,常見的中文標(biāo)注體系有三種:BMES、BIO和BIOES,本文采用的是BIO標(biāo)注體系。標(biāo)注對象是文本中的產(chǎn)品名稱,B-PRO代表命名實(shí)體開始的字符,I-PRO代表命名實(shí)體剩余的字符,O代表非命名實(shí)體的字符。

選取了1 000家企業(yè)的經(jīng)營范圍文本數(shù)據(jù)進(jìn)行標(biāo)注,訓(xùn)練該模型。標(biāo)注方法采用自動化標(biāo)注和人工標(biāo)注相結(jié)合的方式,最終一共標(biāo)注了3 698個句子,將已標(biāo)注的數(shù)據(jù)集按照7∶3的比例劃分為訓(xùn)練集和測試集。實(shí)驗(yàn)評價(jià)指標(biāo)采用準(zhǔn)確率P,召回率R和F1值進(jìn)行實(shí)體識別的效果評價(jià)。為了對比該模型的效果,選取BiLSTM+CRF模型和Word2Vec+BiLSTM+CRF模型進(jìn)行對比實(shí)驗(yàn),結(jié)果如表3所示。

表3 實(shí)驗(yàn)結(jié)果對比

結(jié)果證明BERT+BiLSTM+CRF在實(shí)體識別中效果較好。最終通過該模型抽取產(chǎn)品實(shí)體859個,以企業(yè)為單位將抽取到的產(chǎn)品名稱存儲在結(jié)構(gòu)化數(shù)據(jù)中,并統(tǒng)計(jì)所有產(chǎn)品在所有企業(yè)出現(xiàn)的頻次,基于構(gòu)建的產(chǎn)品實(shí)體模型創(chuàng)建產(chǎn)品節(jié)點(diǎn),其中產(chǎn)品名稱作為name屬性,產(chǎn)品頻次作為frequency屬性。

企業(yè)-產(chǎn)品和產(chǎn)品-產(chǎn)品關(guān)系抽取:通過分詞發(fā)現(xiàn),企業(yè)和產(chǎn)品之間的關(guān)系包括“制造”“批發(fā)”“提供”3種。因此,產(chǎn)品和企業(yè)的關(guān)系采用直接映射的方式構(gòu)建,其中“制造”“批發(fā)”兩個關(guān)鍵詞在對企業(yè)經(jīng)營范圍文本進(jìn)行分詞時(shí)保留,然后直接與抽取到的產(chǎn)品進(jìn)行匹配,構(gòu)建“企業(yè)-制造/批發(fā)-產(chǎn)品”三元組。對于服務(wù)類型的產(chǎn)品,比如“倉儲”“貨物運(yùn)輸”等,和企業(yè)的關(guān)系為“提供”,構(gòu)建“企業(yè)-提供-產(chǎn)品”三元組。

將兩種產(chǎn)品出現(xiàn)在同一家企業(yè)的共現(xiàn)關(guān)系定義為產(chǎn)品-產(chǎn)品關(guān)系,關(guān)系名稱為“同屬于”。此外,構(gòu)建產(chǎn)品的共現(xiàn)矩陣,比如“注塑機(jī)”和“塑料制品”在一家企業(yè)同時(shí)出現(xiàn)則計(jì)數(shù)1,如果在另一家企業(yè)又同時(shí)出現(xiàn)則計(jì)數(shù)加1,將兩種產(chǎn)品的共現(xiàn)頻次經(jīng)過歸一化后的數(shù)值作為“同屬于”關(guān)系的權(quán)重,權(quán)重越大,產(chǎn)品關(guān)聯(lián)越強(qiáng),反之越弱。

2.3 知識融合

由于數(shù)據(jù)來源多樣,存在同一個實(shí)體在不同數(shù)據(jù)源中表述不一致的問題,造成實(shí)體冗余,降低了知識圖譜的質(zhì)量。為解決這一問題,需要進(jìn)行實(shí)體對齊。針對不同實(shí)體使用基于匹配規(guī)則和基于相似度兩種方式進(jìn)行實(shí)體對齊。對于企業(yè)實(shí)體,使用基于匹配規(guī)則的知識融合,即建立企業(yè)名稱庫,將抽取的實(shí)體統(tǒng)一匹配到名稱庫中,將表述統(tǒng)一。

對于產(chǎn)品實(shí)體,由于產(chǎn)品數(shù)量多,而且同一產(chǎn)品的表述遠(yuǎn)不止兩種,因此提出基于語義相似度的知識融合。使用BERT輸出的產(chǎn)品詞向量,計(jì)算兩個產(chǎn)品向量的余弦相似度,計(jì)算公式為:

(2)

其中x,y為兩個詞的詞向量,計(jì)算出的余弦相似度越接近1,兩個詞越相似,越接近0,兩個詞越不相似。本文設(shè)置語義相似度的閾值為0.7,即余弦相似度大于等于0.7的詞判定為相似詞,將兩者對應(yīng)的實(shí)體進(jìn)行融合。

經(jīng)過知識融合,最終構(gòu)建的圖譜一共有實(shí)體2 596個,包括“企業(yè)”和“產(chǎn)品”;關(guān)系38 965個,包括“地理臨近”“制造”“批發(fā)”“提供”“同屬于”。將所有三元組全部存入Neo4j數(shù)據(jù)庫中,其部分結(jié)果可視化結(jié)果如圖4所示。

圖4 產(chǎn)業(yè)集群知識圖譜(局部)

3 產(chǎn)業(yè)集群知識圖譜分析

企業(yè)之間的業(yè)務(wù)配套往往和地理位置的臨近緊密關(guān)聯(lián),即在地理位置上臨近的企業(yè)之間有較多的業(yè)務(wù)往來,反之,有較多業(yè)務(wù)往來的企業(yè)地理位置較臨近。企業(yè)之間的業(yè)務(wù)往來可以從產(chǎn)品體現(xiàn)。

注塑機(jī)生產(chǎn)企業(yè)涉及的行業(yè)較多,上游企業(yè)包括鋼材、冶金鑄造等機(jī)械類零部件生產(chǎn)加工行業(yè),以及液壓零件、電子儀器儀表、電子元器件等傳動類和控制類零部件加工行業(yè)。下游企業(yè)則包括塑料建材、汽車配件、家用電器和物流、包裝材料以及其他普通塑料制品行業(yè)。

使用Cypher圖數(shù)據(jù)庫查詢語言可以精確查詢節(jié)點(diǎn)和關(guān)系信息,如圖5所示。選取“富**機(jī)械制造公司”為例,查詢其2跳關(guān)系的節(jié)點(diǎn)及關(guān)系,可以發(fā)現(xiàn)作為主機(jī)廠,“富**機(jī)械制造公司”周邊分布著物流公司,下游業(yè)務(wù)公司比如塑料制品企業(yè),以及上游公司比如機(jī)械零件制造企業(yè),整個集群依托地理位置臨近形成,可以看出它們的相對位置充分利用了地理環(huán)境優(yōu)勢,方便開展企業(yè)業(yè)務(wù),各個企業(yè)之間的業(yè)務(wù)相互配套,形成制造系統(tǒng)。

圖5 注塑機(jī)某主機(jī)廠地理臨近企業(yè)分布

4 總結(jié)與展望

本文將知識圖譜和產(chǎn)業(yè)集群相結(jié)合,通過獲取互聯(lián)網(wǎng)平臺中企業(yè)相關(guān)數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理、知識圖譜建模、知識抽取和知識融合構(gòu)建了寧波市注塑機(jī)產(chǎn)業(yè)集群知識圖譜,并將其存入Neo4j圖數(shù)據(jù)庫,使用Cypher圖數(shù)據(jù)庫查詢語言查詢注塑機(jī)主機(jī)廠周邊企業(yè),發(fā)現(xiàn)集群依托地理臨近形成業(yè)務(wù)配套。

本文提出了產(chǎn)業(yè)集群知識圖譜構(gòu)建的整體框架,構(gòu)建了產(chǎn)業(yè)集群知識圖譜本體模型,并用注塑機(jī)集群驗(yàn)證其可行性,但目前所構(gòu)建的知識圖譜由于數(shù)據(jù)的不全,構(gòu)建不夠全面,知識節(jié)點(diǎn)粒度較大,僅是宏觀層面的產(chǎn)業(yè)集群知識圖譜。接下來將要收集更多數(shù)據(jù),豐富該圖譜,構(gòu)建產(chǎn)業(yè)集群技術(shù)層面、人員層面等多維度知識圖譜,將本體模型所涉及的實(shí)體和關(guān)系補(bǔ)全,進(jìn)一步研究企業(yè)的各個方面的關(guān)聯(lián)性。

猜你喜歡
集群圖譜實(shí)體
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:40
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
勤快又呆萌的集群機(jī)器人
浪卡子县| 红原县| 泰安市| 安阳县| 江陵县| 南皮县| 湾仔区| 房山区| 汤阴县| 安国市| 嵊州市| 小金县| 塔城市| 调兵山市| 嘉鱼县| 清丰县| 岳阳市| 越西县| 崇州市| 永顺县| 六安市| 乌审旗| 永宁县| 夏邑县| 霍林郭勒市| 汕尾市| 普兰店市| 永济市| 长垣县| 科尔| 湖北省| 通州区| 龙山县| 济源市| 米脂县| 怀安县| 奉化市| 崇州市| 永顺县| 临安市| 福州市|