国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA主題模型的制造業(yè)選址新聞案例研究

2019-09-10 07:22陳瑤徐磊徐天騁
上海管理科學(xué) 2019年3期
關(guān)鍵詞:選址制造業(yè)

陳瑤 徐磊 徐天騁

摘 要: 選取2011—2016年國(guó)內(nèi)外主流媒體關(guān)于跨國(guó)企業(yè)生產(chǎn)布局與研發(fā)中心選址的新聞報(bào)道為樣本,經(jīng)過篩選、分類、編碼后形成307篇新聞案例,建立新聞案例庫(kù)。運(yùn)用LDA主題分析法,分別對(duì)制造業(yè)在中國(guó)的選址案例、工廠與研發(fā)中心案例、電子產(chǎn)品與汽車業(yè)案例進(jìn)行主題挖掘,獲取影響其選址決策的關(guān)鍵因素。

關(guān)鍵詞: 制造業(yè);選址;新聞案例;LDA

中圖分類號(hào): C 93

文獻(xiàn)標(biāo)志碼: A

Abstract: In this paper, we collect news from domestic and foreign mainstream media on multinational corporations′ layout of production and location of R&D centers from 2011 to 2016 as samples. After screening, classification and coding, 307 news cases were formed and a case library of news was established. Through the method of LDA Topic Model, the news cases of manufacturing location in China, factory and R&D center location, electronics and the automotive industry are mined, and we obtain the key factors that affect the location decision.

Key words: manufacturing; location; news case; LDA

1 文獻(xiàn)綜述

1.1 制造業(yè)選址相關(guān)研究

對(duì)于制造企業(yè)而言,選址屬于最為重要的長(zhǎng)期決策之一,研發(fā)中心或是工廠的選址是建立、運(yùn)營(yíng)、管理企業(yè)的開始。企業(yè)選址的正確與否往往會(huì)直接影響服務(wù)的方式、效率、質(zhì)量和成本等,進(jìn)而左右企業(yè)的利潤(rùn)、市場(chǎng)份額和市場(chǎng)競(jìng)爭(zhēng)力。而影響企業(yè)選址的因素錯(cuò)綜復(fù)雜,國(guó)家區(qū)域政策、交通、環(huán)境等都會(huì)對(duì)企業(yè)選址決策產(chǎn)生影響,故企業(yè)的選址是很多企業(yè)都面臨的經(jīng)營(yíng)管理中的一個(gè)重要問題,也是國(guó)內(nèi)外學(xué)者的重點(diǎn)研究方向。

任慧娟等通過盈虧分析法、因素評(píng)分法、重心法等方式來進(jìn)行設(shè)施選址,并總結(jié)出了市場(chǎng)條件、原材料供應(yīng)條件、交通運(yùn)輸條件、動(dòng)力、能源和水的供應(yīng)條件、氣候條件、環(huán)境保護(hù)等6個(gè)影響制造業(yè)選址的因素;梁琦通過建立空間經(jīng)濟(jì)學(xué)模型,考察運(yùn)輸成本、交流成本和地方稅收政策對(duì)企業(yè)工廠選址的共同作用;鄔珊華等基于雙層規(guī)劃模型對(duì)制造業(yè)選址布局優(yōu)化方法進(jìn)行了研究,并以中國(guó)鋼鐵產(chǎn)業(yè)的選址為例證明其有效性。

1.2 LDA主題建模方法

LDA (Latent Dirichlet Allocation)主題模型由 David M Blei提出,屬于自然語(yǔ)言處理中主題挖掘的典型模型,是一個(gè)基于概率圖的三層貝葉斯概率生成模型。LDA 主題模型的主要思想是假設(shè)文檔集中的每個(gè)文檔均由多個(gè)主題混合而成,每個(gè)主題是固定詞表上多個(gè)詞匯的多項(xiàng)式分布,目的在于采用高效的概率推斷算法處理大規(guī)模數(shù)據(jù),從文本語(yǔ)料庫(kù)中抽取潛在的主題,提供一個(gè)量化研究主題的方法。該方法目前已經(jīng)被廣泛應(yīng)用到各類主題發(fā)現(xiàn)中,如熱點(diǎn)挖掘、主題演化、趨勢(shì)預(yù)測(cè)等。

王樹義等提出用LDA識(shí)別主題對(duì)競(jìng)爭(zhēng)企業(yè)新聞文本進(jìn)行挖掘,可以及時(shí)感知重要的新聞動(dòng)態(tài)。周娜等將LDA 模型運(yùn)用到學(xué)術(shù)文獻(xiàn)的研究中,提取文獻(xiàn)研究主題,進(jìn)而發(fā)現(xiàn)研究?jī)?nèi)容與研究方法之間的關(guān)系。熊回香等以LDA為基礎(chǔ),對(duì)微博用戶進(jìn)行主題分析,較準(zhǔn)確地描述了用戶的微博特征。

本文將LDA主題建模方法應(yīng)用到制造業(yè)選址新聞文本挖掘中,通過對(duì)新聞文本主題的提取,來研究制造業(yè)企業(yè)建設(shè)工廠、研發(fā)中心選址的關(guān)鍵因素。

2 研究方法

2.1 數(shù)據(jù)收集

本文以“企業(yè)選址”“制造業(yè)選址”“研發(fā)中心選址”等為關(guān)鍵詞,針對(duì)近年來制造業(yè)選址類新聞,搜集了 2011—2016 年國(guó)內(nèi)外主流媒體集中報(bào)道的大量跨國(guó)企業(yè)生產(chǎn)布局與研發(fā)中心選址的新聞報(bào)道,同時(shí)通過一些現(xiàn)有的新聞采集系統(tǒng),如八爪魚、火車頭等網(wǎng)頁(yè)采集軟件,共獲得新聞案例307篇,包括多家知名跨國(guó)企業(yè)的180次生產(chǎn)決策、130 次研發(fā)決策的案例。

文章根據(jù)內(nèi)容將新聞案例分為3類,以固定格式編號(hào),并采取utf-8編碼保存在案例庫(kù)中。分類如下:(1)制造業(yè)企業(yè)選址在中國(guó)的案例共計(jì)149 篇,其中選擇來中國(guó)建造工廠的共計(jì) 68 篇,研發(fā)中心共計(jì) 82 篇,其中博世-西門子家用電器有限公司在長(zhǎng)沙同時(shí)建了新的研發(fā)中心和工廠,故各計(jì)一篇;(2)按企業(yè)建造目標(biāo)的職能進(jìn)行分類,涉及工廠建造的共計(jì) 180 篇,研發(fā)中心建造的共計(jì) 130 篇,因部分案例同時(shí)建造工廠和研發(fā)中心,故計(jì)數(shù)有重復(fù);(3)按案例內(nèi)容所處的行業(yè)進(jìn)行劃分,案例數(shù)過少的行業(yè)存在較強(qiáng)的不確定性,故對(duì)汽車行業(yè)89篇、電子產(chǎn)品行業(yè)84篇進(jìn)行分析。

2.2 LDA主題挖掘

本文的整體研究思路如圖1所示:

新聞采集后,首先對(duì)文本進(jìn)行預(yù)處理,去除與企業(yè)選址不相關(guān)的內(nèi)容,如新聞案例中的信息來源、作者信息、報(bào)道的時(shí)間、文中的圖片與數(shù)字等,然后對(duì)文本進(jìn)行中文分詞、去除停用詞,使文本成為可供挖掘的對(duì)象,最后將處理好的文本輸入LDA模型,進(jìn)行主題抽取。LDA主題建模問題的關(guān)鍵在于主題數(shù)的確定,本文通過人為調(diào)試主題數(shù)量,使之達(dá)到困惑度最低。同時(shí),通過比較各主題的強(qiáng)度,來尋找新聞案例庫(kù)中制造業(yè)選址的關(guān)鍵因素。

3 實(shí)證分析

3.1 數(shù)據(jù)的描述性統(tǒng)計(jì)

3.1.1 案例的地區(qū)分布

如圖2所示,中國(guó)以接近4成的占比成為主要的工廠建設(shè)國(guó),美國(guó)、東南亞各國(guó)以接近20%的占比緊隨其后。相對(duì)而言,印度、拉美、南美以及日韓各國(guó)的工廠建設(shè)案例則較少。這個(gè)結(jié)果不僅體現(xiàn)了中國(guó)世界工廠的傳統(tǒng)地位,同時(shí)也反映了東南亞以及印度因其較低的生產(chǎn)成本逐漸成為制造業(yè)企業(yè)工廠選址的新寵,而歐美作為工業(yè)強(qiáng)國(guó)仍占據(jù)一定地位。

3.1.2 案例的行業(yè)分布

如圖3所示,新聞案例庫(kù)中的企業(yè)涉及快速消費(fèi)品制造業(yè)、機(jī)械/電氣設(shè)備制造、計(jì)算機(jī)/電子通信、汽車制造業(yè)、化工業(yè)、耐用消費(fèi)品制造業(yè)、生物醫(yī)藥與醫(yī)療器械制造等 7大類行業(yè)。其中,汽車、電子通信行業(yè)較多。

3.2 LDA主題建模結(jié)果

將處理過的文本數(shù)據(jù)輸入LDA主題模型,本文使用python機(jī)器學(xué)習(xí)工具包scikit-learn中的LDA函數(shù)進(jìn)行參數(shù)訓(xùn)練。設(shè)定文檔–主題分布θ的參數(shù)α為0.1, 主題–詞分布的參數(shù)β為0.01, 迭代次數(shù)iter為1000,選擇Gibbs Sampling估計(jì)模型的后驗(yàn)參數(shù)。本文首先將主題數(shù)設(shè)定為3~8,并對(duì)每一類中的特征詞分布概率進(jìn)行分析。研究發(fā)現(xiàn),在中國(guó)選址的案例、建設(shè)工廠和研發(fā)中心的案例,如圖4所示,當(dāng)主題數(shù)設(shè)為5時(shí),模型的困惑度較低,特征詞擁有較高的概率分布,主題也有了較好的區(qū)分度,模型對(duì)于選址影響因素的主題涵蓋度較高。

3.3 結(jié)果分析

3.3.1 在中國(guó)選址的因素分析

將LDA主題模型運(yùn)用于選址在中國(guó)的全部案例、工廠案例、研發(fā)案例這三種情況。從各分類的案例中提取出5個(gè)主題并計(jì)算其主題強(qiáng)度,以及與各主題相關(guān)的前10位特征詞。以表1為例,根據(jù)設(shè)定呈現(xiàn)了5個(gè)主題,每個(gè)主題有自己的主題強(qiáng)度,反映了該主題在該分類中的概率分布,主題強(qiáng)度越高權(quán)重越大,即更常被提及,可見在該表格中第4個(gè)主題的主題強(qiáng)度即概率分布最高。接下來,每個(gè)主題下羅列了10個(gè)與主題最為緊密相關(guān)的特征詞,LDA主題模型本身不會(huì)定義主題,需要通過特征詞進(jìn)行歸納。

在中國(guó)進(jìn)行投資的原因主要在于中國(guó)政府的支持程度,其分布概率超過21.9%,可見中國(guó)近年來不斷進(jìn)行招商引資的舉措取得了較好的效果。同時(shí),產(chǎn)業(yè)鏈布局、全球化戰(zhàn)略、中國(guó)的技術(shù)水平和廣闊的市場(chǎng)前景,也是企業(yè)選址中國(guó)的重要因素。除了制造業(yè)企業(yè)都非??粗刂袊?guó)的市場(chǎng)需求以外,選擇來華建廠更看重的是上下游產(chǎn)業(yè)鏈的布局以及政府出臺(tái)的政策;而研發(fā)中心的建設(shè)則更多考量的是當(dāng)?shù)氐目萍佳邪l(fā)水平以及科研院所的合作意向。

3.3.2 工廠與研發(fā)中心案例選址因素分析

在這一部分本文將LDA主題模型運(yùn)用于制造業(yè)企業(yè)選擇建設(shè)工廠和研發(fā)中心的兩類案例中,尋找選址因素。

由表4可見,企業(yè)興建工廠最重視的因素是成本,分布概率超過26.4%,根據(jù)特征詞可以發(fā)現(xiàn)該主題主要包括勞動(dòng)力成本和關(guān)稅。同時(shí),當(dāng)?shù)貥I(yè)務(wù)的需求以及占領(lǐng)市場(chǎng)的戰(zhàn)略也是企業(yè)納入考量范圍的因素,如果當(dāng)?shù)厣舷掠喂?yīng)鏈基礎(chǔ)較為完備,則更有利于吸引工廠入駐。而研發(fā)中心更看重當(dāng)?shù)氐募夹g(shù)水平以及人才的豐富程度,其分布概率都超過20%,高素質(zhì)勞動(dòng)力顯然更具有吸引力??傮w而言,工廠和研發(fā)中心選址的因素區(qū)分較明顯,與在中國(guó)進(jìn)行選址的案例結(jié)論較為接近,也符合本文對(duì)于這兩者選址考慮因素的一般認(rèn)識(shí)。

3.3.3 電子產(chǎn)品與汽車行業(yè)案例選址因素分析

據(jù)統(tǒng)計(jì),案例的行業(yè)分布主要集中于電子產(chǎn)品和汽車制造兩個(gè)行業(yè),分別占總案例數(shù)的30%左右,而其余行業(yè)案例較少,故本文針對(duì)這兩個(gè)行業(yè)進(jìn)行分析。

首先,依舊運(yùn)用LDA主題模型尋找選址因素。與之前不同的是,實(shí)驗(yàn)結(jié)果顯示當(dāng)主題數(shù)設(shè)為6時(shí),主題之間有更好的區(qū)分程度。

4 結(jié)論與不足

通過收集、分析知名制造企業(yè)的 307 項(xiàng)生產(chǎn)、研發(fā)決策的相關(guān)案例,對(duì)制造企業(yè)工廠選址和研發(fā)中心選址的影響因素有了比較清晰的了解。成本和市場(chǎng)需求依舊是工廠投資最為看重的因素,輔以政策上的支持以及供應(yīng)鏈的完善能夠最有效地吸引制造業(yè)企業(yè)投資建廠。對(duì)于研發(fā)中心而言,先進(jìn)的技術(shù)水平、優(yōu)秀的研發(fā)人才是企業(yè)最為看重的因素,輔以良好的市場(chǎng)前景和穩(wěn)定的投資環(huán)境將會(huì)有利于研發(fā)中心的落地。

本文的不足之處在于案例庫(kù)研究不可避免在樣本上有局限以及主觀性。首先,樣本量越大越有助于結(jié)果的真實(shí)可靠,而本文的案例庫(kù)構(gòu)建主要基于百度、搜狐、新浪等新聞門戶網(wǎng)站并最終得到了307篇案例,樣本量不足。其次,本文的新聞案例主要集中在中國(guó),國(guó)外的案例較少。

在后續(xù)研究中,本文將依托最新的自然語(yǔ)言處理技術(shù),增加新聞案例庫(kù)的樣本量以及來源,提高文本分析的精確度,進(jìn)一步挖掘新聞報(bào)道中潛在的價(jià)值信息。

參考文獻(xiàn):

[1] 梁琦,丁樹,王如玉. 總部集聚和工廠選址[J]. 經(jīng)濟(jì)學(xué)(季刊), 2012, 11(3):1137-1166.

[2] 任慧娟. 服務(wù)業(yè)和制造業(yè)的設(shè)施選址方法[J]. 知識(shí)經(jīng)濟(jì), 2012(8): 15-16.

[3] 阮光冊(cè). 基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J]. 情報(bào)雜志, 2014(3).

[4] 楊星,李保利,金明舉. 基于LDA模型的研究領(lǐng)域熱點(diǎn)及趨勢(shì)分析[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2012(10):66-69.

[5] BLEI D M, ANDREW Y N G, MICHAEL I J. Latent dirichlet allocation [J] . Journal of Machine Learning Research, 2003(3): 993-1022.

[6] BLEI D M, LAFFERTY J D. A correlated topic model of science[J]. Correction to Annals of Applied Statistics, 2007,1(1): 17-35.

[7] 曾利,李自力,譚躍. 進(jìn)基于動(dòng)態(tài)LDA的科研文獻(xiàn)主題演化分析[J]. 軟件, 2014(5):102-107.

[8] 王樹義,廖樺濤,吳查科.基于情感分類的競(jìng)爭(zhēng)企業(yè)新聞文本主題挖掘[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(3):70-78.

[9] 周娜,李秀霞,高丹.基于LDA主題模型的"作者-內(nèi)容-方法"多重共現(xiàn)分析——以圖書情報(bào)學(xué)為例[J].情報(bào)理論與實(shí)踐, 2019(2):1-9.

[10] 熊回香,葉佳鑫.基于LDA主題模型的微博標(biāo)簽生成研究[J].情報(bào)科學(xué),2018,36(10):7-12.

[11] 楊海霞,高寶俊,孫含林.基于LDA挖掘計(jì)算機(jī)科學(xué)文獻(xiàn)的研究主題[J].現(xiàn)代圖書情報(bào)技術(shù),2016(11):20-26.

[12] DING Y. Topic-based page rank on author cocitation networks[J]. Journal of the Association for Information Science and Technology, 2011, 62(3):449-466.

[13] 賀亮,李芳. 基于話題模型的科技文獻(xiàn)話題發(fā)現(xiàn)與趨勢(shì)分析[D]. 上海:上海交通大學(xué), 2012.

猜你喜歡
選址制造業(yè)
2019長(zhǎng)三角制造業(yè)企業(yè)100強(qiáng)
2018上海民營(yíng)制造業(yè)企業(yè)100強(qiáng)
關(guān)于場(chǎng)地因素影響下滑道結(jié)構(gòu)的分析
2016上海民營(yíng)制造業(yè)企業(yè)50強(qiáng)排行榜
2016上海制造業(yè)企業(yè)100強(qiáng)排行榜
西安市商業(yè)綜合體布局規(guī)劃初探
保障性住房選址問題分析及選址建議
商業(yè)地產(chǎn)選址評(píng)價(jià)體系構(gòu)建與實(shí)例分析
基于GIS的銀行網(wǎng)點(diǎn)布局系統(tǒng)的設(shè)計(jì)與開發(fā)
基于GIS購(gòu)物中心選址分析系統(tǒng)的設(shè)計(jì)與開發(fā)
甘谷县| 万盛区| 晋宁县| 嵩明县| 东至县| 体育| 镇平县| 镇江市| 齐河县| 中江县| 砚山县| 佛学| 南皮县| 肇州县| 徐闻县| 隆子县| 旺苍县| 泰州市| 阳高县| 白山市| 文水县| 民勤县| 阜阳市| 巴青县| 景德镇市| 延寿县| 阳西县| 木里| 晋江市| 清镇市| 涿州市| 常熟市| 汝州市| 从江县| 晋州市| 南靖县| 呼和浩特市| 青浦区| 吉水县| 宁波市| 新乐市|