趙芳(廣東農(nóng)工商職業(yè)技術(shù)學(xué)院圖書館,廣東廣州510507)
?
基于大數(shù)據(jù)的企業(yè)競爭情報分析方法研究
趙芳
(廣東農(nóng)工商職業(yè)技術(shù)學(xué)院圖書館,廣東廣州510507)
[摘要]概述了大數(shù)據(jù)的內(nèi)涵、特征以及大數(shù)據(jù)時代企業(yè)競爭情報面臨的機遇和挑戰(zhàn),企業(yè)競爭情報的獲取來源更豐富、有價值的競爭情報更多、競爭情報地位更受重視,企業(yè)競爭情報的安全存儲、準確獲取、處理分析更難。在此基礎(chǔ)上,提出基于大數(shù)據(jù)的企業(yè)競爭情報分析方法,該方法以數(shù)據(jù)來源為基礎(chǔ),通過借助Hadoop、Storm等分析工具,對數(shù)據(jù)進行加工處理,由專業(yè)情報分析人員得出企業(yè)競爭情報及對策。
[關(guān)鍵詞]大數(shù)據(jù)競爭情報數(shù)據(jù)分析分析方法
[分類號]G350
隨著信息技術(shù)的飛速發(fā)展,在物聯(lián)網(wǎng)、云計算、Web2.0等智能信息技術(shù)的推動下,催生了大數(shù)據(jù)時代的到來。據(jù)國際數(shù)據(jù)公司IDC的研究報告稱,2010年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.2ZB,預(yù)計到2020年全球?qū)碛?5ZB(1ZB=10 億TB)的數(shù)據(jù)量[1],大數(shù)據(jù)時代也是信息爆炸時代,是信息革命的又一個里程碑,將會產(chǎn)生多種多樣的數(shù)據(jù)和信息,并對企業(yè)競爭情報的理論和實踐帶來新的挑戰(zhàn)和機遇。
1.1大數(shù)據(jù)概念
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)智能技術(shù)和社交媒體以及電子商務(wù)等網(wǎng)絡(luò)平臺的快速發(fā)展,使世界變得越來越小,人們足不出戶就能如愿購買物美價廉的商品,還能監(jiān)視街頭商場的違法行為、實現(xiàn)遠程辦公管理等。這些先進技術(shù)極大地方便了人們的生活體驗的同時也產(chǎn)生了大量的數(shù)據(jù)和數(shù)據(jù)類型。2011年10月,麥肯錫在《大數(shù)據(jù):創(chuàng)新競爭和提高生產(chǎn)率的下一個新領(lǐng)域》的研究報告里正式使用大數(shù)據(jù)一詞,并提出大數(shù)據(jù)時代已經(jīng)到來[2]。大數(shù)據(jù)(Big data),也稱巨量數(shù)據(jù)、海量數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)達到截取、管理、處理并整理成為人類所能解讀的信息。
1.2大數(shù)據(jù)特征
大數(shù)據(jù)不僅數(shù)據(jù)量大,而且數(shù)據(jù)類型也很多,增長速度也很快,總之大數(shù)據(jù)的特征包括4個V,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
大量是指數(shù)據(jù)量規(guī)模巨大。當今互聯(lián)網(wǎng)如此發(fā)達,計算機、智能手機、平板電腦等智能終端普及度如此之高,人與人之間的交流不再局限于電話傳真和郵寄信件,而更多的是通過電子郵件或?qū)崟r網(wǎng)上聊天工具,甚至是微博等社交工具;且交流不僅局限于親朋好友等熟人之間,即使陌生人之間也能通過網(wǎng)絡(luò)發(fā)表各自的看法,這些交流就產(chǎn)生了巨大的數(shù)據(jù)量。
高速是指數(shù)據(jù)的增長速度很快。隨著人們生活水平的大幅提高,各種掌上智能終端如此便捷,網(wǎng)上消費產(chǎn)生的交易數(shù)據(jù)呈指數(shù)級增長。街道商場、小區(qū)住宅等公共場所及私人場所安裝的視頻或聲音監(jiān)控設(shè)備,每天記錄的大量聲像數(shù)據(jù)隨著人流量的增加迅猛增大。大數(shù)據(jù)時代,數(shù)據(jù)平均每年增長59%,即每兩年翻一番。
多樣指的是數(shù)據(jù)的種類很多。除了傳統(tǒng)的文本、圖片、視頻、音頻等外,還包括鏈接、位置信息等新型數(shù)據(jù)類型。可以把大數(shù)據(jù)的數(shù)據(jù)類型概括為交易數(shù)據(jù)、交互數(shù)據(jù)和感知數(shù)據(jù)等[3],其中交易數(shù)據(jù)是指電子商務(wù)產(chǎn)生的與金融往來相關(guān)的數(shù)據(jù);交互數(shù)據(jù)是指微博、微信、QQ等社交網(wǎng)絡(luò)媒體產(chǎn)生的數(shù)據(jù);感知數(shù)據(jù)是指物聯(lián)網(wǎng)、智能終端設(shè)備中的傳感器、智能芯片感知到的溫度、濕度、地理位置信息等數(shù)據(jù)。
價值是指價值密度低。雖然數(shù)據(jù)量很大,但有價值的信息是有限的,有價值的信息占比下降,即信息的價值密度較低。尤其是交互數(shù)據(jù)中具有價值的信息很少,比如微博、微信等社交工具中的跟貼、轉(zhuǎn)發(fā)、評論等很多都是情緒的宣泄或者跟風(fēng)等無意識的行為,不具有任何價值。雖然很多數(shù)據(jù)看似沒有價值,但大數(shù)據(jù)的價值往往是隨著時間的推移或事態(tài)的發(fā)展而慢慢顯現(xiàn)出來,因此大數(shù)據(jù)具有巨大的潛在價值。
2.1存在的機遇
①更加豐富的競爭情報來源
信息技術(shù)的飛速發(fā)展,使得競爭情報來源更加豐富,這些來源可概括為3大類。第一類是交易數(shù)據(jù),包括網(wǎng)上購物產(chǎn)生的大量訂單信息、交易記錄,通過互聯(lián)網(wǎng)繳納水電費、寬帶費等生活便民服務(wù)產(chǎn)生的交易信息,網(wǎng)上購買股票、期貨等理財產(chǎn)品產(chǎn)生的大數(shù)據(jù)。第二類是交互數(shù)據(jù),包括QQ、微博、微信、Twitter、Facebook等社交網(wǎng)絡(luò)產(chǎn)生的大量評論、轉(zhuǎn)發(fā)或新產(chǎn)品的發(fā)布信息、數(shù)字圖書館、地理信息導(dǎo)航系統(tǒng)[4],企業(yè)員工登錄管理系統(tǒng)查詢或發(fā)布信息產(chǎn)生的大量內(nèi)網(wǎng)數(shù)據(jù),客戶登錄客戶關(guān)系管理系統(tǒng)進行咨詢或意見反饋產(chǎn)生的交流互動數(shù)據(jù)。第三類是感知數(shù)據(jù),包括智能公交系統(tǒng)中的GPS芯片產(chǎn)生的地理位置信息,智能家居中智能傳感器產(chǎn)生的溫度、濕度、亮度、氧氣指數(shù)等信息。
②更有價值的競爭情報
來自互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的各種新型數(shù)據(jù)從不同角度反映著企業(yè)競爭對手、企業(yè)客戶、競爭環(huán)境等方方面面的競爭情報,通過處理海量的情報數(shù)據(jù),有益于企業(yè)挖掘潛在商機,獲得有利的競爭優(yōu)勢。比如:通過分析大量的交易記錄,能幫助企業(yè)對貿(mào)易風(fēng)險進行評估,做好交易審核、防范欺詐、控制風(fēng)險;通過分析社交媒體各個主題板塊的熱門話題,能隨時跟蹤廣大民眾的最新關(guān)注重點,如最愛的美食、最近旅游地點、最時尚的服飾等,有益于企業(yè)及時抓住消費者的口味,滿足客戶需求;通過智能芯片獲取公交車或出租車GPS信息能知道它們所處的地理位置,方便乘客跟蹤車輛,及時出行;通過調(diào)取監(jiān)控攝像頭監(jiān)控的數(shù)據(jù)有益于相關(guān)部門懲治犯罪。
③更受重視的競爭情報地位
大數(shù)據(jù)時代數(shù)據(jù)的來源更多,數(shù)據(jù)的價值也逐漸凸顯,使得企業(yè)必須更加重視收集有用的數(shù)據(jù),并把他們轉(zhuǎn)化為有利于商業(yè)競爭的競爭情報。各行各業(yè)的發(fā)展都離不開數(shù)據(jù),包括傳統(tǒng)的文本數(shù)據(jù)或半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等。通過分析數(shù)據(jù)能了解自身也能了解競爭對手,做到知己知彼百戰(zhàn)百勝。比如,在企業(yè)之間的競爭如此激烈的環(huán)境下,如果沒有及時掌握原材料市場報價數(shù)據(jù),就不能節(jié)約成本,從而失去競爭優(yōu)勢;如果盲目抬高商品價格,致使高出競爭對手的價格很多,則會失去市場占有率。為了保持可持續(xù)的市場競爭力,企業(yè)必須通過市場調(diào)研和分析等手段時刻把握消費者的需求、競爭對手的動向、競爭環(huán)境的發(fā)展趨勢。
2.2面臨的挑戰(zhàn)
①競爭情報的安全存儲
企業(yè)的運作會產(chǎn)生大量的數(shù)據(jù),包括市場交易數(shù)據(jù)、財務(wù)經(jīng)濟數(shù)據(jù)、技術(shù)研發(fā)數(shù)據(jù)、科技成果數(shù)據(jù)、客戶信息數(shù)據(jù)等,甚至包括員工之間溝通交流的數(shù)據(jù),這些數(shù)據(jù)中有可能蘊含著重大的競爭情報,必須妥善保存,否則就會泄露商業(yè)秘密。競爭情報的安全存儲包括使用云存儲、移動硬盤等可靠的存儲工具,同時最好能采取雙重保險的方式,加大對重要信息保存的安全性。除此之外,還要注意人員的保密工作,一方面禁止員工通過網(wǎng)絡(luò)發(fā)布任何與工作相關(guān)的信息,另一方面對于重要的數(shù)據(jù)要控制知道的人員數(shù)量,越少人知道越保密。
②競爭情報的準確獲取
數(shù)據(jù)的來源很廣,數(shù)據(jù)類型繁多,必須要經(jīng)過嚴格的過濾、去偽求實、去假存真,因此企業(yè)準確獲取所需信息變得很難。面對紛繁復(fù)雜的數(shù)據(jù)獲取渠道,應(yīng)把所需數(shù)據(jù)的獲取渠道縮小至有限的若干個,而不是盲目地大海撈針,這樣才能事半功倍。比如,應(yīng)選取相應(yīng)的專利數(shù)據(jù)庫及成果數(shù)據(jù)庫獲得競爭對手的技術(shù)成果情況,應(yīng)選取相應(yīng)的標準數(shù)據(jù)庫了解行業(yè)的技術(shù)標準和規(guī)范等。此外,企業(yè)必須要投入大量的資源,全面收集消費者需求、顧客購買行為、競爭對手動向、供貨商等微觀數(shù)據(jù)和市場環(huán)境、金融環(huán)境、政府政策等宏觀數(shù)據(jù),為企業(yè)決策提供支持。
③競爭情報的處理分析
數(shù)據(jù)規(guī)模如此龐大、數(shù)據(jù)種類如此繁多,要想獲得有用的競爭情報,必須對大數(shù)據(jù)進行適當?shù)奶幚矸治?。其中最重要的就是?shù)據(jù)清洗,剔除無關(guān)的、不重要的數(shù)據(jù);并對數(shù)據(jù)進行相關(guān)分類劃分,按數(shù)據(jù)相關(guān)性程度對其排序,建立相關(guān)模型,對數(shù)據(jù)進行技術(shù)路徑分析、關(guān)聯(lián)分析、聚類分析等,挖掘有用的競爭情報。此外,傳統(tǒng)的數(shù)據(jù)分析技術(shù)不能對非結(jié)構(gòu)化數(shù)據(jù)直接進行處理分析,目前大多數(shù)情況是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)再進行數(shù)據(jù)處理[5],這樣就丟失了非結(jié)構(gòu)化數(shù)據(jù)之間的隱含關(guān)系,而這些關(guān)系有可能是非常重要的情報來源,因此要求行業(yè)專家有較強的數(shù)據(jù)辨別能力。
3.1體系框架
大數(shù)據(jù)時代,企業(yè)的生態(tài)環(huán)境發(fā)生了巨大變化,大量而復(fù)雜的數(shù)據(jù)考驗著競爭情報系統(tǒng)數(shù)據(jù)處理能力和數(shù)據(jù)分析能力[6]?;诖髷?shù)據(jù)的企業(yè)競爭情報分析方法體系包括4個層次,第一層是數(shù)據(jù)獲取,第二層是數(shù)據(jù)處理,第三層是數(shù)據(jù)分析,第四層是情報綜合。
數(shù)據(jù)獲取包括獲取交易數(shù)據(jù)、交互數(shù)據(jù)和感知數(shù)據(jù),這些數(shù)據(jù)具有實時性、動態(tài)性和關(guān)聯(lián)性的特點。如微博、微信、GPS信息、傳感器等數(shù)據(jù)隨著時間、空間的變化快速、連續(xù)地發(fā)生變化,必須獲取不同時間點的序列數(shù)據(jù),才能獲得數(shù)據(jù)的連續(xù)變化規(guī)律,預(yù)測數(shù)據(jù)發(fā)展趨勢,有利于企業(yè)挖掘商機。
數(shù)據(jù)處理過程中,由于數(shù)據(jù)量龐大,必須借助數(shù)據(jù)處理工具,對大量數(shù)據(jù)進行加工、組織、整理等。除了采用傳統(tǒng)的Excel、MATLAB等對數(shù)據(jù)進行統(tǒng)計分析、歸類、排序之外,還要開發(fā)新的處理軟件,以應(yīng)對大量的云數(shù)據(jù)和視頻、音頻、鏈接等非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)分析是分析方法的關(guān)鍵步驟,一方面要借助于Hadoop、HPCC、Storm、RapidMiner等各種專業(yè)的分析工具,提高工作效率;另一方面要求專業(yè)的分析人員不僅擅長使用各種數(shù)據(jù)分析工具,還要具有敏感的數(shù)據(jù)分析能力,找準切入點,對數(shù)據(jù)做出關(guān)聯(lián)分析、比較分析、聚類分析等。
數(shù)據(jù)處理、分析之后,需要專業(yè)的情報人員對分析的數(shù)據(jù)結(jié)果進行綜合、提煉,幫助企業(yè)分析與宏觀環(huán)境、競爭對手、自身發(fā)展相關(guān)的競爭情報。此外,還應(yīng)提出下一步的戰(zhàn)略規(guī)劃,制定相對于外部環(huán)境的應(yīng)對策略,鞏固自身已有優(yōu)勢,尋找新的競爭優(yōu)勢,獲取有利競爭地位。
3.2分析工具
大數(shù)據(jù)是一個龐雜的數(shù)據(jù)集,包括了各種類型的數(shù)據(jù),選擇適當?shù)姆治龉ぞ吣軒硪庀氩坏降姆治鲂Ч韵聻?種大數(shù)據(jù)分析工具。
①Hadoop:能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理,維護多個工作數(shù)據(jù)副本,在節(jié)點之間動態(tài)地移動數(shù)據(jù),采用并行工作方式,能夠處理PB級數(shù)據(jù),處理速度快;②Storm:一個分布式的、可擴展、容錯的實時計算系統(tǒng),可以處理龐大的數(shù)據(jù)流,支持多種編程語言,具備實時分析和不停頓的計算等應(yīng)用能力,應(yīng)用企業(yè)包括Groupon、淘寶、支付寶和阿里巴巴等;③RapidMiner:數(shù)據(jù)挖掘解決方案,可實現(xiàn)高維數(shù)據(jù)的可視化建模與多層次的數(shù)據(jù)視圖,免費提供數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)庫;④Apache Drill:有助于Hadoop用戶更快查詢海量數(shù)據(jù)集,分析抓取Web文檔、垃圾郵件等;⑤Pentaho BI:以流程為中心,將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等組件集成起來以便商務(wù)智能應(yīng)用的開發(fā),Pentaho的主要組成元素包括報表生成、分析、數(shù)據(jù)挖掘和工作流管理等;⑥HPCC(高性能計算與通信):包括高性能計算機系統(tǒng)(HPCS)、先進軟件技術(shù)與算法(ASTA)、信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用(IITA)等,內(nèi)容有巨大挑戰(zhàn)問題的軟件支撐、新算法設(shè)計、軟件分支與工具及高性能計算研究中心等。
3.3數(shù)據(jù)分析方法
數(shù)據(jù)分析方法很多,總體來講可以概括為定性分析法、定量分析法和定性與定量結(jié)合分析法。按照邏輯思維劃分,基本的數(shù)據(jù)分析方法包括:①比較分析法:定性和定量比較、靜態(tài)和動態(tài)比較、縱向和橫向比較、全面和局部比較、宏觀和微觀比較等;②歸納分析法:引證分析、關(guān)系分析、完全和不完全歸納、科學(xué)歸納法等;③解析分析法:因果分析、相關(guān)分析、統(tǒng)計分析等;④綜合分析法(系統(tǒng)分析法):概念分析、模型分析、求同和求異分析、系統(tǒng)動力、層次分析、灰色系統(tǒng)理論法等;⑤演繹分析法:公理演繹分析、假說演繹分析、定律演繹分析、理論演繹分析法等;⑥假設(shè)分析法;⑦聯(lián)想分析法?;谶壿嬎季S體系劃分的數(shù)據(jù)分析法適用于各類競爭情報分析,包括基于大數(shù)據(jù)的企業(yè)競爭情報分析。
3.4大數(shù)據(jù)情報分析隊伍
要想把大數(shù)據(jù)轉(zhuǎn)化為企業(yè)競爭情報,就必須建立專業(yè)的大數(shù)據(jù)情報分析隊伍,在人力、物力和財力等方面給予充分支持。
首先,需培養(yǎng)高級情報分析師。在競爭情報分析的整個過程都需要專業(yè)的情報分析人士,情報分析師是大數(shù)據(jù)分析方法的主導(dǎo)者及整個分析過程的決策者。高級情報分析師不僅要對大數(shù)據(jù)的多種來源了如指掌,準確找出所需情報的數(shù)據(jù)獲取渠道,還要熟練運用Hadoop、Storm等各種數(shù)據(jù)處理分析工具,對數(shù)據(jù)及數(shù)據(jù)之間的關(guān)系高度敏感,善于挖掘數(shù)據(jù)之間隱含的關(guān)聯(lián)關(guān)系,這樣才能幫助企業(yè)在大量的數(shù)據(jù)中挖掘出有價值的競爭情報。麥肯錫全球研究所的一項調(diào)查預(yù)測,在未來6年內(nèi),僅美國就可能面臨缺少14~19萬擁有扎實分析技能的人才這一窘勢,而且缺少懂得使用相應(yīng)工具分析大數(shù)據(jù)、作出合理決策的150萬管理和分析人員[7]。
其次,需配備相應(yīng)信息挖掘技術(shù)及分析工具。大數(shù)據(jù)競爭情報分析的整個生命周期包括數(shù)據(jù)產(chǎn)生、數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析和情報產(chǎn)生5個階段,每個階段都涉及相關(guān)的信息挖掘技術(shù)。大數(shù)據(jù)的產(chǎn)生來源于物聯(lián)網(wǎng)及互聯(lián)網(wǎng)等智能信息技術(shù),大數(shù)據(jù)的獲取來源于各種門戶網(wǎng)站、檢索數(shù)據(jù)庫及平臺等,而數(shù)據(jù)的處理和分析也需要各種大數(shù)據(jù)處理分析軟件,最后專家情報分析軟件有助于情報的產(chǎn)生。信息挖掘技術(shù)與分析工具是如此重要,作為企業(yè)競爭情報分析隊伍應(yīng)配備相應(yīng)數(shù)據(jù)檢索平臺、相關(guān)的數(shù)據(jù)處理工具等資源,才能滿足企業(yè)競爭情報的需求。
再次,需投入大量資金支持。培養(yǎng)情報分析師方面,聘請高級情報分析師,需要高額的薪資;從企業(yè)內(nèi)部培養(yǎng)本領(lǐng)域高級情報分析師,需要付費對其提供全面的專業(yè)培訓(xùn),學(xué)習(xí)非結(jié)構(gòu)化數(shù)據(jù)分析的專業(yè)技能,比如對社交媒體的情感分析、視頻及音頻等復(fù)雜數(shù)據(jù)的處理分析。信息挖掘技術(shù)和分析工具方面,需購買或者研發(fā)高效的信息挖掘和分析工具,從音頻、視頻和符號數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)中挖掘有潛在價值的競爭情報。因此,無論是培養(yǎng)高級情報分析師還是配備相應(yīng)信息挖掘技術(shù)及分析工具,都需要大量資金支持。
當今時代,商業(yè)環(huán)境的競爭如此激烈,企業(yè)要想長久地生存下去,就必須時刻保持警惕,做好企業(yè)競爭情報工作,知己知彼,以便獲取較大競爭優(yōu)勢。大數(shù)據(jù)時代是信息技術(shù)飛速發(fā)展的必然產(chǎn)物,大數(shù)據(jù)時代對企業(yè)競爭情報工作提出了新的挑戰(zhàn),也提供了新的機遇。面對新的挑戰(zhàn),必須采取適當?shù)臄?shù)據(jù)分析方法,運用高效的數(shù)據(jù)處理與分析工具,才能高效地挖掘企業(yè)的商業(yè)競爭情報。
參考文獻:
[1]大數(shù)據(jù)時代:0和1的“生活大爆炸”[EB/OL].[2012-07-12].http://www.d1net.com/news/hyxg/88955.html.
[2] Big data:The next frontier for innovation,competition,and productivity[EB/OL]. [2012-06-15].http://www.mckinsey. com/insights/mgi/research/technology_and_innovation/big_ data_the_next_frontier_for_innovation.
[3]吳金紅,張飛,鞠秀芳.大數(shù)據(jù):企業(yè)競爭情報的機遇挑戰(zhàn)及對策研究[J].情報雜志,2013(1):5-9.
[4]黃曉斌,鐘輝新.大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展[J].圖書與情報,2012(6):9-14.
[5]劉高勇,汪會玲,吳金紅.大數(shù)據(jù)時代的競爭情報發(fā)展動向探析[J].圖書情報知識,2013(2):105-111.
[6]黃曉斌,鐘輝新.基于大數(shù)據(jù)的企業(yè)競爭情報系統(tǒng)模型構(gòu)建[J].情報雜志,2013(3):37-43.
[7]大數(shù)據(jù)時代人才需求,你能符合要求嗎?[EB/OL].[2012-08-15].http://tech.hexun.com/2012-01-16/137296418.html.
趙芳女,1979年生。本科學(xué)歷,館員。研究方向:讀者服務(wù)、數(shù)字圖書館。
收稿日期:(2014-09-17;責編:王天泥。)