王毅+李晶偉
摘 要:隨著大數據研究逐漸深入,企業(yè)創(chuàng)新決策越來越依賴于數據分析,而企業(yè)檔案數據資源為企業(yè)這一決策提供了數據基礎。因此,在此背景下企業(yè)檔案管理中運用大數據分析方法具有重要性意義。本文詳細的闡述了數據質量管理、可視化分析、語義引擎、數據挖掘、趨勢預測分析等五種大數據分析方法在企業(yè)檔案管理中的應用及注意問題。
關鍵詞:大數據分析方法;企業(yè)檔案管理;檔案數據資源;企業(yè)創(chuàng)新決策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprises these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我國政府發(fā)布了《促進大數據發(fā)展行動綱要》,旨在促進大數據和云計算、物聯網、移動互聯網等新一代信息技術的融合,探索大數據和傳統(tǒng)產業(yè)發(fā)展新模式,推動傳統(tǒng)產業(yè)轉型升級和新興產業(yè)發(fā)展。正如大數據專家舍恩伯格所說:大數據正在改變人們的生活和人們理解世界的方式,更多的變化正蓄勢待發(fā),大數據管理分析思維和方法也開始影響到我們企業(yè)檔案管理的發(fā)展趨勢。
1 大數據分析方法在企業(yè)檔案管理中應用的背景
1.1 大數據研究逐漸縱深化。自從2008年science雜志推出Big Data??詠?,國內外對大數據的研究如火如荼。經過一段時間的探索,“目前大數據領域的研究大致可以分為4個方向:大數據科學、大數據技術、大數據應用和大數據工程。而人們對于大數據技術和應用兩個方面的關注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動 “大數據研究和發(fā)展計劃”的目標所顯示的那樣,目前大數據的研究逐漸向縱深化方向發(fā)展,著重從大型復雜的數據中提取知識和觀點,幫助企業(yè)實現從“數據分析能力”向“數據決策能力與優(yōu)勢”的轉化。
1.2 企業(yè)創(chuàng)新決策越來越依賴于數據分析。對于企業(yè)技術創(chuàng)新者而言,目前更多的企業(yè)高層越來越依靠基于數據分析的企業(yè)技術創(chuàng)新決策??總鹘y(tǒng)的經驗方法去決策往往是滯后的,因此,大數據分析方法作為先進的定量分析方法,目前出現的一些先進數據分析方法與技術勢必會對企業(yè)的運行管理、生產業(yè)務流程、管理決策產生飛躍式的影響。大數據分析方法也成為企業(yè)檔案數據分析、技術創(chuàng)新決策的有效工具。
1.3 企業(yè)檔案為企業(yè)創(chuàng)新決策提供數據基礎。對于一個企業(yè)而言,使用的數據資源必須具有真實性可靠性?!捌髽I(yè)檔案是在企業(yè)的各項活動中直接形成并保存?zhèn)洳榈母鞣N文獻載體形式的歷史記錄”[2],企業(yè)檔案是企業(yè)在生產、經營、管理等活動中形成的全部有用數據的總和。除了發(fā)揮著憑證參考維護歷史真實面貌的作用之外,企業(yè)檔案更“是企業(yè)知識資產和信息資源的重要組成部分”[3],具有知識創(chuàng)新性、不可替代性,為企業(yè)技術創(chuàng)新決策提供數據基礎?!疤貏e是在當前大數據背景下,企業(yè)檔案數據資源的開發(fā)與建設對企業(yè)經營決策的制定與適應市場競爭環(huán)境起到關鍵性作用?!盵4]
在上述背景下,將大數據分析方法應用在企業(yè)檔案管理中具有重要性意義:不僅拓展企業(yè)的管理決策理論,同時幫助企業(yè)運用所擁有的檔案數據資源洞察市場環(huán)境,發(fā)現新的競爭對手,進行自我總結,做出科學決策,使企業(yè)緊緊抓住大數據時代帶來的市場機遇。
2 大數據分析方法在企業(yè)檔案管理中應用的方式
大數據分析方法在企業(yè)檔案管理中的實現方式即是將大數據分析方法運用在企業(yè)檔案信息分析挖掘上。它貫穿企業(yè)數據處理的整個過程,遵循數據生命周期,廣泛收集數據進行存儲,并對數據進行格式化預處理,采用數據分析模型,依托強大的運行分析算法支撐數據平臺,發(fā)掘潛在價值和規(guī)律并進行呈現的過程。常見的大數據分析方法“其相關內容包括可視化分析、數據挖掘、預測分析、語義分析及數據質量管理”[5]。
2.1 數據質量管理提升企業(yè)檔案數據資源品質。大數據時代企業(yè)檔案數據資源呈現出4V特點,這使得企業(yè)檔案數據很容易出現不一致、不精確、不完整、過時等數據質量問題。基于數據生命周期對企業(yè)檔案數據資源進行數據質量管理分為數據預處理、數據存儲、數據使用三個階段。在數據預處理階段,通過ETL工具即數據經過萃?。‥xtract)、轉換(Transform)、加載(Load)至目的端這幾個預處理過程達到數據清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見的ETL工具。在數據存儲與使用階段,針對目前企業(yè)檔案大數據呈現出4V的特點,傳統(tǒng)關系型數據庫在數據存儲與數據管理方面已經難以勝任,非關系型數據庫以其高吞吐量、可拓展性、高并發(fā)讀寫、實時性等特性能夠滿足數據存儲與管理的要求。目前應用最廣的是并行處理系統(tǒng)MapReduce和非關系型數據庫比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計算平臺系統(tǒng),將會大大有助于完成數據清洗、重復對象檢測、缺失數據處理、異常數據檢測、邏輯錯誤檢測、不一致數據處理等數據質量處理過程,從而保證企業(yè)檔案數據資源的數據質量。
2.2 可視化分析提升企業(yè)檔案數據資源可理解性。
“大數據可視分析是指在大數據自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術,有效融合計算機的計算能力和人的認知能力,以獲得對于大規(guī)模復雜數據集的洞察力。”[6]那么企業(yè)檔案數據資源的可視化分析可以理解為借助可視化工具把企業(yè)檔案數據資源轉化成直觀、可視、交互形式(如表格、動畫、聲音、文本、視頻、圖形等)的過程,便于企業(yè)經營者的理解利用。
以2015年2月15日最新版的“百度遷徙”(全稱“百度地圖春節(jié)人口遷徙大數據”)為例,該項目讓我們近距離了解到大數據可視化。它利用百度后臺每天數十億次的LBS定位獲得的數據進行計算分析,全程展現中國人口遷徙軌跡,為政府部門科學決策提供科學依據。受該項目啟發(fā),企業(yè)可將擁有不同類型的檔案信息進行可視化,比如進行企業(yè)檔案的網絡數據可視化、時空數據可視化、時間序列數據可視化、多維數據可視化、文本數據可視化等[7]。以文本數據可視化為例,目前典型的文本可視化技術標簽云,可以將檔案文本中蘊含的主題聚類、邏輯結構、詞頻與重要度、動態(tài)演化規(guī)律直觀展示出來,為企業(yè)決策提供依據。另外,常見的信息圖表類可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時間線類可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數據地圖類可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術都為企業(yè)檔案數據資源可視化提供了科學工具。
2.3 語義引擎實現企業(yè)檔案數據資源的智能提取。大數據時代全球數據存儲量呈激增趨勢,傳統(tǒng)的基于人工分類目錄或關鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進行簡單的關鍵詞匹配,用戶無法得到非常準確的信息,檢索準確率并不高,而且檢索結果相關度較低,檢索結果缺乏引導性。為提供給用戶高質量的檢索結果,改善用戶搜索體驗,提高效率,實現智能提取,語義搜索引擎應運而生?!罢Z義引擎是隨著語義網的發(fā)展,采用語義網的語義推理技術實現語義搜索的語義搜索引擎?!盵8]它具備從語義理解的角度分析檢索者的檢索請求,能夠理解檢索者的真正意圖,實現信息智能提取。對語義分析可以采取自然語言處理方法進行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語。目前存在基于本體的語義處理技術,它以本體庫作為語義搜索引擎理解和運用語義的基礎。對于企業(yè)而言,將語義引擎分析方法與協同過濾關聯規(guī)則相結合,可以挖掘用戶的需求,提供個性化的服務。比如亞馬遜公司通過對用戶檢索的語義進行分析推理,結合協同過濾關聯規(guī)則,為用戶提供相近需求的產品,提升自己的經濟效益。對于一份人事檔案而言,語義引擎也能分析出該份人事檔案中的某人的職務、級別,從中提取出姓名一職務一級別一時間等關鍵信息,提高檢索準確率和效率,實現智能提取。
2.4 數據挖掘發(fā)現企業(yè)檔案數據資源的隱性價值?!皵祿诰蛴址Q數據庫中的知識發(fā)現”[9]。簡而言之,數據挖掘就是企業(yè)從數據集中發(fā)現知識模式,根據功能一般分為預測性模式和描述性模式,細分主要有分類與回歸模型、聚類分析模型、關聯規(guī)則模型、時間序列模型、偏差檢測模型等。主要挖掘方法有神經網絡方法、機器學習方法數據庫方法和統(tǒng)計方法等。
數據挖掘是大數據分析方法的核心。對于企業(yè)而言,數據挖掘的檔案數據資源應該由兩部分組成:一是企業(yè)正常運行管理過程中所形成的檔案數據資源,通過運用分類、聚類、關聯規(guī)則等方法對企業(yè)內部的數據進行挖掘,發(fā)現潛在模式,為企業(yè)技術創(chuàng)新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費數據時,發(fā)現每次季節(jié)性颶風來臨之前,手電筒和蛋撻的數量全部增加。根據這一關聯發(fā)現,沃爾瑪公司會在颶風用品的旁邊放上蛋撻,提升了企業(yè)的經濟效益;二是企業(yè)在運行過程中遺存在互聯網上的數據,通過網絡輿情及時跟蹤可以獲取市場最新動態(tài),為企業(yè)調整服務模式、市場策略、降低風險提供依據。比如Farecast公司運用數據挖掘,從網絡抓取數據來預測機票價格以及未來發(fā)展趨勢,幫助客戶把握最佳購買時機,獲得較大成功。
2.5 趨勢預測分析實現企業(yè)檔案數據資源的價值創(chuàng)造。“預測分析是利用統(tǒng)計、建模、數據挖掘工具對已有數據進行研究以完成預測?!盵10]預測分析的方法分為定性與定量分析兩種方法:定性分析如德爾菲法以及近年來人工智能產生的Boos-ting·貝葉斯網絡法等;定量分析法一般從形成的歷史數據中發(fā)掘數據模型達到預測效果,如時間序列分析模型、分類與回歸分析模型等。
企業(yè)檔案數據資源預測分析是在企業(yè)檔案數據資源數據挖掘的基礎之上,發(fā)現適合模型,將企業(yè)檔案數據輸入該模型使得企業(yè)技術創(chuàng)新人員達到預測性的判斷效果,實現價值的創(chuàng)造。一個典型的例子即是市場預測問題,企業(yè)技術創(chuàng)新者可以根據檔案數據預測某件產品在未來六個月內的銷售趨勢走向,進而進行生產、物流、營銷等活動安排。具體來講企業(yè)可以通過數據時間序列分析模型預測產品銷售旺季和淡季顧客的需求量,從而制定針對獨特的營銷策略,減少生產和銷售的波動性,獲得利潤和競爭優(yōu)勢。預測分析在大數據時代彰顯出企業(yè)檔案數據資源獨特的魅力。
3 大數據分析方法運用于企業(yè)檔案管理中應當注意的問題
3.1 成本問題。大數據分析需要依靠分析工具和運算時間,特別是在復雜的企業(yè)檔案數據資源中采用相關大數據分析工具的科技成本還是很高的,要以最少運算成本獲得更有價值的數據內容。合理選擇大數據分析工具不光可以節(jié)省運算成本而且能夠更快速獲取盈利增長點,同時在大數據分析和企業(yè)檔案數據資源的存儲成本方面也要適當的控制在合理的范圍內。既要保證大數據分析質量,又要降低企業(yè)檔案存儲成本是大數據分析方法運用到企業(yè)檔案管理中的重要原則。
3.2 時效問題?!按髷祿膭討B(tài)性強,要求分析處理應快速響應,在動態(tài)變化的環(huán)境中快速完成分析過程,有些甚至必須實時分析,否則這些結果可能就是過時、無效的”。[11]由此可見,影響大數據分析的重要因素就是時效性問題?!按髷祿祿治龅暮诵膬热葜皇菙祿!?,[12]數據分析模型要不斷的更新適應數據的動態(tài)變化。如果模型落后于數據的變化,那數據分析只能是失效的。同時由于經濟環(huán)境、政治生態(tài)、社會文化等因素不斷變革,企業(yè)檔案數據的收集也會產生新的問題。只有不斷加強對這些數據的實時監(jiān)測和有效分析,才能更好的識別出數據變化中的細微之處,建立與之相適應的數據分析新模型。
3.3 情感問題?!按髷祿牧硪粋€局限性在于它很難表現和描述用戶的感情?!贝髷祿治龇椒ㄔ谔幚砥髽I(yè)檔案數據方面可以說如魚得水,大數據分析是一種科學的機器運算方法,無法去實現人文價值提取,比如如何從企業(yè)檔案數據資源中提取企業(yè)文化,這更需要人的情感直覺去實現,而嚴謹的科學數據是無法實現的。因此,我們在熱衷于大數據分析方法的量化結果時,同時也不要忽略在傳統(tǒng)企業(yè)檔案管理中的那份人文精神。
總之,大數據時代環(huán)境下,在企業(yè)檔案數據資源開發(fā)利用中應用大數據分析方法具有重要意義和多種方式。通過大數據分析方法的應用,可以幫助企業(yè)創(chuàng)新管理者從所擁有的海量檔案數據中提取有用的知識和觀點,發(fā)掘隱藏在信息背后潛在的規(guī)律模式,推動企業(yè)管理優(yōu)化,決策科學,提升自身技術創(chuàng)新能力,同時合理解決好大數據分析方法在成本、時效、情感等方面的問題,進而使企業(yè)最終在激烈的市場競爭中立于不敗之地。
*本文系2016年度遼寧經濟社會發(fā)展立項課題《遼寧省企業(yè)技術創(chuàng)新與檔案大數據分析方法研究》(項目編號:2016lslktzdian-30)前期研究成果之一。