国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的技術(shù)創(chuàng)新與決策方法研究

2015-05-30 10:48趙亮等
科技創(chuàng)新與應(yīng)用 2015年32期
關(guān)鍵詞:創(chuàng)新方法大數(shù)據(jù)

趙亮等

摘 要:創(chuàng)新方法是創(chuàng)新經(jīng)驗(yàn)和技巧的高度總結(jié),是技術(shù)創(chuàng)新的“孫子兵法”,傳統(tǒng)創(chuàng)新方法在互聯(lián)網(wǎng)技術(shù)推動(dòng)下的“大數(shù)據(jù)”時(shí)代,在創(chuàng)新資源相關(guān)數(shù)據(jù)的獲取和融合效率方面面臨新的機(jī)遇與挑戰(zhàn)。文章通過對大數(shù)據(jù)技術(shù)與方法以及圍繞著大數(shù)據(jù)環(huán)境下的企業(yè)技術(shù)創(chuàng)新與管理決策相關(guān)技術(shù)與方法的研究,通過院校合作,構(gòu)建起大數(shù)據(jù)環(huán)境下的技術(shù)創(chuàng)新與決策的技術(shù)框架體系,依據(jù)技術(shù)創(chuàng)新“雙向決策模型”,通過數(shù)據(jù)的在線收集與預(yù)處理、大數(shù)據(jù)存儲(chǔ)與預(yù)處理技術(shù)體系、創(chuàng)新資源數(shù)據(jù)的可視化技術(shù)與決策技術(shù)方法和創(chuàng)新應(yīng)用工具的開發(fā)四個(gè)子項(xiàng)的實(shí)施,實(shí)現(xiàn)技術(shù)創(chuàng)新的“評估與預(yù)測”和“監(jiān)測與預(yù)警”。結(jié)合企業(yè)研發(fā)與技術(shù)創(chuàng)新實(shí)踐,希望能幫助企業(yè)實(shí)現(xiàn)更加精準(zhǔn)的技術(shù)創(chuàng)新決策。

關(guān)鍵詞:創(chuàng)新方法;大數(shù)據(jù);技術(shù)創(chuàng)新管理

引言

提高國家與企業(yè)的自主創(chuàng)新能力是建設(shè)創(chuàng)新型國家發(fā)展戰(zhàn)略的核心和提高綜合國力的關(guān)鍵。國家、企業(yè)間的競爭既要依靠創(chuàng)新,也受到創(chuàng)新效率的影響。先進(jìn)的創(chuàng)新方法是保證創(chuàng)新效率的基礎(chǔ)。創(chuàng)新方法是創(chuàng)新經(jīng)驗(yàn)和技巧的高度總結(jié),是創(chuàng)新的兵法。如何將創(chuàng)新方法的最新研究成果轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力是當(dāng)前高效創(chuàng)新驅(qū)動(dòng)面臨的挑戰(zhàn)。另一方面,互聯(lián)網(wǎng)技術(shù)推動(dòng)下的“大數(shù)據(jù)”時(shí)代的來臨,企業(yè)通過從海量的數(shù)據(jù)中萃取有效知識(shí)并將其轉(zhuǎn)化為新的商業(yè)競爭優(yōu)勢[1]的信息管理思想和技術(shù)方法正在實(shí)現(xiàn)。如何有效使用“大數(shù)據(jù)”來實(shí)現(xiàn)對創(chuàng)新方法的創(chuàng)新,則成為了目前學(xué)術(shù)界與企業(yè)界廣泛關(guān)注的焦點(diǎn)。因此,文章希望通過大數(shù)據(jù)技術(shù)與方法的深入研究,利用大數(shù)據(jù)技術(shù)來變革和提升創(chuàng)新方法、思維體系與管理模式,并促進(jìn)企業(yè)自主創(chuàng)新和生產(chǎn)力的快速提高,使技術(shù)創(chuàng)新管理工作適應(yīng)企業(yè)創(chuàng)新實(shí)踐的新需求。

1 研究背景

1.1 大數(shù)據(jù)的研究進(jìn)展與趨勢

自1998年美國硅圖公司(SGI)的首席科學(xué)家John R.Masey提出了大數(shù)據(jù)概念以來,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展人們在近年來從海量數(shù)據(jù)分析的角度轉(zhuǎn)向大數(shù)據(jù)。其中,以Facebook為代表的社交網(wǎng)絡(luò)軟件的應(yīng)用,直接導(dǎo)致大量非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),并促進(jìn)了針對非結(jié)構(gòu)化數(shù)據(jù)查詢與處理技術(shù)快速發(fā)展。2008年,《Nature》雜志出版專刊《Big Data》針對多個(gè)學(xué)科的實(shí)際研究現(xiàn)狀系統(tǒng)地介紹了“大數(shù)據(jù)”所蘊(yùn)含的潛在價(jià)值和挑戰(zhàn)。2011年,《Science》雜志出版的??禗ealing with Data》標(biāo)志著“大數(shù)據(jù)”時(shí)代的到來[2]。隨后,美國奧巴馬政府在2012年3月推出“大數(shù)據(jù)研究開發(fā)計(jì)劃”(Big Data Research and Development Initiative)。該計(jì)劃的目標(biāo)是改進(jìn)現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,從而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式[3],從而實(shí)現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢”的轉(zhuǎn)化[4]。

目前,針對大數(shù)據(jù)的概念與定義還存在著許多不同的分析角度。其中,大數(shù)據(jù)研究機(jī)構(gòu)Gartner對“大數(shù)據(jù)”的定義為:需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”的資產(chǎn)屬性暗含了通過“分析”可以給其擁有和控制者帶來預(yù)期的利益,它是從數(shù)據(jù)中萃取知識(shí),并將其轉(zhuǎn)化為商業(yè)競爭優(yōu)勢的智能化活動(dòng)。麥肯錫公司(McKinsey)看到了個(gè)人海量信息具備潛在的商業(yè)價(jià)值,成為最早應(yīng)用“大數(shù)據(jù)”的公司,并發(fā)布了關(guān)于“大數(shù)據(jù)”的麥肯錫報(bào)告[5]。

我國在2011年12月,國家工業(yè)和信息化部發(fā)布的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》上,將信息處理技術(shù)作為四項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分[6]。2012年5月,主題為“網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與工程─一門新興的交叉學(xué)科?”的香山科學(xué)會(huì)議在北京召開,隨后以李國杰院士為核心的計(jì)算機(jī)學(xué)科專家學(xué)者紛紛就圍繞“大數(shù)據(jù)”定義的“數(shù)據(jù)科學(xué)”的理論框架與算法應(yīng)用等問題進(jìn)行了綜合性的歸納研究與討論[7]。北京航空航天大學(xué)馬帥教授等就對“大數(shù)據(jù)”的異構(gòu)數(shù)據(jù)模型與存儲(chǔ)、復(fù)雜數(shù)據(jù)智能分析、數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)安全性等問題也進(jìn)行了分析和討論[8]。如何合理高效的利用這些海量的數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)創(chuàng)新與決策提供優(yōu)化的服務(wù),則是目前企業(yè)創(chuàng)新過程中面臨的一個(gè)重要的挑戰(zhàn)。

1.2 大數(shù)據(jù)環(huán)境下創(chuàng)新管理的雙向決策模型

針對大數(shù)據(jù)環(huán)境對科技創(chuàng)新決策管理帶來的挑戰(zhàn),中國科學(xué)院的王飛躍教授在處理與分析大數(shù)據(jù)使其有效支撐科技決策問題中構(gòu)建了面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務(wù)[9]。而北京理工大學(xué)朱東華教授針對美國“大數(shù)據(jù)研究開發(fā)計(jì)劃”項(xiàng)目的深入調(diào)研,尤其是針對大數(shù)據(jù)計(jì)劃最核心的美國國防部及國防部高級(jí)研究計(jì)劃局在相關(guān)立項(xiàng)中的側(cè)重點(diǎn)與項(xiàng)目目標(biāo)的分析,發(fā)現(xiàn)從傳統(tǒng)的“目標(biāo)驅(qū)動(dòng)決策”向“數(shù)據(jù)驅(qū)動(dòng)決策”的重大轉(zhuǎn)型是美國國家戰(zhàn)略應(yīng)對大數(shù)據(jù)環(huán)境的最直接變化之一。而基于傳統(tǒng)數(shù)據(jù)分析方法的“評估與預(yù)測”理念也正在向“監(jiān)測與預(yù)警”轉(zhuǎn)化。有效地利用大數(shù)據(jù)環(huán)境,深入挖掘與分析潛在技術(shù)競爭情報(bào),監(jiān)測技術(shù)的發(fā)展動(dòng)態(tài),分析潛在的網(wǎng)絡(luò)威脅與攻擊,正是大數(shù)據(jù)環(huán)境下美國政府的全新國家戰(zhàn)略思維與部署。同時(shí),研究團(tuán)隊(duì)在整合技術(shù)創(chuàng)新管理現(xiàn)有理論方法的基礎(chǔ)上,構(gòu)建了面向技術(shù)創(chuàng)新管理的雙向決策模型,即目標(biāo)驅(qū)動(dòng)模式與數(shù)據(jù)驅(qū)動(dòng)模式并行的雙向決策模型[10](見圖1)。一方面,以傳統(tǒng)目標(biāo)驅(qū)動(dòng)為基礎(chǔ),形成以傳統(tǒng)數(shù)據(jù)挖掘技術(shù)與方法為核心的數(shù)據(jù)獲取、處理、分析、支持決策的技術(shù)評估與預(yù)測模型。另一方面,圍繞大數(shù)據(jù)環(huán)境下的復(fù)雜數(shù)據(jù)特征與環(huán)境,采用當(dāng)前數(shù)據(jù)挖掘領(lǐng)域應(yīng)用于大數(shù)據(jù)處理的新方法、新思路,形成以自組織動(dòng)態(tài)實(shí)時(shí)監(jiān)測為核心,能夠有效預(yù)警并積極處理突發(fā)事件的技術(shù)監(jiān)測與預(yù)警模型。

技術(shù)評估與預(yù)測模型圍繞雙向決策中的“目標(biāo)驅(qū)動(dòng)決策”展開,在大數(shù)據(jù)環(huán)境下,采用常規(guī)的數(shù)據(jù)挖掘方法,通過數(shù)據(jù)采集、加工與分析計(jì)算等步驟,將數(shù)據(jù)轉(zhuǎn)化為可供技術(shù)創(chuàng)新決策目標(biāo)支持的有效知識(shí)或觀點(diǎn)。具體運(yùn)用在技術(shù)創(chuàng)新管理工作中,“目標(biāo)驅(qū)動(dòng)決策”模型通過有目的的對大數(shù)據(jù)環(huán)境下科技、網(wǎng)絡(luò)以及其他數(shù)據(jù)中的潛在信息進(jìn)行有效萃取與分析,實(shí)現(xiàn)對具體技術(shù)領(lǐng)域的“知識(shí)發(fā)現(xiàn)”與“可視化”,從而達(dá)到評估技術(shù)發(fā)展?fàn)顟B(tài),預(yù)測技術(shù)發(fā)展趨勢的最終目的。

技術(shù)監(jiān)測與預(yù)警模型以數(shù)據(jù)為驅(qū)動(dòng),不同于事先制定目標(biāo),依目標(biāo)的需求進(jìn)行相應(yīng)的數(shù)據(jù)挖掘工作。技術(shù)監(jiān)測與預(yù)警模型通過規(guī)則的建立與基于機(jī)器學(xué)習(xí)的算法訓(xùn)練,形成專注于“數(shù)據(jù)”本身的實(shí)時(shí)監(jiān)測模型,通過對小規(guī)模數(shù)據(jù)的訓(xùn)練與學(xué)習(xí),形成反應(yīng)并處理相應(yīng)大數(shù)據(jù)的人工智能。在技術(shù)創(chuàng)新管理工作中,基于傳統(tǒng)數(shù)據(jù)挖掘方法的基礎(chǔ)上,融入能夠響應(yīng)動(dòng)態(tài)數(shù)據(jù)變化的動(dòng)態(tài)數(shù)據(jù)挖掘理念,通過提升機(jī)器的自組織與自學(xué)能力,從而達(dá)到分析潛在新興技術(shù)的發(fā)展動(dòng)態(tài),挖掘可能促進(jìn)技術(shù)升級(jí)的核心技術(shù),監(jiān)測競爭對手相關(guān)技術(shù)領(lǐng)域的最新進(jìn)展,并針對這一切可能情況做出及時(shí)并有效的反應(yīng),實(shí)現(xiàn)技術(shù)監(jiān)測與預(yù)警的目的。面向技術(shù)創(chuàng)新管理的雙向決策模型,整合傳統(tǒng)的“目標(biāo)驅(qū)動(dòng)決策”與大數(shù)據(jù)環(huán)境下的“數(shù)據(jù)驅(qū)動(dòng)決策”理念及方法,分別從“技術(shù)評估與預(yù)測”及“技術(shù)監(jiān)測與預(yù)警”兩個(gè)方面創(chuàng)造性的構(gòu)建了適用于技術(shù)創(chuàng)新管理的新方案,為應(yīng)對大數(shù)據(jù)環(huán)境,企業(yè)高效實(shí)施技術(shù)創(chuàng)新提供了行之有效的新路徑。

2 大數(shù)據(jù)環(huán)境下企業(yè)技術(shù)創(chuàng)新方法

與傳統(tǒng)創(chuàng)新數(shù)據(jù)的獲取相比,大數(shù)據(jù)改變了創(chuàng)新方法與過程的數(shù)據(jù)來源以及環(huán)境基礎(chǔ),為挖掘知識(shí)數(shù)據(jù)中隱藏的價(jià)值帶來了新的機(jī)遇和新的挑戰(zhàn)。創(chuàng)新方法需要數(shù)據(jù)的支持,而大數(shù)據(jù)技術(shù)通過對海量數(shù)據(jù)的分析可以最大程度地降低創(chuàng)新過程中的不確定性,以及知識(shí)轉(zhuǎn)化和推理過程中的難題。甚至以數(shù)據(jù)為基礎(chǔ)的定量分析方法也有逐步取代耗時(shí)耗力的以專家為基礎(chǔ)的定性分析方法的趨勢。為了更好地將技術(shù)創(chuàng)新工作與大數(shù)據(jù)應(yīng)用環(huán)境相結(jié)合,以應(yīng)對大數(shù)據(jù)條件下,復(fù)雜的國際間以及企業(yè)之間的競爭,本研究試圖在整合創(chuàng)新方法現(xiàn)有理論方法的基礎(chǔ)上,充分考慮大數(shù)據(jù)環(huán)境帶來的挑戰(zhàn)與機(jī)遇,將決策驅(qū)動(dòng)的根源由傳統(tǒng)的“目標(biāo)驅(qū)動(dòng)決策”向“目標(biāo)、數(shù)據(jù)雙向驅(qū)動(dòng)決策”轉(zhuǎn)化。并依據(jù)“雙向決策模型”,一方面,采用傳統(tǒng)目標(biāo)驅(qū)動(dòng)創(chuàng)新方法時(shí),形成了以傳統(tǒng)數(shù)據(jù)挖掘技術(shù)與方法為核心的數(shù)據(jù)獲取、處理、分析、支持決策的技術(shù)創(chuàng)新模型;另一方面,圍繞大數(shù)據(jù)環(huán)境下的復(fù)雜數(shù)據(jù)特征與環(huán)境,采用當(dāng)前大數(shù)據(jù)處理中海量數(shù)據(jù)提取、分布式數(shù)據(jù)處理和存儲(chǔ)技術(shù)以及大數(shù)據(jù)可視化技術(shù)等,并通過下面四個(gè)子項(xiàng)的研究實(shí)施,最終實(shí)現(xiàn)在大數(shù)據(jù)環(huán)境下為企業(yè)技術(shù)創(chuàng)新與管理創(chuàng)新提供有效的創(chuàng)新決策支持。研究的整體框架如圖2所示。

2.1 數(shù)據(jù)的在線收集與預(yù)處理

基于大數(shù)據(jù)環(huán)境的創(chuàng)新決策主要通過對各種創(chuàng)新數(shù)據(jù)進(jìn)行動(dòng)態(tài)分析,將不同領(lǐng)域、不同類型的創(chuàng)新資源進(jìn)行融合?;诙嘣串悩?gòu)創(chuàng)新資源大數(shù)據(jù)的在線監(jiān)測、自動(dòng)收集與預(yù)警機(jī)制研究主要包含三方面的內(nèi)容:一是利用網(wǎng)絡(luò)數(shù)據(jù)的在線監(jiān)測技術(shù)與主動(dòng)爬蟲技術(shù),研究大數(shù)據(jù)環(huán)境下創(chuàng)新資源的自動(dòng)獲取與自動(dòng)收集機(jī)制,特別是在半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏的巨大價(jià)值;二是自動(dòng)地識(shí)別不同主題下創(chuàng)新資源的內(nèi)容信息,并且將這些信息按照特定的規(guī)則和要求自動(dòng)地收集與增量式抓取;三是針對期刊、報(bào)告等在內(nèi)的傳統(tǒng)科技領(lǐng)域數(shù)據(jù)資源以及網(wǎng)絡(luò)中社交、輿情等數(shù)據(jù)和其它多數(shù)據(jù)來源中的潛在信息進(jìn)行有效萃取與分析,實(shí)現(xiàn)對創(chuàng)新資源與不同創(chuàng)新方法的信息特征分析。技術(shù)難點(diǎn)是對不同數(shù)據(jù)源的技術(shù)創(chuàng)新數(shù)據(jù)識(shí)別獲取和融合。

主動(dòng)爬蟲技術(shù)已被廣泛應(yīng)用在網(wǎng)絡(luò)信息的安全監(jiān)控與信息獲取過程中。監(jiān)測對象主要包括:期刊、專利、技術(shù)研究報(bào)告與統(tǒng)計(jì)數(shù)據(jù)等在內(nèi)的科技領(lǐng)域數(shù)據(jù)資源,同時(shí)也包含了網(wǎng)絡(luò)中發(fā)布的創(chuàng)新政策、社交數(shù)據(jù)、博客與微博數(shù)據(jù)、企業(yè)報(bào)表、網(wǎng)絡(luò)輿情數(shù)據(jù)、市場動(dòng)態(tài)數(shù)據(jù)以及金融交易數(shù)據(jù)等海量數(shù)據(jù)資源。另外,隨著創(chuàng)新方法與工具的發(fā)展,創(chuàng)新方法與創(chuàng)新資源的數(shù)據(jù)量也呈現(xiàn)出爆炸性的增長態(tài)勢。特別是在半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏的巨大價(jià)值,大量的創(chuàng)新資源與創(chuàng)新方法的實(shí)踐結(jié)果往往也分布在網(wǎng)絡(luò)中不同的數(shù)據(jù)系統(tǒng)內(nèi),并且以數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)頁、文件等形式存在。因此,如何自動(dòng)地識(shí)別不同主題下創(chuàng)新資源的內(nèi)容信息,并且將這些信息按照特定規(guī)則和要求來自動(dòng)地收集與增量式抓取[11],是研究面對的一個(gè)重要挑戰(zhàn)。

2.2大數(shù)據(jù)存儲(chǔ)與預(yù)處理技術(shù)體系

基于創(chuàng)新資源與創(chuàng)新方法的大數(shù)據(jù)存儲(chǔ)與預(yù)處理技術(shù)體系研究的主要任務(wù)是利用創(chuàng)新資源的分類特征抽取和信息融合,對創(chuàng)新資源和創(chuàng)新方法中的多源異構(gòu)數(shù)據(jù)進(jìn)行存儲(chǔ)和預(yù)處理,為創(chuàng)新資源大數(shù)據(jù)分析奠定基礎(chǔ)。主要工作包含三方面的內(nèi)容:一是創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的存儲(chǔ)與并行處理機(jī)制研究;二是創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的預(yù)處理技術(shù)方案實(shí)現(xiàn);三是根據(jù)創(chuàng)新方法與創(chuàng)新資源的特定需求進(jìn)行多層聚合,形成統(tǒng)一的創(chuàng)新方法大數(shù)據(jù)資源庫。該工作的技術(shù)難點(diǎn)是創(chuàng)新數(shù)據(jù)本體庫的建立和海量創(chuàng)新資源與創(chuàng)新文本數(shù)據(jù)的特征提取與優(yōu)化。

在創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的存儲(chǔ)與并行處理機(jī)制研究方面,針對創(chuàng)新資源與創(chuàng)新方法數(shù)據(jù)的復(fù)雜性、多源異構(gòu)性以及體量巨大等特點(diǎn),在Hadoop平臺(tái)和Hbase數(shù)據(jù)庫基礎(chǔ)上,建立一個(gè)創(chuàng)新資源大數(shù)據(jù)的分布式存儲(chǔ)框架。該框架采用HDFS文件系統(tǒng)(Hadoop Distributed File System)來實(shí)現(xiàn)高吞吐量的數(shù)據(jù)訪問以及流式的數(shù)據(jù)訪問,適合大規(guī)模創(chuàng)新資源與創(chuàng)新方法數(shù)據(jù)集的應(yīng)用存儲(chǔ)與數(shù)據(jù)的服務(wù)[12]。另外,由于創(chuàng)新資源的文本數(shù)據(jù)體量巨大,采用傳統(tǒng)計(jì)算手段無法實(shí)現(xiàn)文本建模、特征抽取、特征聚合。因此利用分布式并行計(jì)算框架來實(shí)現(xiàn)信息內(nèi)容的聚合,一方面,為了提高數(shù)據(jù)分析的效率,在HDFS文件系統(tǒng)上使用HIVE建立分布式數(shù)據(jù)倉庫,并將查詢服務(wù)映射成Map Reduce任務(wù)來執(zhí)行。另一方面,該框架采用Storm流計(jì)算、Spark內(nèi)存計(jì)算、Map/Reduce并行化編程范式,將多個(gè)查詢與信息聚合任務(wù)分解為多個(gè)并行任務(wù)同時(shí)處理,可實(shí)現(xiàn)快速復(fù)雜數(shù)據(jù)運(yùn)算[13]。

此外,針對科技創(chuàng)新資源與創(chuàng)新方法在應(yīng)用與管理過程中,常常會(huì)出現(xiàn)一些臟數(shù)據(jù),需要進(jìn)行差異識(shí)別與數(shù)據(jù)的預(yù)處理。這些數(shù)據(jù)預(yù)處理的方式主要包括了去除無關(guān)數(shù)據(jù)、噪聲數(shù)據(jù)、遺漏數(shù)據(jù)、空值數(shù)據(jù)等臟數(shù)據(jù),把錯(cuò)誤的、含噪聲的、有沖突的、不一致、有重疊的數(shù)據(jù)轉(zhuǎn)化成可以進(jìn)一步聚合的數(shù)據(jù)。由于數(shù)據(jù)的規(guī)格、語義的不統(tǒng)一會(huì)對后續(xù)的聚合造成影響,因此需要對數(shù)據(jù)進(jìn)行規(guī)范化與歸一化處理,保障數(shù)據(jù)的一致性。由于創(chuàng)新資源主要以文本的形式存在,這些資源需要通過對創(chuàng)新資源與創(chuàng)新方法特征庫的分類,轉(zhuǎn)變?yōu)閯?chuàng)新資源與創(chuàng)新方法的領(lǐng)域元數(shù)據(jù)庫、領(lǐng)域本體庫、命名實(shí)體庫等特征元數(shù)據(jù)庫,并形成統(tǒng)一的數(shù)據(jù)模型和數(shù)據(jù)規(guī)范。同時(shí)需要對文本內(nèi)容的分詞和詞頻統(tǒng)計(jì)建立文本的主題向量空間模型、“主題詞帶”模型、創(chuàng)新領(lǐng)域知識(shí)模型,形成創(chuàng)新資源的特征信息集合。這些數(shù)據(jù)的特征抽取與預(yù)處理對于后續(xù)數(shù)據(jù)處理奠定基礎(chǔ)。

2.3 創(chuàng)新資源數(shù)據(jù)的可視化技術(shù)與決策技術(shù)方法

大數(shù)據(jù)環(huán)境下創(chuàng)新資源的可視化技術(shù)與決策支持方法研究的主要任務(wù)是利用文本挖掘技術(shù)和數(shù)據(jù)可視化技術(shù),對海量文本數(shù)據(jù)進(jìn)行特征抽取和信息融合。主要工作包含兩方面的內(nèi)容:一是創(chuàng)新資源大數(shù)據(jù)環(huán)境下的數(shù)據(jù)靜態(tài)與動(dòng)態(tài)分析的可視化分析;二是利用可視化降維技術(shù)對高維度非結(jié)構(gòu)化創(chuàng)新數(shù)據(jù)進(jìn)行降維處理。工作的技術(shù)難點(diǎn)為多維異構(gòu)創(chuàng)新數(shù)據(jù)可視化技術(shù)實(shí)現(xiàn)。在技術(shù)創(chuàng)新活動(dòng)中需要了解創(chuàng)新數(shù)據(jù)自身的規(guī)律以及創(chuàng)新數(shù)據(jù)之間的相互關(guān)系和發(fā)展趨勢。因此需要利用大數(shù)據(jù)中的可視化技術(shù),提高企業(yè)分析和利用創(chuàng)新數(shù)據(jù)的層次。

文本可視化分析技術(shù)是將文本分析技術(shù)和交互式可視化技術(shù)結(jié)合在一起的產(chǎn)物。它利用人們對圖形的迅速辨識(shí)及分析能力,將文本挖掘結(jié)果及相應(yīng)的文本數(shù)據(jù)轉(zhuǎn)換成直觀的、可交互的展現(xiàn)形式,使人們可以通過視覺迅速獲得有用信息,從而達(dá)到對大文本數(shù)據(jù)集進(jìn)一步分析、推理以及理解的目的。已有的可視化分析技術(shù)主要包括靜態(tài)和動(dòng)態(tài)兩大類方法,其中,靜態(tài)可視方法不關(guān)心文檔的時(shí)間屬性,著重研究文檔以及內(nèi)容直接的靜態(tài)關(guān)系;而動(dòng)態(tài)方法則研究文檔集合中隨著時(shí)間變化的內(nèi)容以及相應(yīng)關(guān)系,用于找出一些關(guān)鍵的時(shí)刻和事件,并進(jìn)一步推導(dǎo)相應(yīng)事件產(chǎn)生的原因。例如,利用Circle Packing圖可以圓圈的大小和歸屬表達(dá)明確的層級(jí)關(guān)系,幫助用戶迅速定位數(shù)據(jù)的聚類,并對離散點(diǎn)進(jìn)行評估。Stream Graph則通過對一段時(shí)間內(nèi),文本特征的變化來展示出動(dòng)態(tài)的變化行為,從而可以實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量分析的優(yōu)化。如圖3是研究團(tuán)隊(duì)針對專利信息以及論壇的主題內(nèi)容進(jìn)行靜態(tài)與動(dòng)態(tài)分析的可視化結(jié)果示意圖[14]。

在大數(shù)據(jù)條件下,利用可視化技術(shù)對高維度非結(jié)構(gòu)化創(chuàng)新數(shù)據(jù)進(jìn)行處理,不僅可以對數(shù)據(jù)特征向量進(jìn)行降維和簡化,還可對靜態(tài)特征數(shù)據(jù)以及動(dòng)態(tài)的行為變化過程數(shù)據(jù)與結(jié)果進(jìn)行可視化顯示。因此,不僅有利于對創(chuàng)新資源與創(chuàng)新成果數(shù)據(jù)進(jìn)行預(yù)處理與分析,同時(shí)也對創(chuàng)新資源之間的關(guān)聯(lián)特征、技術(shù)創(chuàng)新過程中動(dòng)態(tài)演化行為等關(guān)鍵性問題,起到?jīng)Q策輔助支持的作用,進(jìn)而提升創(chuàng)新資源與創(chuàng)新方法相關(guān)數(shù)據(jù)的利用價(jià)值。

2.4 創(chuàng)新應(yīng)用工具的開發(fā)

大數(shù)據(jù)環(huán)境下創(chuàng)新應(yīng)用工具的開發(fā)與應(yīng)用的主要任務(wù)是在上述研究工作的基礎(chǔ)上,實(shí)現(xiàn)創(chuàng)新應(yīng)用工具的開發(fā),并選取應(yīng)用單位進(jìn)行應(yīng)用驗(yàn)證。傳統(tǒng)的創(chuàng)新方法都包含有多種工具。文章研究的核心工作是基于Hadoop平臺(tái)來完成一個(gè)相關(guān)的創(chuàng)新資源分析與創(chuàng)新方法應(yīng)用的軟件工具,并利用該工具來指導(dǎo)企業(yè)實(shí)際應(yīng)用。其中,軟件工具主要包括分布式創(chuàng)新數(shù)據(jù)萃取和數(shù)據(jù)融合、創(chuàng)新大數(shù)據(jù)模型變換、流數(shù)據(jù)處理和創(chuàng)新數(shù)據(jù)自動(dòng)摘要功能等。

根據(jù)數(shù)據(jù)格式的不同,分布式創(chuàng)新數(shù)據(jù)萃取采用不同的算法對其進(jìn)行處理。分類過后的數(shù)據(jù)還必須遵循統(tǒng)一的數(shù)據(jù)模型進(jìn)行變換,從而形成統(tǒng)一的創(chuàng)新數(shù)據(jù)存儲(chǔ)。該功能的實(shí)現(xiàn)采用使用元數(shù)據(jù)描述創(chuàng)新數(shù)據(jù),從而將所有創(chuàng)新數(shù)據(jù)置于同一標(biāo)準(zhǔn)下。創(chuàng)新數(shù)據(jù)含有獨(dú)特的創(chuàng)新信息,在針對需要實(shí)時(shí)計(jì)算的創(chuàng)新流數(shù)據(jù)時(shí),除使用分布式計(jì)算架構(gòu)中的流處理技術(shù),還要進(jìn)行創(chuàng)新數(shù)據(jù)流處理算法的設(shè)計(jì)。在企業(yè)進(jìn)行創(chuàng)新數(shù)據(jù)處理時(shí),除了使用系統(tǒng)提供的自動(dòng)收集和預(yù)警等功能外,很多情況下還需要人工處理一些數(shù)據(jù),當(dāng)創(chuàng)新數(shù)據(jù)包含大量的非結(jié)構(gòu)化數(shù)據(jù),人工往往無法迅速地獲取最有價(jià)值的信息。因此通過實(shí)現(xiàn)創(chuàng)新數(shù)據(jù)自動(dòng)摘要生成技術(shù),能夠方便企業(yè)查找和比對大數(shù)據(jù)環(huán)境下的技術(shù)創(chuàng)新數(shù)據(jù),提升技術(shù)創(chuàng)新活動(dòng)的效率。

3 結(jié)束語

大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素。特別是近年來,企業(yè)在激烈的市場競爭中往往由于技術(shù)資源的局限性以及海量數(shù)據(jù)獲取與分析的能力限制而造成技術(shù)創(chuàng)新的成功率較低且管理決策的風(fēng)險(xiǎn)較高的影響,大數(shù)據(jù)技術(shù)與應(yīng)用為企業(yè)技術(shù)創(chuàng)新提供了一個(gè)全新的機(jī)遇。圍繞著大數(shù)據(jù)環(huán)境下對企業(yè)技術(shù)創(chuàng)新與管理決策的相應(yīng)技術(shù)研究,陜西工業(yè)技術(shù)研究院與西安交通大學(xué)軟件學(xué)院在深入合作研究過程中,已建立起來了大數(shù)據(jù)環(huán)境下的技術(shù)創(chuàng)新與決策的技術(shù)框架體系,依據(jù)技術(shù)創(chuàng)新“雙向決策模型”,整合傳統(tǒng)“目標(biāo)驅(qū)動(dòng)決策”與大數(shù)據(jù)環(huán)境下“數(shù)據(jù)驅(qū)動(dòng)決策”的理念和方法,通過四個(gè)子項(xiàng)的實(shí)施,實(shí)現(xiàn)技術(shù)創(chuàng)新的“評估與預(yù)測”和“監(jiān)測與預(yù)警”,結(jié)合企業(yè)研發(fā)與技術(shù)創(chuàng)新實(shí)踐,希望能幫助企業(yè)實(shí)現(xiàn)更加精準(zhǔn)的技術(shù)創(chuàng)新決策。下一步,將大數(shù)據(jù)環(huán)境下的創(chuàng)新方法在企業(yè)中得到應(yīng)用與推廣,為企業(yè)的創(chuàng)新提供新的技術(shù)支撐。

參考文獻(xiàn)

[1]McAfee A,Brynjolfsson E. Big data:The management revolution[J].Harvard Bus Rev,2012,90(10).

[2]陶翔,羅天雨.大數(shù)據(jù)技術(shù)的發(fā)展歷程及其演化趨勢[N].科技日報(bào),2014-08-10(2).

[3]R.Weiss, L.Zgorski,“Obama Administration Unveils 'BigData' Initiative: Announces MYM200 Million in New R&D Investments”, Office of Science and Technology Policy, Washington, DC,2012.

[4]賽迪智庫軟件與信息服務(wù)研究所.美國將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[N].中國電子報(bào),2012-07-17(003).

[5](英)維克托·邁爾-舍恩伯格,(英)肯尼思·庫克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤,譯.浙江人民出版社,2013.

[6]工業(yè)和信息化部.物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃[Z].北京:工業(yè)和信息化部,2011.

[7]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域-大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6):

647-657.

[8]馬帥,李建新,胡春明.大數(shù)據(jù)科學(xué)與工程的挑戰(zhàn)與思考[J].中國計(jì)算機(jī)學(xué)會(huì)通訊,2012,27(5):527-537.

[9]王躍飛.知識(shí)產(chǎn)生方式和科技決策支撐的重大變革:面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務(wù)[J].中國科學(xué)院院刊,2012,

27(5):527-537.

[10]朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理.2013,34(4):172-180.

[11]丁杰,徐俊剛.IPSMS:一個(gè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2010(4):188-190.

[12]李昕娟.基于主題的文本數(shù)據(jù)流實(shí)時(shí)聚類及演化研究[D].西安交通大學(xué),2014.

[13]黃曉斌,鐘輝新.大數(shù)據(jù)時(shí)代企業(yè)競爭情報(bào)研究的創(chuàng)新與發(fā)展[J].圖書與情報(bào),2013(6):9-14.

[14]劉大偉.基于文本聚類的專利信息分析與可視化研究與應(yīng)用[D].西安交通大學(xué),2014.

作者簡介:趙亮 (1969-),男,吉林長春,經(jīng)濟(jì)師/MBA。陜西工業(yè)技術(shù)研究院技術(shù)創(chuàng)新部,從事創(chuàng)新項(xiàng)目孵化技術(shù)轉(zhuǎn)移研究。

猜你喜歡
創(chuàng)新方法大數(shù)據(jù)
論中小型企業(yè)管理創(chuàng)新的實(shí)現(xiàn)路徑
初中數(shù)學(xué)解題教學(xué)的創(chuàng)新方法初探
淺談提高變電設(shè)備狀態(tài)檢修工作的方法
從提升科學(xué)水平角度分析高校黨建工作
在經(jīng)濟(jì)新常態(tài)下地方本科院校大學(xué)生創(chuàng)新創(chuàng)業(yè)教育研究
試論森林分類經(jīng)營的創(chuàng)新
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索