国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從復雜性角度看大數(shù)據(jù)面臨的挑戰(zhàn)

2016-06-12 20:38李國杰
中國信息化周報 2016年15期
關鍵詞:復雜性

大數(shù)據(jù)技術(shù)和人類探索復雜性的努力有密切關系。20 世紀70 年代, 新三論的興起對幾百年來貫穿科學技術(shù)研究的還原論發(fā)起了挑戰(zhàn)。但30年來并未取得預期的效果, 其原因之一可能是當時還沒有出現(xiàn)解決復雜性的技術(shù)。

而隨著集成電路、計算機與通信技術(shù)的發(fā)展大大增強了人類研究和處理復雜問題的能力。大數(shù)據(jù)技術(shù)將復雜性科學的新思想發(fā)揚光大,可能使復雜性科學得以落地。

復雜性科學是大數(shù)據(jù)技術(shù)的科學基礎,大數(shù)據(jù)方法可以看作復雜性科學的技術(shù)實現(xiàn)。大數(shù)據(jù)方法為還原論與整體論的辯證統(tǒng)一提供了技術(shù)實現(xiàn)途徑。

但目前大數(shù)據(jù)技術(shù)還不成熟, 面對海量、異構(gòu)、動態(tài)變化的數(shù)據(jù), 傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應對, 現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實現(xiàn)大數(shù)據(jù)應用的效率較低, 成本和能耗較大, 而且難以擴展。這些挑戰(zhàn)大多來自數(shù)據(jù)本身的復雜性、計算的復雜性和信息系統(tǒng)的復雜性。

數(shù)據(jù)復雜性引起的挑戰(zhàn)

圖文檢索、主題發(fā)現(xiàn)、語義分析、情感分析等數(shù)據(jù)分析工作十分困難, 其原因是大數(shù)據(jù)涉及復雜的類型、復雜的結(jié)構(gòu)和復雜的模式, 數(shù)據(jù)本身具有很高的復雜性。

目前,人們對大數(shù)據(jù)背后的物理意義缺乏理解, 對大數(shù)據(jù)的復雜性和計算復雜性的內(nèi)在聯(lián)系也缺乏深刻的理解, 領域知識的缺乏制約了人們對大數(shù)據(jù)模型的發(fā)現(xiàn)和高效計算方法的設計。形式化或定量化地描述大數(shù)據(jù)復雜性的本質(zhì)特征及度量指標, 需要深入研究數(shù)據(jù)復雜性的內(nèi)在機理。人腦的復雜性主要體現(xiàn)在千萬億級的樹突和軸突的鏈接,大數(shù)據(jù)的復雜性也體現(xiàn)在數(shù)據(jù)之間的相互關聯(lián)。理解數(shù)據(jù)之間關聯(lián)的奧秘可能就是揭示微觀到宏觀“涌現(xiàn)” 規(guī)律的關鍵突破口。

大數(shù)據(jù)復雜性規(guī)律的研究有助于理解其復雜模式的本質(zhì)特征和生成機理, 從而簡化大數(shù)據(jù)的表征, 獲取更好的知識抽象。

為此,需要建立多模態(tài)關聯(lián)關系下的數(shù)據(jù)分布理論和模型, 理清數(shù)據(jù)復雜度和計算復雜度之間的內(nèi)在聯(lián)系, 奠定大數(shù)據(jù)計算的理論基礎。

計算復雜性引起的挑戰(zhàn)

大數(shù)據(jù)計算不能像處理小樣本數(shù)據(jù)集那樣做全局數(shù)據(jù)的統(tǒng)計分析和迭代計算, 在分析大數(shù)據(jù)時, 往往需要重新審視和研究它的可計算性、計算復雜性和求解算法。大數(shù)據(jù)樣本量巨大, 內(nèi)在關聯(lián)密切而復雜, 價值密度分布極不均衡, 這些特征對建立大數(shù)據(jù)計算范式提出了挑戰(zhàn)。對于PB 級的數(shù)據(jù), 即使只有線性復雜性的計算也難以實現(xiàn), 而且, 由于數(shù)據(jù)分布的稀疏性, 可能做了許多無效計算。

傳統(tǒng)的計算復雜度是指某個問題求解時需要的時間空間與問題規(guī)模的函數(shù)關系。所謂具有多項式復雜性的算法是指當問題的規(guī)模增大時, 計算時間和空間的增長速度在可容忍的范圍內(nèi)。傳統(tǒng)科學計算關注的重點是, 針對給定規(guī)模的問題, 如何“算得快”。大數(shù)據(jù)應用本質(zhì)上是在給定的時間、空間限制下, 如何“算得多”。從“算得快”到“算得多”, 考慮計算復雜性的思維邏輯有很大的轉(zhuǎn)變。所謂“算得多” 并不是計算的數(shù)據(jù)量越大越好, 需要探索從足夠多的數(shù)據(jù),到剛剛好的數(shù)據(jù), 再到有價值的數(shù)據(jù)的按需約簡方法。

基于大數(shù)據(jù)求解困難問題的一條思路是放棄通用解, 針對特殊的限制條件求具體問題的解。

人類的認知問題一般都是NP 難問題,但只要數(shù)據(jù)充分多, 在限制條件下可以找到十分滿意的解, 近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量, 需要研究基于自舉和采樣的局部計算和近似方法, 提出不依賴于全量數(shù)據(jù)的新型算法理論, 研究適應大數(shù)據(jù)的非確定性算法等理論。

系統(tǒng)復雜性引起的挑戰(zhàn)

大數(shù)據(jù)對計算機系統(tǒng)的運行效率和能耗提出了苛刻要求, 大數(shù)據(jù)處理系統(tǒng)的效能評價與優(yōu)化問題具有挑戰(zhàn)性, 不但要求理清大數(shù)據(jù)的計算復雜性與系統(tǒng)效率、能耗間的關系, 還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計算精度、作業(yè)單位能耗等多種效能因素。

針對大數(shù)據(jù)的價值稀疏性和訪問弱局部性的特點, 我們需要研究大數(shù)據(jù)的分布式存儲和處理架構(gòu)。

大數(shù)據(jù)應用涉及幾乎所有的領域, 大數(shù)據(jù)的優(yōu)勢是能在長期應用中發(fā)現(xiàn)往往被忽視的稀疏而珍貴的價值, 但一種優(yōu)化的計算機系統(tǒng)結(jié)構(gòu)很難適應各種不同的需求, 碎片化的應用大大增加了信息系統(tǒng)的復雜性。

像昆蟲種類一樣多(500多萬種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應用如何形成手機一樣的巨大市場, 這就是所謂“昆蟲綱悖論”。為了化解計算機系統(tǒng)的復雜性, 需要研究異構(gòu)計算系統(tǒng)和可塑計算技術(shù)。

大數(shù)據(jù)應用中, 計算機系統(tǒng)的負載量發(fā)生了本質(zhì)性變化, 計算機系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。

信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn), 關注的重點不是數(shù)據(jù)加工, 而是數(shù)據(jù)的搬運; 系統(tǒng)結(jié)構(gòu)設計的出發(fā)點要從重視單任務的完成時間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力, 并發(fā)執(zhí)行的規(guī)模要提高到10 億級以上。構(gòu)建以數(shù)據(jù)為中心的計算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動, 必要的數(shù)據(jù)搬運也應由“大象搬木頭” 轉(zhuǎn)變?yōu)椤拔浵伆岽竺住薄?/p>

相關鏈接

每種數(shù)據(jù)來源都有一定局限性,只有融合集成各方面的原始數(shù)據(jù)才能反映事物全貌。不同的數(shù)據(jù)可能角度不同,但描述的是同一件事。政府的數(shù)據(jù)可能是更客觀的事實,網(wǎng)上的數(shù)據(jù)可能是主觀的民意。對同一個問題,不同的數(shù)據(jù)可以反映不同的互補信息,增進了解。這就是大數(shù)據(jù)的作用,它是集成各方面的信息

目前支持大數(shù)據(jù)產(chǎn)業(yè)的數(shù)據(jù)來源主要是政府。開放數(shù)據(jù)后,眾多中小企業(yè)會創(chuàng)造出各類數(shù)據(jù)應用,形成過去沒有的數(shù)據(jù)生態(tài)鏈。

李國杰院士認為,政府共享數(shù)據(jù)可分為三類。

第一類是面向操作業(yè)務的信息共享。這類共享是為辦事人員設計的,辦理銀行貸款時要查信用數(shù)據(jù)庫;辦理出入境手續(xù)時要查局級干部名單表?,F(xiàn)在政府部門出臺的政策所提到的開放數(shù)據(jù),主要是指這部分數(shù)據(jù)。不管是廣州、上海還是寧波,提及的開放數(shù)據(jù)大部分指這類,是政府各部門之間辦公流程所需要的數(shù)據(jù)。

第二類是面向管理的信息共享。使用這類共享數(shù)據(jù)的大多為各項業(yè)務的管理者。管理者需要及時看到業(yè)務各方面的運行狀態(tài),便于及時控制、調(diào)整及記錄數(shù)據(jù)以備查看。

第三類是面向研究和決策的信息共享。使用這類數(shù)據(jù)的主要是政策研究人員和企業(yè)領導。這類信息共享的作用是發(fā)現(xiàn)知識、總結(jié)規(guī)律,從數(shù)據(jù)中發(fā)現(xiàn)新知識、新問題,制定新政策,更需要大數(shù)據(jù)。

目前,在政府數(shù)據(jù)共享方面,我們還處在階段一,從一到三還有很長的路要走。

猜你喜歡
復雜性
新時代城鄉(xiāng)學前教育均衡發(fā)展的復雜性挑戰(zhàn)與路徑優(yōu)化——基于復雜性理論
復雜性肛瘺治療的臨床思路探討
復雜性背后
PFNA與DHS治療股骨近端復雜性骨折的效果對比
簡單性與復雜性的統(tǒng)一
血小板-淋巴細胞比值與冠狀動脈病變復雜性的相關分析
駕馭復雜性領導力
應充分考慮醫(yī)院管理的復雜性
復雜性闌尾炎腹腔鏡手術(shù)療效觀察
直腸腔內(nèi)超聲和MRI在復雜性肛瘺診斷中的對比分析