国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時代的挑戰(zhàn)

2014-06-20 00:45李德毅
中國計算機報 2014年21期
關(guān)鍵詞:超文本關(guān)系數(shù)據(jù)庫結(jié)構(gòu)化

我們在大數(shù)據(jù)時代面臨著什么樣的挑戰(zhàn),今天我就講講這個問題。

大數(shù)據(jù)通常來自三個方向:自然大數(shù)據(jù)、生命大數(shù)據(jù)和社交大數(shù)據(jù)。PB時代是對科學(xué)的挑戰(zhàn),更是對包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn),也是對軟件工程的挑戰(zhàn)。

尤其是社交大數(shù)據(jù)。在奧巴馬就職的現(xiàn)場有這么多面孔,每一個面孔下都有一個故事。人臉是數(shù)據(jù)安全很重要的識別器。那么,怎么識別呢?人們想到了攝像頭,北京市約有80萬個攝像頭,我們每天都在攝像頭的監(jiān)督下開車、購物等。

“誰?是他嗎?”這是社交網(wǎng)絡(luò)中基本的問題。我們要確定一個人,通常需要從身份認(rèn)證、年齡識別、情感計算、親緣發(fā)現(xiàn)、性別識別、地區(qū)和民族識別等方面進(jìn)行辨識。

結(jié)構(gòu)化數(shù)據(jù)面臨挑戰(zhàn)

我們認(rèn)為計算在過去的20年里起到了主導(dǎo)作用,它的標(biāo)志就是摩爾速度。跟這個時代相對應(yīng)的是結(jié)構(gòu)化數(shù)據(jù),“軟件”加“程序”加“數(shù)據(jù)”加“存檔”,這個數(shù)據(jù)應(yīng)該是結(jié)構(gòu)化數(shù)據(jù)才能運行起來。

結(jié)構(gòu)化數(shù)據(jù)的典型代表就是關(guān)系數(shù)據(jù)庫。1970年,偉大的科學(xué)家埃德加·弗蘭克·科德教授提出關(guān)系模型,以關(guān)系代數(shù)為核心運算,用二維表形式表示實體和實體間聯(lián)系,通過關(guān)系運算實現(xiàn)結(jié)構(gòu)化查詢。30多年來,各行各業(yè)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù),以及從數(shù)據(jù)庫發(fā)現(xiàn)知識的數(shù)據(jù)挖掘構(gòu)筑起巨大的信息處理產(chǎn)業(yè)。

關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫的形式化理論和約束。關(guān)系數(shù)據(jù)庫有嚴(yán)格的頂層設(shè)計。為構(gòu)造良式關(guān)系,必須消除元組中不合適的數(shù)據(jù)依賴,通過第三范式(BCNF)甚至約束度更高的范式,分解數(shù)據(jù)表,以解決插入異常、刪除異常和數(shù)據(jù)冗余等問題。對這樣的關(guān)系進(jìn)行運算,運算結(jié)果仍然是關(guān)系,運算符可以是集合運算、算術(shù)運算、邏輯運算,或者關(guān)系運算。只要數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中,用戶總可以通過SQL語言將滿足條件的唯一結(jié)果挖掘出來,無需關(guān)心數(shù)據(jù)的獲取、存儲、分析和提取過程,更無需關(guān)心數(shù)據(jù)結(jié)構(gòu)的內(nèi)部組織形式。

但是,結(jié)構(gòu)化數(shù)據(jù)仍然面臨著一些挑戰(zhàn):挑戰(zhàn)一,形式化約束過于苛刻,無法表示原生態(tài)數(shù)據(jù);挑戰(zhàn)二,隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運轉(zhuǎn)的性能急劇下降。

在計算時代,人們發(fā)現(xiàn),這種摩爾速度下的存儲也有很大的發(fā)展。尤其隨著存儲材料和存儲技術(shù)的發(fā)展,市場上500元就能買到1TB的硬盤,這是我們以前不可想象的。存儲技術(shù)在交互方面的發(fā)展,讓我們有了存儲的網(wǎng)絡(luò)和陣地。于是,整個社會進(jìn)入了半結(jié)構(gòu)化的數(shù)據(jù)階段。而半結(jié)構(gòu)化數(shù)據(jù)的典型特征是超文本、超鏈接、超媒體,其組成形式是C/S、B/S和云計算。

萬維網(wǎng)(World Wide Web)之父Tim Berners-Lee,是把超文本技術(shù)引入互聯(lián)網(wǎng)的第一人。1989年,他開發(fā)出世界上第一個Web服務(wù)器和Web客戶機。1991年,Web實現(xiàn)了通過超文本方式,使網(wǎng)絡(luò)中不同計算機內(nèi)的信息實現(xiàn)超鏈接,通過超文本傳輸協(xié)議HTTP從一臺Web服務(wù)器轉(zhuǎn)到另一臺Web服務(wù)器上檢索。另外,服務(wù)器在軟件支持下可以發(fā)布包括文本、表格、圖片、音頻和視頻等碎片化的超媒體信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通過Web服務(wù)實現(xiàn)。從此開始了Web紀(jì)元,人類進(jìn)入搜索時代。

我們看到,數(shù)據(jù)圍繞實體,實體圍繞鏈接轉(zhuǎn)。挖掘就是云環(huán)境下的探索和個性化服務(wù),沒有死板的查詢方式,也沒有唯一的結(jié)果,挖掘結(jié)果允許帶有不確定性,重視探索的統(tǒng)計性質(zhì)?,F(xiàn)在的挖掘已經(jīng)延伸到了圖片和語音的搜索,這類搜索引擎的出現(xiàn)也帶來了互聯(lián)網(wǎng)上繁榮的內(nèi)容服務(wù)。

移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘

現(xiàn)在,我們處在網(wǎng)絡(luò)化和交互的時代。移動互聯(lián)網(wǎng)時代的大數(shù)據(jù)挖掘,主要是網(wǎng)絡(luò)環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘。這些數(shù)據(jù)形態(tài)反映的是帶毛的、鮮活的、碎片化了的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù),而這些原生態(tài)數(shù)據(jù)的特點常是低價值的、強噪音、并購、冗余的冷數(shù)據(jù)。

同時,移動互聯(lián)網(wǎng)大數(shù)據(jù)挖掘過程中,數(shù)據(jù)的簡約具有各自適應(yīng)性。長期以來,我們用認(rèn)知物理學(xué)方法來實現(xiàn)數(shù)據(jù)的自適應(yīng)簡約。我們在國內(nèi)外第一次提出了數(shù)據(jù)場的思想。把人臉變成數(shù)據(jù)場,大家可以看到這張人臉跟其他人的臉是有相似之處的,可以用線性的方法也可以用非線性的方法來表現(xiàn)。

舉例來說,如果想突出眼睛、鼻子和嘴巴,我們可以用這種數(shù)據(jù)場的方法來突出。用物理學(xué)中“場”的方法來類比形成數(shù)據(jù)場,像素之間相互影響越小,特征點個數(shù)越多,圖像的描述細(xì)節(jié)越多,反之特征點個數(shù)越少。

百度用深度學(xué)習(xí)的方法實現(xiàn)了數(shù)據(jù)自適應(yīng)簡約,我們覺得他們跟我們現(xiàn)在做的是非常一致的,例如,百度搜圖做的人臉相似性搜索。當(dāng)前的情況是,數(shù)據(jù)量急劇增加,組織結(jié)構(gòu)已經(jīng)圍繞數(shù)據(jù)轉(zhuǎn)了,程序碎片化可以隨時重組,挖掘常常是人機交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)。

社區(qū)可以給我們提供數(shù)據(jù)實物。網(wǎng)絡(luò)化大數(shù)據(jù)挖掘的方法是社區(qū)發(fā)現(xiàn)。人們最關(guān)心的是社區(qū),并且我們關(guān)心社區(qū)中的交互。社區(qū)交互表現(xiàn)的形式有顯性和隱性兩種形式。顯性形式有評論、心情、收集、購買、評分、頂、踩、分享、加為好友、邀請加入等,而隱性形式有跳轉(zhuǎn)等。我們利用拓?fù)鋭莘椒ㄍ诰蛏鐓^(qū),并且發(fā)現(xiàn)社區(qū)成員的重要性及成員角色。現(xiàn)實生活中經(jīng)過一段時間的反復(fù)、交互、匯聚,修正和演化,群體形成趨于相對穩(wěn)定的共識。

云計算支撐大數(shù)據(jù)挖掘

云計算是基于互聯(lián)網(wǎng)大眾參與的計算模式,其計算資源、存儲能力、交互能力是動態(tài)、可伸縮和被虛擬化的。端產(chǎn)品擺脫了傳統(tǒng)IT配置帶來的系統(tǒng)升級開銷,其特點是更加簡潔、靈活、多樣、個性化。手機、游戲機、數(shù)碼相機、電視機、上網(wǎng)本、筆記本電腦等功能交叉,差別細(xì)微,出現(xiàn)更多iCloud產(chǎn)品。界面人性化、個性化,可隨時變換成為各種各樣的大數(shù)據(jù)發(fā)生器,或者虛擬遙控器,或者大數(shù)據(jù)挖掘終端。

大數(shù)據(jù)挖掘和云計算在支撐著各種各樣的大數(shù)據(jù)應(yīng)用。于是,軟件工程出現(xiàn)了巨大的變化,通過眾包細(xì)分法,完成云環(huán)境下的社會生產(chǎn)。在互聯(lián)網(wǎng)環(huán)境下,利用人的認(rèn)知和大眾之間的交互,融合計算機群組對大數(shù)據(jù)的價值挖掘,形成群體智能。由此,我們提出了一個新概念“眾挖”。用戶不再需要關(guān)心數(shù)據(jù)的形態(tài)、數(shù)據(jù)的獲取位置、結(jié)構(gòu)模式、存儲方式和分析過程,就能夠獲得足夠滿意的挖掘結(jié)果。

大數(shù)據(jù)標(biāo)志著新時代的到來,這個時代的特征不只是追求豐富的物質(zhì)資源,也不只是互聯(lián)網(wǎng)帶來的便利,它還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價值挖掘和價值轉(zhuǎn)換,以及由大數(shù)據(jù)給金融行業(yè)帶來的很多思考,同時還有由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。

(本文根據(jù)李德毅院士發(fā)言整理,未經(jīng)本人確認(rèn))endprint

猜你喜歡
超文本關(guān)系數(shù)據(jù)庫結(jié)構(gòu)化
關(guān)系數(shù)據(jù)庫在高爐數(shù)據(jù)采集系統(tǒng)中的應(yīng)用
促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
應(yīng)用超文本建構(gòu)教學(xué)培養(yǎng)學(xué)生的知識組織能力
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
基于索引結(jié)構(gòu)的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
超文本閱讀認(rèn)知負(fù)荷的個體差異
一種基于數(shù)據(jù)圖劃分的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索方法
湘潭县| 通化市| 花莲县| 庆元县| 长汀县| 丹东市| 元阳县| 新化县| 花莲县| 太仓市| 甘孜县| 新疆| 桂林市| 十堰市| 吉隆县| 正定县| 镇江市| 汪清县| 抚顺市| 松原市| 伊春市| 深州市| 北票市| 天津市| 察雅县| 双峰县| 鄂托克前旗| 德兴市| 浮山县| 五大连池市| 临安市| 视频| 炎陵县| 乌拉特前旗| 大关县| 玉山县| 玉林市| 常山县| 昌邑市| 黄平县| 开平市|