我們在大數(shù)據(jù)時代面臨著什么樣的挑戰(zhàn),今天我就講講這個問題。
大數(shù)據(jù)通常來自三個方向:自然大數(shù)據(jù)、生命大數(shù)據(jù)和社交大數(shù)據(jù)。PB時代是對科學(xué)的挑戰(zhàn),更是對包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn),也是對軟件工程的挑戰(zhàn)。
尤其是社交大數(shù)據(jù)。在奧巴馬就職的現(xiàn)場有這么多面孔,每一個面孔下都有一個故事。人臉是數(shù)據(jù)安全很重要的識別器。那么,怎么識別呢?人們想到了攝像頭,北京市約有80萬個攝像頭,我們每天都在攝像頭的監(jiān)督下開車、購物等。
“誰?是他嗎?”這是社交網(wǎng)絡(luò)中基本的問題。我們要確定一個人,通常需要從身份認(rèn)證、年齡識別、情感計算、親緣發(fā)現(xiàn)、性別識別、地區(qū)和民族識別等方面進(jìn)行辨識。
結(jié)構(gòu)化數(shù)據(jù)面臨挑戰(zhàn)
我們認(rèn)為計算在過去的20年里起到了主導(dǎo)作用,它的標(biāo)志就是摩爾速度。跟這個時代相對應(yīng)的是結(jié)構(gòu)化數(shù)據(jù),“軟件”加“程序”加“數(shù)據(jù)”加“存檔”,這個數(shù)據(jù)應(yīng)該是結(jié)構(gòu)化數(shù)據(jù)才能運行起來。
結(jié)構(gòu)化數(shù)據(jù)的典型代表就是關(guān)系數(shù)據(jù)庫。1970年,偉大的科學(xué)家埃德加·弗蘭克·科德教授提出關(guān)系模型,以關(guān)系代數(shù)為核心運算,用二維表形式表示實體和實體間聯(lián)系,通過關(guān)系運算實現(xiàn)結(jié)構(gòu)化查詢。30多年來,各行各業(yè)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù),以及從數(shù)據(jù)庫發(fā)現(xiàn)知識的數(shù)據(jù)挖掘構(gòu)筑起巨大的信息處理產(chǎn)業(yè)。
關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫的形式化理論和約束。關(guān)系數(shù)據(jù)庫有嚴(yán)格的頂層設(shè)計。為構(gòu)造良式關(guān)系,必須消除元組中不合適的數(shù)據(jù)依賴,通過第三范式(BCNF)甚至約束度更高的范式,分解數(shù)據(jù)表,以解決插入異常、刪除異常和數(shù)據(jù)冗余等問題。對這樣的關(guān)系進(jìn)行運算,運算結(jié)果仍然是關(guān)系,運算符可以是集合運算、算術(shù)運算、邏輯運算,或者關(guān)系運算。只要數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中,用戶總可以通過SQL語言將滿足條件的唯一結(jié)果挖掘出來,無需關(guān)心數(shù)據(jù)的獲取、存儲、分析和提取過程,更無需關(guān)心數(shù)據(jù)結(jié)構(gòu)的內(nèi)部組織形式。
但是,結(jié)構(gòu)化數(shù)據(jù)仍然面臨著一些挑戰(zhàn):挑戰(zhàn)一,形式化約束過于苛刻,無法表示原生態(tài)數(shù)據(jù);挑戰(zhàn)二,隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運轉(zhuǎn)的性能急劇下降。
在計算時代,人們發(fā)現(xiàn),這種摩爾速度下的存儲也有很大的發(fā)展。尤其隨著存儲材料和存儲技術(shù)的發(fā)展,市場上500元就能買到1TB的硬盤,這是我們以前不可想象的。存儲技術(shù)在交互方面的發(fā)展,讓我們有了存儲的網(wǎng)絡(luò)和陣地。于是,整個社會進(jìn)入了半結(jié)構(gòu)化的數(shù)據(jù)階段。而半結(jié)構(gòu)化數(shù)據(jù)的典型特征是超文本、超鏈接、超媒體,其組成形式是C/S、B/S和云計算。
萬維網(wǎng)(World Wide Web)之父Tim Berners-Lee,是把超文本技術(shù)引入互聯(lián)網(wǎng)的第一人。1989年,他開發(fā)出世界上第一個Web服務(wù)器和Web客戶機。1991年,Web實現(xiàn)了通過超文本方式,使網(wǎng)絡(luò)中不同計算機內(nèi)的信息實現(xiàn)超鏈接,通過超文本傳輸協(xié)議HTTP從一臺Web服務(wù)器轉(zhuǎn)到另一臺Web服務(wù)器上檢索。另外,服務(wù)器在軟件支持下可以發(fā)布包括文本、表格、圖片、音頻和視頻等碎片化的超媒體信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通過Web服務(wù)實現(xiàn)。從此開始了Web紀(jì)元,人類進(jìn)入搜索時代。
我們看到,數(shù)據(jù)圍繞實體,實體圍繞鏈接轉(zhuǎn)。挖掘就是云環(huán)境下的探索和個性化服務(wù),沒有死板的查詢方式,也沒有唯一的結(jié)果,挖掘結(jié)果允許帶有不確定性,重視探索的統(tǒng)計性質(zhì)?,F(xiàn)在的挖掘已經(jīng)延伸到了圖片和語音的搜索,這類搜索引擎的出現(xiàn)也帶來了互聯(lián)網(wǎng)上繁榮的內(nèi)容服務(wù)。
移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘
現(xiàn)在,我們處在網(wǎng)絡(luò)化和交互的時代。移動互聯(lián)網(wǎng)時代的大數(shù)據(jù)挖掘,主要是網(wǎng)絡(luò)環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘。這些數(shù)據(jù)形態(tài)反映的是帶毛的、鮮活的、碎片化了的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù),而這些原生態(tài)數(shù)據(jù)的特點常是低價值的、強噪音、并購、冗余的冷數(shù)據(jù)。
同時,移動互聯(lián)網(wǎng)大數(shù)據(jù)挖掘過程中,數(shù)據(jù)的簡約具有各自適應(yīng)性。長期以來,我們用認(rèn)知物理學(xué)方法來實現(xiàn)數(shù)據(jù)的自適應(yīng)簡約。我們在國內(nèi)外第一次提出了數(shù)據(jù)場的思想。把人臉變成數(shù)據(jù)場,大家可以看到這張人臉跟其他人的臉是有相似之處的,可以用線性的方法也可以用非線性的方法來表現(xiàn)。
舉例來說,如果想突出眼睛、鼻子和嘴巴,我們可以用這種數(shù)據(jù)場的方法來突出。用物理學(xué)中“場”的方法來類比形成數(shù)據(jù)場,像素之間相互影響越小,特征點個數(shù)越多,圖像的描述細(xì)節(jié)越多,反之特征點個數(shù)越少。
百度用深度學(xué)習(xí)的方法實現(xiàn)了數(shù)據(jù)自適應(yīng)簡約,我們覺得他們跟我們現(xiàn)在做的是非常一致的,例如,百度搜圖做的人臉相似性搜索。當(dāng)前的情況是,數(shù)據(jù)量急劇增加,組織結(jié)構(gòu)已經(jīng)圍繞數(shù)據(jù)轉(zhuǎn)了,程序碎片化可以隨時重組,挖掘常常是人機交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)。
社區(qū)可以給我們提供數(shù)據(jù)實物。網(wǎng)絡(luò)化大數(shù)據(jù)挖掘的方法是社區(qū)發(fā)現(xiàn)。人們最關(guān)心的是社區(qū),并且我們關(guān)心社區(qū)中的交互。社區(qū)交互表現(xiàn)的形式有顯性和隱性兩種形式。顯性形式有評論、心情、收集、購買、評分、頂、踩、分享、加為好友、邀請加入等,而隱性形式有跳轉(zhuǎn)等。我們利用拓?fù)鋭莘椒ㄍ诰蛏鐓^(qū),并且發(fā)現(xiàn)社區(qū)成員的重要性及成員角色。現(xiàn)實生活中經(jīng)過一段時間的反復(fù)、交互、匯聚,修正和演化,群體形成趨于相對穩(wěn)定的共識。
云計算支撐大數(shù)據(jù)挖掘
云計算是基于互聯(lián)網(wǎng)大眾參與的計算模式,其計算資源、存儲能力、交互能力是動態(tài)、可伸縮和被虛擬化的。端產(chǎn)品擺脫了傳統(tǒng)IT配置帶來的系統(tǒng)升級開銷,其特點是更加簡潔、靈活、多樣、個性化。手機、游戲機、數(shù)碼相機、電視機、上網(wǎng)本、筆記本電腦等功能交叉,差別細(xì)微,出現(xiàn)更多iCloud產(chǎn)品。界面人性化、個性化,可隨時變換成為各種各樣的大數(shù)據(jù)發(fā)生器,或者虛擬遙控器,或者大數(shù)據(jù)挖掘終端。
大數(shù)據(jù)挖掘和云計算在支撐著各種各樣的大數(shù)據(jù)應(yīng)用。于是,軟件工程出現(xiàn)了巨大的變化,通過眾包細(xì)分法,完成云環(huán)境下的社會生產(chǎn)。在互聯(lián)網(wǎng)環(huán)境下,利用人的認(rèn)知和大眾之間的交互,融合計算機群組對大數(shù)據(jù)的價值挖掘,形成群體智能。由此,我們提出了一個新概念“眾挖”。用戶不再需要關(guān)心數(shù)據(jù)的形態(tài)、數(shù)據(jù)的獲取位置、結(jié)構(gòu)模式、存儲方式和分析過程,就能夠獲得足夠滿意的挖掘結(jié)果。
大數(shù)據(jù)標(biāo)志著新時代的到來,這個時代的特征不只是追求豐富的物質(zhì)資源,也不只是互聯(lián)網(wǎng)帶來的便利,它還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價值挖掘和價值轉(zhuǎn)換,以及由大數(shù)據(jù)給金融行業(yè)帶來的很多思考,同時還有由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。
(本文根據(jù)李德毅院士發(fā)言整理,未經(jīng)本人確認(rèn))endprint