国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

挖掘大數(shù)據(jù)

2015-07-01 13:27傅凱群
科學24小時 2015年7期
關(guān)鍵詞:貝葉斯數(shù)據(jù)挖掘購物

傅凱群

數(shù)據(jù)是無處不在的,只要人類的活動依舊,且觀測行為始終存在,那么數(shù)據(jù)就會不斷產(chǎn)生。一旦數(shù)據(jù)被記錄下來,它就會成為歷史的一個投影,被保存在各種各樣的信息媒介中。不過在互聯(lián)網(wǎng)時代,數(shù)據(jù)早已掙脫了簡單的數(shù)字束縛,它不僅可以是符號、文字、語音,更可以是圖像或視頻。

數(shù)據(jù)之豐

美景極致之時,我們會拿起手中的相機,將這種美永久定格。風景以照片的形式記錄下來。此時,照片的底片,或者數(shù)碼相機的存儲卡就是一個存儲數(shù)據(jù)的媒介。沒有相機的時代,古人會以文字的形式記錄,馬致遠的“枯藤老樹昏鴉,小橋流水人家”、李白的“飛流直下三千尺,疑是銀河落九天”……此時的媒介就是紙上的這一段文字。

如今,我們的數(shù)據(jù)記錄媒介更加多樣。比如,我們在超市購物的數(shù)據(jù),會以文字的形式,被保留在超市的臨時數(shù)據(jù)庫中。而健身達人的夜跑經(jīng)歷,則會被手機或是周圍的監(jiān)控記錄。試想一下,全球70億人口每分每秒都會產(chǎn)生多少數(shù)據(jù),而這些數(shù)據(jù)將會被如何記錄或是開發(fā)呢?

在互聯(lián)網(wǎng)技術(shù)、社交網(wǎng)絡媒體,以及硬盤存儲能力高速發(fā)展的今天,“記錄”這一行為正在變得越來越簡單和頻繁。人們在網(wǎng)絡上的任何行為,如在微博上發(fā)的消息、微信朋友圈中的好友、在京東購買的商品等等,都有可能被實時保存下來。很顯然,當用戶的數(shù)量達到一個非常巨大的數(shù)值時,這些用戶每秒鐘產(chǎn)生的數(shù)據(jù)都是一個天文數(shù)字。

數(shù)據(jù)之惑

面對如此巨大的數(shù)據(jù)量,對于針對用戶的服務提供方來說,其價值是不可估量的。但如果數(shù)據(jù)的所有方缺乏一種有效的應用策略,那么他們手中的數(shù)據(jù)將變得一文不值——數(shù)據(jù)和信息是不可分離的,數(shù)據(jù)是信息的表達,而信息是數(shù)據(jù)的內(nèi)涵。數(shù)據(jù)本身沒有意義,數(shù)據(jù)只有對實體行為產(chǎn)生影響時才會成為信息。

其實從信息索引的角度看,我們在面對信息量爆炸和信息量極度匱乏這兩種情況時,如果沒有較好的方法,其結(jié)果幾乎是一樣的。如果今天沒有類似百度、谷歌這樣的搜索引擎,那我們應該怎樣在互聯(lián)網(wǎng)上找到所需的信息或是想要的答案呢?即便我們非常確定,想要尋找的內(nèi)容一定存在于網(wǎng)絡之中。最后的結(jié)果想必是確定的,面對如繁星般眾多的網(wǎng)頁,我們束手無策,找不到自己真正想要的答案。

在互聯(lián)網(wǎng)時代中,如何針對如此龐大的用戶數(shù)據(jù),構(gòu)建一個合適的、有價值的信息提取方案,就成了一個亟待解決的問題,而這個概念就是大家耳熟能詳?shù)摹按髷?shù)據(jù)”中的一部分——數(shù)據(jù)挖掘。

數(shù)據(jù)之力

“大數(shù)據(jù)”是一個近年來才被提出的概念,它是指在不對已有數(shù)據(jù)進行抽樣提取的情況下,將原有數(shù)據(jù)作為整體進行處理的方案(當然這只是一個比較寬泛的定義,有興趣的讀者,可以關(guān)注由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》)。而這樣的方案,不僅能讓我們擁有更強的決策力和洞察力,而且還能大大提升流程優(yōu)化能力。

因此,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握多么龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。

為了達到處理整體數(shù)據(jù)的目的,近年來,不少科學家在不同層面上提出了許多非常有趣的新興技術(shù)。比如從數(shù)據(jù)處理角度出發(fā),有分布式處理方法MapReduce。這是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。我們可以將它簡單地表述為,將非常大的輸入數(shù)據(jù)分成多份,然后并行處理,最后將并行處理的所有結(jié)果整合成最終結(jié)果。這項技術(shù)比較著名的應用工具有Hadoop和DISCO等。再從數(shù)據(jù)庫角度看,NoSQL數(shù)據(jù)庫以其在信息索引、流媒體存儲等方面的高性能,如今已被廣泛應用。隨著互聯(lián)網(wǎng)Web2.0網(wǎng)站的興起,傳統(tǒng)的關(guān)系數(shù)據(jù)庫在應付Web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的Web2.0純動態(tài)網(wǎng)站時,已顯得力不從心,暴露了很多難以克服的問題,而非關(guān)系型的數(shù)據(jù)庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產(chǎn)生就是為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應用難題,比較著名的NoSQL數(shù)據(jù)庫有MongoDB和CouchDB等。

數(shù)據(jù)之術(shù)

在現(xiàn)今互聯(lián)網(wǎng)大環(huán)境下,如何應用“大數(shù)據(jù)”概念,提取有價值用戶信息,從而實現(xiàn)利潤最大化呢?除了上述底層結(jié)構(gòu)化的技術(shù)支持外,有效的數(shù)據(jù)挖掘(Data mining),甚至是機器學習(Machine learning)算法都是必不可少的。這類算法大多和數(shù)理統(tǒng)計學密切相關(guān),其理論基礎(chǔ)也多建立在數(shù)理統(tǒng)計學之上。這些行之有效的算法,都有一個相通的基本理念:以史為鑒,即通過歷史數(shù)據(jù)去推斷當前甚至未來。

2000年,來自美國伊利諾伊大學香檳分校(University of Illinois Urbana Champaign)的韓家煒教授等人,提出了關(guān)聯(lián)式規(guī)則(Association Rules, AR)這一算法,它可從大量數(shù)據(jù)中挖掘出有價值數(shù)據(jù)項之間的相關(guān)關(guān)系。以網(wǎng)絡購物平臺為例,它擁有著巨量的用戶網(wǎng)絡購物信息,比如用戶購物歷史數(shù)據(jù):購買時間、商品名稱、種類等等。那我們該如何根據(jù)一個用戶的購物歷史向他推薦有可能感興趣的商品,從而提升用戶體驗,甚至是提高平臺收益呢?這就是關(guān)聯(lián)式規(guī)則算法的用武之地了。

首先,我們可以從所有用戶購物信息中提取他們的歷史購物信息,找到用戶先后購買的商品,比如統(tǒng)計在購買手機之后又購買手機套和充電器的訂單數(shù)目,從而推斷出用戶在購買手機后,購買手機套或充電器的置信度(可將其簡單理解為概率)。那么根據(jù)這些信息,我們就可以在今后,有計劃地向已購買手機的用戶,推薦手機套或者充電器。

當然,這只是一個最簡單、直觀的例子,在現(xiàn)實應用中,我們還要考慮許多更為復雜的因素。比如考慮某用戶的個人信息,并將其納入?yún)⒄辗秶瑥亩雇扑]的商品更貼近用戶本人的偏好。

此外,貝葉斯網(wǎng)絡(Bayesian Network)算法也是目前較為主流的技術(shù)之一。它是一種基于概率推理的圖形化網(wǎng)絡,是為了解決不定性和不完整性問題而提出的,而貝葉斯公式則是這個概率網(wǎng)絡的基礎(chǔ)。

貝葉斯網(wǎng)絡是從數(shù)理統(tǒng)計中借鑒而來的,正如前文所述,數(shù)理統(tǒng)計是當今數(shù)據(jù)挖掘、機器學習乃至人工智能的基石。沒有數(shù)理統(tǒng)計的基礎(chǔ),當今應用在各個領(lǐng)域中的數(shù)據(jù)模型將缺少理論支撐。簡單地說,貝葉斯網(wǎng)絡算法能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。換言之,我們可以通過已知的信息,借助貝葉斯網(wǎng)絡算法,對未知信息進行更新。

我們還是以在網(wǎng)絡購物平臺購買手機為例,下圖中三個圓形代表三個事件,而它們之間的箭頭則代表事件間的因果關(guān)系。比如箭頭A表示已知一個用戶購買了手機,以及他同時購買充電器的概率。通過公式計算,我們便能得知這三個事件之間的聯(lián)合分布,從而更好地做到概率推理。由此可見,貝葉斯網(wǎng)絡對于解決復雜問題的不確定性和關(guān)聯(lián)性有很大的幫助,而它也在多個領(lǐng)域中獲得廣泛應用。

當然,以上兩種算法僅僅只是現(xiàn)有算法的冰山一角。在當代數(shù)據(jù)挖掘、機器學習領(lǐng)域中,人工神經(jīng)網(wǎng)絡、線性回歸算法等作為數(shù)據(jù)分析的解決方案,也占有一席之地。尤其是目前最熱門的深度學習技術(shù)框架,不僅能解決傳統(tǒng)數(shù)據(jù)分析中所不能解決的問題,而且還能在人工智能領(lǐng)域有新的突破。

如今,大數(shù)據(jù)已在經(jīng)濟、政治、文化等各個方面產(chǎn)生了深遠的影響,并深刻改變著你和我的未來。如何讓大數(shù)據(jù)真正詮釋4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),也許正是我們在今后應當考慮和解決的重要問題。

猜你喜歡
貝葉斯數(shù)據(jù)挖掘購物
我們?yōu)槭裁催x擇網(wǎng)上購物?
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
貝葉斯網(wǎng)絡概述
圣誕購物季
貝葉斯公式的應用和推廣
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
基于R的醫(yī)學大數(shù)據(jù)挖掘系統(tǒng)研究
快樂六一,開心購物!
义马市| 黎川县| 五台县| 桃园市| 贵德县| 宝坻区| 武陟县| 阜康市| 黑河市| 涪陵区| 淮阳县| 正定县| 玉山县| 赫章县| 丁青县| 罗平县| 南涧| 清水河县| 武城县| 郁南县| 黄冈市| 建德市| 竹北市| 汉源县| 常德市| 赤峰市| 旬邑县| 嘉禾县| 佛学| 浪卡子县| 绥宁县| 大宁县| 遂宁市| 顺昌县| 且末县| 兴城市| 通海县| 盐山县| 夏河县| 台南县| 谢通门县|