大數(shù)據(jù)的新算法:簡化數(shù)據(jù)分類
來自意大利國際高等研究院(SISSA)的兩位研究者基于簡單且強大的原理設計了一種簇分析方法,被證明可以非常有效地解決一些大數(shù)據(jù)分析中遇到的主要典型問題。簇分析統(tǒng)計技術(shù)能依據(jù)數(shù)據(jù)的“相似性”進行數(shù)據(jù)分組。
用來測試新算法的圖片
如今,大數(shù)據(jù)時代悄然來臨。專家用“大數(shù)據(jù)”的表達描述大量信息,比如數(shù)十億人在計算機、智能手機以及其他電子設備上分享的照片、音頻、文本等數(shù)據(jù)。當前這種模式為我們的未來展現(xiàn)了前所未有的愿景:比如追蹤流感疫情蔓延,實時監(jiān)控道路交通,處理緊急自然災害等。對人們而言,想要利用這些龐大的數(shù)據(jù),首先必須要了解它們,而在此之前我們需要一種快捷有效自動的方式對數(shù)據(jù)進行分類。
其中一種最為常用的系統(tǒng),是一系列稱之為簇分析的統(tǒng)計技術(shù),這種技術(shù)能依據(jù)數(shù)據(jù)的“相似性”進行數(shù)據(jù)分組。來自意大利國際高等研究院(SISSA)的兩位研究者基于簡單且強大的原理設計了一種簇分析方法,被證明可以非常有效地解決一些大數(shù)據(jù)分析中遇到的主要典型問題。
數(shù)據(jù)集合可以視為多維空間的云數(shù)據(jù)點。這些點呈現(xiàn)不同分配方式:或稀疏地分布在一個區(qū)域,或密集地分布在另外一個區(qū)域。簇分析就是用來有效地鑒別密集型區(qū)域,基于基本的準則將數(shù)據(jù)分為一定數(shù)量的重要子集合,每個子集合對應一種分類。
“以一個面部圖像數(shù)據(jù)庫為例,”SISSA統(tǒng)計與生物物理系教授Alessandro Laio說,“數(shù)據(jù)庫可能包含同一個人的多張照片,簇分析可以用來歸類同一人的所有照片。這種類型的分析可用自動臉部識別系統(tǒng)來完成?!?/p>
“我們試著設計一種較現(xiàn)有方法更為有效的算法,來解決簇分析中典型的問題?!盠aio繼續(xù)補充說。
“我們的方法基于一種新的鑒定簇中心,比如子集合,”另一位研究者Alex Rodriguez解釋道,“試想這樣的情形,在無法訪問地圖中,卻不得不鑒定全球所有的城市時,這無疑是一個艱巨的任務?!盧odriguez進一步解釋道,“因此我們在做一種探索式的識別,嘗試尋找一條簡單的規(guī)則或是一種捷徑來達成目標?!?/p>
“為了確定一個地方是否達到城市級別規(guī)模,我們可以讓當?shù)鼐用裼嫈?shù)自己的‘鄰居’,換句話說,他房子的100米內(nèi)住了多少人。一旦得到這個數(shù)字,我們繼續(xù)去確認每一個居民,他們身邊最近的擁有最多鄰居數(shù)的居民。借助這兩組數(shù)據(jù)結(jié)果交叉的部分,就可以推斷每個人所在居住區(qū)域人口的稠密程度,以及擁有鄰居數(shù)最多的兩家間距。就全球人口而言,通過自動交叉檢測這些數(shù)據(jù),我們能識別代表簇狀中心的個體,這些個體就是不同的城市。” Laio解釋道。
“我們的算法能夠精確地完成此類計算,也適用于其他場景,”Rodriguez進一步補充說,此算法表現(xiàn)相當優(yōu)異。Rodriguez對此有著深刻理解:“借用面部數(shù)據(jù)檔案Olivetti Face數(shù)據(jù)庫,我們測試了自己的數(shù)學模型,并獲得了滿意的結(jié)果。此系統(tǒng)能夠正確地識別大部分個體,從不產(chǎn)生假陽性結(jié)果,這意味著在某些情況下,它可能無法識別事物,但絕不會混淆一個個體與另一個個體。與類似的方法相比,我們的算法能夠有效地剔除異類,要知道這些異類的數(shù)據(jù)點與其他數(shù)據(jù)存在較大差異是會損毀分析結(jié)果的?!?/p>
(來源:Science Daily)