国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云環(huán)境中大數(shù)據(jù)挖掘的有效花費(fèi)研究

2020-07-06 04:30:46朱小棟魏紫鈺
關(guān)鍵詞:計(jì)算資源花費(fèi)數(shù)據(jù)挖掘

朱小棟, 徐 怡, 魏紫鈺

(上海理工大學(xué) 管理學(xué)院,上海 200093)

隨著互聯(lián)網(wǎng)與通信技術(shù)的迅猛發(fā)展,我們已經(jīng)處于數(shù)據(jù)爆炸的時(shí)代[1]。例如,臉譜網(wǎng)每月約有60億張新照片,YouTube每分鐘約400 h視頻被上傳。2010年時(shí)中國(guó)網(wǎng)頁規(guī)模就已達(dá)到600億個(gè),年增長(zhǎng)率達(dá)到78.6%[2]。這種爆炸性增長(zhǎng)的數(shù)據(jù)推動(dòng)了大范圍的數(shù)據(jù)挖掘,如商業(yè)、政府、醫(yī)療保健等。所以,相應(yīng)地,大數(shù)據(jù)的有效分析和挖掘具有不可估量的經(jīng)濟(jì)價(jià)值。

大數(shù)據(jù)時(shí)代來臨的同時(shí),大多數(shù)數(shù)據(jù)挖掘算法在計(jì)算復(fù)雜度上呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)挖掘過程要花費(fèi)數(shù)小時(shí)甚至數(shù)天才能完成。因此,大數(shù)據(jù)挖掘常常需要大量的計(jì)算資源與計(jì)算空間。然而,許多企業(yè),尤其是中小企業(yè)和組織無法負(fù)擔(dān)大型數(shù)據(jù)挖掘[3]。就像加州大學(xué)伯克利分??煽孔赃m應(yīng)分布式系統(tǒng)實(shí)驗(yàn)室的Armbrust[4]提到的那樣:“大規(guī)模并行任務(wù)處理能夠獲得與傳統(tǒng)計(jì)算累加相似的效率,使用一千臺(tái)服務(wù)器運(yùn)算一個(gè)小時(shí)的成本,與一臺(tái)服務(wù)器計(jì)算一千個(gè)小時(shí)不相上下。這種資源的彈性是史無前例的—它意味著用戶不必為擴(kuò)展花費(fèi)過多的成本?!彼裕朴?jì)算資源的租用成為有效的途徑[5],特別對(duì)于中小企業(yè)而言,節(jié)省了大量的開支與精力。

但是,云計(jì)算資源也在隨著大數(shù)據(jù)的興起而愈加昂貴。如果對(duì)云計(jì)算資源進(jìn)行計(jì)算,不適當(dāng)?shù)毓芾砼c購(gòu)買計(jì)算資源,那么利用云計(jì)算資源(即計(jì)算成本)的成本會(huì)高得出奇[6]。DrawerKVM公司在2018年對(duì)歐洲進(jìn)行調(diào)查,過去3年英國(guó)企業(yè)在云計(jì)算上的平均支出為360 000歐元,而數(shù)據(jù)中心的平均支出為343 000歐元,未來3年,英國(guó)的云計(jì)算支出預(yù)計(jì)將增長(zhǎng)37%。Claranet總經(jīng)理羅伯特說,英國(guó)企業(yè)對(duì)云的需求很大[7]。不止英國(guó),全世界的企業(yè)甚至個(gè)人在云計(jì)算中的花費(fèi)都愈加增長(zhǎng)。以 Amazon EC2為例,其中型(Medium)虛擬機(jī)(3.75 GB內(nèi)存,2 ECU計(jì)算單元,410 GB存儲(chǔ),0.16美元/h)的配置是小型(Small)虛擬機(jī)(1.7 GB內(nèi)存,1 ECU計(jì)算單元,160 GB存儲(chǔ),0.08美元/h)的兩倍,其價(jià)格也是小型虛擬機(jī)的兩倍。運(yùn)行100個(gè)M4超大亞馬遜EC2虛擬機(jī)(VM)的情況下,費(fèi)用為每天583美元。所以,云計(jì)算資源成為熱流的同時(shí),如何節(jié)省租金更加高效地使用云資源成為又一難題[8]。

很多企業(yè)在使用云資源運(yùn)算時(shí),有時(shí)并不需要100%的準(zhǔn)確率。例如一些電商企業(yè),會(huì)對(duì)大量的用戶與產(chǎn)品進(jìn)行數(shù)據(jù)挖掘,以此得知哪些產(chǎn)品更受哪些用戶喜歡,哪些產(chǎn)品可以進(jìn)行相應(yīng)促銷等等。在這個(gè)過程中,適當(dāng)幅度的誤差是可以接受的,營(yíng)銷人員可以根據(jù)大致的畫像就可以作出相應(yīng)的決斷,而并不需要100%的精確信息。另外,事實(shí)上,在一些數(shù)據(jù)挖掘?qū)嵗?,并不?huì)得到完全精準(zhǔn)的預(yù)測(cè)結(jié)果,例如天氣的實(shí)時(shí)預(yù)報(bào)和零售客戶的細(xì)分等等。

本文的研究目的是如何能以最低的花費(fèi)獲得足夠的云計(jì)算資源。本文以當(dāng)前熱門的數(shù)據(jù)挖掘算法CNN為例進(jìn)行研究,發(fā)現(xiàn)CNN在迭代過程中的長(zhǎng)尾現(xiàn)象,即在迭代過程中,當(dāng)CNN的計(jì)算準(zhǔn)確率為0.90左右時(shí),有一個(gè)突進(jìn)現(xiàn)象的存在。相應(yīng)地,當(dāng)長(zhǎng)尾現(xiàn)象發(fā)生時(shí),滿足企業(yè)需求的準(zhǔn)確率可能只需要CNN運(yùn)算能夠達(dá)到的最大準(zhǔn)確率成本的3.34%。即假如CNN能夠達(dá)到0.993 7的準(zhǔn)確率,但0.885 7的準(zhǔn)確率就能滿足企業(yè)需求,并且0.885 7的準(zhǔn)確率所需的成本可能只是0.993 7準(zhǔn)確率所需成本的3.34%。

1 云計(jì)算的消費(fèi)模型

1.1 云計(jì)算

關(guān)于云計(jì)算的定義,截至目前為止仍然沒有一個(gè)統(tǒng)一的結(jié)果[9],這些定義既有從技術(shù)角度進(jìn)行的描述,也有從商業(yè)角度進(jìn)行的總結(jié)定義,但是總體來說,云計(jì)算可從“服務(wù)”和“平臺(tái)”兩個(gè)角度去考慮,即云計(jì)算包含云計(jì)算平臺(tái)和云計(jì)算服務(wù)這兩個(gè)概念。云計(jì)算服務(wù)指的是一種新型的商業(yè)模式,旨在給用戶提供可靠的在線服務(wù)。而云計(jì)算平臺(tái)是伴隨云計(jì)算服務(wù)應(yīng)運(yùn)而生的,更像是一種操作系統(tǒng),通過一些技術(shù)手段將分布在各地的計(jì)算機(jī)以網(wǎng)絡(luò)的方式進(jìn)行連接,并在邏輯上以整體的方式呈現(xiàn)。云計(jì)算平臺(tái)和云計(jì)算服務(wù)的關(guān)系就如同底層建筑和上層建筑,但是這兩者之間也沒有必然的對(duì)應(yīng)關(guān)系[10]。

就本文的研究問題而言,本文重點(diǎn)在于云計(jì)算服務(wù)方面,但是云計(jì)算服務(wù)也是要以云計(jì)算平臺(tái)為支撐,只有二者完美結(jié)合,才能實(shí)現(xiàn)為大規(guī)模的用戶提供穩(wěn)定、可靠、低成本的服務(wù)。但是,即使出現(xiàn)云計(jì)算服務(wù)這么優(yōu)勢(shì)明顯的商業(yè)模式,仍然有一些企業(yè),尤其是中小企業(yè)負(fù)擔(dān)不起云計(jì)算的服務(wù)費(fèi)用,這成為筆者一直重點(diǎn)關(guān)注的問題。

1.2 消費(fèi)模型

云計(jì)算平臺(tái)已經(jīng)層出不窮,國(guó)外以亞馬遜為例,國(guó)內(nèi)以阿里云和華為云為例介紹云計(jì)算資源的計(jì)費(fèi)模式,詳見表1。

表 1 三大廠商計(jì)費(fèi)模式Tab.1 Three major vendors' billing model

從以上三大廠商的計(jì)費(fèi)模式可以看出,三大廠商都有按需計(jì)費(fèi)這一消費(fèi)模式。按需計(jì)費(fèi)指的是用戶可以根據(jù)運(yùn)行的實(shí)例以按小時(shí)或按分鐘甚至可以支持按秒的方式為計(jì)算容量付費(fèi)。而無需簽訂長(zhǎng)期合同或支付預(yù)付款。這種方式比較靈活,可靈活控制成本。

在本文研究中,為了提升泛化能力,更集中突出所研究的問題,以按需計(jì)費(fèi)方式和CNN為例進(jìn)行研究,見式(1)。

Compound 3 amorphous powder; mp 251-253°C; [α]D25 –31.0 (c 0.75, MeOH); IR (KBr) νmax3560, 1750, 1510, 880 cm–1; 1H and 13C NMR (CD3OD) data, see Table 1; HR-ESI-MS m/z 597.2418 [M + Na]+(Calcd. for C30H38O11Na, 597.2414).

事實(shí)上,為了更加集中于所研究的問題,只計(jì)算在運(yùn)算過程中的花費(fèi),而忽略了存儲(chǔ)、遷移等方面所需的云計(jì)算資源的花費(fèi)。

2 卷積神經(jīng)網(wǎng)絡(luò)相關(guān)概述

2.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是神經(jīng)網(wǎng)絡(luò)的一種,是一種學(xué)習(xí)效率很高的深度學(xué)習(xí)模型,對(duì)于很多模式識(shí)別領(lǐng)域尤其是圖像識(shí)別方面都取得了良好的識(shí)別效果[11],LeCun曾經(jīng)提出的對(duì)于手寫數(shù)字識(shí)別的CNN模型LeNet-5[12]結(jié)構(gòu),就具有極高的準(zhǔn)確率。

CNN的基本結(jié)構(gòu)由輸入層、卷積層、池化層(也稱下采樣層)、全連接層和輸出層組成。卷積層和池化層一般根據(jù)所需情況取若干個(gè),交替設(shè)置。卷積神經(jīng)網(wǎng)絡(luò)含有最突出的3個(gè)特點(diǎn),即局部連接、權(quán)值共享和池化操作,有效地降低了網(wǎng)絡(luò)的復(fù)雜度,減少了訓(xùn)練參數(shù)的數(shù)量,降低特征維度并且改善結(jié)果。

2.2 準(zhǔn)確度估計(jì)

卷積神經(jīng)網(wǎng)絡(luò)是一種監(jiān)督式學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[13],由于知道原先的分類,故可以準(zhǔn)確計(jì)算出利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類后的精確性。

對(duì)于經(jīng)典的二分類問題,真正例(true positives,TP)是指實(shí)際上是正例的標(biāo)記為正例;假正例(false positives,F(xiàn)P)是指實(shí)際上是反例的數(shù)據(jù)被標(biāo)記為正例;真反例(true negatives,TN)是指實(shí)際上是反例的數(shù)據(jù)被標(biāo)記為反例;假反例(false negatives,F(xiàn)N)是指實(shí)際上是正例的數(shù)據(jù)被標(biāo)記為反例[14-15]。

準(zhǔn)確率反映了分類模型對(duì)整個(gè)樣本的判定能力,定義見式(2)。

式中:A為準(zhǔn)確率;nTP,nFP,nTN,nFN分別表示算法在數(shù)據(jù)集上的各種測(cè)試結(jié)果。

分類問題中更關(guān)注的是準(zhǔn)確率,這是一個(gè)比均方損失或者交叉熵?fù)p失更重要的量度。在這里,主要利用準(zhǔn)確率評(píng)估分類的準(zhǔn)確性。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

案例研究程序包含以下幾個(gè)步驟:

a. 數(shù)據(jù)集準(zhǔn)備。準(zhǔn)備要實(shí)驗(yàn)的數(shù)據(jù)集。

b. 數(shù)據(jù)分類。利用CNN對(duì)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分類,并確定準(zhǔn)確率。

c. 準(zhǔn)確率-時(shí)間比較。對(duì)于每一組實(shí)驗(yàn),通過算法在每次迭代中獲得的準(zhǔn)確率,與按需模型的每次迭代結(jié)束時(shí)算法所花費(fèi)的計(jì)算時(shí)間一起示出。

d. 分析和討論。比較結(jié)果進(jìn)行分析和討論。

3.2 數(shù)據(jù)集準(zhǔn)備

MNIST手寫數(shù)據(jù)集是深度學(xué)習(xí)最常用的數(shù)據(jù)集之一,是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(National Institute of Standards and Technology,NIST)所提出的。訓(xùn)練集由來自250個(gè)不同人手寫的數(shù)字構(gòu)成,其中50%是高中學(xué)生,50%來自人口普查局的工作人員。測(cè)試集也是同樣比例的手寫數(shù)字?jǐn)?shù)據(jù)。圖1為MNIST數(shù)據(jù)集的可視化樣例。

圖1 MNIST數(shù)據(jù)集可視化樣例Fig.1 MNIST dataset visualization example

IMDB影評(píng)情感數(shù)據(jù)也是作文本情感分類常用的數(shù)據(jù)集之一,是斯擔(dān)福大學(xué)人工智能實(shí)驗(yàn)室整理的一套IMDB影評(píng)的情感數(shù)據(jù)[16]。

3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)分別采用5層、7層和9層的CNN對(duì)MNIST和IMDB數(shù)據(jù)集進(jìn)行分類,相應(yīng)的數(shù)據(jù)集分布見表2。

表 2 數(shù)據(jù)集分布表Tab.2 Dataset distribution table

利用MNIST進(jìn)行實(shí)驗(yàn)時(shí),采用二維卷積層,卷積核的數(shù)目為32,卷積核的大小為3 × 3,損失函數(shù)采用交叉熵,優(yōu)化器采用Adadelta。從圖2中可以看出,深度K=5,7,9時(shí),訓(xùn)練集的準(zhǔn)確率總有一個(gè)突進(jìn),然后再緩緩趨向平穩(wěn),這稱之為CNN迭代中的長(zhǎng)尾現(xiàn)象。其實(shí)不止CNN,只要帶有迭代性質(zhì)的算法基本上都會(huì)有長(zhǎng)尾現(xiàn)象的出現(xiàn),例如K-means[17],而這些算法在實(shí)際運(yùn)用中都普遍使用,因此本研究也具有非常重要的普適意義。

圖2 MNIST訓(xùn)練集和測(cè)試集在準(zhǔn)確率和時(shí)間之間的相關(guān)性Fig.2 Relationship between the time and accuracy for the training and test data of MNIST

以華為云為例,按需計(jì)費(fèi)開通彈性云服務(wù)器(elastic cloud server)實(shí)例,購(gòu)買規(guī)格為h1.2xlarge.4|8核| 32 G,系統(tǒng)盤為40 G時(shí),都有統(tǒng)一的計(jì)價(jià)標(biāo)準(zhǔn),即只要選定固定的規(guī)格,就會(huì)有固定的價(jià)格。所以根據(jù)之前確定花費(fèi)的模型可知,決定訓(xùn)練成本的只是卷積神經(jīng)網(wǎng)絡(luò)完成迭代需要花費(fèi)的時(shí)間。因此,成本花費(fèi)表也就是計(jì)算時(shí)間表,具體數(shù)據(jù)見表3。

由表3可以看出,以K=5為例,當(dāng)準(zhǔn)確率為0.896 7時(shí),計(jì)算時(shí)間為549 s;當(dāng)準(zhǔn)確率為0.990 1時(shí),計(jì)算時(shí)間為788 7 s;當(dāng)準(zhǔn)確率為0.992 1時(shí),計(jì)算時(shí)間已經(jīng)達(dá)到12 222 s,是準(zhǔn)確率0.896 7所需計(jì)算時(shí)間的22.26倍,是準(zhǔn)確率0.990 1所需計(jì)算時(shí)間的1.55倍。也就是說,如果要求準(zhǔn)確率接近為0.9時(shí),只需要準(zhǔn)確率接近為0.99的6.96%花費(fèi),只需要準(zhǔn)確率為0.992 1的4.49%花費(fèi)即可。同樣,K=7時(shí),如果要求準(zhǔn)確率為0.885 7,只需要準(zhǔn)確率為0.99的6.70%花費(fèi),只需要準(zhǔn)確率為0.993 7的3.34%花費(fèi)即可。K=9時(shí),如果要求準(zhǔn)確率為0.799 4,只需要準(zhǔn)確率接近為0.99的5.41%花費(fèi),只需要準(zhǔn)確率為0.993 3的3.43%花費(fèi)即可。

表 3 MNIST計(jì)算時(shí)間表Tab.3 MNIST calculation time

由實(shí)驗(yàn)可以看出,云計(jì)算的花費(fèi)隨著準(zhǔn)確率增加會(huì)有一個(gè)爆發(fā)式的增長(zhǎng),接下來的增長(zhǎng)就會(huì)特別緩慢。企業(yè)或個(gè)人在某些時(shí)候并不需要非常精準(zhǔn)的計(jì)算效果。在此實(shí)驗(yàn)下,滿足企業(yè)需求的準(zhǔn)確率所需要的成本,可能只需要CNN運(yùn)算能夠達(dá)到的最大準(zhǔn)確率的成本的3.34% ~4.49%。

為了避免偶然性,故又采取了另一個(gè)文本數(shù)據(jù)集IMDB,同樣還是利用CNN進(jìn)行實(shí)驗(yàn)。

利用IMDB數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí),采用一維卷積層,卷積核數(shù)目為128,卷積核大小為3,損失函數(shù)采用對(duì)數(shù)函數(shù),優(yōu)化器采用rmsprop。同樣地,從圖3可以看出,即使采用CNN所不擅長(zhǎng)訓(xùn)練的文本數(shù)據(jù)也有長(zhǎng)尾現(xiàn)象的存在。由表4可以看出:當(dāng)K=5時(shí),如果要求準(zhǔn)確率為0.892 7,只需要準(zhǔn)確率為0.950 1的33.43%花費(fèi),或準(zhǔn)確率為0.969 7的20.26%花費(fèi)即可;當(dāng)K=7時(shí),如果要求準(zhǔn)確率為0.895 9,只需要準(zhǔn)確率為0.950 9的39.91%花費(fèi),或準(zhǔn)確率為0.982 1的21.00%花費(fèi)即可;當(dāng)K=9時(shí),如果要求準(zhǔn)確率為0.896 7,只需要準(zhǔn)確率為0.957 2的40.24%花費(fèi),或準(zhǔn)確率為0.996 6的20.25%花費(fèi)即可。所以在此實(shí)驗(yàn)下,滿足企業(yè)準(zhǔn)確率要求所需要的成本,可能只需要CNN運(yùn)算能夠達(dá)到的最大準(zhǔn)確率成本的20.25%~21.00%。

圖3 IMDB訓(xùn)練集和測(cè)試集在準(zhǔn)確率和時(shí)間之間的相關(guān)性Fig.3 Relationship between the time and accuracy for the training and test data of IMDB

表 4 IMDB計(jì)算時(shí)間表Tab.4 IMDB calculation time

另外,從圖3也可以看出,測(cè)試集出現(xiàn)過明顯的波動(dòng),這是因?yàn)镃NN在文本處理方面效果并不穩(wěn)定。但從測(cè)試集的準(zhǔn)確率曲線可以得出,并不是訓(xùn)練準(zhǔn)確率越高,測(cè)試集的準(zhǔn)確率也越高,所以最高的訓(xùn)練準(zhǔn)確率有時(shí)并不是最優(yōu)的選擇。總的來說,企業(yè)只需要選擇自己所需要的合適準(zhǔn)確率,并不用一味追求最高的準(zhǔn)確率,這樣才能達(dá)到經(jīng)濟(jì)效益的最大化。

4 結(jié) 論

以卷積神經(jīng)網(wǎng)絡(luò)的長(zhǎng)尾現(xiàn)象為切入點(diǎn),揭示了云環(huán)境中有效花費(fèi)的問題,為企業(yè)如何合理化運(yùn)用云資源作出參考。以CNN為例,探索了收斂特征的數(shù)據(jù)挖掘算法在迭代過程中存在長(zhǎng)尾現(xiàn)象,進(jìn)而推廣到大數(shù)據(jù)的數(shù)據(jù)挖掘上。當(dāng)長(zhǎng)尾現(xiàn)象發(fā)生且滿足企業(yè)準(zhǔn)確率要求的情況下,提前結(jié)束數(shù)據(jù)挖掘算法的運(yùn)行可以為企業(yè)節(jié)省大量云計(jì)算成本。因此,企業(yè)可以小得多的成本來得到其所需要的準(zhǔn)確率,而不需要耗費(fèi)不必要的代價(jià)來租用過量的云資源。在大數(shù)據(jù)挖掘的背景下,企業(yè)租用云資源成本會(huì)急劇增加,不必要的花費(fèi)會(huì)給企業(yè)帶來沉重的負(fù)擔(dān),本研究為企業(yè)降低云資源租用成本提供了思路。在實(shí)際情況中,企業(yè)需要考慮的地方還包括存儲(chǔ)、遷移時(shí)需要的云資源,這將是本研究下一步的工作。

猜你喜歡
計(jì)算資源花費(fèi)數(shù)據(jù)挖掘
基于模糊規(guī)劃理論的云計(jì)算資源調(diào)度研究
新春開拍小禮物
影像視覺(2021年3期)2021-03-24 11:39:16
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
情況不同,“花費(fèi)”不一樣
改進(jìn)快速稀疏算法的云計(jì)算資源負(fù)載均衡
基于Wi-Fi與Web的云計(jì)算資源調(diào)度算法研究
耦合分布式系統(tǒng)多任務(wù)動(dòng)態(tài)調(diào)度算法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
2014年世界杯會(huì)花費(fèi)多少?
足球周刊(2014年20期)2014-07-03 16:23:38
襄樊市| 乃东县| 竹山县| 宁强县| 西乌珠穆沁旗| 三亚市| 黎川县| 房产| 慈利县| 象山县| 西宁市| 吉水县| 宽城| 泰和县| 剑阁县| 兴海县| 宁都县| 安吉县| 灯塔市| 新兴县| 乌兰县| 财经| 卓资县| 金寨县| 玉山县| 濉溪县| 瓦房店市| 中宁县| 临邑县| 建平县| 太白县| 潮州市| 南京市| 鄂托克前旗| 南涧| 宜兴市| 万盛区| 麻阳| 旬邑县| 安龙县| 富源县|