国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“基于大規(guī)模集群的海量數(shù)據(jù)處理技術(shù)”新型課程教學(xué)探索

2009-05-11 03:59
計(jì)算機(jī)教育 2009年8期
關(guān)鍵詞:集群

陳 康

文章編號(hào):1672-5913(2009)08-0054-04

摘要:本文通過(guò)對(duì)一個(gè)全新的實(shí)踐課程“基于大規(guī)模集群的海量數(shù)據(jù)處理技術(shù)”的教學(xué)課程內(nèi)容與教學(xué)設(shè)計(jì)的分析,對(duì)引入工業(yè)界最新的技術(shù)到教學(xué)實(shí)踐過(guò)程進(jìn)行了有益的嘗試。通過(guò)實(shí)踐表明,在現(xiàn)有的本科課程體系中選取適當(dāng)?shù)墓I(yè)界實(shí)踐技術(shù)能夠有效激發(fā)學(xué)生的學(xué)習(xí)熱情,提高學(xué)習(xí)興趣,并通過(guò)小組項(xiàng)目的形式有效增強(qiáng)了學(xué)生的創(chuàng)新能力,合作能力和動(dòng)手能力。

關(guān)鍵詞:集群;海量數(shù)據(jù)處理;工業(yè)界新技術(shù);創(chuàng)新課程

中圖分類(lèi)號(hào):G642

文獻(xiàn)標(biāo)識(shí)碼:B

1課程簡(jiǎn)介

本課程是Google公司與清華大學(xué)合作,在清華大學(xué)開(kāi)設(shè)的有關(guān)集群分布式編程的課程。通過(guò)本課程的學(xué)習(xí),學(xué)生將深入了解到通過(guò)大規(guī)模集群的模式處理海量數(shù)據(jù)的方式與編程方法。在課程進(jìn)行的過(guò)程中,來(lái)自Google公司的工程師了講述有關(guān)使用大規(guī)模集群處理海量數(shù)據(jù)的理論知識(shí)以及相應(yīng)的實(shí)際編程方法。通過(guò)實(shí)踐相關(guān)的課程內(nèi)容,使用開(kāi)源的Apache Hadoop工具,學(xué)生親身實(shí)踐了Google文件系統(tǒng)以及Google所使用的分布式編程方式MapReduce。學(xué)生需要完成特定的分布式應(yīng)用程序設(shè)計(jì)來(lái)鞏固所學(xué)的編程知識(shí),用于處理實(shí)際的海量數(shù)據(jù)問(wèn)題。

2課程的內(nèi)容

本課程的內(nèi)容分成兩個(gè)部分,一個(gè)部分是上課的內(nèi)容,即是在課堂中講述分布式編程的基本理論與方法,主要包括下面五個(gè)方面的內(nèi)容:

(1) 課程簡(jiǎn)介:主要講述分布式編程的模式,分布式編程所需要涉及到的相關(guān)知識(shí),包括分布式的應(yīng)用問(wèn)題,并行與分布的基礎(chǔ),分布式的歷史,并行編程與同步等的相關(guān)內(nèi)容。

(2) MapReduce編程技術(shù):主要講述有關(guān)MapReduce編程技術(shù)的來(lái)龍去脈,相關(guān)的理論與技術(shù)實(shí)現(xiàn),包括函數(shù)式編程語(yǔ)言的簡(jiǎn)介,大規(guī)模數(shù)據(jù)處理,MapReduce的編程模型,MapReduce編程實(shí)例,在實(shí)際編程中的錯(cuò)誤處理以及優(yōu)化等相關(guān)內(nèi)容。

(3) 分布式系統(tǒng)的層次:主要簡(jiǎn)介分布式編程,包括網(wǎng)絡(luò)的基本處理,遠(yuǎn)程過(guò)程調(diào)用,事務(wù)處理系統(tǒng)的工作流程,可靠性等方面的內(nèi)容。

(4) 分布式文件系統(tǒng):分布式文件系統(tǒng)是分布式編程的一塊重要的內(nèi)容,是構(gòu)建上層應(yīng)用的基礎(chǔ),用來(lái)存儲(chǔ)各種應(yīng)用的數(shù)據(jù)。本節(jié)的內(nèi)容包括文件系統(tǒng)簡(jiǎn)介,網(wǎng)絡(luò)文件系統(tǒng)NFS以及AFS相關(guān)的內(nèi)容,Google使用的GFS(Google File System)等相關(guān)的內(nèi)容。

(5) 其它的分布式系統(tǒng):將通過(guò)具體的例子來(lái)講述在實(shí)際的可運(yùn)行的分布式系統(tǒng)的內(nèi)部結(jié)構(gòu),內(nèi)容包括域名系統(tǒng),PlanetLab等,這些內(nèi)容為學(xué)員將來(lái)的研究提供入門(mén)的知識(shí)。提高的內(nèi)容還包括Google所使用的分布式鎖技術(shù)Chubby以及分布式的結(jié)構(gòu)化數(shù)據(jù)處理方法BigTable。

本課程的另外一個(gè)重要組成部分是實(shí)驗(yàn)和分組大項(xiàng)目。其中實(shí)驗(yàn)內(nèi)容是固定的,分組大項(xiàng)目則由學(xué)生自由組合,一般由2~3人為一個(gè)小組。每個(gè)小組自主提出與課程內(nèi)容相關(guān)的大實(shí)驗(yàn)內(nèi)容,并有大約3個(gè)星期的時(shí)間完成大項(xiàng)目的內(nèi)容。下面是固定實(shí)驗(yàn)的內(nèi)容:

實(shí)驗(yàn)0:實(shí)驗(yàn)環(huán)境Hadoop/Eclipse/Map/Reduce編程環(huán)境的介紹與熟悉。

實(shí)驗(yàn)1:倒排索引實(shí)驗(yàn)

倒排索引是所有搜索引擎的基礎(chǔ),將一個(gè)文檔中出現(xiàn)的單詞以及相關(guān)的文檔編號(hào)聯(lián)系在一起,以便在檢索的時(shí)候能夠達(dá)到快速搜索的目的。本實(shí)驗(yàn)通過(guò)讓學(xué)生對(duì)Wikipedia的數(shù)據(jù)進(jìn)行倒排索引,使得學(xué)生初步具有使用分布式環(huán)境進(jìn)行大規(guī)模文檔索引的基本技能。

實(shí)驗(yàn)2:圖算法PageRank的實(shí)現(xiàn)

圖算法PageRank是Google對(duì)一個(gè)網(wǎng)頁(yè)進(jìn)行評(píng)價(jià)的一個(gè)重要因素。本實(shí)驗(yàn)使用Wikipedia網(wǎng)頁(yè)數(shù)據(jù),形成一個(gè)網(wǎng)絡(luò)圖的結(jié)構(gòu)。通過(guò)實(shí)現(xiàn)一個(gè)分布式的PageRank算法,使得學(xué)生能夠在分布式系統(tǒng)上實(shí)現(xiàn)算法有一個(gè)較為深入的認(rèn)識(shí)。同時(shí)結(jié)合實(shí)驗(yàn)一的內(nèi)容,使得學(xué)生能夠了解到當(dāng)前搜索引擎的基本架構(gòu)。

實(shí)驗(yàn)3:聚類(lèi)算法Canopy的實(shí)現(xiàn)

在分布式系統(tǒng)處理大規(guī)模數(shù)據(jù)的時(shí)候,還需要考慮很多算法,其中本實(shí)驗(yàn)的聚類(lèi)算法即是一項(xiàng)比較重要的內(nèi)容。聚類(lèi)算法通過(guò)無(wú)監(jiān)督的學(xué)習(xí)過(guò)程,從一個(gè)數(shù)據(jù)集中抽取有用的信息。聚類(lèi)算法的計(jì)算量比較大,本實(shí)驗(yàn)則是通過(guò)分布式的方法,能夠處理大數(shù)據(jù)集Netflix的數(shù)據(jù)。使得學(xué)生能夠?qū)τ诖笠?guī)模數(shù)據(jù)處理有更進(jìn)一步的認(rèn)識(shí)。

3課程實(shí)踐

我們?cè)?007年和2008年暑假分別組織了兩次課程??傮w來(lái)說(shuō),兩次課程還是非常成功的,許多學(xué)生在這個(gè)課程上第一次體驗(yàn)了分布式編程,觀(guān)察到程序在多個(gè)節(jié)點(diǎn)上同時(shí)運(yùn)行的情況。

3.1課程的準(zhǔn)備與授課

(1) 硬件環(huán)境的準(zhǔn)備

Google為本課程提供了一個(gè)20個(gè)節(jié)點(diǎn)的集群,集群節(jié)點(diǎn)配置為兩路雙核Intel CPU 1.2GHz,每個(gè)節(jié)點(diǎn)配備4G內(nèi)存,兩塊SATA180G的硬盤(pán),集群的各個(gè)節(jié)點(diǎn)之間采用千兆以太網(wǎng)連接。

(2) 軟件環(huán)境的準(zhǔn)備

課程所需要的數(shù)據(jù)集從網(wǎng)絡(luò)上采集,在實(shí)驗(yàn)開(kāi)始之前在實(shí)驗(yàn)環(huán)境的存儲(chǔ)設(shè)備上準(zhǔn)備完畢。網(wǎng)絡(luò)上的數(shù)據(jù)主要是兩個(gè)部分,一部分是Wikipedia的數(shù)據(jù),一部分是Netflix的數(shù)據(jù)。Wikipedia的數(shù)據(jù)在硬盤(pán)上展開(kāi)之后有10G之多,存放到Hadoop的分布式文件系統(tǒng)HDFS中。Netflix的數(shù)據(jù)也有1G之多,同樣放在HDFS中。學(xué)生的應(yīng)用程序可以直接訪(fǎng)問(wèn)這些數(shù)據(jù)。

在應(yīng)用軟件上,主要是軟件包Hadoop的部署。由于Hadoop本身還需要ssh等軟件的支持,以保證安全性以及遠(yuǎn)程執(zhí)行,在配置上面需要一定的工作量。在編程環(huán)境方面,主要是Java環(huán)境的部署(使用從Sun公司網(wǎng)站上下載的最新的JDK軟件包)以及Eclipse編程環(huán)境上MapReduce插件的安裝。這幾個(gè)軟件安裝比較方便,下載軟件包解壓縮,而后配置一下環(huán)境變量。

在教材的準(zhǔn)備上,我們修改了一部分由Google提供的教材,使得教材能夠更加符合計(jì)算機(jī)系現(xiàn)有的教學(xué)進(jìn)度。主要修改的內(nèi)容包括增加了一部分分布式系統(tǒng)系統(tǒng)內(nèi)容的介紹,原因是本科生以前沒(méi)有學(xué)習(xí)過(guò)分布式系統(tǒng)的課程(實(shí)際上本科生還是十分需要了解分布式系統(tǒng)的),對(duì)分布式系統(tǒng)沒(méi)有感性認(rèn)識(shí);減少了有關(guān)函數(shù)式編程語(yǔ)言的內(nèi)容,因?yàn)楸究粕鷽](méi)有相關(guān)的課程,而此部分內(nèi)容與分布式系統(tǒng)相關(guān)性不是很大。

(3) 授課的過(guò)程

暑期小學(xué)期的時(shí)間是5個(gè)星期,因此本課程的安排也是按照5個(gè)星期的時(shí)間進(jìn)行。在前兩周主要是固定的授課時(shí)間(上午9點(diǎn)到11點(diǎn)),隔天進(jìn)行,同時(shí)穿插固定的實(shí)驗(yàn)內(nèi)容。學(xué)生一般在兩個(gè)星期之內(nèi)完成5個(gè)規(guī)定的實(shí)驗(yàn)項(xiàng)目。在2007年授課的時(shí)候,我們還邀請(qǐng)了Google公司內(nèi)部的員工給學(xué)生做了三個(gè)特殊的講座,分別是有關(guān)Google內(nèi)部RPC的實(shí)現(xiàn)機(jī)制,對(duì)等網(wǎng)絡(luò)的介紹以及BigTable內(nèi)容的相關(guān)講座。學(xué)生對(duì)于這樣的講座非常感興趣,因?yàn)檫@些內(nèi)容實(shí)際上是在工業(yè)界正在使用的技術(shù)內(nèi)容,對(duì)于平常課本的教學(xué)內(nèi)容有進(jìn)一步更深的認(rèn)識(shí)。2007年的夏季學(xué)期有15位同學(xué)選課,最后分成7個(gè)小組做大項(xiàng)目;2008年有14位同學(xué)選課,分成6個(gè)小組做大項(xiàng)目。在完成大項(xiàng)目之后,每一個(gè)小組會(huì)派出一名代表在所有的同學(xué)面前講述自己小組的工作以及小組成員的分工情況。2007年的大項(xiàng)目總結(jié)會(huì)在Google中國(guó)公司進(jìn)行,Google公司總部、華盛頓分部以及Google中國(guó)公司的部分員工參與了最后的總結(jié)會(huì)。學(xué)生的項(xiàng)目創(chuàng)意和完成情況受到了他們的好評(píng),有很多項(xiàng)目被認(rèn)為具有研究生水平。

3.2學(xué)生大項(xiàng)目的情況

大項(xiàng)目是由學(xué)生自主提出項(xiàng)目?jī)?nèi)容,基于課程內(nèi)容完成。

2007年的大項(xiàng)目概況:

●項(xiàng)目1:對(duì)Netflix數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)相應(yīng)的矩陣算法SVD,使得從這個(gè)數(shù)據(jù)集中獲得比較好的電影推薦結(jié)果。

●項(xiàng)目2:通過(guò)對(duì)學(xué)校中各種不同角色的模擬以及他們之間的相互關(guān)系,可以用來(lái)模擬傳染病在一個(gè)人群中的傳播模式(如圖1所示)。

圖1Epidemic!傳染病模擬(學(xué)校生活模擬)

●項(xiàng)目3:通過(guò)網(wǎng)絡(luò)上的數(shù)據(jù)采集以及最后對(duì)采集到的數(shù)據(jù)進(jìn)行后期處理,建立索引,對(duì)于用戶(hù)采購(gòu)IT產(chǎn)品,例如數(shù)碼相機(jī)進(jìn)行推薦,是一個(gè)垂直搜索的雛形。

●項(xiàng)目4:NBody系統(tǒng)的模擬,即通過(guò)模擬多個(gè)小球或者數(shù)量眾多節(jié)點(diǎn)的相互作用模型,用以研究行星的變化,氣體的變化,布朗運(yùn)動(dòng)等。

●項(xiàng)目5:統(tǒng)計(jì)氣象預(yù)報(bào),通過(guò)對(duì)某一個(gè)地區(qū)幾十年的氣象數(shù)據(jù)進(jìn)行統(tǒng)計(jì),用來(lái)對(duì)未來(lái)的數(shù)據(jù)進(jìn)行預(yù)報(bào),主要實(shí)現(xiàn)一個(gè)分布式的神經(jīng)網(wǎng)絡(luò)算法。

●項(xiàng)目6:心電圖數(shù)據(jù)處理,現(xiàn)有的心電圖數(shù)據(jù)處理還停留在小規(guī)模的狀態(tài),大規(guī)模的心電圖數(shù)據(jù)被大量浪費(fèi),本項(xiàng)目試圖對(duì)大量的數(shù)據(jù)進(jìn)行并行處理,從而能夠利用長(zhǎng)時(shí)間的心電圖數(shù)據(jù)。

●項(xiàng)目7:網(wǎng)絡(luò)音樂(lè)的模式分類(lèi),由于網(wǎng)絡(luò)上各種

音樂(lè)數(shù)據(jù)非常的多,本項(xiàng)目則基于內(nèi)容對(duì)音樂(lè)進(jìn)行聚類(lèi)和搜索。

2008年的大項(xiàng)目概況:

●項(xiàng)目1:筆記本電腦信息的整合與搜索:從互聯(lián)網(wǎng)上各大網(wǎng)站等信息來(lái)源獲取各類(lèi)筆記本產(chǎn)品的詳細(xì)信息,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)和索引,根據(jù)用戶(hù)的查詢(xún)需求提供產(chǎn)品推薦,為用戶(hù)在購(gòu)買(mǎi)筆記本時(shí)提供有針對(duì)性的推薦和查詢(xún)服務(wù)。

●項(xiàng)目2:水木精華區(qū)的全文搜索:為水木精華區(qū)建立全文搜索引擎,以網(wǎng)絡(luò)爬蟲(chóng)為開(kāi)始,將數(shù)據(jù)保存到分布式文件系統(tǒng)中并建立索引,最后建立搜索引擎。

●項(xiàng)目3:網(wǎng)絡(luò)新聞分類(lèi):從互聯(lián)網(wǎng)上下載各類(lèi)新聞,并通過(guò)機(jī)器學(xué)習(xí)算法建立新聞分類(lèi)。主要實(shí)現(xiàn)一個(gè)基于樸素貝葉斯方法的分類(lèi)器以及網(wǎng)頁(yè)下載與索引程序(如圖2所示)。

圖2 新聞分類(lèi)搜索引擎

●項(xiàng)目4:跨論壇熱門(mén)信息檢索:網(wǎng)絡(luò)上有多個(gè)論壇的內(nèi)容,本項(xiàng)目是為了在多個(gè)論壇的熱點(diǎn)新聞之間建立聯(lián)系,在構(gòu)造搜索引擎的過(guò)程中,將論壇熱門(mén)信息因素加入到檢索排序中。

●項(xiàng)目5:煎餅大亨:本項(xiàng)目主題是實(shí)現(xiàn)一款模擬經(jīng)營(yíng)類(lèi)游戲。使用Apache Hadoop大規(guī)模數(shù)據(jù)處理技術(shù),對(duì)店鋪、顧客進(jìn)行模擬,并針對(duì)店鋪信息等提供可供玩家設(shè)置的交互性,從而實(shí)現(xiàn)最簡(jiǎn)單的模擬經(jīng)營(yíng)效果。

●項(xiàng)目6:圖片搜索引擎:實(shí)現(xiàn)了一個(gè)基本的圖片搜索引擎的功能。根據(jù)關(guān)鍵字來(lái)查找互聯(lián)網(wǎng)相關(guān)圖片,返回圖片縮略圖,并給出文件名,文件大小,圖片所在網(wǎng)頁(yè)等信息。

3.3經(jīng)驗(yàn),教訓(xùn),反饋

(1) 經(jīng)驗(yàn)與教訓(xùn)

總體而言,本課程的開(kāi)展還是非常成功的,大部分學(xué)生都是第一次接觸到分布式系統(tǒng)的編程,也第一次通過(guò)集群的方式去解決一個(gè)具體的數(shù)據(jù)處理問(wèn)題。例如在2004級(jí)學(xué)生孟祥亮在畢業(yè)總結(jié)中寫(xiě)道:“學(xué)習(xí)到很多平時(shí)課堂上學(xué)不到的知識(shí)”。

學(xué)生基本上對(duì)這樣的授課形式非常有興趣,即首先通過(guò)一定的課堂講解獲得基礎(chǔ)知識(shí),而后利用所獲得的知識(shí)解決一些實(shí)際的問(wèn)題。在課程內(nèi)容上,由于課程內(nèi)容非常新穎,而且也緊貼當(dāng)前工業(yè)界的熱點(diǎn),因此能夠引起學(xué)生很大的學(xué)習(xí)興趣,積極性比較高。通過(guò)本課程的學(xué)習(xí),學(xué)生能夠在一定程度上了解到當(dāng)前計(jì)算機(jī)工業(yè)界中所采用的技術(shù),而不是課本上比較枯燥的內(nèi)容。實(shí)際上,這樣的實(shí)踐課能夠?qū)⒄n本知識(shí)與實(shí)際應(yīng)用相結(jié)合,滿(mǎn)足學(xué)生對(duì)于工程實(shí)踐上相關(guān)內(nèi)容的了解需求。而實(shí)驗(yàn)的設(shè)計(jì)則完全能夠滿(mǎn)足學(xué)生對(duì)于分布式編程的初步認(rèn)識(shí),了解程序的相關(guān)運(yùn)行狀況。

在教學(xué)的過(guò)程中也碰到了一些技術(shù)上的困難。最困難的是Hadoop環(huán)境的問(wèn)題,由于是尚未成熟的軟件包,Hadoop缺乏文檔說(shuō)明,設(shè)置起來(lái)也比較困難。現(xiàn)在Hadoop的最新版本是0.19,還需要很多工作才能夠使得軟件成熟。好在設(shè)置完成之后的Hadoop在運(yùn)行的過(guò)程中較為穩(wěn)定,基本上能夠穩(wěn)定運(yùn)行2~3天,出現(xiàn)異常狀況后只需要重新啟動(dòng)即可。在具體的教學(xué)過(guò)程中的困難是Hadoop缺乏編程文檔,在很多情況下需要學(xué)生去閱讀源代碼,這可以讓學(xué)生更加深入地了解相關(guān)系統(tǒng)的運(yùn)行狀況。

在大項(xiàng)目的選題情況上,基本上所有的項(xiàng)目都可以歸為三個(gè)類(lèi)型。第一個(gè)類(lèi)型是網(wǎng)絡(luò)應(yīng)用程序,即通過(guò)重新實(shí)現(xiàn)一個(gè)搜索引擎類(lèi)似的應(yīng)用來(lái)加深對(duì)于課程內(nèi)容的印象以及對(duì)現(xiàn)有網(wǎng)絡(luò)應(yīng)用程序構(gòu)建的直觀(guān)經(jīng)驗(yàn)。第二個(gè)類(lèi)型是有關(guān)于機(jī)器學(xué)習(xí)的分布式實(shí)現(xiàn),由于機(jī)器學(xué)習(xí)是一大類(lèi)比較重要的應(yīng)用程序,可能需要處理大量的數(shù)據(jù),學(xué)生很有興趣使用分布式的方式去實(shí)現(xiàn)現(xiàn)有的機(jī)器學(xué)習(xí)算法。第三個(gè)是非常具體的類(lèi)型,是有關(guān)于N體問(wèn)題的模擬,選題的方向比較直接,即對(duì)每一個(gè)體做模擬,然后在局部做相互作用關(guān)系,最后總結(jié)作用關(guān)系模擬出結(jié)果。由于課程的設(shè)置比較緊,學(xué)生沒(méi)有太多的時(shí)間考慮一些更加有意思的課題,這一點(diǎn)需要在將來(lái)的授課實(shí)踐中做改進(jìn)。

(2) 教學(xué)反饋

在教學(xué)完成之后,我們對(duì)學(xué)生的學(xué)習(xí)情況作了一定的調(diào)查總結(jié),獲得有益的反饋。總結(jié)來(lái)說(shuō),學(xué)生反而反應(yīng)情況有兩點(diǎn):

(1) 時(shí)間比較緊。由于是5個(gè)星期的課時(shí),需要完成的工作很多,包括上課,讀論文,寫(xiě)家庭作業(yè)(回答有關(guān)論文的小問(wèn)題),做規(guī)定的實(shí)驗(yàn)以及最后的大項(xiàng)目。在這樣的情況下,學(xué)生在構(gòu)思最后的大項(xiàng)目的時(shí)候比較匆忙,從而只能夠想到一些比較容易獲得的題目。另外,有些學(xué)生認(rèn)為聚類(lèi)的大實(shí)驗(yàn)可能沒(méi)有必要,但實(shí)際上這是一次讓學(xué)生了解不同分布式系統(tǒng)的機(jī)會(huì),還是不要去掉的為好。在時(shí)間緊張的情況下,有一些家庭作業(yè)倒是可以去掉,因?yàn)樵谥v課的過(guò)程中已經(jīng)有所涉及 。

(2) 計(jì)算資源缺乏。在所有學(xué)生同時(shí)運(yùn)行程序的時(shí)候,20個(gè)節(jié)點(diǎn)還遠(yuǎn)遠(yuǎn)無(wú)法滿(mǎn)足計(jì)算需求。特別是將近暑假小學(xué)期結(jié)束的時(shí)候,系統(tǒng)的反應(yīng)會(huì)非常緩慢。如果有可能的話(huà),需要增加計(jì)算節(jié)點(diǎn),以提高集群的總體計(jì)算能力?;蛘邔⒐?jié)點(diǎn)進(jìn)行分組,由某些組共享幾個(gè)獨(dú)立的節(jié)點(diǎn),但是這樣會(huì)減少程序的分布式程度。有幾個(gè)學(xué)生在學(xué)習(xí)的過(guò)程中已經(jīng)能夠自己建立Hadoop集群,減少與其它組同學(xué)的相互影響,提高效率。

另外,我們還舉辦了有關(guān)此課程的全國(guó)著名高校研討班,參加者包括北京大學(xué),上海交通大學(xué),浙江大學(xué),華中科技大學(xué),北京科技大學(xué)等高校教師,反響熱烈。與會(huì)各方的教師以及Google方面的代表都認(rèn)為此課程是非常有意義的。下面是參會(huì)人員的反響。

“本次培訓(xùn)班舉辦得很成功。”

——Google公司朱愛(ài)民(Google公司高校合作部)

“研討會(huì)上獲得的經(jīng)驗(yàn)和資料將幫助我們課程的順利展開(kāi)?!?/p>

——北京大學(xué)閆宏飛(副教授)

北京大學(xué)和浙江大學(xué)已經(jīng)率先開(kāi)展了相關(guān)的課程。

4結(jié)論

我們組織了新型課程“基于大規(guī)模集群的海量數(shù)據(jù)處理技術(shù)”,本課程將最新的工業(yè)界使用的分布式數(shù)據(jù)處理技術(shù)帶給學(xué)生??偨Y(jié)來(lái)說(shuō),本課程很好的為學(xué)生講述了如何構(gòu)建一個(gè)真正可用的分布式系統(tǒng),將課本知識(shí)擴(kuò)展到實(shí)踐的層次,加深學(xué)生對(duì)所學(xué)知識(shí)的印象。同時(shí),本課程也為本科學(xué)生提供了分布式編程的機(jī)會(huì),提高他們的專(zhuān)業(yè)水平。我們認(rèn)為引入工業(yè)界最新的技術(shù)到教學(xué)實(shí)踐過(guò)程是非常有益的嘗試。

參考文獻(xiàn):

[1] Kang Chen, Yubing Yin, Weimin Zheng. Teaching Large Scale Data Processing: the Five-Week Course and Two Years Experiences[R]. The First ACM Summit on Computing Education in China, Beijing, Oct. 24-26,2008.

[2] S. M.-S. Aaron Kimball and C. Bisciglia. Cluster computing for web scale data processing[C]. SIGCSE08, Portland, OR.,2008.

[3] S. G. Jeffrey Dean. Mapreduce: Simplified data processing on large clusters[C]. OSDI 04: Sixth Symposium on Operating System Design and Implementation,2004,137-150.

[4] S.-T. L. Sanjay Ghemawat,Howard Gobioff. The google system[C]. Proceedings of the 19th ACM Symposium on Operating Systems Principles,2003,20-43.

猜你喜歡
集群
以產(chǎn)業(yè)集群引領(lǐng)中國(guó)品牌騰飛
歐洲集群觀(guān)察站、歐洲集群和產(chǎn)業(yè)變化觀(guān)察站研究
培育世界級(jí)先進(jìn) 制造業(yè)集群之關(guān)鍵問(wèn)題
小議產(chǎn)業(yè)集群內(nèi)涵
勤快又呆萌的集群機(jī)器人
集群品牌是集群整體的品牌還是集群產(chǎn)品的品牌?
中小企業(yè)集群潛在融資優(yōu)勢(shì)的發(fā)揮機(jī)制研究
數(shù)字集群的未來(lái)之路
數(shù)字集群的未來(lái)之路(上篇)
芦溪县| 易门县| 赤峰市| 建始县| 依安县| 阿克苏市| 盐津县| 林西县| 崇阳县| 手游| 武川县| 连州市| 贵定县| 乳源| 武强县| 北安市| 永丰县| 蒲城县| 盐津县| 麟游县| 安顺市| 昔阳县| 河津市| 蒲城县| 马山县| 吉林省| 英超| 恭城| 乐业县| 荣成市| 沽源县| 海南省| 巴塘县| 镶黄旗| 诏安县| 旺苍县| 吴桥县| 图片| 河东区| 康乐县| 都兰县|