国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云服務(wù)支持的基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略的研究

2015-04-22 05:42伍曉峰
中國信息技術(shù)教育 2015年7期
關(guān)鍵詞:搜索引擎網(wǎng)絡(luò)資源

伍曉峰

摘要:基礎(chǔ)教育網(wǎng)絡(luò)資源存在著資源分散建設(shè)與管理、使用率不高等問題。本文研究分析了云服務(wù)對基礎(chǔ)教育網(wǎng)絡(luò)資源的管理優(yōu)勢,依托云服務(wù),提出基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略,進而實現(xiàn)搜索引擎和緩存系統(tǒng),有效地解決了廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源利用率低的問題。

關(guān)鍵詞:網(wǎng)絡(luò)資源;搜索引擎;緩存

中圖分類號:G443 文獻標(biāo)識碼:A 論文編號:1674-2117(2015)07-0073-04

● 引言

基礎(chǔ)教育網(wǎng)絡(luò)資源建設(shè)是實現(xiàn)基礎(chǔ)教育信息化的重要環(huán)節(jié),也是建設(shè)基礎(chǔ)教育公共服務(wù)體系的重要內(nèi)容。近年來,國家各級教育部門投入了大量人力、物力和財力開展基礎(chǔ)教育網(wǎng)絡(luò)資源的建設(shè),在資源的種類、內(nèi)容、數(shù)量和質(zhì)量等方面均取得了顯著的發(fā)展,形成了海量的網(wǎng)絡(luò)資源。用戶能否快速、準(zhǔn)確查找到所需的資源,對資源的利用率有較大的影響。因此,資源提供者應(yīng)該對挖掘策略進行探討。

云計算具有超大規(guī)模的存儲和計算能力,資源和結(jié)構(gòu)具有動態(tài)伸縮性,并且通過虛擬化技術(shù)和龐大的資源池按需提供服務(wù),這些特點非常適合在網(wǎng)絡(luò)環(huán)境下存儲和挖掘快速增長的網(wǎng)絡(luò)資源。本研究在云服務(wù)支持的環(huán)境下,采用搜索引擎挖掘和緩存挖掘策略,實現(xiàn)對基礎(chǔ)教育網(wǎng)絡(luò)資源的挖掘,可以使用戶從海量資源中快速獲取所需的網(wǎng)絡(luò)資源,從而提高資源的利用率。

● 問題的提出

廣州市現(xiàn)有12個區(qū),基礎(chǔ)教育階段中小學(xué)校超過2000所,在校學(xué)生近200萬人,教職工約15萬人。為滿足廣大師生學(xué)習(xí)和工作的需要,引領(lǐng)教育發(fā)展的方向,廣州教育信息化建設(shè)始終走在全國的前沿。從2002年開始建設(shè)廣州教育科研網(wǎng),鋪設(shè)光纖總長度約25000公里,接入單位近2000家,聯(lián)網(wǎng)電腦數(shù)在30萬臺以上,覆蓋城鄉(xiāng)各級各類學(xué)校,成為目前國內(nèi)規(guī)模最大的基礎(chǔ)教育光纖城域網(wǎng)。在完善硬件建設(shè)的同時,廣州注重教育網(wǎng)絡(luò)資源的建設(shè),從2004年啟動“教育e時代”工程開始,市教育信息中心先后購買或建設(shè)了多種類型的教育資源。各區(qū)也結(jié)合自身的優(yōu)勢,探索建設(shè)具有區(qū)域特色的資源庫。詳見表1。

到目前為止,廣州市、區(qū)兩級教育部門積累的教育網(wǎng)絡(luò)資源超過100T。形成了共建共享、內(nèi)容豐富、形式多樣的教育信息資源體系。隨著資源總量的增大和類型的增多,隨之產(chǎn)生了非結(jié)構(gòu)化、異構(gòu)等問題,導(dǎo)致資源的查找、索引比較困難,優(yōu)質(zhì)資源淹沒在海量資源中,造成網(wǎng)絡(luò)資源使用率低。如何利用挖掘技術(shù)有效地提高資源的獲取速度,從而提高資源使用率呢?

● 云服務(wù)支持的基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略

基礎(chǔ)教育網(wǎng)絡(luò)資源包括素材類教學(xué)資源,如文本、圖形/圖像、音視頻等媒體素材,以及集成型教學(xué)資源,如課件、研究性學(xué)習(xí)專題、網(wǎng)絡(luò)課程等。具有內(nèi)容豐富、數(shù)量龐大、增長迅速、覆蓋面廣等特點。因格式和種類繁多,采用傳統(tǒng)數(shù)據(jù)挖掘方法對此類資源進行挖掘的效果不佳。廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略是在云計算環(huán)境下,采用搜索引擎和Web緩存兩種挖掘策略,來為廣州市教育科研網(wǎng)內(nèi)部用戶查找教育資源提供服務(wù)。

1.廣州市教育搜索引擎

廣州市教育搜索引擎是在參考國內(nèi)外其他學(xué)者研究的基礎(chǔ)上,經(jīng)過實踐探索自主研發(fā)基于NUTCH實現(xiàn)的全網(wǎng)檢索引擎。在教育網(wǎng)絡(luò)資源挖掘檢索方面,該引擎首次采用行業(yè)搜索引擎和“垂直”搜索引擎技術(shù),依據(jù)自主用途排位的排序算法,通過爬蟲和分詞關(guān)鍵技術(shù)實現(xiàn)對網(wǎng)絡(luò)資源的挖掘,并對中文分詞做個性化處理。其機理圖如圖1所示。

2.緩存挖掘策略

緩存技術(shù)具有減少網(wǎng)絡(luò)帶寬消耗、降低服務(wù)器壓力、減少網(wǎng)絡(luò)延遲等特點。在廣州教育科研網(wǎng)出口網(wǎng)關(guān)處部署代理緩存服務(wù)器,可以充分利用教科網(wǎng)內(nèi)帶寬充足、運行穩(wěn)定的優(yōu)勢,針對基礎(chǔ)教育網(wǎng)絡(luò)資源采取緩存挖掘策略,以實現(xiàn)對資源的監(jiān)控、重定向和緩存。緩存技術(shù)策略不僅作為教科網(wǎng)內(nèi)部用戶與網(wǎng)內(nèi)資源服務(wù)器之間的橋梁,也是用戶與外網(wǎng)資源服務(wù)器之間的橋梁。其部署結(jié)構(gòu)圖如圖2所示。

● 云服務(wù)支持的基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘的實現(xiàn)

1.教育網(wǎng)絡(luò)資源搜索引擎挖掘策略的實現(xiàn)

研究采用云服務(wù)下的搜索引擎為工具,以廣州市、佛山市、中山市的網(wǎng)絡(luò)學(xué)習(xí)資源為研究對象,依據(jù)以下八部分關(guān)鍵技術(shù)來實現(xiàn),其實現(xiàn)過程分析如下。

(1)教育網(wǎng)絡(luò)資源網(wǎng)絡(luò)地址集合分析

廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源的地址集合由廣州市年度教育信息化調(diào)查獲取的網(wǎng)絡(luò)地址、廣佛同城化教育信息化專項建設(shè)時佛山市提交的網(wǎng)絡(luò)資源地址、中山市教育網(wǎng)絡(luò)資源地址三部分組成。搜集整理的網(wǎng)絡(luò)地址集合如表2所示。搜索引擎機器人以搜集的這三部分網(wǎng)絡(luò)資源網(wǎng)址為入口,理論上,通過超鏈接的方式,能鏈接到絕大部分網(wǎng)頁。

(2)集合地址內(nèi)容及狀態(tài)更新操作

利用搜索引擎inject操作,調(diào)用搜索引擎的核心包crawl對上述教育網(wǎng)絡(luò)資源地址集合庫進行網(wǎng)絡(luò)地址狀態(tài)的檢查、更新和分析,其主要的操作有:①對每個網(wǎng)址進行格式化和過濾,消除非法的網(wǎng)絡(luò)地址,設(shè)定每個網(wǎng)址的狀態(tài),按照一定的方法進行初始化分值;②合并消除重復(fù)的網(wǎng)址;③將網(wǎng)址的狀態(tài)、分值存入crawldb數(shù)據(jù)庫,與原數(shù)據(jù)重復(fù)部分需更新。通過本步驟的操作,將上述教育網(wǎng)絡(luò)資源網(wǎng)址整理出如表3所示。

(3)創(chuàng)建抓取列表并生成對應(yīng)目錄

本步驟實現(xiàn)創(chuàng)建抓取網(wǎng)址的列表,并以時間為名存放在segments目錄下。其操作實現(xiàn)分為:①從上述crawldb數(shù)據(jù)庫中取出網(wǎng)址并進行過濾;②對網(wǎng)址進行排序,通過網(wǎng)址、鏈接數(shù)和hash宣發(fā)綜合進行降序排序;③將排列列表寫入segments目錄中。至此,教育搜索引擎基本完成了網(wǎng)址內(nèi)容抓取的所有準(zhǔn)備工作。

(4)頁面內(nèi)容抓取

頁面內(nèi)容抓取功能是將網(wǎng)址打開后的具體內(nèi)容抓取出來,存放在對應(yīng)的segment目錄下。其過程分為:①按照segments目錄下的抓取列表執(zhí)行抓取動作;②抓取過程中頁面中的其他網(wǎng)址可能改變,此時更新crawldb數(shù)據(jù)庫中的網(wǎng)址;③為提高抓取速度,抓取程序啟動多線程;④抓取操作過程中調(diào)用解析程序解釋抓回來的數(shù)據(jù)。通過網(wǎng)絡(luò)資源庫網(wǎng)址頁面的內(nèi)容抓取,至此將所有目標(biāo)資源庫的內(nèi)容已經(jīng)抓取到廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源搜索引擎庫中。

(5)解釋抓取的文本和數(shù)據(jù)并存放

解釋操作主要完成對抓取回來的頁面進行文本和數(shù)據(jù)的解釋分析并歸檔存放到segments對應(yīng)的文件夾中。具體來說,其操作為:①整理由抓取程序反饋的數(shù)據(jù),將頁面內(nèi)容分為數(shù)據(jù)和文本兩部分;②數(shù)據(jù)主要是頁面的題名、作者、日期、鏈接等內(nèi)容;③文本主要指頁面中的文本內(nèi)容。

(6)更新網(wǎng)絡(luò)資源地址集合

根據(jù)segments目錄下面的解釋分析出來的內(nèi)容,對crawldb數(shù)據(jù)庫進行更新,為下一輪抓取做準(zhǔn)備工作。

(7)索引前的狀態(tài)更新

更新linkDB,為接下來建立文本內(nèi)容和數(shù)據(jù)內(nèi)容的索引工作提供準(zhǔn)備。

(8)索引過程

為給網(wǎng)絡(luò)資源學(xué)習(xí)使用者提供方便,本步驟主要是將抓取回來的數(shù)據(jù)轉(zhuǎn)換成文本,分析文本,并將分析過的文本保存到數(shù)據(jù)庫中。其實現(xiàn)過程為:①索引前,將數(shù)據(jù)轉(zhuǎn)換成文本字符流;②對數(shù)據(jù)索引前,進行預(yù)處理,使之更加合適被索引;③將分析過的文本保存到數(shù)據(jù)庫中。

搜索引擎挖掘策略通過上述八個步驟的操作,實現(xiàn)了廣州市基礎(chǔ)網(wǎng)絡(luò)資源庫搜索引擎的建立。

2.緩存技術(shù)挖掘策略的實現(xiàn)

廣州市教育科研網(wǎng)內(nèi)的用戶在訪問教育網(wǎng)絡(luò)資源時,首先判斷是否符合資源描述數(shù)據(jù)庫。如果符合,則實現(xiàn)訪問路徑重定向,把存放在發(fā)布系統(tǒng)或緩存中的文件路徑返回給用戶,用戶可以直接從內(nèi)網(wǎng)下載所需資源,否則再通過互聯(lián)網(wǎng)獲取。在減少網(wǎng)絡(luò)出口帶寬負擔(dān)的同時,大大改善了用戶的體驗。其實現(xiàn)過程分為:①網(wǎng)絡(luò)資源使用者向源外網(wǎng)服務(wù)器發(fā)起請求,請求被重定向子系統(tǒng)捕獲;②重定向子系統(tǒng)針對所有用戶的請求進行解析,統(tǒng)計當(dāng)前的網(wǎng)絡(luò)熱點內(nèi)容;③當(dāng)該資源達到了設(shè)定的熱點內(nèi)容閾值,且沒有被緩存系統(tǒng)緩存,將請求轉(zhuǎn)發(fā)至緩存子系統(tǒng)的資源管理設(shè)備;④資源管理模塊解析用戶請求,如符合系統(tǒng)緩存策略,則將該下載任務(wù)分發(fā)至當(dāng)前性能最優(yōu)的緩存服務(wù)器;⑤緩存服務(wù)器沒有保存該內(nèi)容,向負載均衡模塊請求用戶下載信息;⑥資源管理設(shè)備返回相應(yīng)的文件索引信息;⑦緩存服務(wù)器向外網(wǎng)的源服務(wù)器發(fā)出請求;⑧外網(wǎng)服務(wù)器返回該資源對應(yīng)的下載地址給緩存服務(wù)器;⑨緩存服務(wù)器代理向外網(wǎng)服務(wù)器節(jié)點請求內(nèi)容;⑩緩存服務(wù)器代理從外網(wǎng)服務(wù)器節(jié)點下載文件內(nèi)容。

● 網(wǎng)絡(luò)學(xué)習(xí)資源挖掘策略應(yīng)用效果分析

廣州市教育科研網(wǎng)內(nèi)用戶對教育網(wǎng)絡(luò)資源的檢索需求量比較大。通過實施教育網(wǎng)絡(luò)資源挖掘策略前后的記錄比照分析發(fā)現(xiàn),利用搜索引擎和緩存系統(tǒng),可以為用戶提供快速的網(wǎng)絡(luò)資源精準(zhǔn)定位服務(wù),能極大改善用戶訪問或下載網(wǎng)絡(luò)資源的體驗,從而提高資源的利用率,并有效減輕教育科研網(wǎng)出口的負擔(dān)。

1.搜索引擎應(yīng)用效果分析

廣州市教育搜索引擎在2011年投入使用后,研究者對其檢索的關(guān)鍵詞做了技術(shù)統(tǒng)計發(fā)現(xiàn):通過廣州市教育科研網(wǎng)進行的信息搜索中,66%是搜索網(wǎng)絡(luò)學(xué)習(xí)資源,平均每天超過1千次;搜索其他類型資源的比例為44%。此外,通過對檢索分詞的分析,用戶對網(wǎng)絡(luò)信息資源的檢索技能欠佳,主要表現(xiàn)在關(guān)鍵詞的選擇不恰當(dāng)以及不會熟練使用高級檢索功能,導(dǎo)致出現(xiàn)誤檢或漏檢等現(xiàn)象,沒有達到預(yù)期的檢索效果。教育搜索引擎的精準(zhǔn)檢索,大大提高了網(wǎng)絡(luò)學(xué)習(xí)資源的精準(zhǔn)定位,從而提高了資源的利用率。

2.緩存應(yīng)用效果分析

緩存系統(tǒng)動態(tài)搜集了12個區(qū)的教育網(wǎng)絡(luò)資源,到目前為止共緩存的容量超過13T容量的資源。在此基礎(chǔ)上,緩存系統(tǒng)平臺利用緩存技術(shù)對被挖掘出來資源的路徑、文件名等進行梳理,并分類整合,形成緩存文件推送和分享平臺?;诒酒脚_,廣州市教育科研網(wǎng)用戶可以快速地發(fā)現(xiàn)網(wǎng)內(nèi)其他用戶關(guān)注的熱點教育資源,快速下載熱點文件,也可以分享自己的網(wǎng)絡(luò)學(xué)習(xí)資源。緩存系統(tǒng)從2011年12月到2014年7月,文件分享平臺訪問人數(shù)已達到563179人次,根據(jù)平臺訪問日志分析其使用情況如表4所示。

從以上緩存系統(tǒng)的日志分析結(jié)果來看,在異構(gòu)環(huán)境下,緩存策略的實施能通過文件的索引重構(gòu)、分類推送、熱門分享等手段有效地解決學(xué)習(xí)者資源索引困難等問題,大大提高了網(wǎng)絡(luò)學(xué)習(xí)資源使用率。

● 結(jié)論

研究在云服務(wù)的支持下,通過搜索引擎技術(shù)和緩存系統(tǒng)平臺技術(shù)的挖掘策略,有效地解決了教育網(wǎng)絡(luò)學(xué)習(xí)資源在使用中存在的索引困難、查找困難等使用問題,從效果分析來看,云服務(wù)支持下的網(wǎng)絡(luò)學(xué)習(xí)資源挖掘策略,能較好地解決廣州市基礎(chǔ)教育網(wǎng)絡(luò)學(xué)習(xí)資源利用率不高的問題,提高網(wǎng)絡(luò)學(xué)習(xí)資源的利用率。

隨著人們對網(wǎng)絡(luò)資源的日益依賴,基礎(chǔ)教育網(wǎng)絡(luò)資源呈爆炸性增長的態(tài)勢。本研究提出了在海量的教育網(wǎng)絡(luò)資源中能快速、準(zhǔn)確查找的兩種方法,但隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展,研究在如何保證資源的正確性、準(zhǔn)確性、可用性等方面沒有做相關(guān)研究,一定程度上也阻礙了網(wǎng)絡(luò)學(xué)習(xí)資源的進一步利用,這是本研究的不足之處。下一步,研究者針對網(wǎng)絡(luò)學(xué)習(xí)資源的利用和推廣做進一步研究。

參考文獻:

[1]張雪.基于數(shù)據(jù)挖掘的基礎(chǔ)教育網(wǎng)絡(luò)資源有效開發(fā)與創(chuàng)新應(yīng)用的策略研究——以國家基礎(chǔ)教育資源網(wǎng)為例[D].西安:陜西師范大學(xué),2012:1.

[2]丁靜,楊善林,等.云計算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J].計算機科學(xué),2012(6):217-219.

[3]張雪.基于數(shù)據(jù)挖掘的基礎(chǔ)教育網(wǎng)絡(luò)資源有效開發(fā)與創(chuàng)新應(yīng)用的策略研究——以國家基礎(chǔ)教育資源網(wǎng)為例[D].西安:陜西師范大學(xué),2012:16.

[4]http://wenku.baidu.com/link?url=WK8C3p44ySOxENdyNStb4LsLctFA6lIjvT4tfeg4TtauIELF1Vr9O6fX-9hvGAMliVIdz5svhFY4LEOGwIJJS9F_EuaqVY9bL5yzbZYjrmC.

[5]羅勝濤.基于云計算的基礎(chǔ)教育網(wǎng)絡(luò)學(xué)習(xí)資源管理策略的研究[D].廣州:廣州大學(xué),2013:24.

[6]http://os.51cto.com/art/201204/326838.htm.

猜你喜歡
搜索引擎網(wǎng)絡(luò)資源
Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項
Algoblu發(fā)布NEV網(wǎng)絡(luò)資源虛擬化平臺
世界表情符號日
利用網(wǎng)絡(luò)資源學(xué)習(xí)日語的現(xiàn)狀及分析
大學(xué)英語網(wǎng)絡(luò)資源與課堂教學(xué)實踐研究
大學(xué)英語網(wǎng)絡(luò)資源建設(shè)研究
基于網(wǎng)絡(luò)資源的《物聯(lián)網(wǎng)工程導(dǎo)論》課程教學(xué)改革
網(wǎng)絡(luò)搜索引擎
基于Lucene搜索引擎的研究
搜索引擎,不止有百度與谷歌
津南区| 广州市| 建德市| 玉屏| 高碑店市| 呼玛县| 双江| 丁青县| 信阳市| 保定市| 江口县| 繁昌县| 呈贡县| 东至县| 万州区| 平凉市| 襄樊市| 车致| 土默特右旗| 尼玛县| 白河县| 新竹县| 襄樊市| 万载县| 永嘉县| 东乡县| 杭州市| 滦平县| 府谷县| 玉山县| 太仆寺旗| 天峻县| 仙游县| 巴南区| 巍山| 镇江市| 潞城市| 福鼎市| 双柏县| 平昌县| 财经|