伍曉峰
摘要:基礎(chǔ)教育網(wǎng)絡(luò)資源存在著資源分散建設(shè)與管理、使用率不高等問題。本文研究分析了云服務(wù)對基礎(chǔ)教育網(wǎng)絡(luò)資源的管理優(yōu)勢,依托云服務(wù),提出基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略,進而實現(xiàn)搜索引擎和緩存系統(tǒng),有效地解決了廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源利用率低的問題。
關(guān)鍵詞:網(wǎng)絡(luò)資源;搜索引擎;緩存
中圖分類號:G443 文獻標(biāo)識碼:A 論文編號:1674-2117(2015)07-0073-04
● 引言
基礎(chǔ)教育網(wǎng)絡(luò)資源建設(shè)是實現(xiàn)基礎(chǔ)教育信息化的重要環(huán)節(jié),也是建設(shè)基礎(chǔ)教育公共服務(wù)體系的重要內(nèi)容。近年來,國家各級教育部門投入了大量人力、物力和財力開展基礎(chǔ)教育網(wǎng)絡(luò)資源的建設(shè),在資源的種類、內(nèi)容、數(shù)量和質(zhì)量等方面均取得了顯著的發(fā)展,形成了海量的網(wǎng)絡(luò)資源。用戶能否快速、準(zhǔn)確查找到所需的資源,對資源的利用率有較大的影響。因此,資源提供者應(yīng)該對挖掘策略進行探討。
云計算具有超大規(guī)模的存儲和計算能力,資源和結(jié)構(gòu)具有動態(tài)伸縮性,并且通過虛擬化技術(shù)和龐大的資源池按需提供服務(wù),這些特點非常適合在網(wǎng)絡(luò)環(huán)境下存儲和挖掘快速增長的網(wǎng)絡(luò)資源。本研究在云服務(wù)支持的環(huán)境下,采用搜索引擎挖掘和緩存挖掘策略,實現(xiàn)對基礎(chǔ)教育網(wǎng)絡(luò)資源的挖掘,可以使用戶從海量資源中快速獲取所需的網(wǎng)絡(luò)資源,從而提高資源的利用率。
● 問題的提出
廣州市現(xiàn)有12個區(qū),基礎(chǔ)教育階段中小學(xué)校超過2000所,在校學(xué)生近200萬人,教職工約15萬人。為滿足廣大師生學(xué)習(xí)和工作的需要,引領(lǐng)教育發(fā)展的方向,廣州教育信息化建設(shè)始終走在全國的前沿。從2002年開始建設(shè)廣州教育科研網(wǎng),鋪設(shè)光纖總長度約25000公里,接入單位近2000家,聯(lián)網(wǎng)電腦數(shù)在30萬臺以上,覆蓋城鄉(xiāng)各級各類學(xué)校,成為目前國內(nèi)規(guī)模最大的基礎(chǔ)教育光纖城域網(wǎng)。在完善硬件建設(shè)的同時,廣州注重教育網(wǎng)絡(luò)資源的建設(shè),從2004年啟動“教育e時代”工程開始,市教育信息中心先后購買或建設(shè)了多種類型的教育資源。各區(qū)也結(jié)合自身的優(yōu)勢,探索建設(shè)具有區(qū)域特色的資源庫。詳見表1。
到目前為止,廣州市、區(qū)兩級教育部門積累的教育網(wǎng)絡(luò)資源超過100T。形成了共建共享、內(nèi)容豐富、形式多樣的教育信息資源體系。隨著資源總量的增大和類型的增多,隨之產(chǎn)生了非結(jié)構(gòu)化、異構(gòu)等問題,導(dǎo)致資源的查找、索引比較困難,優(yōu)質(zhì)資源淹沒在海量資源中,造成網(wǎng)絡(luò)資源使用率低。如何利用挖掘技術(shù)有效地提高資源的獲取速度,從而提高資源使用率呢?
● 云服務(wù)支持的基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略
基礎(chǔ)教育網(wǎng)絡(luò)資源包括素材類教學(xué)資源,如文本、圖形/圖像、音視頻等媒體素材,以及集成型教學(xué)資源,如課件、研究性學(xué)習(xí)專題、網(wǎng)絡(luò)課程等。具有內(nèi)容豐富、數(shù)量龐大、增長迅速、覆蓋面廣等特點。因格式和種類繁多,采用傳統(tǒng)數(shù)據(jù)挖掘方法對此類資源進行挖掘的效果不佳。廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘策略是在云計算環(huán)境下,采用搜索引擎和Web緩存兩種挖掘策略,來為廣州市教育科研網(wǎng)內(nèi)部用戶查找教育資源提供服務(wù)。
1.廣州市教育搜索引擎
廣州市教育搜索引擎是在參考國內(nèi)外其他學(xué)者研究的基礎(chǔ)上,經(jīng)過實踐探索自主研發(fā)基于NUTCH實現(xiàn)的全網(wǎng)檢索引擎。在教育網(wǎng)絡(luò)資源挖掘檢索方面,該引擎首次采用行業(yè)搜索引擎和“垂直”搜索引擎技術(shù),依據(jù)自主用途排位的排序算法,通過爬蟲和分詞關(guān)鍵技術(shù)實現(xiàn)對網(wǎng)絡(luò)資源的挖掘,并對中文分詞做個性化處理。其機理圖如圖1所示。
2.緩存挖掘策略
緩存技術(shù)具有減少網(wǎng)絡(luò)帶寬消耗、降低服務(wù)器壓力、減少網(wǎng)絡(luò)延遲等特點。在廣州教育科研網(wǎng)出口網(wǎng)關(guān)處部署代理緩存服務(wù)器,可以充分利用教科網(wǎng)內(nèi)帶寬充足、運行穩(wěn)定的優(yōu)勢,針對基礎(chǔ)教育網(wǎng)絡(luò)資源采取緩存挖掘策略,以實現(xiàn)對資源的監(jiān)控、重定向和緩存。緩存技術(shù)策略不僅作為教科網(wǎng)內(nèi)部用戶與網(wǎng)內(nèi)資源服務(wù)器之間的橋梁,也是用戶與外網(wǎng)資源服務(wù)器之間的橋梁。其部署結(jié)構(gòu)圖如圖2所示。
● 云服務(wù)支持的基礎(chǔ)教育網(wǎng)絡(luò)資源挖掘的實現(xiàn)
1.教育網(wǎng)絡(luò)資源搜索引擎挖掘策略的實現(xiàn)
研究采用云服務(wù)下的搜索引擎為工具,以廣州市、佛山市、中山市的網(wǎng)絡(luò)學(xué)習(xí)資源為研究對象,依據(jù)以下八部分關(guān)鍵技術(shù)來實現(xiàn),其實現(xiàn)過程分析如下。
(1)教育網(wǎng)絡(luò)資源網(wǎng)絡(luò)地址集合分析
廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源的地址集合由廣州市年度教育信息化調(diào)查獲取的網(wǎng)絡(luò)地址、廣佛同城化教育信息化專項建設(shè)時佛山市提交的網(wǎng)絡(luò)資源地址、中山市教育網(wǎng)絡(luò)資源地址三部分組成。搜集整理的網(wǎng)絡(luò)地址集合如表2所示。搜索引擎機器人以搜集的這三部分網(wǎng)絡(luò)資源網(wǎng)址為入口,理論上,通過超鏈接的方式,能鏈接到絕大部分網(wǎng)頁。
(2)集合地址內(nèi)容及狀態(tài)更新操作
利用搜索引擎inject操作,調(diào)用搜索引擎的核心包crawl對上述教育網(wǎng)絡(luò)資源地址集合庫進行網(wǎng)絡(luò)地址狀態(tài)的檢查、更新和分析,其主要的操作有:①對每個網(wǎng)址進行格式化和過濾,消除非法的網(wǎng)絡(luò)地址,設(shè)定每個網(wǎng)址的狀態(tài),按照一定的方法進行初始化分值;②合并消除重復(fù)的網(wǎng)址;③將網(wǎng)址的狀態(tài)、分值存入crawldb數(shù)據(jù)庫,與原數(shù)據(jù)重復(fù)部分需更新。通過本步驟的操作,將上述教育網(wǎng)絡(luò)資源網(wǎng)址整理出如表3所示。
(3)創(chuàng)建抓取列表并生成對應(yīng)目錄
本步驟實現(xiàn)創(chuàng)建抓取網(wǎng)址的列表,并以時間為名存放在segments目錄下。其操作實現(xiàn)分為:①從上述crawldb數(shù)據(jù)庫中取出網(wǎng)址并進行過濾;②對網(wǎng)址進行排序,通過網(wǎng)址、鏈接數(shù)和hash宣發(fā)綜合進行降序排序;③將排列列表寫入segments目錄中。至此,教育搜索引擎基本完成了網(wǎng)址內(nèi)容抓取的所有準(zhǔn)備工作。
(4)頁面內(nèi)容抓取
頁面內(nèi)容抓取功能是將網(wǎng)址打開后的具體內(nèi)容抓取出來,存放在對應(yīng)的segment目錄下。其過程分為:①按照segments目錄下的抓取列表執(zhí)行抓取動作;②抓取過程中頁面中的其他網(wǎng)址可能改變,此時更新crawldb數(shù)據(jù)庫中的網(wǎng)址;③為提高抓取速度,抓取程序啟動多線程;④抓取操作過程中調(diào)用解析程序解釋抓回來的數(shù)據(jù)。通過網(wǎng)絡(luò)資源庫網(wǎng)址頁面的內(nèi)容抓取,至此將所有目標(biāo)資源庫的內(nèi)容已經(jīng)抓取到廣州市基礎(chǔ)教育網(wǎng)絡(luò)資源搜索引擎庫中。
(5)解釋抓取的文本和數(shù)據(jù)并存放
解釋操作主要完成對抓取回來的頁面進行文本和數(shù)據(jù)的解釋分析并歸檔存放到segments對應(yīng)的文件夾中。具體來說,其操作為:①整理由抓取程序反饋的數(shù)據(jù),將頁面內(nèi)容分為數(shù)據(jù)和文本兩部分;②數(shù)據(jù)主要是頁面的題名、作者、日期、鏈接等內(nèi)容;③文本主要指頁面中的文本內(nèi)容。
(6)更新網(wǎng)絡(luò)資源地址集合
根據(jù)segments目錄下面的解釋分析出來的內(nèi)容,對crawldb數(shù)據(jù)庫進行更新,為下一輪抓取做準(zhǔn)備工作。
(7)索引前的狀態(tài)更新
更新linkDB,為接下來建立文本內(nèi)容和數(shù)據(jù)內(nèi)容的索引工作提供準(zhǔn)備。
(8)索引過程
為給網(wǎng)絡(luò)資源學(xué)習(xí)使用者提供方便,本步驟主要是將抓取回來的數(shù)據(jù)轉(zhuǎn)換成文本,分析文本,并將分析過的文本保存到數(shù)據(jù)庫中。其實現(xiàn)過程為:①索引前,將數(shù)據(jù)轉(zhuǎn)換成文本字符流;②對數(shù)據(jù)索引前,進行預(yù)處理,使之更加合適被索引;③將分析過的文本保存到數(shù)據(jù)庫中。
搜索引擎挖掘策略通過上述八個步驟的操作,實現(xiàn)了廣州市基礎(chǔ)網(wǎng)絡(luò)資源庫搜索引擎的建立。
2.緩存技術(shù)挖掘策略的實現(xiàn)
廣州市教育科研網(wǎng)內(nèi)的用戶在訪問教育網(wǎng)絡(luò)資源時,首先判斷是否符合資源描述數(shù)據(jù)庫。如果符合,則實現(xiàn)訪問路徑重定向,把存放在發(fā)布系統(tǒng)或緩存中的文件路徑返回給用戶,用戶可以直接從內(nèi)網(wǎng)下載所需資源,否則再通過互聯(lián)網(wǎng)獲取。在減少網(wǎng)絡(luò)出口帶寬負擔(dān)的同時,大大改善了用戶的體驗。其實現(xiàn)過程分為:①網(wǎng)絡(luò)資源使用者向源外網(wǎng)服務(wù)器發(fā)起請求,請求被重定向子系統(tǒng)捕獲;②重定向子系統(tǒng)針對所有用戶的請求進行解析,統(tǒng)計當(dāng)前的網(wǎng)絡(luò)熱點內(nèi)容;③當(dāng)該資源達到了設(shè)定的熱點內(nèi)容閾值,且沒有被緩存系統(tǒng)緩存,將請求轉(zhuǎn)發(fā)至緩存子系統(tǒng)的資源管理設(shè)備;④資源管理模塊解析用戶請求,如符合系統(tǒng)緩存策略,則將該下載任務(wù)分發(fā)至當(dāng)前性能最優(yōu)的緩存服務(wù)器;⑤緩存服務(wù)器沒有保存該內(nèi)容,向負載均衡模塊請求用戶下載信息;⑥資源管理設(shè)備返回相應(yīng)的文件索引信息;⑦緩存服務(wù)器向外網(wǎng)的源服務(wù)器發(fā)出請求;⑧外網(wǎng)服務(wù)器返回該資源對應(yīng)的下載地址給緩存服務(wù)器;⑨緩存服務(wù)器代理向外網(wǎng)服務(wù)器節(jié)點請求內(nèi)容;⑩緩存服務(wù)器代理從外網(wǎng)服務(wù)器節(jié)點下載文件內(nèi)容。
● 網(wǎng)絡(luò)學(xué)習(xí)資源挖掘策略應(yīng)用效果分析
廣州市教育科研網(wǎng)內(nèi)用戶對教育網(wǎng)絡(luò)資源的檢索需求量比較大。通過實施教育網(wǎng)絡(luò)資源挖掘策略前后的記錄比照分析發(fā)現(xiàn),利用搜索引擎和緩存系統(tǒng),可以為用戶提供快速的網(wǎng)絡(luò)資源精準(zhǔn)定位服務(wù),能極大改善用戶訪問或下載網(wǎng)絡(luò)資源的體驗,從而提高資源的利用率,并有效減輕教育科研網(wǎng)出口的負擔(dān)。
1.搜索引擎應(yīng)用效果分析
廣州市教育搜索引擎在2011年投入使用后,研究者對其檢索的關(guān)鍵詞做了技術(shù)統(tǒng)計發(fā)現(xiàn):通過廣州市教育科研網(wǎng)進行的信息搜索中,66%是搜索網(wǎng)絡(luò)學(xué)習(xí)資源,平均每天超過1千次;搜索其他類型資源的比例為44%。此外,通過對檢索分詞的分析,用戶對網(wǎng)絡(luò)信息資源的檢索技能欠佳,主要表現(xiàn)在關(guān)鍵詞的選擇不恰當(dāng)以及不會熟練使用高級檢索功能,導(dǎo)致出現(xiàn)誤檢或漏檢等現(xiàn)象,沒有達到預(yù)期的檢索效果。教育搜索引擎的精準(zhǔn)檢索,大大提高了網(wǎng)絡(luò)學(xué)習(xí)資源的精準(zhǔn)定位,從而提高了資源的利用率。
2.緩存應(yīng)用效果分析
緩存系統(tǒng)動態(tài)搜集了12個區(qū)的教育網(wǎng)絡(luò)資源,到目前為止共緩存的容量超過13T容量的資源。在此基礎(chǔ)上,緩存系統(tǒng)平臺利用緩存技術(shù)對被挖掘出來資源的路徑、文件名等進行梳理,并分類整合,形成緩存文件推送和分享平臺?;诒酒脚_,廣州市教育科研網(wǎng)用戶可以快速地發(fā)現(xiàn)網(wǎng)內(nèi)其他用戶關(guān)注的熱點教育資源,快速下載熱點文件,也可以分享自己的網(wǎng)絡(luò)學(xué)習(xí)資源。緩存系統(tǒng)從2011年12月到2014年7月,文件分享平臺訪問人數(shù)已達到563179人次,根據(jù)平臺訪問日志分析其使用情況如表4所示。
從以上緩存系統(tǒng)的日志分析結(jié)果來看,在異構(gòu)環(huán)境下,緩存策略的實施能通過文件的索引重構(gòu)、分類推送、熱門分享等手段有效地解決學(xué)習(xí)者資源索引困難等問題,大大提高了網(wǎng)絡(luò)學(xué)習(xí)資源使用率。
● 結(jié)論
研究在云服務(wù)的支持下,通過搜索引擎技術(shù)和緩存系統(tǒng)平臺技術(shù)的挖掘策略,有效地解決了教育網(wǎng)絡(luò)學(xué)習(xí)資源在使用中存在的索引困難、查找困難等使用問題,從效果分析來看,云服務(wù)支持下的網(wǎng)絡(luò)學(xué)習(xí)資源挖掘策略,能較好地解決廣州市基礎(chǔ)教育網(wǎng)絡(luò)學(xué)習(xí)資源利用率不高的問題,提高網(wǎng)絡(luò)學(xué)習(xí)資源的利用率。
隨著人們對網(wǎng)絡(luò)資源的日益依賴,基礎(chǔ)教育網(wǎng)絡(luò)資源呈爆炸性增長的態(tài)勢。本研究提出了在海量的教育網(wǎng)絡(luò)資源中能快速、準(zhǔn)確查找的兩種方法,但隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展,研究在如何保證資源的正確性、準(zhǔn)確性、可用性等方面沒有做相關(guān)研究,一定程度上也阻礙了網(wǎng)絡(luò)學(xué)習(xí)資源的進一步利用,這是本研究的不足之處。下一步,研究者針對網(wǎng)絡(luò)學(xué)習(xí)資源的利用和推廣做進一步研究。
參考文獻:
[1]張雪.基于數(shù)據(jù)挖掘的基礎(chǔ)教育網(wǎng)絡(luò)資源有效開發(fā)與創(chuàng)新應(yīng)用的策略研究——以國家基礎(chǔ)教育資源網(wǎng)為例[D].西安:陜西師范大學(xué),2012:1.
[2]丁靜,楊善林,等.云計算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J].計算機科學(xué),2012(6):217-219.
[3]張雪.基于數(shù)據(jù)挖掘的基礎(chǔ)教育網(wǎng)絡(luò)資源有效開發(fā)與創(chuàng)新應(yīng)用的策略研究——以國家基礎(chǔ)教育資源網(wǎng)為例[D].西安:陜西師范大學(xué),2012:16.
[4]http://wenku.baidu.com/link?url=WK8C3p44ySOxENdyNStb4LsLctFA6lIjvT4tfeg4TtauIELF1Vr9O6fX-9hvGAMliVIdz5svhFY4LEOGwIJJS9F_EuaqVY9bL5yzbZYjrmC.
[5]羅勝濤.基于云計算的基礎(chǔ)教育網(wǎng)絡(luò)學(xué)習(xí)資源管理策略的研究[D].廣州:廣州大學(xué),2013:24.
[6]http://os.51cto.com/art/201204/326838.htm.