唐仕喜
【摘要】教育圖像資源搜索引擎智能機器人的設(shè)計與開發(fā)是基于內(nèi)容的教育圖像資源智能搜索引擎的核心工作之一。該文從線程池技術(shù)的角度給出了CBIR教育圖像資源搜索引擎智能機器人的總體設(shè)計與詳細設(shè)計,討論了智能機器人中線程池技術(shù)的優(yōu)化及其基于Agent的通信,最后給出了基于線程池的CBIR教育圖像資源搜索引擎智能機器人的實現(xiàn)。
【關(guān)鍵詞】搜索引擎;CBIR;線程池;Agent;智能機器人
【中圖分類號】G40-057 【文獻標(biāo)識碼】A 【論文編號】1009—8097 (2009) 02—0092—04
引言
物質(zhì)資源、能源資源和信息資源是現(xiàn)代社會經(jīng)濟與技術(shù)發(fā)展的三大支柱性資源。教育信息資源作為信息資源的重要組成部分,在提高教育教學(xué)質(zhì)量,挖掘教育的發(fā)展?jié)摿ι习l(fā)揮著重要的作用。為此,各個國家都成立了自己的國家級教育資源中心,如美國的國家教育資源信息中心,我國教育部基礎(chǔ)教育課程教材發(fā)展心和中央電化教育館主辦國家基礎(chǔ)教育資源網(wǎng)等。國之源、K12、科利華、中教育星、同方思科、騰圖、清華同方等資源庫的建設(shè)也日益成熟,教育資源已經(jīng)成為網(wǎng)絡(luò)資源中的一個重要部分,用戶在通過教育資源庫獲取海量信息的同時,解決對信息的篩選、信息的辨識、信息的消化以及信息的質(zhì)量、信息的個性化等問題已顯得日趨重要。
對文本、圖像、視頻、動畫、課件等教育資源的聚類、分類、檢索[1]-[5]是十分活躍的研究領(lǐng)域,是有效地利用海量教育資源、實現(xiàn)個性化智能尋找教育資源的必然之路。我們在傳統(tǒng)算法中引入一種自適應(yīng)的參數(shù)選擇機制,對關(guān)鍵參數(shù)進行動態(tài)設(shè)置,以滿足互聯(lián)網(wǎng)上復(fù)雜多變的應(yīng)用環(huán)境和資源智能搜索引擎這一網(wǎng)上特定主題的服務(wù),CBIR教育圖像資源搜索引擎智能機器人的設(shè)計與開發(fā)則是基于內(nèi)容的教育圖像資源智能搜索引擎的核心工作之一[6]。
一 CBIR教育圖像資源搜索引擎智能機器人設(shè)計
1總體設(shè)計方案
圖像內(nèi)容搜索引擎機器人采用Spider程序進行構(gòu)造。構(gòu)造時采用基于多任務(wù)、多線程的線程池模式,即采用非遞歸的設(shè)計方案,Spider程序在發(fā)現(xiàn)每個新網(wǎng)頁或圖像URL時,它將使用一個不調(diào)用自身的方法,而是使用線程池。為得到Spider程序的處理,每一個新發(fā)現(xiàn)的網(wǎng)頁或圖像URL必須在線程池中等待。給定Spider程序一個要訪問的網(wǎng)頁或圖像URL,把這一網(wǎng)頁或圖像URL加入到線程池中去;當(dāng)Spider程序發(fā)現(xiàn)新的網(wǎng)頁或圖像URL時,把它們加入到線程池;當(dāng)Spider程序處理完當(dāng)前的URL,在線程池中查找要處理的下一URL??傮w設(shè)計方案如圖1。
2 系統(tǒng)模塊設(shè)計方案
基于內(nèi)容的教育圖像資源搜索引擎智能機器人主體由多線程池循環(huán)模塊構(gòu)成,系統(tǒng)模塊設(shè)計方案如圖2所示。
二 教育圖像資源搜索引擎機器人中的線程池技術(shù)
多線程池循環(huán)模塊是基于內(nèi)容的教育圖像資源搜索引擎智能機器人的主控模塊,負(fù)責(zé)在網(wǎng)絡(luò)上循環(huán)搜索教育圖像資源。教育圖像資源搜索引擎智能機器人同時也就是知識庫專家系統(tǒng)中的推理機,與知識庫專家系統(tǒng)成為一體,以線程池的方式工作,多個Agent相互協(xié)作,這對提高機器人的搜索效率有著重要的作用。據(jù)此我們開發(fā)了以知識庫為后臺支持的,以中間件技術(shù)為支持的基于內(nèi)容的教育圖像資源搜索引擎。
1 教育圖像資源搜索引擎機器人線程池技術(shù)優(yōu)越性
教育圖像資源搜索引擎智能機器人使用圖像的獲取、圖像的下載、圖像的匹配等Agent并行地協(xié)同工作,使得搜索工作持續(xù)進行,采用多線程技術(shù)進行處理。我們發(fā)現(xiàn),這樣處理存在以下問題:
其一,圖像的獲取、圖像的下載、圖像的匹配等Agent自身的線程創(chuàng)建和銷毀很費時間,創(chuàng)建一個對象要獲取內(nèi)存資源或者其它更多資源。提高智能機器人效率的方式就是盡可能減少創(chuàng)建和銷毀對象的次數(shù),特別是一些很耗資源的對象創(chuàng)建和銷毀。
其二,智能機器人采用多線程技術(shù)創(chuàng)建的線程花費了大量時間在睡眠狀態(tài)來等待事件的發(fā)生,還有一些線程進入睡眠狀態(tài)后定期被喚醒以輪詢工作方式來改變或者更新狀態(tài)信息。這樣降低整個搜索的吞吐量, 導(dǎo)致系統(tǒng)性能的下降而不是最初設(shè)計時期望要提高系統(tǒng)性能。
采用線程池技術(shù)可以更有效地使用線程,它為智能機器人提供一個由系統(tǒng)管理的工作者線程池。至少會有一個線程來監(jiān)聽放到線程池的所有等待操作,當(dāng)?shù)却僮魍瓿珊?,線程池中將會有一個工作者線程來執(zhí)行相應(yīng)的回調(diào)函數(shù)。在系統(tǒng)啟動或空閑時創(chuàng)建一定量的線程保存在線程池中, 在系統(tǒng)關(guān)閉時銷毀線程及其資源。當(dāng)有任務(wù)來時不需要創(chuàng)建就從線程池中取一線程執(zhí)行任務(wù), 執(zhí)行完任務(wù)后又放回至空閑線程池中。如果長時間沒有任務(wù)執(zhí)行也可銷毀一定量的線程, 使線程池中保持一定的線程數(shù)。當(dāng)有任務(wù)來時線程池中沒有空閑線程, 且此時線程數(shù)沒有達到最大線程數(shù)時, 創(chuàng)建新線程。如果達到最大線程數(shù)而沒有空閑線程時, 任務(wù)等待, 直到池中有空閑線程。采用線程池技術(shù)解決了的獲取、圖像的下載、圖像的匹配等多Agent地協(xié)同工作的效率問題,特別是圖像匹配與的獲取、圖像的下載不同速度的協(xié)同問題,具有相當(dāng)?shù)膬?yōu)越性。
2 教育圖像資源搜索引擎機器人線程池技術(shù)的優(yōu)化
簡單線程池存在一些問題,如果有大量的線程要求智能機器人為其服務(wù),但由于線程池的工作線程是有限的,智能機器人只能為部分線程服務(wù),其它線程提交的任務(wù),只能在任務(wù)隊列中等待處理。但智能機器人的響應(yīng)時間要求不能太長,則需要調(diào)整優(yōu)化線程池尺寸[7],主要有下列優(yōu)化措施:
其一,動態(tài)增加工作線程。在智能機器人線程池中提供一個可以動態(tài)改變的工作線程數(shù)目的功能,以適應(yīng)線程變化的需要。一旦請求變少了將逐步減少線程池中工作線程的數(shù)目。線程增加采用超前方式,即批量增加一批工作線程。同時在線程池中限制線程池中工作線程數(shù)目的上限和下限,以防止這種靈活的方式也就變成一種錯誤的方式或者災(zāi)難,因為頻繁的創(chuàng)建線程或者短時間內(nèi)產(chǎn)生大量的線程將會背離使用線程池原始初衷——減少創(chuàng)建線程的次數(shù)。
其二,優(yōu)化工作線程數(shù)目。根據(jù)統(tǒng)計學(xué)的原理來統(tǒng)計線程的請求數(shù)目,比如高峰時段平均一秒鐘內(nèi)有多少任務(wù)要求處理,并根據(jù)系統(tǒng)的承受能力及客戶的忍受能力來平衡估計一個合理的線程池尺寸。線程池的尺寸確實很難確定,智能機器人中采用實驗結(jié)果的經(jīng)驗值來做為線程池的尺寸。
其三,智能機器人提供多個線程池。智能機器人根據(jù)不同任務(wù)或者任務(wù)優(yōu)先級來采用不同線程池處理。圖像的獲取、圖像的下載、圖像的匹配等Agent采用不同的線程池進行處理,分而治之,體現(xiàn)不同任務(wù)的任務(wù)優(yōu)先級。
智能機器人中替換成圖像的獲取、圖像的下載、圖像的匹配等Agent需要大量的線程來完成任務(wù),且完成任務(wù)的時間比較短,使用線程池技術(shù)取得了較好的效果。
3 教育圖像資源搜索引擎機器人線程池的通信
消息對話通信是實現(xiàn)靈活和復(fù)雜的協(xié)調(diào)策略的基礎(chǔ)[8]。Agent使用規(guī)定的協(xié)議相互交換信息,用于建立通信和協(xié)調(diào)機制。其具體通信過程如圖3所示。
教育圖像資源搜索引擎智能機器人中替換成圖像的獲取、圖像的下載、圖像的匹配等各Agent相互通知該世界中已經(jīng)探索過的部分, 使每個Agent可能少做一些探索,向其他Agent詢問世界特定部分的情況,回答問題,請求或者命令其他Agent采取行動,許諾做某事或者提供幫助,確認(rèn)請求和提議,分享感受和經(jīng)驗。在面向消息的智能機器人多Agent系統(tǒng)中,發(fā)送Agent把特定消息傳送至另一Agent(接收Agent),兩Agent之間的消息是直接交換的,執(zhí)行中沒有緩沖。
教育圖像資源搜索引擎智能機器人中線程池間各Agent的通信存在以下問題:每個Agent對于所要完成的任務(wù)擁有全面的信息或能力,系統(tǒng)的宏觀的問題求解;Agent成員之間以及與系統(tǒng)的目標(biāo)、意愿和行為的一致;合作對象的明確選擇;沖突的檢測和協(xié)調(diào);通信的協(xié)商的合時合理;對分散的共享數(shù)據(jù)和資源的有效分配和管理;系統(tǒng)的安全機制;Agent的靈活管理方式;有效及時地對環(huán)境的變化做出反應(yīng)等。為了有效地解決這些問題,我們采用集中式管理的通信機制,負(fù)責(zé)對所有或部分Agent成員的行為、協(xié)作、任務(wù)分配以及共享資源等進行統(tǒng)一的協(xié)調(diào)和管理,可以是管理Agent、協(xié)調(diào)Agent、監(jiān)督Agent等,與各Agent成員之間具有一定程度的管理和被管理的關(guān)系,如圖4所示。
智能機器人中集中式MAS機制在一定程度上推理成員Agent的能力行為,判斷成員Agent之間行為的相互影響,幫助成員Agent更為迅速和準(zhǔn)確地確定協(xié)作對象,組織成員Agent之間的相互合作,協(xié)調(diào)成員Agent之間的矛盾和沖突,使成員Agent通過學(xué)習(xí)產(chǎn)生對整體行為有益的影響 。集中式MAS機制推測協(xié)作對象的行為和通信,減少了協(xié)調(diào)和通信代價,提高了成員之間協(xié)作的有效性。
三 教育圖像資源搜索引擎智能機器人實現(xiàn)
根據(jù)輸入的URL建立多IP數(shù)組到獲取線程池;依據(jù)各個IP建立各自的線程;各個線程完成每個IP的教育圖像資源搜索;通過各線程池協(xié)作,反復(fù),至規(guī)定寬度與深度頁面全部搜索完成。教育圖像資源CBIR Robot系統(tǒng)運行結(jié)果如圖5所示。
線程池技術(shù)對CBIR教育圖像資源搜索引擎智能機器人的性能有著顯著的改善。但因整個系統(tǒng)還涉及到知識庫、圖像內(nèi)容的表示、圖像內(nèi)容的搜索等多方面的技術(shù),多文種技術(shù)等,如何更好地優(yōu)化搜索系統(tǒng),是進一步需要解決的問題。
參考文獻
[1] María Pinto, Dora Sales, Anne-Vinciane Doucet, et al.Metric analysis of the information visibility and diffusion about the European Higher Education Area on Spanish University websites[J]. Scientometrics 2007, 72: 345-370.
[2]Stefan Rank, Paolo Petta.Basing Artificial Emotion on Process and Resource Management[J].Lecture Notes in Computer Science 2007,4738: 350-361.
[3]Olivier Motelet, Benjamin Piwowarski, Georges Dupret, et al.Enhancing Educational-Material Retrieval Using Authored-Lesson Metadata[J].Lecture Notes in Computer Science 2007, 4726: 254-263 .
[4]Dongwon Jeong, Myounghoi Choi, Keunhwan Jeon. Semantic Classification Model for Educational Repositories[J].Lecture Notes in Computer Science 2007, 4489:508-515 .
[5]Xia Li, Jianlin Zhang, Tao Huang. A Standardized Learning Resources Retrieval System Based on Ontology Matching[J]. Lecture Notes in Computer Science 2007, 4469: 411-421.
[6]ShiXi Tang, WeiLan Wang, HuaMing Liu, et al.Further Study on the Design of Multi-language Web CBIR Searching Engine Based on MAS[J].IEEE The First International Symposium on Pervasive Computing and Applications, 2006, 1109:658-662.
[7]John Calcote . Thread Pools and Server Performance [J] . Dr. Dobb's Journal ,1997,7: 60-64.
[8]Zhongzhi Shi. Intelligent Agent and Application[M]. Beijing:Science Press, 2000: 7-18.