国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人工智能技術(shù)的教育資源搜索引擎研究*

2012-03-31 03:06
關(guān)鍵詞:計(jì)算機(jī)系搜索引擎網(wǎng)頁(yè)

楊 娜 王 巖

(1:吉林建筑工程學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,長(zhǎng)春 130118;2:吉林建筑工程學(xué)院學(xué)生工作處,長(zhǎng)春 130118)

1 研究背景

近年來(lái),隨著互聯(lián)網(wǎng)的普及和快速發(fā)展,信息資源與站點(diǎn)越來(lái)越多,而且信息的組織方式也非常自由.當(dāng)網(wǎng)上的信息越來(lái)越多,單純地通過(guò)傳統(tǒng)、手工的獲取信息方式,達(dá)到快速而且準(zhǔn)確地獲取信息顯然不太可能.現(xiàn)在,在互聯(lián)網(wǎng)上人們用來(lái)查詢信息的工具是搜索引擎.據(jù)統(tǒng)計(jì),搜索引擎是排在電子郵件之后的第2個(gè)人們用的最多的網(wǎng)絡(luò)工具[1].但隨著網(wǎng)絡(luò)信息增長(zhǎng)的速度越來(lái)越快,而且人們對(duì)知識(shí)的要求也更為精確,現(xiàn)在的搜索引擎已遠(yuǎn)遠(yuǎn)不能滿足人們的需要,需要更為智能化、個(gè)性化的搜索引擎.如何快速、準(zhǔn)確地從浩瀚的信息海洋中找到自己需要的信息,已成為互聯(lián)網(wǎng)應(yīng)用中一個(gè)極為重要的研究課題.目前,現(xiàn)有的搜索引擎存在的問(wèn)題是:

(1)現(xiàn)有的搜索引擎仍存在著高覆蓋率和低查全率的問(wèn)題;

(2)用于表示W(wǎng)eb信息的數(shù)據(jù)類型的多樣性、數(shù)據(jù)格式的松散性,導(dǎo)致了這些信息之間的格式轉(zhuǎn)換成為了挖掘中的一個(gè)瓶頸,從而阻礙了挖掘和搜索的速度,延長(zhǎng)了響應(yīng)時(shí)間[2];

(3)搜索引擎在用戶接口設(shè)計(jì)方面和互動(dòng)性方面存在的缺陷,使用戶無(wú)法準(zhǔn)確地定義檢索條件,檢索結(jié)果偏離用戶的意圖,降低了搜索結(jié)果的準(zhǔn)確率.

(4)對(duì)搜索的結(jié)果無(wú)法按照用戶的個(gè)性特征進(jìn)行一定的排序,使用戶需要用大量的時(shí)間在搜索的結(jié)果中尋找自己最想獲取的信息[3].

2 提出一種新的人工智能搜索技術(shù)

2.1 人工智能搜索知識(shí)

為了有效描述搜索路徑,這里引入了“路標(biāo)”網(wǎng)頁(yè)的概念.所謂“路標(biāo)”網(wǎng)頁(yè),就是指該網(wǎng)頁(yè)的存在對(duì)指導(dǎo)搜索路徑目標(biāo)網(wǎng)頁(yè)起著積極的引導(dǎo)作用.接著,將會(huì)看到引入“路標(biāo)”網(wǎng)頁(yè),對(duì)有效約束可能發(fā)生的搜索路徑以及確認(rèn)搜索路徑的有效性都起到了很好的促進(jìn)作用.如圖1中,各菱形框代表與搜索過(guò)程密切相關(guān)的各基本網(wǎng)頁(yè),這些基本網(wǎng)頁(yè)或其中部分信息可能包含在最終的信息搜索結(jié)果中,或標(biāo)志著搜索過(guò)程的一個(gè)重要階段,或它能夠被較為容易地識(shí)別出來(lái).

圖1 多層知識(shí)表示方法的示意描述

例如,由于在大學(xué)計(jì)算機(jī)系教員信息網(wǎng)頁(yè)搜索過(guò)程中,所獲得的大學(xué)主頁(yè)和計(jì)算機(jī)系教員信息網(wǎng)頁(yè)搜索過(guò)程中,所獲得的大學(xué)生主頁(yè)和計(jì)算機(jī)系主頁(yè)中的一部分信息內(nèi)容,最后將與教員的有關(guān)信息結(jié)合在一起,作為最終的搜索結(jié)果反饋給用戶.因此,在描述大學(xué)計(jì)算機(jī)系教員信息網(wǎng)頁(yè)搜索知識(shí)時(shí),大學(xué)主頁(yè)和計(jì)算機(jī)系主頁(yè)全部都將作為基本網(wǎng)頁(yè)參與描述有關(guān)的搜索路徑.

所示搜索知識(shí)的基本含義就是:從一個(gè)基本網(wǎng)頁(yè)1搜索到下一個(gè)基本網(wǎng)頁(yè)2時(shí),中間最多可能存在3條基本搜索路徑,這3條基本搜索路徑分別是:

(1)通過(guò)基本網(wǎng)頁(yè)1中的某個(gè)網(wǎng)鏈,就可直接(到達(dá))獲得基本網(wǎng)頁(yè)2;

(2)經(jīng)過(guò)基本網(wǎng)頁(yè)1中的某個(gè)網(wǎng)鏈,以及一個(gè)中間網(wǎng)鏈(一個(gè)過(guò)渡網(wǎng)頁(yè)中的某個(gè)網(wǎng)鏈),便可(到達(dá))獲得基本網(wǎng)頁(yè)2;

(3)經(jīng)過(guò)基本網(wǎng)頁(yè)1中的某個(gè)網(wǎng)鏈,以及兩個(gè)中間網(wǎng)鏈(分別經(jīng)過(guò)兩個(gè)過(guò)渡網(wǎng)頁(yè)中的各自一個(gè)網(wǎng)鏈),方可(到達(dá))獲得基本網(wǎng)頁(yè)2.

多層知識(shí)表示方法是通過(guò)兩個(gè)層面來(lái)描述進(jìn)行網(wǎng)頁(yè)準(zhǔn)確搜索所需的有關(guān)搜索知識(shí).這兩個(gè)層面分別是:與網(wǎng)站內(nèi)部組織結(jié)構(gòu)密切相關(guān)的搜索路徑知識(shí)的相關(guān)描述,以及與網(wǎng)站內(nèi)容(網(wǎng)頁(yè))密切相關(guān)的搜索基本單元(網(wǎng)頁(yè)或網(wǎng)鏈)知識(shí)的相關(guān)描述.采用這種以搜索路徑對(duì)象描述為搜索知識(shí)的表示主體,網(wǎng)頁(yè)或網(wǎng)鏈對(duì)象(搜索基本單元)描述為搜索知識(shí)基本組成的多層知識(shí)表示方法,不僅能夠幫助準(zhǔn)確有效搜索出所需要的目標(biāo)網(wǎng)頁(yè),而且也有助于實(shí)現(xiàn)搜索知識(shí)的自我完善.

2.2 示例說(shuō)明

利用前面所介紹搜索知識(shí)表示方法,及其所表示的具體知識(shí),采用深度優(yōu)先的啟發(fā)搜索策略,從事先指定的若干網(wǎng)站和教育資源數(shù)據(jù)庫(kù)中,分別搜索出所需要的各目標(biāo)網(wǎng)站的整個(gè)處理流程.此外,在搜索的過(guò)程中,還可根據(jù)已完成的搜索過(guò)程及結(jié)果,不斷地進(jìn)行完善目前所擁有的搜索知識(shí),以便能夠不斷地提高自己的搜索能力.

我們用從B網(wǎng)頁(yè)到C網(wǎng)頁(yè)搜索的部分過(guò)程進(jìn)行實(shí)驗(yàn),

BC11:Faculty(2,2)

BC21:Faculty(2,2)+Title(2,2)+Staff(2,2)

BC22:Faculty(2,2)

搜索知識(shí)中基本網(wǎng)頁(yè)共有兩個(gè)B和C,前者無(wú)需再識(shí)別;后者則是利用標(biāo)題內(nèi)容中的兩個(gè)特征就可加以識(shí)別.其中特征類型說(shuō)明所使用的T和L分別表示該特征為網(wǎng)頁(yè)的標(biāo)題(title)內(nèi)容和超級(jí)鏈接(anchor text)內(nèi)容.在實(shí)際操作時(shí),一般都是將以上所描述的人工智能搜索所需的搜索知識(shí)用3個(gè)知識(shí)對(duì)象,即搜索路徑、基本網(wǎng)頁(yè)和搜索路徑基本單元(網(wǎng)鏈),結(jié)合在一起來(lái)加以描述.

圖2 某學(xué)校網(wǎng)站

3 基于人工智能搜索算法的教育資源搜索引擎設(shè)計(jì)

3.1 工作流程

①用戶提出搜索請(qǐng)求;②據(jù)當(dāng)前的搜索狀態(tài)和搜索知識(shí)以及當(dāng)前所獲得的網(wǎng)頁(yè),推斷下一步網(wǎng)址;③根據(jù)前一步分析結(jié)果決定是繼續(xù)搜索數(shù)據(jù)庫(kù)還是搜索已失敗或成功;④在當(dāng)前網(wǎng)站搜索結(jié)果結(jié)束;⑤不斷重復(fù)上述4個(gè)步驟,直到事先給定的網(wǎng)站均被搜索完畢為止;⑥將搜索到的符合用戶標(biāo)準(zhǔn)的結(jié)果返回給用戶.

圖3 基于智能搜索的教育資源搜索引擎結(jié)構(gòu)

3.2 搜索步驟

人工智能搜索算法所采取的主要處理步驟如圖3所示.

①用戶提出搜索請(qǐng)求,根據(jù)給出的網(wǎng)址獲取相應(yīng)的主頁(yè);②在教育資源數(shù)據(jù)庫(kù),網(wǎng)絡(luò)以及用戶的網(wǎng)絡(luò)日志中搜索,根據(jù)當(dāng)前的搜索狀態(tài)和搜索知識(shí),以及當(dāng)前所獲得的網(wǎng)頁(yè),推斷下一步搜索網(wǎng)址;③根據(jù)前一步分析結(jié)果,決定是繼續(xù)搜索教育資源數(shù)據(jù)庫(kù),網(wǎng)絡(luò)以及用戶的網(wǎng)絡(luò)日志,還是搜索已失敗或成功;④在當(dāng)前網(wǎng)站搜索結(jié)果結(jié)束(無(wú)論搜索失敗或者成功),對(duì)本次搜索所經(jīng)歷的所有搜索路徑進(jìn)行分析總結(jié),以完善自己的搜索知識(shí);⑤不斷重復(fù)上述4個(gè)處理步驟,直到事先給定的網(wǎng)站均被搜索完畢為止;⑥將搜索到的符合用戶標(biāo)準(zhǔn)的結(jié)果返回給用戶.

4 結(jié)語(yǔ)

在這個(gè)新的模型中,不僅能夠?qū)W(wǎng)站中網(wǎng)頁(yè)進(jìn)行深度優(yōu)先的人工智能搜索,而且還能夠通過(guò)對(duì)其搜索過(guò)程和結(jié)果的自我學(xué)習(xí)來(lái)獲取更多更好的搜索知識(shí).在新模型的設(shè)計(jì)過(guò)程中,使用了一種有效的搜索知識(shí)的新型表示方法,并且為了有效描述搜索路徑,在搜索路徑中引入了“路標(biāo)”網(wǎng)頁(yè)的概念.通過(guò)路標(biāo)網(wǎng)頁(yè)不僅可以搜索出存在的網(wǎng)頁(yè),而且對(duì)指導(dǎo)搜索路徑確定目標(biāo)網(wǎng)頁(yè)起到了積極的引導(dǎo)作用.

[1]趙夷平.傳統(tǒng)搜索引擎與語(yǔ)義搜索引擎服務(wù)比較研究[J].情報(bào)科學(xué),2010,10(2):10-13.

[2]張培榮.元搜索引擎與獨(dú)立搜索引擎比較研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2004(11):35-37.

[3]李觀金.基于搜索引擎自然檢索的搜索引擎優(yōu)化[J].硅谷,2011,3(7):48-50.

猜你喜歡
計(jì)算機(jī)系搜索引擎網(wǎng)頁(yè)
計(jì)算機(jī)系簡(jiǎn)介
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
童年趣事之不一起玩的理由
童年趣事之不一起玩的理由
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
廣告主與搜索引擎的雙向博弈分析