国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

將搜索引擎中的基本技術(shù)應(yīng)用于高職教學(xué)探討

2012-08-15 00:52
武夷學(xué)院學(xué)報(bào) 2012年2期
關(guān)鍵詞:爬蟲數(shù)據(jù)結(jié)構(gòu)分詞

陳 琳

(福建省信息職業(yè)技術(shù)學(xué)院,福建 福州 350003)

將搜索引擎中的基本技術(shù)應(yīng)用于高職教學(xué)探討

陳 琳

(福建省信息職業(yè)技術(shù)學(xué)院,福建 福州 350003)

本文探討了搜索引擎的基本技術(shù),以及將搜索引擎的基本技術(shù)融入高職教學(xué)中的合理性、有效性和可行性。探討如何將搜索引擎的基本技術(shù)融入《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)中。

搜索引擎;高職教學(xué);數(shù)據(jù)結(jié)構(gòu)

1 搜索引擎的基本技術(shù)

搜索引擎為互聯(lián)網(wǎng)上數(shù)以億計(jì)的網(wǎng)頁建立索引,包含不勝枚舉迥然不同的詞匯。每天要完成成千上萬個(gè)查詢。處理查詢必須快,達(dá)到每秒能處理成百上千個(gè)查詢。索引系統(tǒng)必須能夠有效、快速地處理億萬個(gè)的數(shù)據(jù)。而且用戶希望得到高精度的搜索結(jié)果,并且這些結(jié)果最好能出現(xiàn)在前面的幾十個(gè)。

搜索引擎的基本技術(shù)有:

1.1 抓取網(wǎng)頁技術(shù)

抓取網(wǎng)頁是由幾個(gè)分布式爬蟲完成的。一個(gè)URL服務(wù)器負(fù)責(zé)向爬蟲提供URL列表。抓來的網(wǎng)頁交給存儲服務(wù)器。再由存儲服務(wù)器壓縮網(wǎng)頁并把它們存到知識庫中。

設(shè)定最大的線程的數(shù)目,每個(gè)線程對應(yīng)一個(gè)爬蟲。所有爬蟲同時(shí)在網(wǎng)上進(jìn)行搜索,根據(jù)數(shù)據(jù)庫中已有的網(wǎng)頁信息,尋找需要更新的網(wǎng)頁或新鮮有用的網(wǎng)頁。執(zhí)行的重點(diǎn)是找DNS。每個(gè)爬蟲有它自己的DNS緩存,不必每個(gè)網(wǎng)頁都查DNS。每一百個(gè)連接都有幾種不同的狀態(tài):查DNS,連接主機(jī),發(fā)送請求,接收回答。它用異步IO處理事件,若干請求隊(duì)列從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站不停的抓取網(wǎng)頁。

1.2 分詞技術(shù)

分詞技術(shù)分為英文分詞技術(shù)和中文分詞技術(shù)。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,因此英文分詞技術(shù)較容易實(shí)現(xiàn)。為了得到有效結(jié)果,還應(yīng)實(shí)現(xiàn)短語切分,實(shí)現(xiàn)短語查詢。中文是以字為單位,句子中所有的字連起來才能描述一個(gè)意思,因此,中文分詞技術(shù)很難實(shí)現(xiàn)。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。

中文分詞技術(shù)可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。

1.2.1 基于字符串匹配的分詞方法

又稱機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”分詞詞典中的詞條進(jìn)行比較,若在詞典中找到某個(gè)字符串,則成功切出一個(gè)詞??梢园褭C(jī)械分詞作為一種初分手段,再利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。

1.2.2 基于理解的分詞方法

是通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。

1.2.3 基于統(tǒng)計(jì)的分詞方法

是根據(jù)上下文,若相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。以此來識別一些新的詞。

1.3 用戶查詢方式

用戶查詢方式有單詞查詢、短語查詢、“智能”查詢和分層的主題查詢。所謂的"智能"是基于對概率統(tǒng)計(jì)的靈活應(yīng)用。它能夠同時(shí)進(jìn)行基于概念和關(guān)鍵字的索引。搜索引擎最基本的檢索是基于布爾查詢。一般認(rèn)為用戶輸入的若干關(guān)鍵詞為與關(guān)系,同時(shí)支持短語和鄰近兩種運(yùn)算。在布爾查詢的基礎(chǔ)上,按空間向量模型的相似度算法計(jì)算各個(gè)文檔與查詢的相似度算法計(jì)算各個(gè)文檔與查詢的相似度,結(jié)果作為排序的基礎(chǔ)。分層的主題查詢,能讓你能夠從一個(gè)常用的主題導(dǎo)引入到另一個(gè)相關(guān)的主題。

1.4 排序技術(shù)

對搜索到的網(wǎng)頁按它們的價(jià)值度和訪問次數(shù)排序。理想情況是將價(jià)值越大或訪問次數(shù)越多的網(wǎng)頁排在最前面。

PageRank技術(shù)主要根據(jù)鏈接數(shù)來排序而HillTop算法更強(qiáng)調(diào)了內(nèi)容的相關(guān)性,相同主題網(wǎng)站之間的鏈接優(yōu)先。

與排序技術(shù)相關(guān)的技術(shù)有:詞干技術(shù)和拼寫糾錯(cuò)技術(shù)。

1.5 前向索引和后向索引

搜索引擎將抓取的文檔信息存入知識庫中。知識庫中有64個(gè)“存儲桶”。前向索引是將抓取的文檔信息存入包含一些Word Id的“存儲桶”中,“存儲桶”的關(guān)鍵字為DocId,“存儲桶”即前向索引表,它已完成了部分排序;而后向索引是在前向索引的基礎(chǔ)上建立Word Id與其對應(yīng)的所有DocId的關(guān)系,形成后向索引表,它是以Word Id為關(guān)鍵字,建立某個(gè)關(guān)鍵詞與其對應(yīng)的所有網(wǎng)頁,即倒排文件。如果倒排文件的索引項(xiàng)數(shù)據(jù)用鏈表方式,則有利于提高更新效率,不利于檢索;如果索引項(xiàng)數(shù)據(jù)按序連續(xù)存儲,則有利于提高檢索效率,不利于更新;一個(gè)折中方案是索引項(xiàng)用連續(xù)存儲,索引更新采用部分索引重建的方式。

2 將搜索引擎的基本技術(shù)融入高職教學(xué)的合理性、有效性和可行性

在信息化時(shí)代的今天,高職院校的學(xué)生經(jīng)常在網(wǎng)絡(luò)上查閱各種信息,頻繁使用搜索引擎。對搜索引擎有一定程度的了解,將搜索引擎的基本技術(shù)融入高職教學(xué)中具有一定的合理性。雖然高職學(xué)生會使用搜索引擎查閱資料,但他們未必了解它的工作過程,出于好奇,他們也會想了解它的工作過程,興趣是最好的老師,如果將搜索引擎技術(shù)融入高職教學(xué)中,能吸引學(xué)生的注意,引起學(xué)生的興趣,從而能有效地提高相關(guān)課程的學(xué)習(xí)熱情,增強(qiáng)學(xué)習(xí)效果。因此,將搜索引擎的基本技術(shù)融入高職教學(xué)中具有一定的有效性。在高職院校計(jì)算機(jī)及其相關(guān)專業(yè)中開設(shè)了 《數(shù)據(jù)結(jié)構(gòu)》課程,它是計(jì)算機(jī)專業(yè)基礎(chǔ)課,是理論和實(shí)踐并重的課程,它不是一門非常實(shí)用的課程,但對于計(jì)算機(jī)專業(yè)的學(xué)生來說,它又是一門非常重要的課程,學(xué)好它,能提高學(xué)生的學(xué)習(xí)能力、提高分析問題和解決問題的能力,能有效地提高學(xué)生的編程水平。因此,將搜索引擎的基本技術(shù)融入高職教學(xué)中具有一定的可行性。

3 如何將搜索引擎的基本技術(shù)融入高職教學(xué)中

《數(shù)據(jù)結(jié)構(gòu)》課程的主要內(nèi)容有線性表 (串、文件)、樹、圖、查找和排序。數(shù)據(jù)結(jié)構(gòu)研究數(shù)據(jù)的邏輯結(jié)構(gòu)和物理結(jié)構(gòu)。線性表、樹、圖是三種基本的數(shù)據(jù)結(jié)構(gòu),每一種數(shù)據(jù)結(jié)構(gòu)都有不同的存儲結(jié)構(gòu),在計(jì)算機(jī)中都是以它的一種物理結(jié)構(gòu)的存儲形式存在。目前,高職教育推崇以工作過程為導(dǎo)向的教育理念,提倡以任務(wù)驅(qū)動的案例教學(xué)模式,搜索引擎的基本技術(shù)是一個(gè)不錯(cuò)的案例,可以貫穿整個(gè)《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)的過程中。

設(shè)計(jì)一個(gè)方案如下:搜索引擎的知識庫中為每個(gè)網(wǎng)頁建立一個(gè)字典表,包括URL編號、單詞及其出現(xiàn)的次數(shù)??梢杂米值浔碜鳛榫€性表的案例?;谧址ヅ涞姆衷~方法,其常用的策略有以下三種:正向最大匹配法、逆向最大匹配法和最少切分法。可以用基于字符串匹配的分詞方法作為串的案例。用戶查詢方式中的分層的主題索引可以作為樹的案例。抓取網(wǎng)頁技術(shù)用多個(gè)爬蟲實(shí)現(xiàn),每個(gè)爬蟲有一定的搜索路徑,其搜索方式可以作為圖的案例。用戶查詢方式中用單詞查詢或短語查詢可以作為查找的案例。用搜索引擎中的排序技術(shù)作為排序的案例。爬蟲將抓取的文檔存入知識庫中的所建立的倒排文件可以作為文件的案例。

在《數(shù)據(jù)結(jié)構(gòu)》課程的實(shí)際教學(xué)中,可安排1至2周的實(shí)訓(xùn)課程,完成其中的部分或全部功能。對于高職學(xué)生來說,不能作太高要求,能完成基本功能即可。

四 結(jié)束語

本文探討了搜索引擎的基本技術(shù),以及將搜索引擎的基本技術(shù)融入高職教學(xué)中的合理性、有效性和可行性,它不具備必要性。本文還設(shè)計(jì)了搜索引擎的基本技術(shù)融入《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)的一種方案。

[1]王暢.基于java技術(shù)的搜索引擎基本組成和數(shù)據(jù)結(jié)構(gòu)探究[J].科技博覽,2011:109-110.

[2]魏長春.資料搜集過程中搜索引擎合理化選擇探討[J].信息通信,2011:87-88.

[3]鄭志宏,徐文君,文紅等.改進(jìn)搜索引擎及其數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)[J].情報(bào)科學(xué),2012:200-205.

[4]鄧雄(Johnny Deng)萬維網(wǎng)Web自動搜索引擎(技術(shù)報(bào)告)2006.12 http://www.csdn.net.

[5]搜索引擎的基本原理及數(shù)據(jù)結(jié)構(gòu)剖析http://hi.baidu.com/lewutian/blog/item/0e6074dd5f6e2fe476c63885.html.

The Discussion on the Application of Search Engine Technology to the Vocational High School Teaching

CHEN Lin

(Fujian Instiute of Information Technology,F(xiàn)uzhou,F(xiàn)ujian 350003)

This paper discusses the basic techniques of search engine and the rationality,effectiveness and feasibility of applying them to the vocational teaching.Issues such as how to apply them to course teaching eg.Data Structure is also explored.

search Engine;vocational Teaching;data Structure

G350;TP393

A

1674-2109(2012)01-0103-03

2012-02-25

陳琳(1963-),女,漢族,高講,主要研究方向:軟件技術(shù)。

猜你喜歡
爬蟲數(shù)據(jù)結(jié)構(gòu)分詞
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
數(shù)據(jù)結(jié)構(gòu)線上線下混合教學(xué)模式探討
分詞在英語教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
“翻轉(zhuǎn)課堂”教學(xué)模式的探討——以《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)為例
高職高專數(shù)據(jù)結(jié)構(gòu)教學(xué)改革探討