国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校畢業(yè)生就業(yè)信息搜索引擎的設(shè)計與實現(xiàn)

2013-12-29 00:00:00阮昆
電腦知識與技術(shù) 2013年13期

摘要:由于高校行政管理體制分割以及高校的保護主義,各高校信息網(wǎng)的就業(yè)信息基本是分立甚至是隔絕的,鮮有院校相互合作、共享就業(yè)信息。為把這些存儲高校畢業(yè)生就業(yè)信息的信息孤島連接在一起,給廣大畢業(yè)生和用人單位搭建一個暢通的無障礙的溝通橋梁,筆者研究并實現(xiàn)了一個高校畢業(yè)生就業(yè)信息搜索引擎系統(tǒng),闡述了就業(yè)信息采集器的算法及原理,利用多線程技術(shù)實現(xiàn)了就業(yè)信息采集器;建立了中文分詞、索引算法,對命中的詞語進行了高亮顯示。

關(guān)鍵詞:就業(yè)信息采集;搜索引擎;中文分詞;索引算法; Lucene.Net

中圖分類號: TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2013)13-3081-03

1 概述

1998年以后隨著高校擴招,高校畢業(yè)生急劇增加,畢業(yè)生的就業(yè)形勢顯得一年比一年嚴(yán)峻,2013年的畢業(yè)生人數(shù)達到690萬。面對如此嚴(yán)峻的就業(yè)形勢,畢業(yè)生及時有效的獲取就業(yè)信息成為畢業(yè)生就業(yè)過程中最為關(guān)鍵的一環(huán),因此畢業(yè)生就業(yè)信息的收集工作成為了高校就業(yè)指導(dǎo)工作的重要組成部分,只有讓畢業(yè)生及時、準(zhǔn)確、全面地掌握就業(yè)相關(guān)信息,才能使畢業(yè)生獲得更多的求職機會,高校的就業(yè)指導(dǎo)工作才能更好的發(fā)揮作用。

四川大學(xué)呂婷同學(xué)在《論我國大學(xué)生就業(yè)體系的構(gòu)建》的統(tǒng)計數(shù)據(jù)中顯示,大學(xué)生在就業(yè)過程中獲取就業(yè)信息的最主要渠道是校園招聘會,占23.2%,其次就是學(xué)校的就業(yè)公告欄,占20.2%,兩者合計達到了43.4%, 再次為通過其他網(wǎng)絡(luò)獲取就業(yè)信息,達到16.3%,而政府招聘會、報紙、人才市場和親戚朋友等就業(yè)信息渠道都在9%左右,[1]可見大學(xué)生在就業(yè)過程中更依賴從高校的就業(yè)信息渠道獲取就業(yè)信息。

由于高校行政管理體制分割以及高校的保護主義,各高校畢業(yè)生就業(yè)信息網(wǎng)上提供的就業(yè)信息基本是分立甚至是隔絕的,鮮有院校相互合作、共享就業(yè)信息。這種高校高度自治的就業(yè)信息網(wǎng)站建設(shè)局面形成了數(shù)量龐大的信息孤島。這樣的信息孤島看似保護了本校畢業(yè)生得利益,實際上也給畢業(yè)生的就業(yè)信息獲取帶來了諸多困難,因此建立高校畢業(yè)生就業(yè)信息搜索引擎為畢業(yè)生提供豐富的、及時的、有針對性的就業(yè)信息成為需要我們解決的一個課題。

2 垂直搜索引擎概述

垂直搜索的本質(zhì)是對垂直門戶信息提供方式的一次簡化性的整合。它服務(wù)于某項功能的。而垂直搜索引擎是為垂直搜索服務(wù),對網(wǎng)頁中某類信息進行一次簡化性的整合,通過關(guān)鍵詞抽取出有用的數(shù)據(jù)進行處理,然后再返回給用戶。

垂直搜索引擎的優(yōu)點[2]:

1)穩(wěn)定的用戶群體

垂直搜索引擎為用戶提供的并不是上百甚至上千萬相關(guān)網(wǎng)頁,而是范圍極為縮小、極具針對性的具體信息。因此,特定行業(yè)的用戶更加青睞垂直搜索引擎,是垂直搜索引擎的長期、穩(wěn)定的群體。

2)搜索結(jié)果精確,查準(zhǔn)率高

用戶使用Google等通用搜索引擎的方式是通過關(guān)鍵詞的方式實現(xiàn)的,是語義上的搜索,返回的結(jié)果傾向于知識成果,比如文章,論文,新聞等;垂直搜索也提供關(guān)鍵詞來進行搜索,但被放到了這一行業(yè)知識的上下文中,返回的結(jié)果更傾向于信息、消息、條目等。

3 Lucene.Net簡介

筆者通過C#結(jié)合Lucene.net建立一個針對高校畢業(yè)生就業(yè)信息的搜索引擎,能夠?qū)Ω咝.厴I(yè)生就業(yè)信息網(wǎng)的信息進行采集、下載、分析、實現(xiàn)中文分詞并建立索引,最后采用網(wǎng)頁的形式為用戶提供就業(yè)信息的檢索。

搜索引擎各部分的主要功能描述如下:

1)采集站點管理

該模塊用于管理垂直搜索引擎抓取的數(shù)據(jù)來源,即用于管理垂直搜索引擎需要采集的就業(yè)信息站點。為滿足各種不同類型的高校對于就業(yè)信息的不同需求,系統(tǒng)允許高校根據(jù)自身的地域、專業(yè)特色、行業(yè)特性設(shè)置符合自身需求的就業(yè)信息網(wǎng)的網(wǎng)址信息,例如對同城高校和同行業(yè)高校的就業(yè)信息網(wǎng)進行采集,也可以讓學(xué)生用戶向服務(wù)器提供建議網(wǎng)站,通過這樣的功能既提高了搜索引擎的專業(yè)性,也使得數(shù)據(jù)庫中增加了很多學(xué)生認(rèn)為對自己很有用的信息。

2)高校畢業(yè)生就業(yè)信息采集器

就業(yè)信息采集器是C#多線程技術(shù)實現(xiàn)的一個就業(yè)信息采集機器人,該機器人通過采集站點管理模塊提供的目標(biāo)站點目錄作為入口,對目標(biāo)采集站點中的就業(yè)信息進行采集,并將采集到的就業(yè)信息進行去HTML標(biāo)簽后存儲到數(shù)據(jù)庫,同時將網(wǎng)頁保存至服務(wù)器作為后期網(wǎng)站快照的依據(jù)。

3)中文分詞器

眾所周知,英文是以詞為單位的,詞和詞之間依靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學(xué)生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。該功能模塊把采集到的就業(yè)信息切分成有意義的詞,中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。

4)索引器

索引庫的建立關(guān)系到用戶能否最迅速地找到最準(zhǔn)確、最廣泛的就業(yè)信息。索引器通過掃采集器采集的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶。

5)用戶查檢索功能

該功能通過友好的查詢界面,為用戶提供高校畢業(yè)生就業(yè)信息的垂直搜索,并輸出搜索的結(jié)果。

5 高校畢業(yè)生就業(yè)信息搜索引擎的關(guān)鍵技術(shù)

5.1就業(yè)信息采集器的實現(xiàn)的關(guān)鍵技術(shù)

筆者通過利用c#多線程技術(shù)實現(xiàn)就業(yè)信息采集器,采集數(shù)據(jù)時使用“從嚴(yán)采集”策略,即對當(dāng)前采集頁面進行分析和判斷,僅采集主機地址或IP地址屬于采集目標(biāo)站點的就業(yè)信息,超出目標(biāo)站點的信息進行忽略,這種從“嚴(yán)抓采集”的策略有效的限定了采集的范圍,提高了就業(yè)信息采集的準(zhǔn)確性和采集效率,節(jié)約了服務(wù)器的存儲空間。從嚴(yán)抓取策略的關(guān)鍵代碼如下:

5.2中文分詞器實現(xiàn)的關(guān)鍵技術(shù)

在Lucene.Net中,分詞是核心庫之一, 目前Lucene.Net的內(nèi)置的分詞庫很不完善,實際應(yīng)用價值不高,如果只使用拉丁語系,那么使用內(nèi)置的分詞可能足夠了,但是對于中文分詞肯定是不行的,因此我們必須構(gòu)造自己的分詞方法ChineseAnalyzer。

分詞器中具體的分詞程序需要通過在Next()方法來實現(xiàn)。在Next()方法中的words是采用正向最大匹配算法或逆向最大匹配算法分詞后的一個詞列表,通Next()方法將輸入的文本分割成一個個Token。 關(guān)于正向最大匹配算法或逆向最大匹配算法分詞筆者不再贅述。

5.3索引器實現(xiàn)的關(guān)鍵技術(shù)

在Lucene.Net中IndexWriter類是索引中負(fù)責(zé)操作的核心,它負(fù)責(zé)把索引文件寫入存儲介質(zhì),是控制邏輯存儲轉(zhuǎn)換為物理存儲的紐帶。Document類是一條虛擬記錄,可以理解為數(shù)據(jù)里的一行,它一般記錄了需要用到的一個文檔的屬性。Field類就是數(shù)據(jù)庫里的一列。一個文檔有標(biāo)題,內(nèi)容,招聘時間,招聘地點這四個屬性的話,那么就需要四個Field保存這些屬性,然后把四個Field加入到Document中,就有了一行記錄。

5.4用戶查詢檢索功能實現(xiàn)的關(guān)鍵技術(shù)

Web應(yīng)用相對于Winform應(yīng)用來講,Web應(yīng)用具更加有完善的布局能力,包括能夠基于文本流進行布局,包括各種段落、圖片,段落中文字的左中右對齊,段首的縮進,行間距,避頭尾字符用戶的查詢功能

筆者在具體實現(xiàn)中使用Lucene.Net的IndexSearcher、Query、QueryParse、Hits4個搜索核心類和Lucene.Net.Highlight類實現(xiàn)搜索功能。

6 系統(tǒng)的界面實現(xiàn)

7 結(jié)論

筆者研究了垂直搜索引擎的主要原理和技術(shù),通過使用C#多線程技術(shù)及Lucene.Net開源項目設(shè)計并實現(xiàn)了一個高校畢業(yè)生就業(yè)信息搜索引擎系統(tǒng),并在系統(tǒng)中重點研究了就業(yè)信息的采集和中文分詞、索引、檢索等關(guān)鍵技術(shù)。隨著高校畢業(yè)生就業(yè)形勢日趨嚴(yán)峻,高校畢業(yè)生就業(yè)信息搜索引擎在實際運用中將高校畢業(yè)生就業(yè)信息的信息孤島連接在一起,為廣大畢業(yè)生和用人單位搭建一個暢通的無障礙的溝通橋梁,間接實現(xiàn)了就業(yè)信息共享,提高了高校就業(yè)工作的效率、保證了就業(yè)信息提供的及時性和針對性,在高校就業(yè)信息化建設(shè)中具有十分重要的意義。

參考文獻:

[1] 侯月娥. 論高校畢業(yè)生與用人單位之間就業(yè)信息的不對稱[J].太原大學(xué)教育學(xué)院學(xué)報, 2009(27)(增刊):126-127.

[2] 百度百科[EB/OL].http://baike.baidu.com/view/7491.htm.

[3] 百度百科[EB/OL].http://baike.baidu.com/view/5049915.htm.

[4] 邱哲,符滔滔.開發(fā)自己的搜索引擎[M].北京:人民郵電出版社,2007.

[5] 李志更,唐志敏.國外基于電子政務(wù)的公共就業(yè)服務(wù)的實踐與啟示[J]. 電子政務(wù),2010(5):3-10.

[6] 肖甦.淺談俄羅斯高校畢業(yè)生就業(yè)的管理系統(tǒng).[J].外國教育研究,2007,34(7):69-71.

[7] 高金勇,馮奕兢.基JSP與lucene的學(xué)前教育資源檢索系統(tǒng)的設(shè)計與實現(xiàn).[J]硅谷,2012(10):161-162.

[8] 趙喜樂,陳光.垂直搜索引擎的抓取系統(tǒng)—基于網(wǎng)絡(luò)蜘蛛技術(shù)[J]. 電腦知識與技術(shù),2009,5(19):136-137.

[9] 王琦,張戈.何婧基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J].計算機時代,2010(12):12-14.

贵州省| 新巴尔虎右旗| 汾西县| 渑池县| 马鞍山市| 德兴市| 井陉县| 长岛县| 四川省| 峨山| 射阳县| 周宁县| 绥宁县| 东兰县| 德庆县| 登封市| 孟津县| 句容市| 肇州县| 北辰区| 昭通市| 罗江县| 台前县| 上饶县| 大连市| 大同县| 石林| 扶沟县| 榆中县| 抚远县| 天水市| 永州市| 清涧县| 普兰店市| 外汇| 博客| 卓资县| 湖北省| 安庆市| 新民市| 尚义县|