国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蒙古文網(wǎng)站搜集方法的研究

2014-07-02 00:26:00吳麗萍黃秋筱
無線互聯(lián)科技 2014年1期

吳麗萍 黃秋筱

摘 要:隨著科技的進步,互聯(lián)網(wǎng)已深入群眾,我國少數(shù)民族如蒙古族等也借助互聯(lián)網(wǎng)弘揚本民族文化,致力于實現(xiàn)民族語言文字信息數(shù)字化處理。蒙古文網(wǎng)站數(shù)量快速增多,能夠快速、全面、準確的獲取蒙古文網(wǎng)站信息,對蒙古文信息處理發(fā)揮重要作用。為實現(xiàn)快速、全面、準確的獲取蒙古文網(wǎng)站信息,利用元搜索引擎獲取包含蒙古文高頻語素的網(wǎng)頁URL,根據(jù)網(wǎng)頁文字編碼范圍判斷其是否屬于蒙古文網(wǎng)站,再利用各網(wǎng)站之間的鏈接獲取更多的蒙古文網(wǎng)站。

關(guān)鍵詞:蒙古文網(wǎng)站;元搜索;高頻語素;廣度優(yōu)先法

1 蒙古文網(wǎng)站現(xiàn)狀

Internet的飛速發(fā)展給整個社會帶來了一場意義深遠的信息革命,我國的互聯(lián)網(wǎng)技術(shù)也飛速發(fā)展,并在政治、經(jīng)濟、文化中發(fā)揮重要作用。但是由于我們國家地域遼闊,民族眾多,大部分民族擁有自己的語言文字,在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的大環(huán)境下,少數(shù)民族的語言文字信息數(shù)字化處理技術(shù)尚處于起步階段。近年來我國少數(shù)民族的網(wǎng)站數(shù)量在迅速增多,網(wǎng)絡(luò)資源日益漸增,蒙古文網(wǎng)站也如雨后春筍迅速增多,但是目前到底有多少蒙古文網(wǎng)絡(luò)資源,這些蒙古文網(wǎng)絡(luò)資源為大家提供什么服務(wù),哪些蒙古文網(wǎng)絡(luò)資源是蒙古族群眾關(guān)注的熱點,這些人們都還一無所知。欲回答這些問題,首要任務(wù)就是要知道有多少個蒙古文網(wǎng)站。雖然現(xiàn)在已經(jīng)有蒙古文網(wǎng)站大全,但這些大全的網(wǎng)站都是通過人為手動搜索出來的,由于工作量大、效率低,于是就不能夠及時更新網(wǎng)站數(shù)量及信息,從而導(dǎo)致出現(xiàn)搜集的蒙古文網(wǎng)站數(shù)量不全,網(wǎng)站信息錯誤等問題。人工搜集蒙古文網(wǎng)站的弊端百出,于是人們希望開發(fā)蒙古文搜索引擎。

2008年1月3日,內(nèi)蒙古首個蒙古文互聯(lián)網(wǎng)搜索引擎正式上線,這填補了蒙古文互聯(lián)網(wǎng)一直沒有搜索引擎的空白,但還存在許多缺陷,目前能搜集到的蒙古文網(wǎng)頁數(shù)量少之又少。獲得的蒙古文網(wǎng)站數(shù)量太少,原始資源不利于搜索引擎的發(fā)展。同時由于當前蒙古文編碼不統(tǒng)一,對搜索引擎的技術(shù)要求變得更高,短期內(nèi)無法做到像中英文搜索引擎那樣包羅萬象。為解決目前存在的這一系列問題并為開發(fā)更好的蒙古文搜索引擎做鋪墊,我們先致力于搜集到盡可能全的蒙古文網(wǎng)站。

2 蒙古文網(wǎng)站搜集方法

2.1 使用元搜索引擎搜索蒙古文網(wǎng)站

搜索蒙古文網(wǎng)站可以用網(wǎng)絡(luò)爬蟲進行,但這種方法需要昂貴的網(wǎng)絡(luò)設(shè)備和大量的時間。鑒于蒙古文網(wǎng)站的數(shù)量還不是很多,我們將采用元搜索引擎的方法,即應(yīng)用著名搜索引擎(如GOOGLE、BAIDU等)的搜索結(jié)果搜集蒙古文網(wǎng)站,進而達到節(jié)約成本、提高工作效率的目的。使用這種方法具體操作分為以下三部分:

⑴獲得可能的蒙古文網(wǎng)頁URL。因蒙古文是拼音文字,由形如 等的語素構(gòu)成,在GOOGLE、百度、360搜索等多個搜索引擎中輸入各種不同蒙古文編碼的高頻語素,各搜索引擎將返回包含該語素并有可能是蒙古文字的網(wǎng)頁。雖然蒙古文其各種編碼的高頻語素都一樣,但由于蒙古文編碼較多,一些搜索引擎只能搜到一種或幾種蒙古文編碼的蒙古文網(wǎng)頁,并無法搜集到涉及全部蒙古文編碼的網(wǎng)頁,例如在GOOGLE中只能搜索到unicode編碼的蒙古文網(wǎng)頁,而蒙科立、賽音、明安圖等其他蒙古文編碼的網(wǎng)頁則無法搜索;在360搜索引擎中可搜索到蒙科立、unicode、賽音、布日古德、明安圖等編碼的蒙古文網(wǎng)站。因此在多個搜索引擎中輸入不同編碼的蒙古文高頻語素,其返回結(jié)果互補,這樣可避免遺漏所需要搜集的蒙古文網(wǎng)站。

獲得返回的包含蒙古文高頻語素的網(wǎng)頁后,獲取其URL并對這些網(wǎng)頁的URL進行一步步拆分,將其分為域名、子域名、子目錄、頁面URL,完成這些工作后將拆分后的URL子塊以域名為鍵,其他部分為值的字典形式存儲在數(shù)據(jù)庫中。例如在360搜索中輸入“ ”,獲得一個網(wǎng)頁鏈接http://ijilmuren.blog.163.com/blog/static/35654254200943163320156,接著此鏈接可拆分為ijilmuren.blog.163.com/blog,ijilmuren.blog.163.com和163.com。當然這里拆分的時候需要注意部分頂級域名并不能區(qū)別各個網(wǎng)站,如mgwhw.com和talchir.com這類域名,如果拆分后仍以“.com”為鍵值,那么就會漏掉部分蒙古文網(wǎng)站或者有些多余的非蒙古文網(wǎng)站保存到數(shù)據(jù)庫中,導(dǎo)致結(jié)果不準確。因此對于“.edu”、“.cn”、“.com”等這類域名,域名拆分的鍵值就不應(yīng)該只保留頂級域名,而應(yīng)保留其二級域名或三級域名,如talchir.com。

⑵判斷獲取的URL是否為蒙古文網(wǎng)頁。在含有URL的數(shù)據(jù)庫中逐一提取已經(jīng)拆分好的域名、子域名、子目錄和頁面的URL,獲取相應(yīng)的頁面內(nèi)容,采用正則表達式的方法提取出頁面文本并判斷網(wǎng)頁文字是否為蒙古文,若是蒙古文則保留并存儲其對應(yīng)的URL,若不是則放棄該URL。

判斷頁面文本是否為蒙古文有兩種方法,第一種是判斷網(wǎng)頁文字編碼所屬范圍是否在蒙古文編碼范圍內(nèi),從而判斷其是否為蒙古文網(wǎng)頁。具體操作為:先判斷頁面中蒙古文范圍內(nèi)的編碼數(shù)與文本總編碼數(shù)的比值m,當m大于某個預(yù)先設(shè)定好的閾值A(chǔ)時,可認為該頁面文字屬于蒙古文,此時m值可作為判斷該頁面是蒙古文的可信度值。第二種是利用蒙古文高頻語素在蒙古文文本中出現(xiàn)的統(tǒng)計概率作為閾值,當頁面中該語素出現(xiàn)的概率大于等于其統(tǒng)計平均值后,可認為該頁面文字為蒙古文。但使用此方法時由于單個高頻語素的出現(xiàn)概率太小,把這個小概率當做閾值,實驗時可搜到的網(wǎng)頁很少,而且單個語素的編碼值還有可能是其他文字的編碼值,如漢字、英文的符號,這樣得出的蒙古文網(wǎng)站數(shù)量少且可信度不高,所以采用第一種方法更有效。

⑶獲取已得到的蒙古文網(wǎng)站的基本信息(如備案號、服務(wù)器所在地、可信度、在中文網(wǎng)頁中的排名等等)。

⑷完成蒙古文網(wǎng)站搜集,最后要做的是實現(xiàn)搜索機制與用戶的接口。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索軟件,高效率、多方式地從搜索軟件中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。

2 利用蒙古文網(wǎng)站之間的鏈接搜集并確定其他蒙古文網(wǎng)站地址(廣度優(yōu)先法)

廣度優(yōu)先搜集法(又稱寬度優(yōu)先搜索)是最簡便最常用的搜索算法之一,這個算法也是很多重要的圖的算法的Dijkstra單源最短路徑算法和prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。廣度優(yōu)先搜索基本算法為:⑴從某個頂點出發(fā)開始訪問,被訪問的頂點作相應(yīng)的標記,并輸出訪問頂點號;⑵從被訪問的頂點出發(fā),依次搜索與該頂點有邊的關(guān)聯(lián)的所有未被訪問的鄰接點,并做相應(yīng)的標記;⑶再依次根據(jù)⑵中所有被訪問的鄰接點,訪問與這些鄰接點相關(guān)的所有未被訪問的鄰接點,直到所有頂點被訪問為止。

廣度優(yōu)先法是沿著樹的寬度遍歷樹的節(jié)點,如果發(fā)現(xiàn)目標,則算法中止。該算法的設(shè)計和實現(xiàn)相對簡單,屬于盲目搜索。在目前為覆蓋盡可能多的網(wǎng)站,一般使用廣度優(yōu)先搜索方法,也有很多研究將廣度優(yōu)先搜索策略應(yīng)用與垂直搜索中,其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)站具有主題相關(guān)的概率很大。

3 結(jié)束語

以前由于蒙古文編碼不統(tǒng)一,使得蒙古文搜索引擎只能搜到很少的蒙古文網(wǎng)頁,存在很大缺陷,對人們利用網(wǎng)絡(luò)獲取蒙古文資料造成極大的不便。雖然有蒙古文網(wǎng)站大全,但由于這些是人為手動搜集的蒙古文網(wǎng)站,也存在蒙古文網(wǎng)站基本信息更新速度慢,獲得蒙古文網(wǎng)站不全的問題。而搜集蒙古文網(wǎng)站的程序可以快速準確獲得蒙古文網(wǎng)站及其基本信息,如備案號、服務(wù)器所在地、中文排名、世界排名、是否可訪問等,解決了獲取蒙古文網(wǎng)站數(shù)量不全、網(wǎng)站信息更新慢的問題。

此外,快速獲得齊全的蒙古文網(wǎng)站,利于人們更好的了解蒙古文網(wǎng)站和及其相關(guān)內(nèi)容,便于國家相關(guān)部門有效合理地管理和發(fā)展少數(shù)民族網(wǎng)站,進行少數(shù)民族語言信息處理,也為開發(fā)更好的蒙古文搜索引擎做好鋪墊。所以搜集蒙古文網(wǎng)站于國家,于蒙古人民都是很有必要的一項工作。

[參考文獻]

[1]確精扎布.關(guān)于蒙古文編碼的若干問題——與王升亮、嘎日迪、敖其爾先生商榷[J].內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2008,40(4):27-33.

[2]郭琰.元搜索引擎的關(guān)鍵技術(shù)研究及系統(tǒng)實現(xiàn)[D].南京理工大學(xué):南京理工大學(xué),2002.

[3]范道爾吉.蒙古文信息處理系統(tǒng)基礎(chǔ)研究[D].內(nèi)蒙古大學(xué),2006.

[4]張芳.基于專業(yè)搜索引擎的元搜索引擎的研究與實現(xiàn)[D].華中科技大學(xué):華中科技大學(xué),2009.

[5]白云莉.蒙古文信息處理平臺-蒙古文、錫伯文和滿文的文字輸入法的研究[D].內(nèi)蒙古大學(xué),2003.

福州市| 鄂尔多斯市| 伊吾县| 凤翔县| 临夏市| 章丘市| 右玉县| 海口市| 迁安市| 怀集县| 南京市| 光泽县| 昭平县| 合作市| 霍林郭勒市| 沅江市| 丰顺县| 聂荣县| 万州区| 郑州市| 安吉县| 高淳县| 沈阳市| 曲阳县| 卓尼县| 前郭尔| 海丰县| 维西| 休宁县| 玛曲县| 炎陵县| 洛浦县| 宿松县| 沂水县| 邯郸市| 社旗县| 务川| 额济纳旗| 牙克石市| 洮南市| 辉南县|