蒙古文網(wǎng)站搜集方法的研究

2014-07-02 00:26:00吳麗萍黃秋筱

無線互聯(lián)科技 2014年1期

吳麗萍　黃秋筱

摘要：隨著科技的進步，互聯(lián)網(wǎng)已深入群眾，我國少數(shù)民族如蒙古族等也借助互聯(lián)網(wǎng)弘揚本民族文化，致力于實現(xiàn)民族語言文字信息數(shù)字化處理。蒙古文網(wǎng)站數(shù)量快速增多，能夠快速、全面、準確的獲取蒙古文網(wǎng)站信息，對蒙古文信息處理發(fā)揮重要作用。為實現(xiàn)快速、全面、準確的獲取蒙古文網(wǎng)站信息，利用元搜索引擎獲取包含蒙古文高頻語素的網(wǎng)頁URL，根據(jù)網(wǎng)頁文字編碼范圍判斷其是否屬于蒙古文網(wǎng)站，再利用各網(wǎng)站之間的鏈接獲取更多的蒙古文網(wǎng)站。

關(guān)鍵詞：蒙古文網(wǎng)站；元搜索；高頻語素；廣度優(yōu)先法

1 蒙古文網(wǎng)站現(xiàn)狀

Internet的飛速發(fā)展給整個社會帶來了一場意義深遠的信息革命，我國的互聯(lián)網(wǎng)技術(shù)也飛速發(fā)展，并在政治、經(jīng)濟、文化中發(fā)揮重要作用。但是由于我們國家地域遼闊，民族眾多，大部分民族擁有自己的語言文字，在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的大環(huán)境下，少數(shù)民族的語言文字信息數(shù)字化處理技術(shù)尚處于起步階段。近年來我國少數(shù)民族的網(wǎng)站數(shù)量在迅速增多，網(wǎng)絡(luò)資源日益漸增，蒙古文網(wǎng)站也如雨后春筍迅速增多，但是目前到底有多少蒙古文網(wǎng)絡(luò)資源，這些蒙古文網(wǎng)絡(luò)資源為大家提供什么服務(wù)，哪些蒙古文網(wǎng)絡(luò)資源是蒙古族群眾關(guān)注的熱點，這些人們都還一無所知。欲回答這些問題，首要任務(wù)就是要知道有多少個蒙古文網(wǎng)站。雖然現(xiàn)在已經(jīng)有蒙古文網(wǎng)站大全，但這些大全的網(wǎng)站都是通過人為手動搜索出來的，由于工作量大、效率低，于是就不能夠及時更新網(wǎng)站數(shù)量及信息，從而導(dǎo)致出現(xiàn)搜集的蒙古文網(wǎng)站數(shù)量不全，網(wǎng)站信息錯誤等問題。人工搜集蒙古文網(wǎng)站的弊端百出，于是人們希望開發(fā)蒙古文搜索引擎。

2008年1月3日，內(nèi)蒙古首個蒙古文互聯(lián)網(wǎng)搜索引擎正式上線，這填補了蒙古文互聯(lián)網(wǎng)一直沒有搜索引擎的空白，但還存在許多缺陷，目前能搜集到的蒙古文網(wǎng)頁數(shù)量少之又少。獲得的蒙古文網(wǎng)站數(shù)量太少，原始資源不利于搜索引擎的發(fā)展。同時由于當前蒙古文編碼不統(tǒng)一，對搜索引擎的技術(shù)要求變得更高，短期內(nèi)無法做到像中英文搜索引擎那樣包羅萬象。為解決目前存在的這一系列問題并為開發(fā)更好的蒙古文搜索引擎做鋪墊，我們先致力于搜集到盡可能全的蒙古文網(wǎng)站。

2 蒙古文網(wǎng)站搜集方法

2.1 使用元搜索引擎搜索蒙古文網(wǎng)站

搜索蒙古文網(wǎng)站可以用網(wǎng)絡(luò)爬蟲進行，但這種方法需要昂貴的網(wǎng)絡(luò)設(shè)備和大量的時間。鑒于蒙古文網(wǎng)站的數(shù)量還不是很多，我們將采用元搜索引擎的方法，即應(yīng)用著名搜索引擎（如GOOGLE、BAIDU等）的搜索結(jié)果搜集蒙古文網(wǎng)站，進而達到節(jié)約成本、提高工作效率的目的。使用這種方法具體操作分為以下三部分：

⑴獲得可能的蒙古文網(wǎng)頁URL。因蒙古文是拼音文字，由形如等的語素構(gòu)成，在GOOGLE、百度、360搜索等多個搜索引擎中輸入各種不同蒙古文編碼的高頻語素，各搜索引擎將返回包含該語素并有可能是蒙古文字的網(wǎng)頁。雖然蒙古文其各種編碼的高頻語素都一樣，但由于蒙古文編碼較多，一些搜索引擎只能搜到一種或幾種蒙古文編碼的蒙古文網(wǎng)頁，并無法搜集到涉及全部蒙古文編碼的網(wǎng)頁，例如在GOOGLE中只能搜索到unicode編碼的蒙古文網(wǎng)頁，而蒙科立、賽音、明安圖等其他蒙古文編碼的網(wǎng)頁則無法搜索；在360搜索引擎中可搜索到蒙科立、unicode、賽音、布日古德、明安圖等編碼的蒙古文網(wǎng)站。因此在多個搜索引擎中輸入不同編碼的蒙古文高頻語素，其返回結(jié)果互補，這樣可避免遺漏所需要搜集的蒙古文網(wǎng)站。

獲得返回的包含蒙古文高頻語素的網(wǎng)頁后，獲取其URL并對這些網(wǎng)頁的URL進行一步步拆分，將其分為域名、子域名、子目錄、頁面URL，完成這些工作后將拆分后的URL子塊以域名為鍵，其他部分為值的字典形式存儲在數(shù)據(jù)庫中。例如在360搜索中輸入“ ”，獲得一個網(wǎng)頁鏈接http：//ijilmuren.blog.163.com/blog/static/35654254200943163320156，接著此鏈接可拆分為ijilmuren.blog.163.com/blog，ijilmuren.blog.163.com和163.com。當然這里拆分的時候需要注意部分頂級域名并不能區(qū)別各個網(wǎng)站，如mgwhw.com和talchir.com這類域名，如果拆分后仍以“.com”為鍵值，那么就會漏掉部分蒙古文網(wǎng)站或者有些多余的非蒙古文網(wǎng)站保存到數(shù)據(jù)庫中，導(dǎo)致結(jié)果不準確。因此對于“.edu”、“.cn”、“.com”等這類域名，域名拆分的鍵值就不應(yīng)該只保留頂級域名，而應(yīng)保留其二級域名或三級域名，如talchir.com。

⑵判斷獲取的URL是否為蒙古文網(wǎng)頁。在含有URL的數(shù)據(jù)庫中逐一提取已經(jīng)拆分好的域名、子域名、子目錄和頁面的URL，獲取相應(yīng)的頁面內(nèi)容，采用正則表達式的方法提取出頁面文本并判斷網(wǎng)頁文字是否為蒙古文，若是蒙古文則保留并存儲其對應(yīng)的URL，若不是則放棄該URL。

判斷頁面文本是否為蒙古文有兩種方法，第一種是判斷網(wǎng)頁文字編碼所屬范圍是否在蒙古文編碼范圍內(nèi)，從而判斷其是否為蒙古文網(wǎng)頁。具體操作為：先判斷頁面中蒙古文范圍內(nèi)的編碼數(shù)與文本總編碼數(shù)的比值m，當m大于某個預(yù)先設(shè)定好的閾值A(chǔ)時，可認為該頁面文字屬于蒙古文，此時m值可作為判斷該頁面是蒙古文的可信度值。第二種是利用蒙古文高頻語素在蒙古文文本中出現(xiàn)的統(tǒng)計概率作為閾值，當頁面中該語素出現(xiàn)的概率大于等于其統(tǒng)計平均值后，可認為該頁面文字為蒙古文。但使用此方法時由于單個高頻語素的出現(xiàn)概率太小，把這個小概率當做閾值，實驗時可搜到的網(wǎng)頁很少，而且單個語素的編碼值還有可能是其他文字的編碼值，如漢字、英文的符號，這樣得出的蒙古文網(wǎng)站數(shù)量少且可信度不高，所以采用第一種方法更有效。

⑶獲取已得到的蒙古文網(wǎng)站的基本信息（如備案號、服務(wù)器所在地、可信度、在中文網(wǎng)頁中的排名等等）。

⑷完成蒙古文網(wǎng)站搜集，最后要做的是實現(xiàn)搜索機制與用戶的接口。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索軟件，高效率、多方式地從搜索軟件中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法，以充分適應(yīng)人類的思維習(xí)慣。

2 利用蒙古文網(wǎng)站之間的鏈接搜集并確定其他蒙古文網(wǎng)站地址（廣度優(yōu)先法）

廣度優(yōu)先搜集法（又稱寬度優(yōu)先搜索）是最簡便最常用的搜索算法之一，這個算法也是很多重要的圖的算法的Dijkstra單源最短路徑算法和prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。廣度優(yōu)先搜索基本算法為：⑴從某個頂點出發(fā)開始訪問，被訪問的頂點作相應(yīng)的標記，并輸出訪問頂點號；⑵從被訪問的頂點出發(fā)，依次搜索與該頂點有邊的關(guān)聯(lián)的所有未被訪問的鄰接點，并做相應(yīng)的標記；⑶再依次根據(jù)⑵中所有被訪問的鄰接點，訪問與這些鄰接點相關(guān)的所有未被訪問的鄰接點，直到所有頂點被訪問為止。

廣度優(yōu)先法是沿著樹的寬度遍歷樹的節(jié)點，如果發(fā)現(xiàn)目標，則算法中止。該算法的設(shè)計和實現(xiàn)相對簡單，屬于盲目搜索。在目前為覆蓋盡可能多的網(wǎng)站，一般使用廣度優(yōu)先搜索方法，也有很多研究將廣度優(yōu)先搜索策略應(yīng)用與垂直搜索中，其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)站具有主題相關(guān)的概率很大。

3 結(jié)束語

以前由于蒙古文編碼不統(tǒng)一，使得蒙古文搜索引擎只能搜到很少的蒙古文網(wǎng)頁，存在很大缺陷，對人們利用網(wǎng)絡(luò)獲取蒙古文資料造成極大的不便。雖然有蒙古文網(wǎng)站大全，但由于這些是人為手動搜集的蒙古文網(wǎng)站，也存在蒙古文網(wǎng)站基本信息更新速度慢，獲得蒙古文網(wǎng)站不全的問題。而搜集蒙古文網(wǎng)站的程序可以快速準確獲得蒙古文網(wǎng)站及其基本信息，如備案號、服務(wù)器所在地、中文排名、世界排名、是否可訪問等，解決了獲取蒙古文網(wǎng)站數(shù)量不全、網(wǎng)站信息更新慢的問題。

此外，快速獲得齊全的蒙古文網(wǎng)站，利于人們更好的了解蒙古文網(wǎng)站和及其相關(guān)內(nèi)容，便于國家相關(guān)部門有效合理地管理和發(fā)展少數(shù)民族網(wǎng)站，進行少數(shù)民族語言信息處理，也為開發(fā)更好的蒙古文搜索引擎做好鋪墊。所以搜集蒙古文網(wǎng)站于國家，于蒙古人民都是很有必要的一項工作。

[參考文獻]

[1]確精扎布.關(guān)于蒙古文編碼的若干問題——與王升亮、嘎日迪、敖其爾先生商榷[J].內(nèi)蒙古大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2008，40（4）：27-33.

[2]郭琰.元搜索引擎的關(guān)鍵技術(shù)研究及系統(tǒng)實現(xiàn)[D].南京理工大學(xué)：南京理工大學(xué)，2002.

[3]范道爾吉.蒙古文信息處理系統(tǒng)基礎(chǔ)研究[D].內(nèi)蒙古大學(xué)，2006.

[4]張芳.基于專業(yè)搜索引擎的元搜索引擎的研究與實現(xiàn)[D].華中科技大學(xué)：華中科技大學(xué)，2009.

[5]白云莉.蒙古文信息處理平臺-蒙古文、錫伯文和滿文的文字輸入法的研究[D].內(nèi)蒙古大學(xué)，2003.

無線互聯(lián)科技2014年1期

無線互聯(lián)科技的其它文章: 淺議二手車鑒定評估師; 武漢市建設(shè)區(qū)域金融中心的可行性及其措施分析; 淺談我國交通運輸?shù)陌l(fā)展及趨勢; 智能井井下閥門開度檢測方法; 淺談汽車保險與理賠; 帶約束凸規(guī)劃的算法及收斂性分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

蒙古文網(wǎng)站搜集方法的研究