胥桂仙,向春丞,翁 彧,趙小兵,楊國(guó)勝
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081; 2. 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言分中心,北京 100081)
在一個(gè)多民族的國(guó)度,保護(hù)少數(shù)民族文化遺產(chǎn)是我們每個(gè)人的責(zé)任。自上世紀(jì)80年代開(kāi)始,藏文走入了信息化時(shí)代。20多年來(lái),我國(guó)的民族語(yǔ)言文字及現(xiàn)代科技工作者在藏文計(jì)算機(jī)信息處理方面做了大量的工作。才讓加等人對(duì)藏文語(yǔ)料進(jìn)行分詞標(biāo)注[1]并利用詞性特征建立分類語(yǔ)料庫(kù)[2],賈會(huì)強(qiáng)等人提出了基于規(guī)則的藏文文本分類方法[3]。藏文網(wǎng)頁(yè)文本分類不僅對(duì)于幫助人們快速、準(zhǔn)確獲取所需信息及構(gòu)建藏文語(yǔ)料庫(kù)具有積極的意義,而且對(duì)于推動(dòng)和發(fā)展藏文信息檢索技術(shù),保護(hù)少數(shù)民族語(yǔ)言文化也有重要作用。
文本分類的技術(shù)有很多。文獻(xiàn)[4]中設(shè)計(jì)了一種基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的混合分類器系統(tǒng),它需要一定規(guī)模的高質(zhì)量語(yǔ)料庫(kù)作為訓(xùn)練集。文獻(xiàn)[5]提出了一種基于統(tǒng)計(jì)的二元分詞文本分類方法,文獻(xiàn)[6]中利用粗糙集優(yōu)越的約簡(jiǎn)理論對(duì)文本進(jìn)行了分類,它們都需要借助分詞器對(duì)文本進(jìn)行分詞。由于藏文訓(xùn)練語(yǔ)料的收集需要大量人力、物力、財(cái)力,短期內(nèi)不能完成,所以無(wú)法采用基于統(tǒng)計(jì)的文本分類算法,如:K近鄰法(KNN)、決策樹(shù)、支持向量機(jī)(SVM)[7]等經(jīng)典分類方法。同時(shí),基于規(guī)則的文本分類方法需要建設(shè)科學(xué)的、全面的藏文主題詞表,其工作量大,分類時(shí)人工干預(yù)的成分多。
為此,本文提出了一種簡(jiǎn)單、快速且準(zhǔn)確率理想的藏文網(wǎng)頁(yè)文本分類方法,該方法不需要事先對(duì)抽取的藏文網(wǎng)頁(yè)文本進(jìn)行分詞等復(fù)雜操作,而是結(jié)合現(xiàn)有的網(wǎng)頁(yè)文本提取技術(shù),利用正則表達(dá)式提取網(wǎng)頁(yè)日期、網(wǎng)頁(yè)欄目,并建立基于網(wǎng)頁(yè)欄目詞條的類別特征詞表來(lái)對(duì)藏文網(wǎng)頁(yè)文本進(jìn)行分類。
我們構(gòu)建了人文與社會(huì)科學(xué)類、自然科學(xué)類兩個(gè)大類,前者包括政治類、法律類、歷史類、社會(huì)類、經(jīng)濟(jì)類、藝術(shù)類、文學(xué)類、軍事類、體育類、生活類、宗教類、文化宣傳類12個(gè)類別,后者包括數(shù)理類、生化類、環(huán)境類、農(nóng)林類、醫(yī)藥衛(wèi)生類5個(gè)類別。類別命名參照了《國(guó)務(wù)院公文主題詞表》的第一層主題詞,類別的特征詞則來(lái)源于待分類網(wǎng)站的網(wǎng)頁(yè)欄目詞條。由于一個(gè)網(wǎng)站符合要求的欄目詞條是有限的,因此可以快速、準(zhǔn)確地采集類別特征詞,建立類別特征詞表。例如有譯成中文后的藏文欄目詞組:“首頁(yè)—>專欄—>格爾薩傳”,那么僅可將詞條“格爾薩傳”加入預(yù)定義的“文學(xué)類”一類中。
為了實(shí)現(xiàn)類別特征詞表能被快速順序查找和動(dòng)態(tài)擴(kuò)充的功能,我們采用鏈表數(shù)組的方式來(lái)存儲(chǔ)類別特征詞表。定義用Tn來(lái)表示類別名稱,其中n表示類別個(gè)數(shù);tk表示其中的特征詞,其中k表示該類別中的第幾個(gè)特征詞。那么類別特征詞表的存儲(chǔ)結(jié)構(gòu)如圖1所示。
圖1 類別特征詞表存儲(chǔ)結(jié)構(gòu)圖
類別T1及其特征詞用一個(gè)鏈表來(lái)存儲(chǔ),該類別擴(kuò)充的特征詞加入鏈尾;n個(gè)類別鏈表由一個(gè)大小為n的數(shù)組管理。這樣建立和存儲(chǔ)的類別特征詞表,可以保證隨機(jī)順序匹配速度快,特征詞可以動(dòng)態(tài)擴(kuò)充,其個(gè)數(shù)及長(zhǎng)度不限。
2.2.1 提取藏文網(wǎng)頁(yè)正文發(fā)表日期
提取藏文網(wǎng)頁(yè)正文發(fā)表日期以對(duì)該網(wǎng)頁(yè)文本命名,對(duì)后期分類語(yǔ)料的使用和處理很有意義,如我們可能會(huì)要求按類別和時(shí)間對(duì)藏文文本語(yǔ)料庫(kù)進(jìn)行檢索。
藏文網(wǎng)頁(yè)文件的日期通常有如下兩種格式:
(1)
(2)
當(dāng)然,某些網(wǎng)站的網(wǎng)頁(yè)日期信息不在
(1)
(2) \d{4}(.{10,13})\d{2}(.{5,8})\d{2}
上述提取日期的正則表達(dá)式可合并為:(\d{4}-\d{2}-\d{2})|(\d{4}(.{10,13}) \d{2}(.{5,8})\d{2})
2.2.2 提取藏文網(wǎng)頁(yè)文本內(nèi)容
藏文網(wǎng)頁(yè)主題內(nèi)容的抽取可以借鑒國(guó)內(nèi)外研究較多的一些方法,如基于混合特征的網(wǎng)頁(yè)主題提取方法[8],依靠統(tǒng)計(jì)信息抽取網(wǎng)頁(yè)正文[9], 利用HTML與文本的密度比進(jìn)行文本識(shí)別與抽取[10],利用DOM樹(shù)進(jìn)行Web信息抽取等技術(shù)。本文利用了網(wǎng)頁(yè)分塊的信息提取方法[11],并結(jié)合正則表達(dá)式來(lái)抽取藏文網(wǎng)頁(yè)文本內(nèi)容。
2.2.3 提取網(wǎng)頁(yè)欄目信息
對(duì)于含有欄目信息的藏文網(wǎng)頁(yè),系統(tǒng)采用正則表達(dá)式提取,下面以中國(guó)藏族網(wǎng)通網(wǎng)站為例,如有網(wǎng)頁(yè)文檔片段:
用于提取欄目信息的正則表達(dá)式為:
(1) “”;
(2) “>(\W+)<”;
在提取時(shí)網(wǎng)頁(yè)時(shí)間、網(wǎng)頁(yè)正文文本及網(wǎng)頁(yè)欄目后,我們將網(wǎng)頁(yè)欄目按鏈接級(jí)數(shù)拆分為多級(jí)詞條。基于欄目的網(wǎng)頁(yè)分類算法流程圖如圖2所示。
圖2 藏文網(wǎng)頁(yè)文本分類流程圖
獲取文本類別算法程序描述如下:
//將用“>>”連接的網(wǎng)頁(yè)欄目詞組進(jìn)行拆分
eachColumn = fileColumn.split(">>");
//計(jì)算欄目詞條個(gè)數(shù)
columnLength = eachColumn.length();
//對(duì)詞條進(jìn)行分級(jí)匹配
for i=0 to columnLength
//調(diào)用詞條在類別詞表中的匹配函數(shù)
resultCategory = match(eachColumn[i]);
if resultCategory == null
then
繼續(xù)匹配;
else 返回類別名稱;
我們將丟棄不能提取出日期、正文及欄目的網(wǎng)頁(yè),并對(duì)能提取這些信息的網(wǎng)頁(yè)分為“欄目合法網(wǎng)頁(yè)”和“欄目非法網(wǎng)頁(yè)”兩類。其中前者定義為:欄目詞組中至少含有一個(gè)具有類別特征的詞條的網(wǎng)頁(yè)。欄目非法網(wǎng)頁(yè)即欄目不能給出類別信息。例如下面給出了一個(gè)“欄目非法網(wǎng)頁(yè)”的欄目詞組:
首頁(yè) >>新聞 >>藏區(qū)新聞 >>西藏
類似這類欄目中不含具有類別特征的詞條,我們同樣作丟棄處理。
基于欄目的藏文網(wǎng)頁(yè)分類工具如圖3所示。
圖3 基于欄目的藏文網(wǎng)頁(yè)分類工具截圖
為了驗(yàn)證該分類方法的有效性,我們采集了2010年的中國(guó)藏族網(wǎng)通的絕大部分網(wǎng)頁(yè)文件,文件格式為.htm,共1 842篇,作為該分類方法的實(shí)驗(yàn)語(yǔ)料。
實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如表1所示。(注:網(wǎng)頁(yè)數(shù)量為0的類別未給出)
分類結(jié)果統(tǒng)計(jì)表顯示該方法能成功分類1 842篇網(wǎng)頁(yè)文件中的623篇,絕大多數(shù)未能分類的藏文網(wǎng)頁(yè)均為“欄目非法網(wǎng)頁(yè)”。對(duì)于分類結(jié)果的準(zhǔn)確率統(tǒng)計(jì),我們采取了隨機(jī)采樣的統(tǒng)計(jì)方法,即在各實(shí)驗(yàn)結(jié)果類別中隨機(jī)抽取一定百分比的文本進(jìn)行人工驗(yàn)證。統(tǒng)計(jì)結(jié)果表明,本文提出的藏文網(wǎng)頁(yè)文本分類方法能將“欄目合法網(wǎng)頁(yè)”完全正確地歸于預(yù)定義類別中,分類準(zhǔn)確率可達(dá)97%。
表1 分類結(jié)果統(tǒng)計(jì)表
本文提出了一種基于欄目的藏文網(wǎng)頁(yè)自動(dòng)分類方法。實(shí)驗(yàn)表明,該方法能快速、準(zhǔn)確地將大量藏文網(wǎng)頁(yè)文本進(jìn)行自動(dòng)分類。這將為今后的基于統(tǒng)計(jì)和基于規(guī)則的藏文文本分類、構(gòu)建藏文語(yǔ)料庫(kù)提供高質(zhì)量語(yǔ)料。
當(dāng)然,該方法也有不足及需要進(jìn)一步改進(jìn)與優(yōu)化的地方,主要包括以下三個(gè)方面:
(1) 不同的藏文網(wǎng)站有不同的網(wǎng)頁(yè)欄目格式,制定統(tǒng)一的或者可擴(kuò)充的欄目提取規(guī)則(集),才能保證該分類方法對(duì)其進(jìn)行有效處理。
(2) 藏文網(wǎng)頁(yè)文本的正確提取直接關(guān)系到最終文本語(yǔ)料的質(zhì)量。對(duì)于沒(méi)有欄目信息的藏文網(wǎng)頁(yè),需要進(jìn)一步研究分類方法。
(3) 類別特征詞表的存儲(chǔ)結(jié)構(gòu)需要根據(jù)特征詞的數(shù)量作相應(yīng)的優(yōu)化或變換,以實(shí)現(xiàn)欄目特征詞條的快速匹配,提高分類效率。
[1] 才讓加.藏語(yǔ)語(yǔ)料庫(kù)加工方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(6):138-139,146.
[2] 才讓加,吉太加.藏語(yǔ)語(yǔ)料庫(kù)的詞性分類方法研究[J]. 青海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,(4):112-114.
[3] 賈會(huì)強(qiáng),李永宏.藏文文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[J].科技向?qū)В?010,(4)下:30-31.
[4] 李渝勤,孫麗華.基于規(guī)則的自動(dòng)分類在文本分類中的應(yīng)用[J].中文信息學(xué)報(bào),2004,18(4):9-14.
[5] 黃科,馬少平.基于統(tǒng)計(jì)分詞的中文網(wǎng)頁(yè)分類[J].中文信息學(xué)報(bào),2002,16(6):25-31.
[6] 盧嬌麗,鄭家恒.基于粗糙集的文本分類方法研究[J].中文信息學(xué)報(bào),2005,19(2):66-70.
[7] 許世明,武波,馬翠,等.一種基于預(yù)分類的高效SVM中文網(wǎng)頁(yè)分類器[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(1):125-128.
[8] 劉建,孫鵬,倪宏.面向分類的網(wǎng)頁(yè)主題特征提取[J].計(jì)算機(jī)應(yīng)用研究,2010,27(9):3399-3402.
[9] 孫承杰,關(guān)毅.基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J].中文信息學(xué)報(bào),2004,18(5):17-22.
[10] 韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(12): 3568-3571,3574.
[11] 黃玲,陳龍.基于網(wǎng)頁(yè)分塊的正文信息提取方法[J].計(jì)算機(jī)運(yùn)用,2008,28:326-328.