普措才仁,蔡光波
(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州730030)
基于奇異值分解的藏文Web不良信息檢索算法研究
普措才仁,蔡光波
(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州730030)
闡述了藏文Web不良信息的特點(diǎn)、類(lèi)型、危害性,設(shè)計(jì)了傾向性藏文Web不良文本過(guò)濾系統(tǒng)結(jié)構(gòu).提出一種藏文Web不良文本檢索算法.該算法從不良文本中提取傾向性關(guān)鍵詞項(xiàng),根據(jù)矩陣奇異值分解方法中的轉(zhuǎn)移概率構(gòu)造出傾向性關(guān)鍵詞項(xiàng)的狀態(tài)矩陣,提取平面坐標(biāo)空間第一像限的奇異值向量作為復(fù)特征向量,利用向量間的余弦相似度作為文本檢索的相似度度量.實(shí)驗(yàn)結(jié)果表明,該算法在檢索準(zhǔn)確率和運(yùn)算效率上都優(yōu)于傳統(tǒng)的 LSA 算法.
不良信息;轉(zhuǎn)移概率;奇異值分解;狀態(tài)矩陣
藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上出現(xiàn)的違背社會(huì)主義精神文明建設(shè)要求,違背中華民族優(yōu)良文化傳統(tǒng)與習(xí)慣,以及其他違背社會(huì)公德的各類(lèi)信息,包括文字、圖片、音視頻等形式.從其危害性來(lái)說(shuō),藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上對(duì)人的身體造成損害,給人的精神帶來(lái)污染,使人的思想產(chǎn)生混亂,讓人的心理變得異常的垃圾信息,它們包括危害國(guó)家安全與穩(wěn)定的信息、色情信息、暴力信息、迷信信息等.那么如何從藏文網(wǎng)絡(luò)的信息資源中檢索出滿(mǎn)足用戶(hù)需求的不良信息子集,涉及到信息的獲取、表示、組織、存儲(chǔ)及訪問(wèn)等問(wèn)題.藏文網(wǎng)絡(luò)不良信息檢索的任務(wù)主要是研究如何從給定的無(wú)結(jié)構(gòu)或半結(jié)構(gòu)化文檔集中找出與用戶(hù)相關(guān)的文檔子集,并依據(jù)相關(guān)度排序把檢索結(jié)果返回給用戶(hù).由于目前網(wǎng)上信息的表現(xiàn)形式大多為文本,因此我們認(rèn)為,文本過(guò)濾主要是興趣過(guò)濾,即根據(jù)用戶(hù)模型(如用戶(hù)背景、興趣、行為、風(fēng)格等)對(duì)文本進(jìn)行搜集整理,將用戶(hù)感興趣的文本提交給用戶(hù),這更多是從文本的主題方面考慮的,譬如,用戶(hù)只對(duì)體育類(lèi)的內(nèi)容感興趣,或者更進(jìn)一步分,只對(duì)足球的內(nèi)容感興趣,“體育”和“足球”都是描述文本主題的詞.然而,網(wǎng)上還有很多評(píng)論性的文章,這些文章往往代表作者對(duì)某一個(gè)主題的看法和立場(chǎng),用戶(hù)自然會(huì)有這樣的需求:我只需要得到對(duì)這一主題的某種立場(chǎng)的文檔.為此,作者提出了傾向性文本過(guò)濾的概念.文本信息分為三種:與主題完全無(wú)關(guān)的稱(chēng)為無(wú)關(guān)文本,對(duì)主題持有積極態(tài)度的稱(chēng)為正面文本,對(duì)主題持有消極態(tài)度的稱(chēng)為負(fù)面文本.在對(duì)文本進(jìn)行分析的時(shí)候,不僅分析其包含的主題內(nèi)容,還判斷它的態(tài)度和立場(chǎng),即傾向性.文本過(guò)濾的條件不是僅僅涉及的主題內(nèi)容,而是帶有傾向性的主題信息.直接的例子就是不良文本的過(guò)濾,即根據(jù)領(lǐng)域模型(如領(lǐng)域知識(shí)、文本處理和領(lǐng)域組織結(jié)構(gòu))對(duì)文本進(jìn)行攔截,使用戶(hù)無(wú)法接觸到不良文本.網(wǎng)絡(luò)上的不良文本包括色情、暴力、邪教、賭博等違反國(guó)家政策的內(nèi)容,其中有些文本可以分析其主題從而實(shí)施過(guò)濾,比如色情、暴力等;但有些文本表現(xiàn)的是對(duì)某種問(wèn)題如政治問(wèn)題的立場(chǎng)和傾向,如批判和宣揚(yáng)邪教的,這時(shí)不僅得分析出它的主題,還要判斷其傾向以確定過(guò)濾與否.文中針對(duì)這種傾向性文本過(guò)濾,作者提出了基于奇異值分解的傾向性藏文文本檢索算法.該算法利用字母統(tǒng)計(jì)的轉(zhuǎn)移概率矩陣建立關(guān)鍵詞的狀態(tài)矩陣,并進(jìn)行奇異值分解提取復(fù)特征向量.
圖1設(shè)計(jì)了傾向性文本過(guò)濾系統(tǒng)結(jié)構(gòu)流程.
1.1 構(gòu)造頻率矩陣、轉(zhuǎn)移概率矩陣和狀態(tài)矩陣
對(duì)于藏文Web上提取的一篇藏文文本Γ,去掉其非字母的字符如空格、標(biāo)點(diǎn)、數(shù)字等,得到一個(gè)用藏文字母組成的有序字符串Γ.設(shè)T是藏文30個(gè)字母集合,N是自然數(shù)集合,描述如下:
N{1,2,3,4,…,…,…,…,…,…,25,26,27,29,30}
我們?cè)O(shè)計(jì)了藏文字母集T和自然數(shù)集N的一一對(duì)應(yīng)的有序集,設(shè)T與N的對(duì)應(yīng)關(guān)系F為F:T→N,比如F∶→10.這樣就可對(duì)字符串Γ進(jìn)行統(tǒng)計(jì)了.
設(shè)第i個(gè)字母后是第j個(gè)字母的次數(shù)為aij,則得到頻率矩陣A=(aij)30×30.顯然,頻率矩陣A=(aij)30×30滿(mǎn)足[3]:
對(duì)藏文文本T,先提取t個(gè)傾向性關(guān)鍵詞項(xiàng){T1,T2,…,Tt}.它是指出現(xiàn)在文檔T中且能夠代表該文檔內(nèi)容的基本語(yǔ)言單位, 主要是由單詞或短語(yǔ)構(gòu)成.傾向性關(guān)鍵詞提取過(guò)程主要涉及 2 個(gè)環(huán)節(jié):
1) 去除停用詞.將在文本中共有的出現(xiàn)頻率過(guò)高而失去檢索意義的單詞剔除,主要選取能表達(dá)文本內(nèi)容的實(shí)詞作為關(guān)鍵詞,這樣可以提高檢索性能并降低索引向量維度.
2) 抽取詞干,確定基詞.這是一種語(yǔ)法層次的處理措施,通過(guò)移除前后綴消除詞形、時(shí)態(tài)變化對(duì)檢索性能的影響并降低索引向量的維度[2][3].
作為關(guān)鍵詞項(xiàng)的藏文單詞可看成一字母串:
Ti=ti,1ti,2ti,3…ti,t,i=1,2,3,…,t
其中,tik為第i個(gè)關(guān)鍵詞的第k個(gè)字母.為方便描述,設(shè)字母ti,k對(duì)應(yīng)藏文字母表
即有如下概率關(guān)系:
P{Γ中出現(xiàn)單詞Ti}
=P{字母ti,1之后是ti,2}×P{字母ti,2之后是ti,3}×…×P{字母ti,s(i)-1之后是ti,s(i)}.
有條件概率公式可得:
可見(jiàn),文本Γ中出現(xiàn)單詞的Ti概率由轉(zhuǎn)移概率azi.1,zi.2,azi.2,zi.3,…,azi.s(i)-1,zi.s(i)決定.由此,可對(duì)關(guān)鍵詞項(xiàng){T1,T2,…,Tr}建立如下r階狀態(tài)矩陣:
X=(azi.s(i)-1,zi.s(i)Xi)r×r
1.2 基于奇異值分解的特征提取
由矩陣的奇異值分解理論知,矩陣X1近似保留了矩陣X的大部分相關(guān)信息.
1.3 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)
表1 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)
另一方面,各關(guān)鍵詞Tk在u1、υ1平面的位置關(guān)系也反映了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征,既使2篇文本關(guān)鍵詞出現(xiàn)的頻率近似相同.由于各字母間的轉(zhuǎn)移概率不同,關(guān)鍵詞在u1、v1平面旳具體位置也不相同.因而復(fù)數(shù)uk,1+ivk,1的輻角也可以做為藏文文本分類(lèi)和檢索的重要依據(jù).
這樣θk被限制在第一象限內(nèi),得到復(fù)數(shù)zk=rkeiek,從而得到文本T的復(fù)特征向量Z=(z1,z1,…,zk).
1.4 領(lǐng)域知識(shí)庫(kù)(詞典)分析模塊,過(guò)濾模塊[5]
1)對(duì)象詞典:包含有語(yǔ)義模式識(shí)別的對(duì)象,主要有個(gè)體和行為知識(shí),用于分析文本中可能的語(yǔ)義模式.
2)模式詞典:存儲(chǔ)代表對(duì)當(dāng)前主題的傾向性的語(yǔ)義模式及其權(quán)重.
3)分析模塊:基于對(duì)象庫(kù),將文本中可能的語(yǔ)義模式識(shí)別出來(lái).
4)過(guò)濾模塊:基于模式庫(kù),將識(shí)別出的語(yǔ)義模式與模式庫(kù)對(duì)照,計(jì)算權(quán)重與文本長(zhǎng)度的比率,將超過(guò)閾值的文本攔截.
1.5 相似度計(jì)算
通過(guò)考察兩個(gè)藏文Web文檔間意義相同或相近詞出現(xiàn)的分布情況,以此來(lái)判斷兩個(gè)藏文Web文檔間是否相似.計(jì)算兩個(gè)藏文Web文檔間相似度方法如下:向量空間模型常將余弦相似度作為兩個(gè)各相似向量的度量.設(shè)每一檢索目標(biāo)文本T所抽取的復(fù)特征向量分別為c1,c2對(duì)應(yīng)的向量為(x1,x2,…,xm)和(y1,y2,…,ym),則c1與c2的相似度[6]:
其數(shù)值在[0,1]之間.
計(jì)算完目標(biāo)文本和所有待檢測(cè)文本的相似度后,可根據(jù)預(yù)先設(shè)定的檢索閾值得出檢索結(jié)果并將檢索結(jié)果排序.
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文所用測(cè)試數(shù)據(jù)來(lái)自西北民族大學(xué)藏漢雙語(yǔ)信息處理技術(shù)數(shù)據(jù)語(yǔ)料庫(kù)中的藏文文本.在整個(gè)數(shù)據(jù)集中有21 578個(gè)文檔,本文從包含文檔較多的6個(gè)類(lèi)中隨機(jī)選取40 000篇藏文文本及其段落作為仿真實(shí)驗(yàn)的測(cè)試語(yǔ)料.每一類(lèi)中分別選取5篇作為檢索目標(biāo)文本,然后將所得結(jié)果取平均值作為實(shí)驗(yàn)結(jié)果.
2.2 評(píng)估指標(biāo)
文本檢索式從大量的文本集合中找到相關(guān)的文本,檢索性能指標(biāo)主要有檢索準(zhǔn)確率和召回率,準(zhǔn)確率是返回正確的文本數(shù)與返回文本數(shù)的比率.準(zhǔn)確率和召回率反映了文本檢索質(zhì)量的2個(gè)不同方面,需要同時(shí)考慮.綜合考慮時(shí)可以使用下面的F指標(biāo),計(jì)算公式:
其中,Pre表示準(zhǔn)確率;R表示召回率.
2.3 實(shí)驗(yàn)結(jié)果
為了使實(shí)驗(yàn)結(jié)果具有可比性,在實(shí)驗(yàn)數(shù)據(jù)和相關(guān)參數(shù)相同的前提條件下,將本文算法的實(shí)驗(yàn)結(jié)果和基于詞的LSA算法[7]做了比對(duì),結(jié)果見(jiàn)表2.
表2 檢索性能比較(%)
對(duì)比試驗(yàn)結(jié)果表明,本文提出的基于奇異值分解的藏文文本檢索算法優(yōu)于傳統(tǒng)的LSA算法.由于本文算法不僅考慮了文本中關(guān)鍵詞的統(tǒng)計(jì)頻率,而且融洽了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征和詞與詞之間潛在的語(yǔ)義聯(lián)系,通過(guò)奇異值分解,原始狀態(tài)矩陣中能反映關(guān)鍵詞主要內(nèi)容的信息被抽取出來(lái),將更多實(shí)際意義或不代表對(duì)應(yīng)文本的詞匯作為噪聲過(guò)濾掉.同時(shí),奇異值分解對(duì)原始數(shù)據(jù)進(jìn)行了降維處理,避免了LSA算法中對(duì)高維詞匯——文本稀疏矩陣的處理,從而增強(qiáng)了文本表示的準(zhǔn)確性,進(jìn)而提高了檢索精度和檢索效率.
本文提供了一種藏文文本檢索算法,該算法通過(guò)對(duì)狀態(tài)矩陣的奇異值分解提取既反應(yīng)關(guān)鍵詞在文本空間中結(jié)構(gòu)特征的復(fù)特征向量,從而建立了藏文文本檢索系統(tǒng).本文算法是藏文文本檢索研究中的一次有益嘗試,并取得較好的實(shí)驗(yàn)效果,但由于沒(méi)有考慮藏文詞匯可能出現(xiàn)的一次多義、一義多詞,以及共同發(fā)生詞匯和特殊的英文語(yǔ)法,因而還無(wú)法精確刻畫(huà)文檔的詞義關(guān)系,這將是下一步的工作目標(biāo).
[1] Deerwester S, Dumais S T , Furnas G W, et al. Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990,41(6).
[2] 衛(wèi)威,王建民.一種大規(guī)模數(shù)據(jù)的快速潛在語(yǔ)義索引[J].計(jì)算機(jī)工程,2009,35(15).
[3] 吳昌愨,魏洪增.矩陣?yán)碚撆c方法[M].北京:電子工業(yè)出版社,2013.
[4] Salton G, Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.
[5] Kalt T.A New Probabilistic Model of Text Classification and Retrieval[R].Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report IR-78,1996.
[6] Lewis D D. Naive(Bayes)at Forty: The Independence Assumption in Information Retrieval[C]//Proc, of EMCL’98.Berlin,Germany: Springer,1996.
[7] Landauer T K.A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge [J].Psychological Review,1997,104(2).
2015-11-10
西北民族大學(xué)研究生教育教學(xué)改革研究項(xiàng)目(編號(hào):1671280504).
普措才仁(1966—),男(藏族),青海玉樹(shù)人,教授,碩士生導(dǎo)師,主要從事智能信息處理技術(shù)和數(shù)據(jù)挖掘方面的研究.
TP393
A
1009-2102(2015)04-0023-05