基于奇異值分解的藏文Web不良信息檢索算法研究

2015-02-21 04:06普措才仁蔡光波

西北民族大學(xué)學(xué)報(bào)（自然科學(xué)版） 2015年4期

關(guān)鍵詞：傾向性藏文文檔

普措才仁，蔡光波

(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，甘肅蘭州730030)

基于奇異值分解的藏文Web不良信息檢索算法研究

普措才仁，蔡光波

(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，甘肅蘭州730030)

闡述了藏文Web不良信息的特點(diǎn)、類(lèi)型、危害性,設(shè)計(jì)了傾向性藏文Web不良文本過(guò)濾系統(tǒng)結(jié)構(gòu).提出一種藏文Web不良文本檢索算法.該算法從不良文本中提取傾向性關(guān)鍵詞項(xiàng)，根據(jù)矩陣奇異值分解方法中的轉(zhuǎn)移概率構(gòu)造出傾向性關(guān)鍵詞項(xiàng)的狀態(tài)矩陣，提取平面坐標(biāo)空間第一像限的奇異值向量作為復(fù)特征向量，利用向量間的余弦相似度作為文本檢索的相似度度量.實(shí)驗(yàn)結(jié)果表明，該算法在檢索準(zhǔn)確率和運(yùn)算效率上都優(yōu)于傳統(tǒng)的 LSA 算法.

不良信息；轉(zhuǎn)移概率；奇異值分解；狀態(tài)矩陣

藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上出現(xiàn)的違背社會(huì)主義精神文明建設(shè)要求，違背中華民族優(yōu)良文化傳統(tǒng)與習(xí)慣,以及其他違背社會(huì)公德的各類(lèi)信息,包括文字、圖片、音視頻等形式.從其危害性來(lái)說(shuō)，藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上對(duì)人的身體造成損害，給人的精神帶來(lái)污染，使人的思想產(chǎn)生混亂，讓人的心理變得異常的垃圾信息，它們包括危害國(guó)家安全與穩(wěn)定的信息、色情信息、暴力信息、迷信信息等.那么如何從藏文網(wǎng)絡(luò)的信息資源中檢索出滿(mǎn)足用戶(hù)需求的不良信息子集，涉及到信息的獲取、表示、組織、存儲(chǔ)及訪問(wèn)等問(wèn)題.藏文網(wǎng)絡(luò)不良信息檢索的任務(wù)主要是研究如何從給定的無(wú)結(jié)構(gòu)或半結(jié)構(gòu)化文檔集中找出與用戶(hù)相關(guān)的文檔子集，并依據(jù)相關(guān)度排序把檢索結(jié)果返回給用戶(hù).由于目前網(wǎng)上信息的表現(xiàn)形式大多為文本，因此我們認(rèn)為，文本過(guò)濾主要是興趣過(guò)濾，即根據(jù)用戶(hù)模型(如用戶(hù)背景、興趣、行為、風(fēng)格等)對(duì)文本進(jìn)行搜集整理，將用戶(hù)感興趣的文本提交給用戶(hù)，這更多是從文本的主題方面考慮的，譬如，用戶(hù)只對(duì)體育類(lèi)的內(nèi)容感興趣，或者更進(jìn)一步分，只對(duì)足球的內(nèi)容感興趣，“體育”和“足球”都是描述文本主題的詞.然而，網(wǎng)上還有很多評(píng)論性的文章，這些文章往往代表作者對(duì)某一個(gè)主題的看法和立場(chǎng)，用戶(hù)自然會(huì)有這樣的需求：我只需要得到對(duì)這一主題的某種立場(chǎng)的文檔.為此，作者提出了傾向性文本過(guò)濾的概念.文本信息分為三種：與主題完全無(wú)關(guān)的稱(chēng)為無(wú)關(guān)文本，對(duì)主題持有積極態(tài)度的稱(chēng)為正面文本，對(duì)主題持有消極態(tài)度的稱(chēng)為負(fù)面文本.在對(duì)文本進(jìn)行分析的時(shí)候，不僅分析其包含的主題內(nèi)容，還判斷它的態(tài)度和立場(chǎng)，即傾向性.文本過(guò)濾的條件不是僅僅涉及的主題內(nèi)容，而是帶有傾向性的主題信息.直接的例子就是不良文本的過(guò)濾，即根據(jù)領(lǐng)域模型(如領(lǐng)域知識(shí)、文本處理和領(lǐng)域組織結(jié)構(gòu))對(duì)文本進(jìn)行攔截，使用戶(hù)無(wú)法接觸到不良文本.網(wǎng)絡(luò)上的不良文本包括色情、暴力、邪教、賭博等違反國(guó)家政策的內(nèi)容，其中有些文本可以分析其主題從而實(shí)施過(guò)濾，比如色情、暴力等；但有些文本表現(xiàn)的是對(duì)某種問(wèn)題如政治問(wèn)題的立場(chǎng)和傾向，如批判和宣揚(yáng)邪教的，這時(shí)不僅得分析出它的主題，還要判斷其傾向以確定過(guò)濾與否.文中針對(duì)這種傾向性文本過(guò)濾，作者提出了基于奇異值分解的傾向性藏文文本檢索算法.該算法利用字母統(tǒng)計(jì)的轉(zhuǎn)移概率矩陣建立關(guān)鍵詞的狀態(tài)矩陣，并進(jìn)行奇異值分解提取復(fù)特征向量.

1 基于奇異值分解的藏文不良文本檢索算法

圖1設(shè)計(jì)了傾向性文本過(guò)濾系統(tǒng)結(jié)構(gòu)流程.

1.1 構(gòu)造頻率矩陣、轉(zhuǎn)移概率矩陣和狀態(tài)矩陣

對(duì)于藏文Web上提取的一篇藏文文本Γ，去掉其非字母的字符如空格、標(biāo)點(diǎn)、數(shù)字等，得到一個(gè)用藏文字母組成的有序字符串Γ.設(shè)T是藏文30個(gè)字母集合，N是自然數(shù)集合，描述如下：

N{1,2,3,4,…,…,…,…,…,…,25,26,27,29,30}

我們?cè)O(shè)計(jì)了藏文字母集T和自然數(shù)集N的一一對(duì)應(yīng)的有序集，設(shè)T與N的對(duì)應(yīng)關(guān)系F為F：T→N，比如F∶→10.這樣就可對(duì)字符串Γ進(jìn)行統(tǒng)計(jì)了.

設(shè)第i個(gè)字母后是第j個(gè)字母的次數(shù)為aij，則得到頻率矩陣A=(aij)30×30.顯然，頻率矩陣A=(aij)30×30滿(mǎn)足[3]：

對(duì)藏文文本T，先提取t個(gè)傾向性關(guān)鍵詞項(xiàng){T1,T2，…，Tt}.它是指出現(xiàn)在文檔T中且能夠代表該文檔內(nèi)容的基本語(yǔ)言單位，主要是由單詞或短語(yǔ)構(gòu)成.傾向性關(guān)鍵詞提取過(guò)程主要涉及 2 個(gè)環(huán)節(jié)：

1) 去除停用詞.將在文本中共有的出現(xiàn)頻率過(guò)高而失去檢索意義的單詞剔除，主要選取能表達(dá)文本內(nèi)容的實(shí)詞作為關(guān)鍵詞，這樣可以提高檢索性能并降低索引向量維度.

2) 抽取詞干，確定基詞.這是一種語(yǔ)法層次的處理措施，通過(guò)移除前后綴消除詞形、時(shí)態(tài)變化對(duì)檢索性能的影響并降低索引向量的維度[2][3].

作為關(guān)鍵詞項(xiàng)的藏文單詞可看成一字母串：

Ti=ti,1ti,2ti,3…ti,t,i=1,2,3,…，t

其中，tik為第i個(gè)關(guān)鍵詞的第k個(gè)字母.為方便描述，設(shè)字母ti,k對(duì)應(yīng)藏文字母表

即有如下概率關(guān)系：

P{Γ中出現(xiàn)單詞Ti}

=P{字母ti,1之后是ti,2}×P{字母ti,2之后是ti,3}×…×P{字母ti,s(i)-1之后是ti,s(i)}.

有條件概率公式可得：

可見(jiàn)，文本Γ中出現(xiàn)單詞的Ti概率由轉(zhuǎn)移概率azi.1,zi.2，azi.2,zi.3，…，azi.s(i)-1,zi.s(i)決定.由此，可對(duì)關(guān)鍵詞項(xiàng){T1,T2,…，Tr}建立如下r階狀態(tài)矩陣：

X=(azi.s(i)-1,zi.s(i)Xi)r×r

1.2 基于奇異值分解的特征提取

由矩陣的奇異值分解理論知，矩陣X1近似保留了矩陣X的大部分相關(guān)信息.

1.3 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)

表1 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)

另一方面，各關(guān)鍵詞Tk在u1、υ1平面的位置關(guān)系也反映了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征，既使2篇文本關(guān)鍵詞出現(xiàn)的頻率近似相同.由于各字母間的轉(zhuǎn)移概率不同，關(guān)鍵詞在u1、v1平面旳具體位置也不相同.因而復(fù)數(shù)uk,1+ivk,1的輻角也可以做為藏文文本分類(lèi)和檢索的重要依據(jù).

這樣θk被限制在第一象限內(nèi)，得到復(fù)數(shù)zk=rkeiek,從而得到文本T的復(fù)特征向量Z=(z1,z1,…，zk).

1.4 領(lǐng)域知識(shí)庫(kù)(詞典)分析模塊,過(guò)濾模塊[5]

1)對(duì)象詞典：包含有語(yǔ)義模式識(shí)別的對(duì)象，主要有個(gè)體和行為知識(shí)，用于分析文本中可能的語(yǔ)義模式.

2)模式詞典：存儲(chǔ)代表對(duì)當(dāng)前主題的傾向性的語(yǔ)義模式及其權(quán)重.

3)分析模塊：基于對(duì)象庫(kù)，將文本中可能的語(yǔ)義模式識(shí)別出來(lái).

4)過(guò)濾模塊：基于模式庫(kù)，將識(shí)別出的語(yǔ)義模式與模式庫(kù)對(duì)照，計(jì)算權(quán)重與文本長(zhǎng)度的比率，將超過(guò)閾值的文本攔截.

1.5 相似度計(jì)算

通過(guò)考察兩個(gè)藏文Web文檔間意義相同或相近詞出現(xiàn)的分布情況，以此來(lái)判斷兩個(gè)藏文Web文檔間是否相似.計(jì)算兩個(gè)藏文Web文檔間相似度方法如下：向量空間模型常將余弦相似度作為兩個(gè)各相似向量的度量.設(shè)每一檢索目標(biāo)文本T所抽取的復(fù)特征向量分別為c1,c2對(duì)應(yīng)的向量為(x1,x2,…，xm)和(y1,y2,…，ym),則c1與c2的相似度[6]：

其數(shù)值在[0,1]之間.

計(jì)算完目標(biāo)文本和所有待檢測(cè)文本的相似度后，可根據(jù)預(yù)先設(shè)定的檢索閾值得出檢索結(jié)果并將檢索結(jié)果排序.

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文所用測(cè)試數(shù)據(jù)來(lái)自西北民族大學(xué)藏漢雙語(yǔ)信息處理技術(shù)數(shù)據(jù)語(yǔ)料庫(kù)中的藏文文本.在整個(gè)數(shù)據(jù)集中有21 578個(gè)文檔，本文從包含文檔較多的6個(gè)類(lèi)中隨機(jī)選取40 000篇藏文文本及其段落作為仿真實(shí)驗(yàn)的測(cè)試語(yǔ)料.每一類(lèi)中分別選取5篇作為檢索目標(biāo)文本，然后將所得結(jié)果取平均值作為實(shí)驗(yàn)結(jié)果.

2.2 評(píng)估指標(biāo)

文本檢索式從大量的文本集合中找到相關(guān)的文本，檢索性能指標(biāo)主要有檢索準(zhǔn)確率和召回率，準(zhǔn)確率是返回正確的文本數(shù)與返回文本數(shù)的比率.準(zhǔn)確率和召回率反映了文本檢索質(zhì)量的2個(gè)不同方面，需要同時(shí)考慮.綜合考慮時(shí)可以使用下面的F指標(biāo)，計(jì)算公式：

其中，Pre表示準(zhǔn)確率；R表示召回率.

2.3 實(shí)驗(yàn)結(jié)果

為了使實(shí)驗(yàn)結(jié)果具有可比性，在實(shí)驗(yàn)數(shù)據(jù)和相關(guān)參數(shù)相同的前提條件下，將本文算法的實(shí)驗(yàn)結(jié)果和基于詞的LSA算法[7]做了比對(duì)，結(jié)果見(jiàn)表2.

表2 檢索性能比較(%)

對(duì)比試驗(yàn)結(jié)果表明，本文提出的基于奇異值分解的藏文文本檢索算法優(yōu)于傳統(tǒng)的LSA算法.由于本文算法不僅考慮了文本中關(guān)鍵詞的統(tǒng)計(jì)頻率，而且融洽了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征和詞與詞之間潛在的語(yǔ)義聯(lián)系，通過(guò)奇異值分解，原始狀態(tài)矩陣中能反映關(guān)鍵詞主要內(nèi)容的信息被抽取出來(lái)，將更多實(shí)際意義或不代表對(duì)應(yīng)文本的詞匯作為噪聲過(guò)濾掉.同時(shí)，奇異值分解對(duì)原始數(shù)據(jù)進(jìn)行了降維處理，避免了LSA算法中對(duì)高維詞匯——文本稀疏矩陣的處理，從而增強(qiáng)了文本表示的準(zhǔn)確性，進(jìn)而提高了檢索精度和檢索效率.

3 結(jié)束語(yǔ)

本文提供了一種藏文文本檢索算法，該算法通過(guò)對(duì)狀態(tài)矩陣的奇異值分解提取既反應(yīng)關(guān)鍵詞在文本空間中結(jié)構(gòu)特征的復(fù)特征向量，從而建立了藏文文本檢索系統(tǒng).本文算法是藏文文本檢索研究中的一次有益嘗試，并取得較好的實(shí)驗(yàn)效果，但由于沒(méi)有考慮藏文詞匯可能出現(xiàn)的一次多義、一義多詞，以及共同發(fā)生詞匯和特殊的英文語(yǔ)法，因而還無(wú)法精確刻畫(huà)文檔的詞義關(guān)系，這將是下一步的工作目標(biāo).

[1] Deerwester S, Dumais S T , Furnas G W, et al. Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990,41(6).

[2] 衛(wèi)威，王建民.一種大規(guī)模數(shù)據(jù)的快速潛在語(yǔ)義索引[J].計(jì)算機(jī)工程，2009，35(15).

[3] 吳昌愨，魏洪增.矩陣?yán)碚撆c方法[M].北京：電子工業(yè)出版社，2013.

[4] Salton G, Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.

[5] Kalt T.A New Probabilistic Model of Text Classification and Retrieval[R].Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report IR-78,1996.

[6] Lewis D D. Naive(Bayes)at Forty: The Independence Assumption in Information Retrieval[C]//Proc, of EMCL’98.Berlin,Germany: Springer,1996.

[7] Landauer T K.A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge [J].Psychological Review,1997,104(2).

2015-11-10

西北民族大學(xué)研究生教育教學(xué)改革研究項(xiàng)目(編號(hào)：1671280504).

普措才仁(1966—),男(藏族)，青海玉樹(shù)人,教授,碩士生導(dǎo)師,主要從事智能信息處理技術(shù)和數(shù)據(jù)挖掘方面的研究.

TP393

1009-2102(2015)04-0023-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于奇異值分解的藏文Web不良信息檢索算法研究

1 基于奇異值分解的藏文不良文本檢索算法

2 實(shí)驗(yàn)與分析

3 結(jié)束語(yǔ)