国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于奇異值分解的藏文Web不良信息檢索算法研究

2015-02-21 04:06普措才仁蔡光波
關(guān)鍵詞:傾向性藏文文檔

普措才仁,蔡光波

(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州730030)

基于奇異值分解的藏文Web不良信息檢索算法研究

普措才仁,蔡光波

(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州730030)

闡述了藏文Web不良信息的特點(diǎn)、類(lèi)型、危害性,設(shè)計(jì)了傾向性藏文Web不良文本過(guò)濾系統(tǒng)結(jié)構(gòu).提出一種藏文Web不良文本檢索算法.該算法從不良文本中提取傾向性關(guān)鍵詞項(xiàng),根據(jù)矩陣奇異值分解方法中的轉(zhuǎn)移概率構(gòu)造出傾向性關(guān)鍵詞項(xiàng)的狀態(tài)矩陣,提取平面坐標(biāo)空間第一像限的奇異值向量作為復(fù)特征向量,利用向量間的余弦相似度作為文本檢索的相似度度量.實(shí)驗(yàn)結(jié)果表明,該算法在檢索準(zhǔn)確率和運(yùn)算效率上都優(yōu)于傳統(tǒng)的 LSA 算法.

不良信息;轉(zhuǎn)移概率;奇異值分解;狀態(tài)矩陣

藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上出現(xiàn)的違背社會(huì)主義精神文明建設(shè)要求,違背中華民族優(yōu)良文化傳統(tǒng)與習(xí)慣,以及其他違背社會(huì)公德的各類(lèi)信息,包括文字、圖片、音視頻等形式.從其危害性來(lái)說(shuō),藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上對(duì)人的身體造成損害,給人的精神帶來(lái)污染,使人的思想產(chǎn)生混亂,讓人的心理變得異常的垃圾信息,它們包括危害國(guó)家安全與穩(wěn)定的信息、色情信息、暴力信息、迷信信息等.那么如何從藏文網(wǎng)絡(luò)的信息資源中檢索出滿(mǎn)足用戶(hù)需求的不良信息子集,涉及到信息的獲取、表示、組織、存儲(chǔ)及訪問(wèn)等問(wèn)題.藏文網(wǎng)絡(luò)不良信息檢索的任務(wù)主要是研究如何從給定的無(wú)結(jié)構(gòu)或半結(jié)構(gòu)化文檔集中找出與用戶(hù)相關(guān)的文檔子集,并依據(jù)相關(guān)度排序把檢索結(jié)果返回給用戶(hù).由于目前網(wǎng)上信息的表現(xiàn)形式大多為文本,因此我們認(rèn)為,文本過(guò)濾主要是興趣過(guò)濾,即根據(jù)用戶(hù)模型(如用戶(hù)背景、興趣、行為、風(fēng)格等)對(duì)文本進(jìn)行搜集整理,將用戶(hù)感興趣的文本提交給用戶(hù),這更多是從文本的主題方面考慮的,譬如,用戶(hù)只對(duì)體育類(lèi)的內(nèi)容感興趣,或者更進(jìn)一步分,只對(duì)足球的內(nèi)容感興趣,“體育”和“足球”都是描述文本主題的詞.然而,網(wǎng)上還有很多評(píng)論性的文章,這些文章往往代表作者對(duì)某一個(gè)主題的看法和立場(chǎng),用戶(hù)自然會(huì)有這樣的需求:我只需要得到對(duì)這一主題的某種立場(chǎng)的文檔.為此,作者提出了傾向性文本過(guò)濾的概念.文本信息分為三種:與主題完全無(wú)關(guān)的稱(chēng)為無(wú)關(guān)文本,對(duì)主題持有積極態(tài)度的稱(chēng)為正面文本,對(duì)主題持有消極態(tài)度的稱(chēng)為負(fù)面文本.在對(duì)文本進(jìn)行分析的時(shí)候,不僅分析其包含的主題內(nèi)容,還判斷它的態(tài)度和立場(chǎng),即傾向性.文本過(guò)濾的條件不是僅僅涉及的主題內(nèi)容,而是帶有傾向性的主題信息.直接的例子就是不良文本的過(guò)濾,即根據(jù)領(lǐng)域模型(如領(lǐng)域知識(shí)、文本處理和領(lǐng)域組織結(jié)構(gòu))對(duì)文本進(jìn)行攔截,使用戶(hù)無(wú)法接觸到不良文本.網(wǎng)絡(luò)上的不良文本包括色情、暴力、邪教、賭博等違反國(guó)家政策的內(nèi)容,其中有些文本可以分析其主題從而實(shí)施過(guò)濾,比如色情、暴力等;但有些文本表現(xiàn)的是對(duì)某種問(wèn)題如政治問(wèn)題的立場(chǎng)和傾向,如批判和宣揚(yáng)邪教的,這時(shí)不僅得分析出它的主題,還要判斷其傾向以確定過(guò)濾與否.文中針對(duì)這種傾向性文本過(guò)濾,作者提出了基于奇異值分解的傾向性藏文文本檢索算法.該算法利用字母統(tǒng)計(jì)的轉(zhuǎn)移概率矩陣建立關(guān)鍵詞的狀態(tài)矩陣,并進(jìn)行奇異值分解提取復(fù)特征向量.

1 基于奇異值分解的藏文不良文本檢索算法

圖1設(shè)計(jì)了傾向性文本過(guò)濾系統(tǒng)結(jié)構(gòu)流程.

1.1 構(gòu)造頻率矩陣、轉(zhuǎn)移概率矩陣和狀態(tài)矩陣

對(duì)于藏文Web上提取的一篇藏文文本Γ,去掉其非字母的字符如空格、標(biāo)點(diǎn)、數(shù)字等,得到一個(gè)用藏文字母組成的有序字符串Γ.設(shè)T是藏文30個(gè)字母集合,N是自然數(shù)集合,描述如下:

N{1,2,3,4,…,…,…,…,…,…,25,26,27,29,30}

我們?cè)O(shè)計(jì)了藏文字母集T和自然數(shù)集N的一一對(duì)應(yīng)的有序集,設(shè)T與N的對(duì)應(yīng)關(guān)系F為F:T→N,比如F∶→10.這樣就可對(duì)字符串Γ進(jìn)行統(tǒng)計(jì)了.

設(shè)第i個(gè)字母后是第j個(gè)字母的次數(shù)為aij,則得到頻率矩陣A=(aij)30×30.顯然,頻率矩陣A=(aij)30×30滿(mǎn)足[3]:

對(duì)藏文文本T,先提取t個(gè)傾向性關(guān)鍵詞項(xiàng){T1,T2,…,Tt}.它是指出現(xiàn)在文檔T中且能夠代表該文檔內(nèi)容的基本語(yǔ)言單位, 主要是由單詞或短語(yǔ)構(gòu)成.傾向性關(guān)鍵詞提取過(guò)程主要涉及 2 個(gè)環(huán)節(jié):

1) 去除停用詞.將在文本中共有的出現(xiàn)頻率過(guò)高而失去檢索意義的單詞剔除,主要選取能表達(dá)文本內(nèi)容的實(shí)詞作為關(guān)鍵詞,這樣可以提高檢索性能并降低索引向量維度.

2) 抽取詞干,確定基詞.這是一種語(yǔ)法層次的處理措施,通過(guò)移除前后綴消除詞形、時(shí)態(tài)變化對(duì)檢索性能的影響并降低索引向量的維度[2][3].

作為關(guān)鍵詞項(xiàng)的藏文單詞可看成一字母串:

Ti=ti,1ti,2ti,3…ti,t,i=1,2,3,…,t

其中,tik為第i個(gè)關(guān)鍵詞的第k個(gè)字母.為方便描述,設(shè)字母ti,k對(duì)應(yīng)藏文字母表

即有如下概率關(guān)系:

P{Γ中出現(xiàn)單詞Ti}

=P{字母ti,1之后是ti,2}×P{字母ti,2之后是ti,3}×…×P{字母ti,s(i)-1之后是ti,s(i)}.

有條件概率公式可得:

可見(jiàn),文本Γ中出現(xiàn)單詞的Ti概率由轉(zhuǎn)移概率azi.1,zi.2,azi.2,zi.3,…,azi.s(i)-1,zi.s(i)決定.由此,可對(duì)關(guān)鍵詞項(xiàng){T1,T2,…,Tr}建立如下r階狀態(tài)矩陣:

X=(azi.s(i)-1,zi.s(i)Xi)r×r

1.2 基于奇異值分解的特征提取

由矩陣的奇異值分解理論知,矩陣X1近似保留了矩陣X的大部分相關(guān)信息.

1.3 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)

表1 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)

另一方面,各關(guān)鍵詞Tk在u1、υ1平面的位置關(guān)系也反映了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征,既使2篇文本關(guān)鍵詞出現(xiàn)的頻率近似相同.由于各字母間的轉(zhuǎn)移概率不同,關(guān)鍵詞在u1、v1平面旳具體位置也不相同.因而復(fù)數(shù)uk,1+ivk,1的輻角也可以做為藏文文本分類(lèi)和檢索的重要依據(jù).

這樣θk被限制在第一象限內(nèi),得到復(fù)數(shù)zk=rkeiek,從而得到文本T的復(fù)特征向量Z=(z1,z1,…,zk).

1.4 領(lǐng)域知識(shí)庫(kù)(詞典)分析模塊,過(guò)濾模塊[5]

1)對(duì)象詞典:包含有語(yǔ)義模式識(shí)別的對(duì)象,主要有個(gè)體和行為知識(shí),用于分析文本中可能的語(yǔ)義模式.

2)模式詞典:存儲(chǔ)代表對(duì)當(dāng)前主題的傾向性的語(yǔ)義模式及其權(quán)重.

3)分析模塊:基于對(duì)象庫(kù),將文本中可能的語(yǔ)義模式識(shí)別出來(lái).

4)過(guò)濾模塊:基于模式庫(kù),將識(shí)別出的語(yǔ)義模式與模式庫(kù)對(duì)照,計(jì)算權(quán)重與文本長(zhǎng)度的比率,將超過(guò)閾值的文本攔截.

1.5 相似度計(jì)算

通過(guò)考察兩個(gè)藏文Web文檔間意義相同或相近詞出現(xiàn)的分布情況,以此來(lái)判斷兩個(gè)藏文Web文檔間是否相似.計(jì)算兩個(gè)藏文Web文檔間相似度方法如下:向量空間模型常將余弦相似度作為兩個(gè)各相似向量的度量.設(shè)每一檢索目標(biāo)文本T所抽取的復(fù)特征向量分別為c1,c2對(duì)應(yīng)的向量為(x1,x2,…,xm)和(y1,y2,…,ym),則c1與c2的相似度[6]:

其數(shù)值在[0,1]之間.

計(jì)算完目標(biāo)文本和所有待檢測(cè)文本的相似度后,可根據(jù)預(yù)先設(shè)定的檢索閾值得出檢索結(jié)果并將檢索結(jié)果排序.

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文所用測(cè)試數(shù)據(jù)來(lái)自西北民族大學(xué)藏漢雙語(yǔ)信息處理技術(shù)數(shù)據(jù)語(yǔ)料庫(kù)中的藏文文本.在整個(gè)數(shù)據(jù)集中有21 578個(gè)文檔,本文從包含文檔較多的6個(gè)類(lèi)中隨機(jī)選取40 000篇藏文文本及其段落作為仿真實(shí)驗(yàn)的測(cè)試語(yǔ)料.每一類(lèi)中分別選取5篇作為檢索目標(biāo)文本,然后將所得結(jié)果取平均值作為實(shí)驗(yàn)結(jié)果.

2.2 評(píng)估指標(biāo)

文本檢索式從大量的文本集合中找到相關(guān)的文本,檢索性能指標(biāo)主要有檢索準(zhǔn)確率和召回率,準(zhǔn)確率是返回正確的文本數(shù)與返回文本數(shù)的比率.準(zhǔn)確率和召回率反映了文本檢索質(zhì)量的2個(gè)不同方面,需要同時(shí)考慮.綜合考慮時(shí)可以使用下面的F指標(biāo),計(jì)算公式:

其中,Pre表示準(zhǔn)確率;R表示召回率.

2.3 實(shí)驗(yàn)結(jié)果

為了使實(shí)驗(yàn)結(jié)果具有可比性,在實(shí)驗(yàn)數(shù)據(jù)和相關(guān)參數(shù)相同的前提條件下,將本文算法的實(shí)驗(yàn)結(jié)果和基于詞的LSA算法[7]做了比對(duì),結(jié)果見(jiàn)表2.

表2 檢索性能比較(%)

對(duì)比試驗(yàn)結(jié)果表明,本文提出的基于奇異值分解的藏文文本檢索算法優(yōu)于傳統(tǒng)的LSA算法.由于本文算法不僅考慮了文本中關(guān)鍵詞的統(tǒng)計(jì)頻率,而且融洽了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征和詞與詞之間潛在的語(yǔ)義聯(lián)系,通過(guò)奇異值分解,原始狀態(tài)矩陣中能反映關(guān)鍵詞主要內(nèi)容的信息被抽取出來(lái),將更多實(shí)際意義或不代表對(duì)應(yīng)文本的詞匯作為噪聲過(guò)濾掉.同時(shí),奇異值分解對(duì)原始數(shù)據(jù)進(jìn)行了降維處理,避免了LSA算法中對(duì)高維詞匯——文本稀疏矩陣的處理,從而增強(qiáng)了文本表示的準(zhǔn)確性,進(jìn)而提高了檢索精度和檢索效率.

3 結(jié)束語(yǔ)

本文提供了一種藏文文本檢索算法,該算法通過(guò)對(duì)狀態(tài)矩陣的奇異值分解提取既反應(yīng)關(guān)鍵詞在文本空間中結(jié)構(gòu)特征的復(fù)特征向量,從而建立了藏文文本檢索系統(tǒng).本文算法是藏文文本檢索研究中的一次有益嘗試,并取得較好的實(shí)驗(yàn)效果,但由于沒(méi)有考慮藏文詞匯可能出現(xiàn)的一次多義、一義多詞,以及共同發(fā)生詞匯和特殊的英文語(yǔ)法,因而還無(wú)法精確刻畫(huà)文檔的詞義關(guān)系,這將是下一步的工作目標(biāo).

[1] Deerwester S, Dumais S T , Furnas G W, et al. Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990,41(6).

[2] 衛(wèi)威,王建民.一種大規(guī)模數(shù)據(jù)的快速潛在語(yǔ)義索引[J].計(jì)算機(jī)工程,2009,35(15).

[3] 吳昌愨,魏洪增.矩陣?yán)碚撆c方法[M].北京:電子工業(yè)出版社,2013.

[4] Salton G, Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.

[5] Kalt T.A New Probabilistic Model of Text Classification and Retrieval[R].Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report IR-78,1996.

[6] Lewis D D. Naive(Bayes)at Forty: The Independence Assumption in Information Retrieval[C]//Proc, of EMCL’98.Berlin,Germany: Springer,1996.

[7] Landauer T K.A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge [J].Psychological Review,1997,104(2).

2015-11-10

西北民族大學(xué)研究生教育教學(xué)改革研究項(xiàng)目(編號(hào):1671280504).

普措才仁(1966—),男(藏族),青海玉樹(shù)人,教授,碩士生導(dǎo)師,主要從事智能信息處理技術(shù)和數(shù)據(jù)挖掘方面的研究.

TP393

A

1009-2102(2015)04-0023-05

猜你喜歡
傾向性藏文文檔
淺談Matlab與Word文檔的應(yīng)用接口
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
有人一聲不吭向你扔了個(gè)文檔
敦煌本藏文算書(shū)九九表再探
超重/肥胖對(duì)兒童腸套疊空氣灌腸復(fù)位的預(yù)后影響:傾向性評(píng)分匹配分析
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
Word文檔 高效分合有高招
藏文音節(jié)字的頻次統(tǒng)計(jì)
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
弋阳县| 大埔县| 山东省| 保靖县| 全州县| 祁门县| 清苑县| 策勒县| 申扎县| 湖口县| 张家口市| 炉霍县| 台南市| 江永县| 蒲城县| 万荣县| 桐城市| 华蓥市| 吴忠市| 大姚县| 保亭| 和田县| 张家口市| 铜陵市| 西峡县| 大悟县| 安阳市| 安达市| 神木县| 纳雍县| 怀化市| 晋中市| 克拉玛依市| 平遥县| 三台县| 五大连池市| 永昌县| 梁山县| 平安县| 页游| 额敏县|