藏文期刊論文檢索系統(tǒng)研究

2018-07-10 09:49仁青東主安見(jiàn)才讓

電腦與電信 2018年4期

仁青東主安見(jiàn)才讓

（青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海西寧 810007）

1 引言

隨著國(guó)家教育事業(yè)的飛速發(fā)展,國(guó)內(nèi)藏區(qū)教育教學(xué)水平也得到了全方位的提高,而期刊論文發(fā)表是其中一項(xiàng)非常重要的組成部分,其主要目的是分享科學(xué)研究成果,進(jìn)行學(xué)術(shù)交流。為用戶提供一個(gè)在最短的時(shí)間內(nèi)要找到自己需要的信息的平臺(tái)是現(xiàn)實(shí)迫切的需求。本系統(tǒng)目的就是將分散在各處雜志上的論文收集整理,并按照論文結(jié)構(gòu)分類存儲(chǔ)到一個(gè)數(shù)據(jù)庫(kù)中,并提供統(tǒng)一的查詢接口,方便用戶在更大的范圍內(nèi)查找所需內(nèi)容,提高查詢效率,同時(shí)也增加了電子論文潛在的讀者。以上這些問(wèn)題引出了本課題的研究?jī)?nèi)容:藏文期刊論文檢索系統(tǒng)的研究。

2 藏文期刊論文檢索系統(tǒng)相關(guān)技術(shù)分析

在自然語(yǔ)言處理中,詞是最小的、能獨(dú)立活動(dòng)的、有意義的語(yǔ)句成分,而英文、漢文、藏文對(duì)字符、字、詞各有不同的含義。英文是以詞為單位的,詞與詞之間按照空格進(jìn)行分割,劃分很明顯,即字與詞是合二為一的,而詞是由字符構(gòu)成,界限很清楚；漢文是以字為單位,根據(jù)漢文組詞的語(yǔ)法規(guī)則構(gòu)成詞語(yǔ),詞與詞之間又沒(méi)有明顯的標(biāo)記區(qū)分,即由字構(gòu)成詞,而字與字符是合二為一的；藏文同漢文,也是以字為單位根據(jù)組詞規(guī)則由字構(gòu)成詞,而字又由字符構(gòu)成,即藏文中字符構(gòu)成字、字構(gòu)成詞,只是字與字之間由音節(jié)符隔開(kāi),以此可以區(qū)分字與字符。例如,英文句子“He is a teacher”,翻譯成漢文“他是一名老師”,翻譯成藏文計(jì)算機(jī)可通過(guò)空格識(shí)別“teacher”是一個(gè)單詞,但是無(wú)法識(shí)別也是一個(gè)單詞,所以需引入分詞技術(shù)。

2.1 最大概率法分詞技術(shù)

本研究使用了最大概率法分詞技術(shù),其主要思路是:(1)一個(gè)待切分的藏文字符串可能包括多種分詞結(jié)果；(2)將其中概率最大的分詞結(jié)果作為該文本的分詞結(jié)果。我們用這個(gè)例子來(lái)進(jìn)行說(shuō)明,該字符串各種可能的分詞結(jié)果可以用一個(gè)有向圖1來(lái)顯示如下:

圖 1 “ ”正向與逆向切分結(jié)果的有向圖表示

其中（1）表示正向分詞結(jié)果,（2）表示逆向分詞結(jié)果,把這兩種分詞結(jié)果分別表示為W1和W2,則有如下兩種分詞結(jié)果:

W1如果采用最大匹配法進(jìn)行分詞,W1是正向最大匹配的結(jié)果,W2是逆向最大匹配結(jié)果。對(duì)于這個(gè)例子來(lái)說(shuō),很顯然,W2是正確的分詞結(jié)果。如果用最大概率法來(lái)進(jìn)行分詞,就是計(jì)算W1和W2的概率P(W1)和P(W2),從中挑選一個(gè)概率大的作為分詞結(jié)果輸出。P(W)的概率可以有不同的計(jì)算方法,其中最為簡(jiǎn)便直接的一種是將W中的各個(gè)詞看作互不相干的獨(dú)立事件,以每個(gè)候選詞的概率乘積來(lái)求得整個(gè)詞串的概率。公式如下:

而P（Wi）可由詞語(yǔ)在一定規(guī)模的語(yǔ)料庫(kù)中的出現(xiàn)頻次來(lái)近似估計(jì),即

詞語(yǔ)的概率信息可以按公式2事先計(jì)算好,存儲(chǔ)在詞典中。假設(shè)詞典中記錄有概率信息如下表1,則可以計(jì)算相應(yīng)的概率值,并選擇最大的作為詞串輸出。

通過(guò)計(jì)算可以發(fā)現(xiàn)P(W2)>P(W1),從概率角度看,詞串W2比W1具有更大的可能性[4]。

2.2 基于排序法的索引創(chuàng)建技術(shù)

排序法在創(chuàng)建索引期間,始終占用固定的分配空間,以保存索引的中間結(jié)果和詞典信息,當(dāng)分配空間被占滿時(shí),將中間結(jié)果導(dǎo)入磁盤(pán),內(nèi)存空間就得到了釋放,為下一次保存索引中間結(jié)果做準(zhǔn)備?？梢?jiàn),這種方法占用的內(nèi)存空間是固定的,從而可對(duì)不同大小的文檔集合創(chuàng)建索引,詳見(jiàn)下圖2。

圖2為排序法創(chuàng)建索引的流程圖。在讀取文檔后,立即對(duì)文檔作編號(hào)處理,不僅使每個(gè)文檔都有專屬的ID,還完成了文檔內(nèi)容解析。對(duì)于經(jīng)常出現(xiàn)的單詞,可運(yùn)用查詞典法將單詞轉(zhuǎn)換為相匹配的單詞ID,如果在詞典中未發(fā)現(xiàn)這個(gè)單詞,表明這是首次遇到這個(gè)單詞,同時(shí)將賦予ID并存儲(chǔ)至詞典。

表1 詞語(yǔ)概率信息表

圖2 排序法

3 論文檢索模塊設(shè)計(jì)

檢索模塊分為普通檢索和相關(guān)性檢索兩種方式。普通檢索時(shí),先讓用戶選擇檢索方式,即論文的題目、作者、期刊、關(guān)鍵字等,輸入檢索內(nèi)容之后可預(yù)覽論文基本信息。如果需要閱讀詳細(xì)內(nèi)容,就要雙擊題目進(jìn)行PDF格式閱覽。操作界面如圖3所示:

圖3 檢索結(jié)果預(yù)覽界面

為了進(jìn)一步提高用戶的檢索體驗(yàn),當(dāng)用戶輸入錯(cuò)誤關(guān)鍵詞不知道如何檢索關(guān)鍵詞時(shí),通過(guò)借鑒系統(tǒng)提供的相關(guān)檢索,從而可以提高檢索質(zhì)量,能夠快速地找到自己所需的論文。首先要對(duì)論文進(jìn)行分詞處理,然后要對(duì)分詞好的論文進(jìn)行詞頻統(tǒng)計(jì),根據(jù)詞頻計(jì)算逆文檔頻率,得到了逆文檔頻率就能得到相應(yīng)的詞項(xiàng)權(quán)重值[1]。相似度計(jì)算模塊界面由兩個(gè)小模塊組成。第一個(gè)小模塊是相關(guān)檢索,相關(guān)檢索根據(jù)計(jì)算查詢?cè)~條與論文之間的相似度,按照相似度的評(píng)分高低,對(duì)查詢結(jié)果列表進(jìn)行排序。第二個(gè)模塊是根據(jù)用戶輸入的詞條檢索與此相關(guān)的詞條,對(duì)論文進(jìn)行查詢,例如查詢?cè)~條,意思為導(dǎo)師,跟導(dǎo)師相關(guān)的詞條有老師,通過(guò)建立相關(guān)詞詞典,能夠?qū)崿F(xiàn)類似查詢[2]。

4 實(shí)驗(yàn)—壓力測(cè)試

壓力測(cè)試是一個(gè)必不可少且有益的過(guò)程,它提供了對(duì)Web和移動(dòng)應(yīng)用程序在極端負(fù)載下的性能測(cè)試,可確定應(yīng)用程序中的潛在漏洞,并在出現(xiàn)問(wèn)題前對(duì)其進(jìn)行更正[3]。Visual Studio 2017企業(yè)版自帶測(cè)試功能。為了確保網(wǎng)站的效能及容量可以滿足上線需求,首先需要預(yù)設(shè)負(fù)載測(cè)試時(shí)間、并發(fā)人數(shù)。本次實(shí)驗(yàn)預(yù)設(shè)并發(fā)人數(shù)為200人,從初始10個(gè)用戶開(kāi)始,每10秒增加30個(gè)用戶,直到200個(gè)用戶為止,測(cè)試時(shí)間為5分鐘。

在系統(tǒng)壓力測(cè)試中通過(guò)逐漸增加用戶訪問(wèn)人數(shù)的方法,從初始的10個(gè)用戶到200個(gè)用戶同時(shí)訪問(wèn)網(wǎng)頁(yè)的實(shí)驗(yàn)中,我們可以發(fā)現(xiàn)隨著用戶數(shù)量的增多,響應(yīng)時(shí)間最高達(dá)到1.81秒,最低響應(yīng)時(shí)間是1.07秒,平均響應(yīng)時(shí)間是1.52秒。實(shí)驗(yàn)證明,該系統(tǒng)基本上能夠達(dá)到預(yù)期效果。

5 結(jié)論

圖4 相關(guān)性檢索模塊界面

圖5 測(cè)試響應(yīng)時(shí)間圖

本文實(shí)現(xiàn)了最基本的藏文期刊論文檢索功能,該系統(tǒng)基本上能夠達(dá)到預(yù)期效果,但仍存在不足之處,離實(shí)際的藏文期刊論文檢索系統(tǒng)的標(biāo)準(zhǔn)還有一定的差距,在下一步的研究工作中將繼續(xù)改善。比如,當(dāng)兩個(gè)句子意義相似而使用了不同的詞性時(shí),借助近義詞典進(jìn)行替換,由于近義詞典的詞量相對(duì)較少,因此,該算法的計(jì)算結(jié)果與人的主觀判斷誤差較大。因此,需要更科學(xué)、適用的藏文近義詞典,盡可能減少相似度計(jì)算誤差。

[1]陳玉忠,李保利,俞士汶.藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2006,20(5):10-16.

[2]安見(jiàn)才讓.藏語(yǔ)句子相似度算法的研究[J].中文信息學(xué)報(bào),2011(4):111-113.

[3]伊文斌,鄭劍.基于Load Runner的Web負(fù)載測(cè)試[J].江西理工大學(xué)學(xué)報(bào),2008,29(04):13-15.

[4]王瑞雷,欒靜,潘曉花,等.一種改進(jìn)的中文分詞正向最大匹配算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(3):195-197.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡