国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字節(jié)流信息熵的版面全局復(fù)雜度的評估方法

2019-10-08 01:50:50王琪崔榮一
關(guān)鍵詞:復(fù)雜程度信源信息熵

王琪, 崔榮一

( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )

0 引言

隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和文檔數(shù)據(jù)的日益增加,如何有效管理和使用文檔逐漸成為人們關(guān)注的問題.版面文檔內(nèi)容復(fù)雜度是評價(jià)版面內(nèi)容組成情況的主要指標(biāo)之一,它有助于人們了解文檔的本質(zhì)屬性[1-2]以及分析和處理文檔[3]130.傳統(tǒng)的版面分析是將版面內(nèi)容作為一個(gè)完整的圖像,并通過對版面圖像進(jìn)行劃分等處理將文檔分割成文字、表格以及圖像等元素,以此為后續(xù)的純文本版面分析以及字符識別做準(zhǔn)備[4].評估版面圖像復(fù)雜度時(shí),因所關(guān)注的內(nèi)容不同,其評價(jià)方法也有所不同.例如: Peters等利用邊緣與灰度級對圖像的復(fù)雜度進(jìn)行了評價(jià)[5].基于文獻(xiàn)[5],高振宇等利用圖像的信息熵、紋理以及邊緣信息等特征對圖像的復(fù)雜度進(jìn)行了分析,并采用等權(quán)重系數(shù)加權(quán)求和的方法對圖像的復(fù)雜度進(jìn)行了定量的評估[3]132.Zou等利用圖像的紋理特征研究了圖像的復(fù)雜度,并利用灰度共生矩陣對紋理特征進(jìn)行了分析[6].上述方法中,研究者或只是對圖像進(jìn)行了定性的描述,或沒有考慮各指標(biāo)間的權(quán)重,即沒有給出準(zhǔn)確、定量的描述方法.

計(jì)算機(jī)存儲的版面文檔信息中,包含圖像空間分布的像素信息(灰度值或彩色數(shù)字化編碼)和文字部分的文字編碼,即文檔的二進(jìn)制字節(jié)流中含有圖像和文本的原本信息(像素和字符);因此,對文件字節(jié)流的復(fù)雜度進(jìn)行分析可判定版面的全局復(fù)雜度.基于此,本文以圖文要素構(gòu)成的word 2003版面存儲文檔為研究對象,提出一種基于文件字節(jié)流信息熵的版面全局復(fù)雜度的度量方法,并通過實(shí)驗(yàn)驗(yàn)證本文方法的有效性.

1 基于字節(jié)流信息熵的版面內(nèi)容復(fù)雜度評估

1.1 文件字節(jié)流的信息熵

研究表明,信息熵可用于描述信源平均不確定性[7].本文采取二進(jìn)制方式讀取文件,把不同的字節(jié)值視為不同的信源符號(稱之為字節(jié)符號),然后通過統(tǒng)計(jì)文件中各字節(jié)符號出現(xiàn)的次數(shù),確定信源符號的概率分布,進(jìn)而計(jì)算出該文件的字節(jié)流信息熵H(X).信息熵的計(jì)算公式為:

(1)

其中P(ai) (i=1,2,…,q)為字節(jié)值為i的字節(jié)符號ai(i=1,2,…,q)的先驗(yàn)概率,q為不同字節(jié)符號的個(gè)數(shù).因1個(gè)字節(jié)為8位二進(jìn)制數(shù),故q的值為28=256.式(1)中,字節(jié)符號之間是相互獨(dú)立的,而在實(shí)際文檔中,因文檔內(nèi)容之間具有一定的依賴性,所以字節(jié)之間存在關(guān)聯(lián)性.為了真實(shí)地反映字節(jié)流信息熵,本文采用二維離散平穩(wěn)信源的信息熵.在二維離散平穩(wěn)信源的隨機(jī)序列(X1,X2,…,Xi,…,Xn)中,只有相鄰的兩個(gè)符號之間具有依賴關(guān)系.考慮到相鄰字節(jié)之間的相關(guān)性,將上述隨機(jī)序列分成每兩個(gè)符號為一組,以此構(gòu)成2次擴(kuò)展信源,其形式為X’=XiXi+1.該信源信息熵的計(jì)算公式為:

(2)

其中P(aiaj) (i,j=1,2,…,q)為2次擴(kuò)展信源輸出符號X1X2的聯(lián)合概率.

在離散平穩(wěn)有記憶信源中,多個(gè)符號間具有相互依賴關(guān)系,因此可通過N次擴(kuò)展信源來計(jì)算信源的信息熵,并以此獲得平均符號熵.平均符號熵的計(jì)算公式為:

(3)

當(dāng)式(3)中的N足夠大時(shí),平均符號熵趨于極限熵.

因式(3)計(jì)算出的二進(jìn)制字節(jié)流信息熵能夠真實(shí)地反映文檔(含圖像和文字)的統(tǒng)計(jì)特性,因此式(3)可以用來度量版面文檔的總體復(fù)雜度.另外,從香農(nóng)第一定理可知,該信息熵也能夠反映文檔可壓縮的理論界限.

1.2 基于N次擴(kuò)展字節(jié)符號的字節(jié)流信息熵的計(jì)算

圖1 數(shù)據(jù)處理示意圖

計(jì)算字節(jié)流信息熵時(shí),首先把文件看成二進(jìn)制字節(jié)流,并設(shè)置N個(gè)字節(jié)緩沖區(qū),用于保存文件中的N個(gè)字節(jié).將字節(jié)的內(nèi)容轉(zhuǎn)換為整數(shù),即可獲得字節(jié)符號的索引值.讀取新字節(jié)時(shí),首先將緩沖區(qū)的內(nèi)容左移一個(gè)字節(jié)(如圖1所示),然后把新字節(jié)存放至緩沖區(qū)的末尾字節(jié)處,并計(jì)算字節(jié)符號的新索引值.根據(jù)每個(gè)索引值,統(tǒng)計(jì)字節(jié)符號出現(xiàn)的概率,再由公式(3)計(jì)算出該文件字節(jié)流N次擴(kuò)展的平均信息熵.

基于N次擴(kuò)展字節(jié)符號的平均信息熵的計(jì)算算法如下:

AlgorithmN-BYTE COMENTROPY

Input 版面文檔文件

Output 該文件的字節(jié)流信息熵entropy

Step 1 測量文件長度并保存至fsize

Step 2 計(jì)算N次擴(kuò)展字節(jié)符號集合元素個(gè)數(shù):n=28N

Step 3n個(gè)字節(jié)符號個(gè)數(shù)計(jì)數(shù)器symbol[0~n-1]清零:

fori=0 ton-1 do

symbol[i]=0

endfor

Step 4 讀入文件前N字節(jié)至字節(jié)符號緩沖區(qū)Nbyte[0~N-1]中

Step 5 計(jì)算N次擴(kuò)展首字節(jié)符號的索引index:

index=0

fori=0 toN-1 do

index=index*256+Nbyte[i]

endfor

Step 6N次擴(kuò)展首字節(jié)符號個(gè)數(shù)增1:

symbol[index]=symbol[index]+1

Step 7 對后續(xù)字節(jié)統(tǒng)計(jì)每一個(gè)N次擴(kuò)展字節(jié)符號的出現(xiàn)次數(shù):

while (未遇到文件尾) do

Step 7.1 緩沖區(qū)Nbyte內(nèi)容左移一個(gè)字節(jié):

fori=0 toN-1 do

Nbyte[i]=Nbyte[i+1]

endfor

Step 7.2 讀入新的字節(jié)到緩沖區(qū)元素Nbyte[N-1]中

Step 7.3 計(jì)算新的N次擴(kuò)展首字節(jié)符號的索引index:

index=0

fori=0 toN-1 do

index=index*256+Nbyte[i]

endfor

Step 7.4N次擴(kuò)展字節(jié)符號個(gè)數(shù)增1:

symbol[index]=symbol[index]+1

endwhile

Step 8 計(jì)算各字節(jié)符號出現(xiàn)的概率p[0~n-1]:

fori=0 ton-1 do

p[i]=symbol[i]/(fsize-N+1)

endfor

Step 9 計(jì)算并返回信息熵entropy:

entropy=0

fori=0 ton-1 do

entropy=entropy+(-p[i]*logp[i])

endfor

entropy=entropy/N

返回entropy

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)文檔的構(gòu)成

實(shí)驗(yàn)中,純圖片文檔由像素為32×32、640×480、1 024×768、1 280×960、1 600×1 200的圖像插入到word 2003文檔中構(gòu)成;純文本文檔由空白頁以及2、4、6、8、10、12頁的文本構(gòu)成;混合文檔由圖文混合的1頁文檔構(gòu)成.

2.2 字節(jié)流信息熵與復(fù)雜度的相關(guān)實(shí)驗(yàn)

1)擴(kuò)展級數(shù)N的確定.根據(jù)香農(nóng)信息理論,當(dāng)擴(kuò)展到一定程度時(shí),平均信息熵將趨近于極限熵,并基本保持不變[7].編程實(shí)現(xiàn)上述算法,并通過實(shí)驗(yàn)取字節(jié)信息熵穩(wěn)定的N值作為擴(kuò)展級數(shù).由圖2可以看出,采用4,5-byte方式讀取文檔時(shí),信息熵最小,且通過4,5-byte可以確定圖像的信息熵,因此本文取N=4.

2)圖像復(fù)雜程度與信息熵的關(guān)系.圖像復(fù)雜程度與信息熵的關(guān)系實(shí)驗(yàn)結(jié)果如3圖所示,圖3中不同的線型表示不同復(fù)雜程度的圖像.將不同大小的簡單圖像與真實(shí)場景圖像(圖4)進(jìn)行對比,結(jié)果表明,復(fù)雜圖像的信息熵明顯大于簡單圖像的信息熵,因此可通過計(jì)算信息熵的方法來判斷文檔中圖像的復(fù)雜程度.

圖2 圖像像素大小與信息熵的關(guān)系

圖3 4-byte讀取時(shí)圖像復(fù)雜程度與信息熵的關(guān)系

(a)畫面較為復(fù)雜的圖像 (b)畫面較為簡單的圖像圖4 實(shí)驗(yàn)圖像

3)文檔大小與信息熵的關(guān)系.由圖5可以看出,文檔長度越長,信息熵越大;因此,可采用基于信息熵的方法來評估不同長度文檔的復(fù)雜程度.采用同一種讀取方式時(shí),信息熵越大,說明文檔長度越長.

4)文檔內(nèi)容與信息熵的關(guān)系.由圖6可以看出,采用4-byte方式讀取文檔時(shí),圖文混合文檔的信息熵最大,其次為僅含圖片的文檔,最小的為僅包含文字的文檔;因此,在文檔篇幅一樣的情況下,可以利用信息熵來評估文檔的復(fù)雜程度.

圖5 文檔大小與信息熵的關(guān)系

圖6 文檔內(nèi)容與信息熵的關(guān)系

上述實(shí)驗(yàn)表明:對于同樣篇幅的文檔,圖文混合文檔的信息熵最大;文檔的長度越長,文檔的信息熵越大;對于純圖像文檔,畫面內(nèi)容豐富的圖像文檔的信息熵大于畫面簡單的圖像文檔的信息熵.該結(jié)果與實(shí)際情況相符.

3 結(jié)論

本文采用文件字節(jié)流信息熵的方法對文檔內(nèi)容進(jìn)行了復(fù)雜度評估,該方法不用對文檔中圖文進(jìn)行細(xì)節(jié)劃分即可實(shí)現(xiàn)對文檔內(nèi)容復(fù)雜程度的評估;因此,本文提出的方法優(yōu)于傳統(tǒng)的版面分析方法,且能夠提高文檔的分析效率.同時(shí),本文方法也可為文檔的可壓縮性提供度量.本文在研究中僅考慮了以word 2003為存儲格式的文檔內(nèi)容復(fù)雜度,今后我們將采用不同的文檔格式(如PDF、RTF、TXT等)來測試本文方法的適用性.

猜你喜歡
復(fù)雜程度信源信息熵
基于信息熵可信度的測試點(diǎn)選擇方法研究
基于極化碼的分布式多信源信道聯(lián)合編碼
無線電工程(2022年4期)2022-04-21 07:19:44
探究高校會計(jì)與財(cái)務(wù)的復(fù)雜性
基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
電子測試(2017年12期)2017-12-18 06:35:48
信源控制電路在功率容量測試系統(tǒng)中的應(yīng)用
電子世界(2017年16期)2017-09-03 10:57:36
一種基于信息熵的雷達(dá)動態(tài)自適應(yīng)選擇跟蹤方法
初中幾何教材認(rèn)知復(fù)雜程度的比較研究
——以中國、新加坡教材的三角形問題為例
口孜東煤礦81煤層斷裂復(fù)雜程度定量評價(jià)
綠色科技(2015年2期)2016-01-16 01:26:27
信源自動切換裝置的設(shè)計(jì)及控制原理
基于信息熵的IITFN多屬性決策方法
财经| 甘孜| 澄迈县| 泸西县| 太康县| 洛阳市| 洮南市| 察隅县| 进贤县| 崇明县| 柘城县| 精河县| 饶平县| 张掖市| 和龙市| 茶陵县| 民丰县| 锦州市| 台山市| 潮州市| 海盐县| 东丰县| 乌拉特后旗| 肇源县| 永吉县| 深圳市| 遂溪县| 博湖县| 友谊县| 新津县| 南投县| 滁州市| 中西区| 连平县| 桑日县| 伊春市| 通许县| 漳平市| 岱山县| 恭城| 夹江县|