李曉飛
(吉林建筑科技學(xué)院,吉林 長春 130000)
可視化(Visualization)是利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它涉及到計算機圖形學(xué)、圖像處理、計算機視覺、計算機輔助設(shè)計等多個領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)[1]。目前正在飛速發(fā)展的虛擬現(xiàn)實技術(shù)也是以圖形圖像的可視化技術(shù)為依托的。
數(shù)據(jù)存儲以及數(shù)據(jù)傳播的主要形式包括文本,而可視化技術(shù)研究的一個重要的方向就是文本數(shù)據(jù)的可視化。目前研究者們提出了可視化技術(shù)研究的一些方法,比如文本語義結(jié)構(gòu)方法、標簽云方法等[2-4]。標簽云是一套相關(guān)的標簽以及與此相應(yīng)的權(quán)重。權(quán)重影響使用的字體大小或其他視覺效果。標簽云彩能代表更多的權(quán),標簽是典型的超鏈接,讓用戶可以仔細了解他們的內(nèi)容[5-7]。
目前對可視化技術(shù)的評價方法尚處于發(fā)展階段。本項目進行過程中主要工作為建立文本數(shù)據(jù)可視化方法度量指標,根據(jù)計算結(jié)果對權(quán)重值進行計算,從而分析文本信息可視化的應(yīng)用效果[8]。
基于標簽元的文本可視化方法通過建立三類度量指標,從而根據(jù)度量指標進行權(quán)重計算,最后進行評價分數(shù)計算。
在可視化技術(shù)中,數(shù)據(jù)的規(guī)模大小是整個量化和評價過程的基礎(chǔ)。標簽云根據(jù)文本數(shù)據(jù)單詞的頻率由大到小進行展現(xiàn),因此數(shù)據(jù)的規(guī)模指標是評價可視化效果的一個重要指標。
假設(shè)文本數(shù)據(jù)中單詞的集合為S{a1,a2,……an},其中ai(i=1,2, ,n)代表文本信息中的某個單詞,令N(ai)表示文本中單詞出現(xiàn)的個數(shù)。定義停止詞集合,表示在文本數(shù)據(jù)中多次出現(xiàn)但是對文本內(nèi)容影響小的單詞為P={p1,p2,……pm},例如中文中出現(xiàn)“的”“是”“個”等詞,英文中的of、a、an、the 等詞。
對文本數(shù)據(jù)可視化的步驟為:①篩選文本數(shù)據(jù)中的單詞——彩信詞;②根據(jù)單詞集合S和停止詞集合P對文本進行過濾得到S-P;③計算S-P中的單詞出現(xiàn)的頻度;④選取頻度閾值h,篩選得彩信詞集C。
復(fù)雜度指標主要指用戶對文本信息進行搜索和觀察,本方法主要通過方向度量和采信詞度量進行衡量。
彩信詞度量指單詞在可視化確定區(qū)域的長寬比:
上式中I為單詞圖片的長,W為寬。彩信詞集C中所有單詞的度量均值為:
每個單詞出現(xiàn)在可視化區(qū)域的大小則取決于權(quán)重,權(quán)重大的顯示較大。但是對于一些單詞長度大而權(quán)重小的情況下彩信詞度量同樣也較大。為了解決這個問題,增加方向度量來進行評價。假設(shè)單詞的角度為ui度,可視化確定區(qū)域展現(xiàn)的方向度量為:
d(ai)的取值范圍為[0,1],方向度量越大,復(fù)雜度指標越高。
辨識度指標主要用來呈現(xiàn)單詞色彩的比重以及在可視化展現(xiàn)區(qū)域的位置構(gòu)成。假設(shè)標簽云中每個文本數(shù)據(jù)顯示不同顏色,顏色的數(shù)目為nc,彩信詞的數(shù)量為n,則設(shè)定色彩比重為:
在文本可視化的展現(xiàn)區(qū)域經(jīng)常會出現(xiàn)空白區(qū)域,這些區(qū)域采用空間利用度來衡量,可以通過填充空白區(qū)域來增加空間的利用度。假設(shè)單詞所占區(qū)域面積為t,展現(xiàn)區(qū)域的面積t=W×L,其中W和L分別為展現(xiàn)區(qū)域的寬和長,則空間利用度為:
根據(jù)數(shù)據(jù)規(guī)模指標、復(fù)雜度指標以及辨識度指標進行權(quán)重的計算。通過模糊分析方法對權(quán)值進行確定。對上述三個指標進行兩兩互相比對,形成模糊矩陣B,然后將其變成模糊一致性判斷矩陣R:
數(shù)據(jù)指標、復(fù)雜度指標和辨識度指標對總評分的影響權(quán)重為qw=(0.316,0.419,0.263)。
根據(jù)相應(yīng)指標的計算和權(quán)重計算,進行了文本數(shù)據(jù)信息頻度算法的分析,算法的具體過程為:
Step1:文本數(shù)據(jù)信息可視化參數(shù)初始化處理。比如在可視化確定區(qū)域展示的單詞的最大和最小數(shù)量,色彩度的最大值,展示區(qū)域顏色的設(shè)置等。
Step2:計算文本信息的總單詞數(shù)量。
Step3:根據(jù)過濾條件確定彩信詞集合,并計算需要可視化展示的單詞信息。
Step4:初始化可視化區(qū)域畫布和單詞信息,將單詞展現(xiàn)在畫布上。
Step5:對統(tǒng)計單詞進行面積比率和方向度量計算。根據(jù)計算公式,獲得可視化分析的指標值。
實驗中,通過對網(wǎng)絡(luò)授課學(xué)生對科目反饋科目信息,采用標簽云可視化方法進行指標計算和分析,從而得到可視化結(jié)果,如圖1。
其中計算出方向度量值為0.61,彩信詞密度為0.112,顏色比重為0.146,空間利用度為1.689。根據(jù)指標值得到最終的總評價分數(shù)為65.12。
實驗中對單文本和多文本來調(diào)整算法中可視化指標并采用多維度圖表進行結(jié)果分析。彩信詞指標折線分析圖如圖2,色彩比重分析圖如圖3。
由分析圖可知,隨著彩信詞密度的增加,方向度量基本是在百分之五十左右上下波動,方度max 值則逐漸上升到平穩(wěn),評價總分逐漸下降,可視化效果逐漸變差。
本文給出了一種基于標簽云的文本可視化分析方法,主要通過建立文本數(shù)據(jù)可視化方法度量指標,根據(jù)計算結(jié)果對權(quán)重值進行計算,從而分析文本信息可視化的應(yīng)用效果。實驗證明,針對但文本以及多文本信息,各指標間是相互對立的,該方法在可視化衡量上具有一定的有效性。