国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于標簽云的文本可視化方法

2020-06-12 09:47李曉飛
電子元器件與信息技術(shù) 2020年3期
關(guān)鍵詞:度量權(quán)重可視化

李曉飛

(吉林建筑科技學(xué)院,吉林 長春 130000)

0 引言

可視化(Visualization)是利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它涉及到計算機圖形學(xué)、圖像處理、計算機視覺、計算機輔助設(shè)計等多個領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)[1]。目前正在飛速發(fā)展的虛擬現(xiàn)實技術(shù)也是以圖形圖像的可視化技術(shù)為依托的。

數(shù)據(jù)存儲以及數(shù)據(jù)傳播的主要形式包括文本,而可視化技術(shù)研究的一個重要的方向就是文本數(shù)據(jù)的可視化。目前研究者們提出了可視化技術(shù)研究的一些方法,比如文本語義結(jié)構(gòu)方法、標簽云方法等[2-4]。標簽云是一套相關(guān)的標簽以及與此相應(yīng)的權(quán)重。權(quán)重影響使用的字體大小或其他視覺效果。標簽云彩能代表更多的權(quán),標簽是典型的超鏈接,讓用戶可以仔細了解他們的內(nèi)容[5-7]。

目前對可視化技術(shù)的評價方法尚處于發(fā)展階段。本項目進行過程中主要工作為建立文本數(shù)據(jù)可視化方法度量指標,根據(jù)計算結(jié)果對權(quán)重值進行計算,從而分析文本信息可視化的應(yīng)用效果[8]。

1 基于標簽云的文本可視化方法

基于標簽元的文本可視化方法通過建立三類度量指標,從而根據(jù)度量指標進行權(quán)重計算,最后進行評價分數(shù)計算。

1.1 數(shù)據(jù)指標

在可視化技術(shù)中,數(shù)據(jù)的規(guī)模大小是整個量化和評價過程的基礎(chǔ)。標簽云根據(jù)文本數(shù)據(jù)單詞的頻率由大到小進行展現(xiàn),因此數(shù)據(jù)的規(guī)模指標是評價可視化效果的一個重要指標。

假設(shè)文本數(shù)據(jù)中單詞的集合為S{a1,a2,……an},其中ai(i=1,2, ,n)代表文本信息中的某個單詞,令N(ai)表示文本中單詞出現(xiàn)的個數(shù)。定義停止詞集合,表示在文本數(shù)據(jù)中多次出現(xiàn)但是對文本內(nèi)容影響小的單詞為P={p1,p2,……pm},例如中文中出現(xiàn)“的”“是”“個”等詞,英文中的of、a、an、the 等詞。

對文本數(shù)據(jù)可視化的步驟為:①篩選文本數(shù)據(jù)中的單詞——彩信詞;②根據(jù)單詞集合S和停止詞集合P對文本進行過濾得到S-P;③計算S-P中的單詞出現(xiàn)的頻度;④選取頻度閾值h,篩選得彩信詞集C。

1.2 復(fù)雜度指標

復(fù)雜度指標主要指用戶對文本信息進行搜索和觀察,本方法主要通過方向度量和采信詞度量進行衡量。

彩信詞度量指單詞在可視化確定區(qū)域的長寬比:

上式中I為單詞圖片的長,W為寬。彩信詞集C中所有單詞的度量均值為:

每個單詞出現(xiàn)在可視化區(qū)域的大小則取決于權(quán)重,權(quán)重大的顯示較大。但是對于一些單詞長度大而權(quán)重小的情況下彩信詞度量同樣也較大。為了解決這個問題,增加方向度量來進行評價。假設(shè)單詞的角度為ui度,可視化確定區(qū)域展現(xiàn)的方向度量為:

d(ai)的取值范圍為[0,1],方向度量越大,復(fù)雜度指標越高。

1.3 辨識度指標

辨識度指標主要用來呈現(xiàn)單詞色彩的比重以及在可視化展現(xiàn)區(qū)域的位置構(gòu)成。假設(shè)標簽云中每個文本數(shù)據(jù)顯示不同顏色,顏色的數(shù)目為nc,彩信詞的數(shù)量為n,則設(shè)定色彩比重為:

在文本可視化的展現(xiàn)區(qū)域經(jīng)常會出現(xiàn)空白區(qū)域,這些區(qū)域采用空間利用度來衡量,可以通過填充空白區(qū)域來增加空間的利用度。假設(shè)單詞所占區(qū)域面積為t,展現(xiàn)區(qū)域的面積t=W×L,其中W和L分別為展現(xiàn)區(qū)域的寬和長,則空間利用度為:

1.4 權(quán)重計算

根據(jù)數(shù)據(jù)規(guī)模指標、復(fù)雜度指標以及辨識度指標進行權(quán)重的計算。通過模糊分析方法對權(quán)值進行確定。對上述三個指標進行兩兩互相比對,形成模糊矩陣B,然后將其變成模糊一致性判斷矩陣R:

數(shù)據(jù)指標、復(fù)雜度指標和辨識度指標對總評分的影響權(quán)重為qw=(0.316,0.419,0.263)。

1.5 評價分數(shù)計算

根據(jù)相應(yīng)指標的計算和權(quán)重計算,進行了文本數(shù)據(jù)信息頻度算法的分析,算法的具體過程為:

Step1:文本數(shù)據(jù)信息可視化參數(shù)初始化處理。比如在可視化確定區(qū)域展示的單詞的最大和最小數(shù)量,色彩度的最大值,展示區(qū)域顏色的設(shè)置等。

Step2:計算文本信息的總單詞數(shù)量。

Step3:根據(jù)過濾條件確定彩信詞集合,并計算需要可視化展示的單詞信息。

Step4:初始化可視化區(qū)域畫布和單詞信息,將單詞展現(xiàn)在畫布上。

Step5:對統(tǒng)計單詞進行面積比率和方向度量計算。根據(jù)計算公式,獲得可視化分析的指標值。

2 實驗及結(jié)果分析

實驗中,通過對網(wǎng)絡(luò)授課學(xué)生對科目反饋科目信息,采用標簽云可視化方法進行指標計算和分析,從而得到可視化結(jié)果,如圖1。

其中計算出方向度量值為0.61,彩信詞密度為0.112,顏色比重為0.146,空間利用度為1.689。根據(jù)指標值得到最終的總評價分數(shù)為65.12。

實驗中對單文本和多文本來調(diào)整算法中可視化指標并采用多維度圖表進行結(jié)果分析。彩信詞指標折線分析圖如圖2,色彩比重分析圖如圖3。

由分析圖可知,隨著彩信詞密度的增加,方向度量基本是在百分之五十左右上下波動,方度max 值則逐漸上升到平穩(wěn),評價總分逐漸下降,可視化效果逐漸變差。

3 結(jié)論

本文給出了一種基于標簽云的文本可視化分析方法,主要通過建立文本數(shù)據(jù)可視化方法度量指標,根據(jù)計算結(jié)果對權(quán)重值進行計算,從而分析文本信息可視化的應(yīng)用效果。實驗證明,針對但文本以及多文本信息,各指標間是相互對立的,該方法在可視化衡量上具有一定的有效性。

猜你喜歡
度量權(quán)重可視化
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統(tǒng)
鮑文慧《度量空間之一》
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補償性辱虐管理行為?*
思維可視化
自然資源可視化決策系統(tǒng)
權(quán)重常思“浮名輕”
突出知識本質(zhì) 關(guān)注知識結(jié)構(gòu)提升思維能力
度 量
為黨督政勤履職 代民行權(quán)重擔(dān)當(dāng)
全南县| 社旗县| 伊宁市| 醴陵市| 景东| 尼木县| 墨玉县| 辽宁省| 马鞍山市| 临泽县| 桃江县| 内丘县| 富顺县| 定州市| 抚远县| 普兰县| 黔南| 通化县| 富顺县| 定南县| 微山县| 丹江口市| 北碚区| 东阿县| 集安市| 化隆| 金川县| 普宁市| 合山市| 凌源市| 碌曲县| 登封市| 边坝县| 徐州市| 六枝特区| 阿尔山市| 大足县| 自治县| 静宁县| 贵德县| 兴仁县|