国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向文本的標(biāo)簽云可視化度量模型的研究

2018-06-14 07:15:10馬明明
軟件 2018年5期
關(guān)鍵詞:彩信認(rèn)知度度量

馬明明,胡 俊

(北京交通大學(xué),計算機(jī)與信息技術(shù)學(xué)院,北京 100044)

0 引言

文本是數(shù)據(jù)傳播和存儲的主要形式之一。如何快速理解文本的主要內(nèi)容及不同文本之間的關(guān)系是可視化技術(shù)應(yīng)用研究的一個重要方向。隨著可視化技術(shù)的發(fā)展,研究者提出了許多有效的文本可視化技術(shù),如標(biāo)簽云可視化技術(shù)[1-2]與文本語義結(jié)構(gòu)樹[3]等,這些技術(shù)在方法、適用對象,以及實現(xiàn)方式等方面均具有不同的特點(diǎn)。如何建立可視化技術(shù)應(yīng)用效果的評價模型,從多維度指標(biāo)對文本可視化技術(shù)進(jìn)行有效的評測,是可視化研究領(lǐng)域的熱點(diǎn)之一。

標(biāo)簽云可視化技術(shù)是一種根據(jù)字體大小、顏色及深淺等方式對文本中關(guān)鍵詞進(jìn)行展現(xiàn)的一種可視化方法。通過度量指標(biāo)對文本的標(biāo)簽云可視化技術(shù)進(jìn)行有效合理的定量評測[4-5],既有助于確定技術(shù)應(yīng)用的效果,也有助于可視化技術(shù)[6]應(yīng)用方法的研究。

可以看出,目前對可視化方法的研究主要在技術(shù)的建立,以及對技術(shù)的分析與改進(jìn)等方面,對技術(shù)應(yīng)用評測[7]方面的研究還處于發(fā)展階段,具體到文本[8-9]的標(biāo)簽云可視化技術(shù)應(yīng)用,也缺乏有效的評價方法[10-11]。本文工作重點(diǎn)是針對標(biāo)簽云可視化技術(shù)提出三級指標(biāo)度量模型,運(yùn)用模糊層次分析方法[12]確定各級指標(biāo)權(quán)重,并根據(jù)計算出的指標(biāo)值對可視化效果進(jìn)行量化分析。

1 基于文本的標(biāo)簽云度量模型

針對文本的標(biāo)簽云技術(shù)應(yīng)用的度量模型的基本組成部分是根據(jù)標(biāo)簽云應(yīng)用特點(diǎn)提出的三級度量指標(biāo)。

1.1 數(shù)據(jù)規(guī)模指標(biāo)

數(shù)據(jù)規(guī)模[4]是其它指標(biāo)提取與量化的基礎(chǔ),標(biāo)簽云可視化通過單詞的頻度從大到小展現(xiàn)在屏幕中,它是衡量標(biāo)簽云可視化效果的一個重要指標(biāo)。

定義1:文本中單詞的集合為 U = { a1, a2,… ,an},其中 ai( i = 1 ,2,… ,n )代表某個單詞,單詞在文本中的出現(xiàn)個數(shù)用 n ( ai)表示。文本中多次出現(xiàn)且對文本主題影響小的停止詞集合為 S = { b1, b2,… ,bm}。如英文文本中的介詞與代詞等可屬于停止詞。

(1)彩信詞的篩選

確定區(qū)域中能夠展示的單詞數(shù)是有限的,在對文本進(jìn)行可視化前需要將文本中的單詞進(jìn)行篩選,選取的單詞稱作文本的采信詞??梢愿鶕?jù)文本的單詞集與停止詞集對文本進(jìn)行過濾,得到文本的單詞集合U-S,通過計算得到集合U-S中的單詞在文本中出現(xiàn)的頻數(shù),在選取一個適當(dāng)?shù)念l數(shù)閾值h后,可以通過篩選得到采信詞集 D = { a1, a2,… ,an1},其中對任意的 x ∈ D, n ( x ) ≥ h 。

(2)彩信詞密度

根據(jù)定義 1,可以得到文本中單詞總數(shù)為,采信詞集D中單詞a的密度可定義為p( a ) = n( a ) /N,a∈D,則文本的采信詞的密度可以表示為:

1.2 認(rèn)知復(fù)雜度指標(biāo)

用戶認(rèn)知復(fù)雜度[12]可以用來衡量可視化技術(shù)是否能讓用戶便捷觀察、搜索原數(shù)據(jù)信息及隱含模式,標(biāo)簽云可視化認(rèn)知復(fù)雜度是由彩信詞方度及方向認(rèn)知度構(gòu)成。

(1)彩信詞方度

標(biāo)簽云可視化技術(shù)實現(xiàn)中是將每個單詞轉(zhuǎn)換成圖片并放置到展現(xiàn)區(qū)中,采信詞方度用于近似描述單詞可視化區(qū)域的長寬比,定義為:

其中l(wèi)ength和width分別對應(yīng)單個單詞圖片的長和寬,其值與單詞包含的符號數(shù)相關(guān)。采信詞集D中全部單詞的方度均值定義為文本的采信詞方度,即為:

單詞字體的大小取決于該單詞在文本中的權(quán)重。權(quán)重大的字體從視覺上引人注目,然而某些權(quán)重較小但單詞長度較大的單詞,如“antidisestablishmentarianism”,其采信詞方度較大,同樣也會引起關(guān)注。

(2)方向認(rèn)知度

標(biāo)簽云中詞云角度增加,則其認(rèn)知復(fù)雜度相應(yīng)提高,認(rèn)知復(fù)雜度與角度成正比。角度的變化范圍通??稍O(shè)定為[0, 90 °],若單詞 ai的可視化展現(xiàn)出的角度為αi度,則該單詞的方向認(rèn)知度和可視化展現(xiàn)出的方向認(rèn)知度(Direction Recognition)可分別定義如下:

顯然,此時方向認(rèn)知度的取值范圍是[0,1]。方向認(rèn)知度的值越大,認(rèn)知復(fù)雜度越高。

1.3 視覺表現(xiàn)及效果指標(biāo)

視覺表現(xiàn)及效果[12]可以用來衡量呈現(xiàn)圖像的辨識度及視覺效果。度量標(biāo)簽云可視化視覺表現(xiàn)及效果的指標(biāo)是由色彩比重及空間利用度構(gòu)成。

(1)色彩比重

標(biāo)簽云中的每個單詞顯示不同顏色,顏色種類的多少影響視覺效果。采信詞的數(shù)目是1n,顏色的種類數(shù)目是 c,色彩的種類越多,視覺效果越差,色彩比重(Ration of Color)表示為:

(2)空間利用度

展現(xiàn)區(qū)域是指文本可視化的區(qū)域。將文本的彩信詞進(jìn)行可視化時,會出現(xiàn)未被利用的空白區(qū)域,空間利用度可以用于衡量展現(xiàn)區(qū)域的利用程度。單詞ai( i = 1 ,2,… ,n1)所占區(qū)域面積為 si,展現(xiàn)區(qū)域的寬和長分別為WIDTH和LENGTH,其面積 S= W IDTH×LENGTH,則空間利用度(Space Utilization)可定義為:

標(biāo)簽云可視化技術(shù)應(yīng)用中將進(jìn)行碰撞檢測,可以通過對空白區(qū)域進(jìn)行填充來充分利用展示空間。

1.4 度量模型指標(biāo)的權(quán)重計算

可以根據(jù)定義的指標(biāo)來建立三級層次度量模型,其中不同層級指標(biāo)的依賴關(guān)系:一級指標(biāo)包括總評分;二級指標(biāo)包括數(shù)據(jù)規(guī)模、認(rèn)知復(fù)雜度、視覺效果及表現(xiàn),其中數(shù)據(jù)規(guī)模包含三級指標(biāo)彩信詞密度,認(rèn)知復(fù)雜度包含三級指標(biāo)彩信詞方度、方向認(rèn)知度,視覺效果及表現(xiàn)包含三級指標(biāo)色彩比重、空間利用度。

根據(jù)度量模型的特點(diǎn)采用模糊層次分析方法確立度量模型各級權(quán)值。對二級指標(biāo)中的元素運(yùn)用指標(biāo)比較數(shù)量標(biāo)度進(jìn)行兩兩對比,構(gòu)造出3*3模糊互補(bǔ)矩陣 B = ( bij)3×3,同時根據(jù)模糊一致判斷矩陣的計算方法,將模糊互補(bǔ)矩陣 B = ( bij)3×3變成模糊一致判斷矩陣(i = 1 ,2,… ,n )。B和R矩陣如下所示:

根據(jù)方根法得到“數(shù)據(jù)規(guī)模”、“用戶認(rèn)知復(fù)雜度”和“視覺表現(xiàn)及效果”對一級指標(biāo)影響的權(quán)重是 w = ( 0.3 1 62,0.4199,0.2639)。利用模糊層次分析法對二級指標(biāo)對應(yīng)的三級指標(biāo)進(jìn)行層次單排序并計算它們的權(quán)重。各自的權(quán)重如下表1所示。

根據(jù)上述的二級和三級指標(biāo)的層次單排序,對“采信詞密度”、“采信詞方度”、“方向認(rèn)知度”、“色彩比重”及“空間利用度”評價指標(biāo)進(jìn)行層次總排序,結(jié)果如下表2所示。

表2 層次總排序Tab.2 To tal sort weight

2 評價分?jǐn)?shù)計算

本文建立的指標(biāo)的量綱和數(shù)量級不同,需要對各個指標(biāo)進(jìn)行無量綱化處理。這里采用最大最小正規(guī)化法,計算方法如下:

其中,Xi表示指標(biāo) i的原始值,Yi表示Xi的無量綱化值,Ximin與Ximax分別為指標(biāo)i的最小值與最大值。

2.1 評價分?jǐn)?shù)算法模型

根據(jù)評價模型和相應(yīng)指標(biāo)的計算公式,設(shè)計出文本頻次分析的算法流程并用Java編程語言實現(xiàn),整體流程分為文本處理、可視化圖片展示以及指標(biāo)計算三個過程,算法流程如下:

(1)初始化待處理文本的可視化參數(shù),包括需要展示的單詞數(shù)量與顏色數(shù)量、展示單詞圖片的背景顏色與大小、字體最大最小值及單詞最小長度等。

(2)計算文本總單詞數(shù)量。

(3)根據(jù)過濾條件,包括單詞長度過濾,停止詞過濾和頻數(shù)大小過濾等,從文本單詞集中獲得選定文本需要展示的單詞集合,即采信詞集合。

(4)根據(jù)設(shè)置參數(shù)計算需要返回單詞的詳細(xì)信息,包括字體大小、顏色個數(shù)等。

(5)初始化圖片畫布的相關(guān)信息和單詞的相關(guān)信息,將單詞渲染到畫布上進(jìn)行展示。

(6)統(tǒng)計展示單詞所占畫布總面積的比率,統(tǒng)計各個方向的長寬比例之和。

(7)根據(jù)計算公式,獲得彩信詞密度、方向認(rèn)知度、色彩比重、方度平均值、方度最大值和空間利用度等用于度量分析的指標(biāo)值。

2.2 實驗樣本數(shù)據(jù)計算結(jié)果

實驗中,從百度學(xué)術(shù)下載關(guān)于 BP與數(shù)據(jù)可視化等相關(guān)英文論文,運(yùn)用標(biāo)簽云可視化技術(shù)對其可視化,并進(jìn)行指標(biāo)計算與度量分析。針對源于某篇論文進(jìn)行采信詞選取及可視化,共得出300多條數(shù)據(jù),其中一個的可視化結(jié)果如圖1所示。

圖1 文本的標(biāo)簽云可視化結(jié)果Fig.1 The result of tag cloud visualization

計算出彩信詞密度為 0.1118,方向認(rèn)知度為0.63,色彩比重為 0.15,彩信詞方度為 2.0929,空間利用度為 1.7112。此處需要對彩信詞方度以及空間利用度進(jìn)行無量綱化,通過300條數(shù)據(jù)得到的彩信詞方度以及空間利用度的最大值最小值如下表 3所示。無量綱化處理后,得到最終的彩信詞方度為0.2616,空間利用度為0.1711。

表3 無量綱化最大最小值Tab.3 Nondimensionalization about maximum and minimum

按照度量模型層次關(guān)系依次計算各級指標(biāo)的評分以及總評分。

“數(shù)據(jù)對象規(guī)?!庇伞安尚旁~密度”表示,可按0.1118*100計算,即得11.18分?!坝脩粽J(rèn)知復(fù)雜度”與“采信詞方度”和“方向認(rèn)知度”正相關(guān),計算表達(dá)式為 0.6044*采信詞方度+0.3956*方向認(rèn)知度,計算結(jié)果為0.4073*100,即得40.73分?!耙曈X效果及其表現(xiàn)”與“色彩比重”正相關(guān)同時與“空間利用度”負(fù)相關(guān),計算公式為 0.5505*色彩比重+0.4495*(1-空間利用度),計算結(jié)果為0.4552*100,即得 45.52分。標(biāo)簽云可視化度量模型與“數(shù)據(jù)規(guī)?!焙汀坝脩粽J(rèn)知復(fù)雜度”負(fù)相關(guān),與“視覺效果及其表現(xiàn)”正相關(guān),因此標(biāo)簽云可視化度量模型總評分的計算公式為 0.3162*(1-數(shù)據(jù)對象規(guī)模)+0.4199*(1-用戶認(rèn)知復(fù)雜度)+0.2639*視覺效果及其表現(xiàn),計算結(jié)果為0.6498*100,即得64.98分。

3 實驗及其結(jié)果分析

可以針對單個文本、多個文本,以及特殊文本來調(diào)整算法中輸入的彩信詞數(shù)量與色彩種類數(shù)目等來進(jìn)行可視化度量指標(biāo)分析。

運(yùn)用多維度折線圖進(jìn)行數(shù)據(jù)分析,由于數(shù)據(jù)的范圍變化不同,為使各個數(shù)據(jù)在同一范圍顯示出趨勢,對數(shù)據(jù)同樣進(jìn)行無量綱化處理,進(jìn)行相應(yīng)的擴(kuò)展或縮小,例如:彩信詞密度范圍基本在[0,1],總評分在[1,100],將彩信詞密度擴(kuò)展 100倍;同樣的,方向認(rèn)知度、色彩比重擴(kuò)大100倍;方度平均值、空間利用度擴(kuò)大10倍;彩信詞數(shù)量縮小2倍。實驗中分析的單文本論文是An Interactive System for Set Reconstructi- on from Multiple Input Sources,簡稱AISSRMIS。

(1)單文本彩信詞密度對各個數(shù)據(jù)結(jié)果影響

針對AISSRMIS文本,控制色彩比重不變,控制彩信詞的數(shù)量逐步遞增 5個,即彩信詞密度遞增,利用評價分?jǐn)?shù)算法實現(xiàn)的編程獲得100組實驗數(shù)據(jù)。對所獲得的結(jié)果數(shù)據(jù)根據(jù)度量模型及相應(yīng)的指標(biāo)進(jìn)行度量分析,得到圖2的彩信詞指標(biāo)變化折線圖。

根據(jù)折線圖可知,隨著單詞的遞增(即彩信詞密度的增加),因為標(biāo)簽中的單詞放置的方向是隨機(jī)產(chǎn)生的,所以方向認(rèn)知度基本上保持在50%左右上下波動;方度的最大值呈現(xiàn)梯度上升趨勢且逐漸趨于平穩(wěn);空間利用度隨著彩信詞數(shù)量的遞增而增加,最終趨于一個穩(wěn)定值;根據(jù)度量模型計算的評價總分?jǐn)?shù)穩(wěn)步遞減,視覺表現(xiàn)及效果變差。

(2)單文本色彩比重對數(shù)據(jù)結(jié)果及視覺表現(xiàn)的影響

針對 AISSRMIS文本,控制彩信詞數(shù)量不變(200個),單詞顏色種類以5開始增加5種顏色,最大顏色種類數(shù)是200種,根據(jù)評價分?jǐn)?shù)算法程序獲得40組實驗數(shù)據(jù),得出圖2中色彩比重指標(biāo)折線圖。

根據(jù)折線圖所示,當(dāng)彩信詞數(shù)量不變時(即彩信詞密度不變),方向認(rèn)知度是隨機(jī)產(chǎn)生,所以變化幅度很?。浑S著色彩比重的增加,總評分逐漸提高,相應(yīng)的視覺表現(xiàn)及效果增加。

(3)單文本方向認(rèn)知度對數(shù)據(jù)結(jié)果及視覺表現(xiàn)的影響

針對AISSRMIS文本,控制彩信詞數(shù)量和顏色種類數(shù)量不變(彩信詞數(shù)量200,顏色種類20),根據(jù)評價分?jǐn)?shù)算法程序隨機(jī)產(chǎn)生大量實驗數(shù)據(jù),獲得了10000條數(shù)據(jù),對方向認(rèn)知度相同的數(shù)據(jù)進(jìn)行去重獲得100組不重復(fù)的實驗數(shù)據(jù),得出圖3中的方向認(rèn)知度指標(biāo)折線圖。根據(jù)折線圖所示,可以得出隨著方向認(rèn)知度數(shù)據(jù)的增大,最終的總評分越來越小,相應(yīng)的視覺效果越來越差。

圖2 彩信詞與色彩比重指標(biāo)折線圖Fig.2 Word and color weight index line charts

圖3 方向認(rèn)知度指標(biāo)與多文本數(shù)據(jù)變化折線圖Fig.3 Direction recognition index and multi - text data change line charts

(4)多文本數(shù)據(jù)之間的關(guān)系

從百度學(xué)術(shù)上搜索ACM以及SCI的相關(guān)英文論文,控制彩信詞數(shù)量為200個,色彩種類為50種。利用評價分?jǐn)?shù)算法程序?qū)?50篇英文文本進(jìn)行分析獲得150條實驗數(shù)據(jù),得到圖3中的多文本數(shù)據(jù)變化折線圖。

根據(jù)折線圖所示,有個別文本彩信詞數(shù)量比設(shè)定的彩信詞數(shù)量少,空間利用度以及方度平均值無明顯規(guī)律變化且相差不大且總評分也無明顯變化,這說明各個文本之間的各個指標(biāo)數(shù)據(jù)無明顯關(guān)系,現(xiàn)有的度量模型沒有針對多文本之間的關(guān)系進(jìn)行分析。

(5)特殊文本的數(shù)據(jù)變化

根據(jù)上述(4)的多文本情況,找出輸入200彩信詞最終結(jié)果顯示小于200彩信詞的一個英文文本Keeping Apace with Progress in Natural Language Processing,同時將彩信詞數(shù)量由5逐步遞增至160,根據(jù)評價分?jǐn)?shù)算法程序得到實驗數(shù)據(jù)并對其各個數(shù)據(jù)變化規(guī)律進(jìn)行分析,得到圖4中的特殊文本數(shù)據(jù)變化折線圖。

根據(jù)折線圖可知,該英文文本最多能夠在展現(xiàn)區(qū)顯示出151個彩信詞,之后趨于一致,同時其方度平均值、方度最大值以及空間利用度均趨于一致。

(6)不同類型英文文本數(shù)據(jù)對比

從 ScienceDirect eBooks-Mathematics-journals中找出三組(Advances in Accounting、biology和physics)類別的英文論文,控制彩信詞的數(shù)量為200,顏色種類為50,根據(jù)評價分?jǐn)?shù)算法程序得到實驗數(shù)據(jù),得到如圖4所示的三種類型文本指標(biāo)折線圖。由圖所示不同類型總評分相差無幾,也就是說數(shù)據(jù)的總評分和英文文本類型幾乎無關(guān)聯(lián)。

4 總結(jié)

圖4 特殊文本數(shù)據(jù)與三種類型文本指標(biāo)折線圖Fig.4 Special text data and three types of text index line charts

本文給出了一組針對標(biāo)簽云可視化結(jié)果進(jìn)行度量分析的指標(biāo),并運(yùn)用模糊層次分析方法得出各指標(biāo)影響標(biāo)簽云可視化結(jié)果的權(quán)重。通過使用算法實現(xiàn),計算出針對文本的標(biāo)簽云可視化結(jié)果的指標(biāo)值,以此進(jìn)行有關(guān)文本的標(biāo)簽云可視化效果的分析。所做實驗標(biāo)明,針對同一篇英文文本,隨著彩信詞密度的增加,方度最大值和空間利用度會相應(yīng)地增加;總評分減少,視覺表現(xiàn)效果顯示會變差;總評分與色彩比重呈反比關(guān)系;對于特殊文本的可視化,當(dāng)彩信詞數(shù)量在一定范圍內(nèi)時,方度平均值、方度最大值,以及空間利用度均趨于一致。針對多文本的可視化結(jié)果分析也可以看出,設(shè)計的指標(biāo)之間是相互獨(dú)立。

[1] Jin Xu, Yubo Tao, Hai Lin. Semantic word cloud generation based on word embeddings[J]. IEEE Pacific Visualization Symposium, 2016: 239-243.

[2] 任磊, 杜一, 馬帥, 等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報, 2014, 25(9): 1909-1936.

[3] H. Paul Zellweger ArborWay Labs, Rochester MN. Tree Visualizations in Structured Data Recursively Defined by the Aleph Data Relation[J]. IEEE Conference Publications, 2016:21-26.

[4] 曾晶. Radviz可視化技術(shù)度量模型的研究[D]. 北京: 北京交通大學(xué)圖書館, 2011.

[5] 高芳. 平行坐標(biāo)可視化的度量模型研究[D]. 北京: 北京交通大學(xué)圖書館, 2009.

[6] 岳鋼, 王楠. 網(wǎng)絡(luò)學(xué)習(xí)中知識可視化效率研究[J]. 軟件,2015, 36(2): 92-96.

[7] Jimmy Johansson, Camilla Forsell. Evaluation of Parallel Coordinates: Overview, Categorization and Guidelines for FutureResearch[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 579-588.

[8] 陳海紅. 多核SVM 文本分類研究[J]. 軟件, 2015, 36(5): 7-10.

[9] 謝子超. 非結(jié)構(gòu)化文本的自動分類檢索平臺的研究與實現(xiàn)[J].軟件, 2015, 36(11): 112-114.

[10] Florian Heimerl, Steffen Lohmann, Simon Lange, et al. Word Cloud Explorer: Text Analytics based on Word Clouds[J].IEEE Conference Publications, 2014: 1833-1842.

[11] Rita Oliveira, Telmo Silva, Jorge Ferraz de Abreu. Development and evaluation of Clouds4All interface: A tag clouds reader for visually impaired users[J]. IEEE Conference Publications,2015: 1-6.

[12] 雷瑩. 基于Web的可視化數(shù)據(jù)挖掘分析平臺及可視化度量模型的研究與實現(xiàn)——樹圖可視化技術(shù)的度量模型研究[D]. 北京: 北京交通大學(xué)圖書館, 2014.

猜你喜歡
彩信認(rèn)知度度量
有趣的度量
模糊度量空間的強(qiáng)嵌入
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
彩信的巔峰與隕落
托幼園所教師衛(wèi)生保健知識認(rèn)知度的研究分析
PICC置管患者置管認(rèn)知度及影響因素的研究
地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
綜合護(hù)理干預(yù)改善未婚人流術(shù)患者避孕知識認(rèn)知度效果觀察
大數(shù)據(jù)告訴你湖南人如何“打年貨”
華聲(2014年24期)2015-01-07 08:39:06
彩信系統(tǒng)網(wǎng)絡(luò)與業(yè)務(wù)安全風(fēng)險淺析
荣成市| 北京市| 通城县| 沈丘县| 石狮市| 塘沽区| 彭阳县| 修水县| 固原市| 和龙市| 昌乐县| 昭觉县| 九台市| 胶州市| 梁平县| 同心县| 荃湾区| 阿瓦提县| 临猗县| 丰镇市| 平乡县| 抚顺县| 金平| 河池市| 桃源县| 井冈山市| 中阳县| 瑞丽市| 常山县| 曲沃县| 吉隆县| 镇平县| 阿合奇县| 湘潭县| 仲巴县| 乾安县| 聊城市| 尉犁县| 肃北| 凤山市| 台中县|