孫雨生 汪怡敏 李萬蓉
(1.湖北工業(yè)大學經(jīng)濟與管理學院 武漢 430068)
(2.湖北工業(yè)大學湖北農(nóng)村社會管理創(chuàng)新研究中心 武漢 430068)
(3.南昌大學管理學院 南昌 330031)
(4.首都師范大學管理學院 北京 100048)
伴隨移動互聯(lián)網(wǎng)發(fā)展、社會化媒體環(huán)境形成,作為新型網(wǎng)絡服務載體的數(shù)字圖書館資源爆炸式增長且海量復雜異構特點日趨明顯,但限于認知能力,用戶獲取有效信息的認知負荷加劇、效率降低并致使數(shù)字圖書館信息資源難充分利用。為解決該問題,數(shù)字圖書館利用信息可視化技術,從用戶角度出發(fā)高效組織、分析和形象直觀揭示信息及其關系,挖掘潛在信息,激發(fā)用戶能動性、靈活性高效檢索信息并輔助其更好接受、理解信息,從而滿足用戶個性化信息需求并提升其使用體驗;通過人機交互界面可視化顯示信息檢索結果、過程與館藏資源,形象化并智能化數(shù)字圖書館信息資源,提升信息檢索精度并降低其成本,提高信息資源處理效率及利用程度。因此,有必要系統(tǒng)研究數(shù)字圖書館信息可視化核心問題。
本文全面檢索、清洗知網(wǎng)、萬方及維普數(shù)據(jù)庫中相關文獻,共得109 篇有效文獻;詳讀全部文獻并從中精選39 篇作為參考文獻,最后,遵循信息可視化參考模型,從可視化表征、可視化機制、信息資源組織三方面闡述國內(nèi)數(shù)字圖書館信息可視化核心內(nèi)容研究進展。
主要從信息瀏覽、信息檢索及信息資源組織三方面研究數(shù)字圖書館信息可視化表征內(nèi)容、形式及實現(xiàn)技術、方法與工具,詳見表1。
表1 數(shù)字圖書館信息可視化表征
數(shù)字圖書館信息可視化表征內(nèi)容主要有信息瀏覽可視化(可視化操作,促進人機交互)、信息檢索可視化(可視化檢索過程、結果,以便引導用戶檢索并支持其決策)、信息資源組織可視化(可視化館藏、網(wǎng)絡資源內(nèi)容與分布以便用戶理解)。
2.2.1 信息瀏覽可視化
黃田青[1]、馮雙玲[2]、孫倩[3]、孫雨生[4]認為信息瀏覽主要表征為顆粒圖[1~2,4](文檔在三維空間內(nèi)按字順以顆粒排列,通過空間位置表示文檔間關系(顆粒間作用力使相近度高者靠近、低者遠離),常用于多維可視化)[1]、主題地圖[1~2,4](表達主題詞間關聯(lián)度,單擊可放大查看源文檔)[1]、魚眼圖[1~2,4](基于逐點詳述原理,支持概覽完整信息概念時交互細覽所選數(shù)據(jù),通過鼠標懸浮方式(視角不變)按需放大畫面局部區(qū)域細節(jié)視圖(周圍變?yōu)榭梢姳尘埃?]、拓撲圖[3~4](匹配連接不同國家規(guī)范文檔,顯示相應匹配方式及標識號,幫助用戶整體感知規(guī)范文檔并有效選擇數(shù)據(jù))[3]、熱力圖[3~4](動態(tài)演示某類文獻歷史演變進程)[3]、時間軸[3~4](互操作性時間標尺,提供整體概覽同時細分各類文獻并結合圖文,使用戶直觀了解所需文獻館藏布局與歷史發(fā)展進程,簡化文獻資源檢索過程)[3]等。
2.2.2 信息檢索可視化
1)檢索結果可視化表征形式
黃田青[1]、孫倩[3]、劉瑩[5]認為檢索結果主要表征為文檔透鏡(將多頁一維文檔數(shù)據(jù)映像成三維物體,可直接查閱某頁)[1]、場景圖(樹形結構圖,根節(jié)點表示場景,節(jié)點表示場景各成分并由相應對象實現(xiàn),對象幾何屬性聚合成三維用戶界面“物理”模型)[1,5]、互動式地圖(交互顯示地域資源,清晰顯示世界范圍內(nèi)文獻資源分布以便跨區(qū)域、國家共建共享資源)[3]等。
2)檢索過程可視化表征形式
黃田青[1]、馮雙玲[2]認為檢索過程主要表征為刷圖(選中點陣圖中某區(qū)域一子集,可同時選中刷圖事件、屬性相同的數(shù)據(jù))[1]、表透鏡(瀏覽大數(shù)據(jù)表并徑向分離出需細覽子表)[1]、主題詞云圖(在網(wǎng)狀結構概念空間內(nèi)合理布局由線連接的主題詞,多用二維樹狀結構圖示(復雜度隨節(jié)點數(shù)增加而增大)表示用戶檢索主題詞(用節(jié)點表示,其大小、顏色分別表示含主題詞的書目信息量、用戶訪問歷史)與系統(tǒng)返回結果,其字體大小、節(jié)點間物理距離表示檢索主題詞與各主題詞相關度(字體越大、距離越近則相關度越大),隨用戶所點擊主題詞變化動態(tài)調(diào)整主題詞間空間關系并變換顏色顯示主題詞屬性,用圖示引導用戶檢索行為(點擊放大檢索結果圖示可從中抽取所需結果))[1]、透視墻(將二維轉為三維墻,用投影將對象貼圖到墻上,在透視區(qū)觀察細節(jié)、水平旋轉瀏覽信息以擴大可視范圍并提供流暢視覺過渡,實現(xiàn)時空維瀏覽)[1]等。
2.2.3 信息資源組織可視化
崔曉菡[6]認為信息資源組織主要表征為平面視圖(傳統(tǒng)可視化表現(xiàn)形式主要有柱形圖、扇形圖[6]、折線圖[6~8]、直方圖、圓餅圖[7~8]等,隨社會需求、網(wǎng)絡技術發(fā)展出現(xiàn)更直觀的雷達圖、氣泡圖、散點圖[6]、映像圖、模型圖[6~8]等)、標簽云(以大小、顏色深淺不同的標簽排列顯示關鍵詞出現(xiàn)頻率)[9]、時間軸和互動式地圖(兩者貫穿網(wǎng)站各維度資源顯示)[3]等。
2.3.1 信息瀏覽可視化
1)技術
杜慧敏[10~11]、張洪敏[12]、馬音寧[13]、王亞鳳[14]、趙文宇[15]、孫雨生[16]認為信息瀏覽可視化技術主要有GIS[10~14,16](獲取、存儲、分析、管理、檢索、可視化顯示[12]地理空間信息[10~14]及其他信息[10~11,13~14]以實現(xiàn)空間實體定義、空間關系查詢[10~11,13~14]的計算機管理系統(tǒng),借助空間分析能力以圖形、圖像為主呈現(xiàn)于屏幕[4,10~11,13~14])、VR[15~16](借助計算機、三維傳感技術模擬生成視覺、聽覺、觸覺動態(tài)交互三維虛擬世界[15],可基于遠程沉浸技術[7,17]、VRML 語言[5]實現(xiàn))等。
2)工具
孫雨生[16]、陳偉[18]、秦?。?9]認為三維信息瀏覽可視化工具主要有Autodesk 公司開發(fā)的3D Max 建模(可構建三維室內(nèi)外模型;設置場景動畫、運動路徑,計算動畫長度,創(chuàng)建攝像機并調(diào)節(jié)動畫;設計建筑材質(zhì),賦予模型表面貼圖、材質(zhì),真實模擬自然界;支持CAD、SketchUp 等文件導入及3D 模型、2D平面圖和AVI 格式動畫等文件導出)、美國ESRI 公司開發(fā)的ArcScene 技術(ArcG1S 軟件桌面系統(tǒng)3D分析擴展模塊中核心應用,可將二維數(shù)據(jù)轉換為三維GIS 數(shù)據(jù)并高效分析編輯管理、創(chuàng)建三維圖層)[16,18]、D3.js(應用廣泛的信息可視化JavaScript庫,用D3(數(shù)據(jù)驅(qū)動文檔)綁定數(shù)據(jù)與文檔對象模型并由數(shù)據(jù)決定文檔對象可視化模型,用CSS、HTML 及可縮放矢量圖形可視化顯示)[16,19]等。此外,ActiveX 控件通過專用標準接口用屬性、方法、事件三種機制與所處環(huán)境(容器)交互[16,20]。
2.3.2 信息檢索可視化
1)技術
黃田青[1]、孫雨生[16]、王曼茹[21]、李巧蓉[22]、杜鵑[23]、閆實[24]、顏培亮[25]認為檢索結果可視化常用顯示技術主要有聚焦+上下文[16,21~22,24~25](在有限可視空間內(nèi)[22,24]放大聚焦節(jié)點同時縮小周邊對象,離聚焦節(jié)點越遠對象越小以突出重點、揭示信息上下文關系[21])、廣角與聚焦技術(可視化切換總體概要信息顯示與個別具體信息顯示)[16,21]、徑向填充[16,22,24](以圓環(huán)(將圓環(huán)劃分成數(shù)個扇形區(qū)域,圓環(huán)外層局部區(qū)域和內(nèi)層子節(jié)點間存在對應關系)及漸進色(顏色沿直線變換且可隨意更改直線方向)分別表示層次結構信息[22,24]及連續(xù)型信息,能顯示整體信息、焦點、上下文信息和局部放大信息[22,24])、樹圖[1,6,16,25](現(xiàn)代可視化表現(xiàn)形式,多含算法,在同一視圖顯示數(shù)據(jù)層次里所有單節(jié)點信息,圖形大小表示樹形圖在整個層次中相對大小,其他屬性由顏色等表示[1])、雙曲線樹[25](雙曲線瀏覽[1],通過兩條空間曲線顯示節(jié)點,按節(jié)點到焦點距離縮小圖示,以便在有限視覺范圍內(nèi)顯示盡量多節(jié)點,可用鼠標轉移焦點觀察結構圖示)[1]、錐形樹(半透明錐形三維空間圖,根節(jié)點位于錐形樹頂端或空間(凸輪樹)最左端,子節(jié)點均勻分布在根節(jié)點下方或右側錐形延展部分,鼠標點擊某節(jié)點可使其高亮顯示并旋轉錐形樹使其位于圖形前端)[1~2,25]、關聯(lián)更新技術(兩個或多個窗口數(shù)據(jù)間相互關聯(lián),其數(shù)據(jù)隨相關窗口信息設置更新而改變)、空間顯示技術(基于對象間相似度將對象繪制成歐氏空間內(nèi)點或區(qū)域以構成散列圖,揭示對象內(nèi)部及相互間關系)、濾鏡技術(在窗口上重疊各種效果“濾鏡”,輔助實現(xiàn)信息交互式選擇、移動過濾與分析轉換)[16,21]、Web 三維顯示(使用戶高效檢索圖書實際空間地址)[23]等。
孫雨生[16]、石明芳[17]、王曼茹[21]、李巧蓉[22]、閆實[24]、顏培亮[25]、徐剛[26]、陳俊鳳[27]認為檢索過程可視化技術主要是降維映射技術,包含自組織特征映射[24~25](通過人工神經(jīng)網(wǎng)絡(模擬人腦處理信號特點)抽象歸類錄入數(shù)據(jù)或信號特征[24~25],用簡單幾何關系揭示拓撲結構并將非線性高維數(shù)據(jù)映射到低維空間[24])、潛在語義標引(通過統(tǒng)計方法尋找詞內(nèi)語義結構,分解奇異值,投影文檔向量到較低維度空間以有效轉化數(shù)據(jù))等[16,25]、多維尺度分析[16~17,21~22,24,26~27](用非線性變換將高維數(shù)據(jù)轉為低維數(shù)據(jù)并以疏密不同的散點在低維空間近似表示其關系(點間距離表示數(shù)據(jù)間相似性)[22,24])、尋徑網(wǎng)絡[16~17,21~22,24,26~27](根據(jù)經(jīng)驗性數(shù)據(jù)評估概念或?qū)嶓w間聯(lián)系相似(異)性,用圖論相關概念及原理得出相應網(wǎng)狀模型[22,24])等。
2)方法
孫雨生[4,16]、閆實[24]、徐剛[26]、張繼東[28]、周靜怡[29]認為檢索結果可視化聚類方法主要有基于分類簇圖法[28](按分類標準(關聯(lián)關鍵詞、形成日期、類型等)將相似檢索結果歸為同簇形成虛擬節(jié)點[28],根據(jù)語義內(nèi)容[26]添加標簽[28],再按網(wǎng)狀、層次結構排列簇(集)以揭示簇間邏輯關系[26])、分類文檔簇法(找出共詞文檔并聚類包含共詞最多文檔于同簇,根據(jù)文檔語義內(nèi)容命名簇標題以便檢索,同時以簇為節(jié)點用層、網(wǎng)狀結構排列以揭示文檔簇(集)間邏輯關系,缺點是準確度難保證)[16,24,26,29]、關鍵詞詞頻排序樹法(抽取分析用戶檢索所得文獻關鍵詞并得到其降序排序列表(縱向不同顏色表示關鍵詞在該頁中出現(xiàn)次數(shù),橫向排列小矩形根據(jù)關鍵詞個數(shù)用縱向不同顏色區(qū)域分別表示每頁各關鍵詞詞頻分布信息),將文獻按關鍵詞分類,通過關鍵詞出現(xiàn)頻率揭示大量文獻知識整體結構以便用戶高效獲取相關學科知識)[16,28]、Texttiling 算法[4,26](根據(jù)頁、章、段將文獻分為主題塊[7,21,26],按用戶所輸關鍵詞自動檢索并用長方條(長度代表文獻長度并分成多個對應文本單元塊的小矩形,其顏色深淺、長度分別揭示關鍵詞出現(xiàn)頻率、段落長度[7,21,24,29])表示檢索結果且依次按檢索詞組命中總頁數(shù)、檢索詞被命中總數(shù)、基于共現(xiàn)頻率的相似檢索橫向排序[26,29],用戶點擊對應位置[21,29]選擇性瀏覽文獻[7,21,24,29],通過檢索詞位置、共現(xiàn)情況發(fā)現(xiàn)隱藏信息)等。
孫雨生[16]、王曼茹[21]、朱成[30]認為檢索過程可視化方法主要有動態(tài)查詢與過濾技術(通過控制實時反饋、調(diào)整過濾參數(shù)、修訂檢索提問來過濾信息資源中不必要信息、聚焦用戶興趣)[16,21]、三維圖像處理技術(簡單二維圖像直接顯示成三維圖像,復雜二維圖像平滑處理(基于濾波、插值等算法[16])尖銳凸凹部分以達到理想三維圖像顯示效果,圖像三維坐標中x、y 表示圖像列、行坐標,z=f(x,y)是關于(x,y)點的函數(shù),f 可?。▁,y)像素點處灰度值、像素顏色分量、色調(diào)、飽和度等)[30]等。
2.3.3 信息資源組織可視化
1)技術
趙文宇[15]、孫雨生[16]、莫耀評[31]認為信息資源組織數(shù)據(jù)可視化技術主要有基于幾何投影數(shù)據(jù)可視化技術(包括平行坐標法,用N 條平行且等間距坐標軸(對應不同維度空間)映射N 維空間為二維空間,表示為折線[15,31],具體實現(xiàn)工具為報表(顯示動態(tài)變化數(shù)據(jù)、趨勢性參數(shù)值并實現(xiàn)報告和表格一體化)[31],缺點是依賴屏幕寬度,存在大量數(shù)據(jù)可視化結果重疊問題[15])、面向像素數(shù)據(jù)可視化技術(顏色、窗口內(nèi)像素排列、屬性順序分別反映數(shù)據(jù)某一維度信息、數(shù)據(jù)聚類及相關性、屬性間依賴及相關性)[15,31]、基于圖標數(shù)據(jù)可視化技術(圖標屬性如大小、顏色、形狀等表示對應數(shù)據(jù)項維,具體實現(xiàn)方法主要有Chemoff-faces、Shape Coding、Stick Figures、Color Icons 等)[15,31]、基于層次數(shù)據(jù)可視化技術[15,31](分層處理數(shù)據(jù)量不大且維度不多數(shù)據(jù)集[15],理順數(shù)據(jù)結構[31],形成樹圖、圓錐樹[15,31]等可視化形式)等。此外,XSLT 技術可轉換空間數(shù)據(jù)形成圖書屬性[23]。
2)方法
張琪[7]、周寧[8]、閆實[24]、陳俊鳳[27]、張繼東[28]、田蔚然[32]認為文本可視化方法主要有2D 法[24,27,32](節(jié)點代表文獻,節(jié)點位置、顏色、大小分別揭示文獻關系、類別、屬性,支持動態(tài)查詢、過濾、縮放[24,27,32],典型代表為可視化HTML 文件的Starfield 技術,其用節(jié)點顏色、大小分別表示文件HTTP 狀態(tài)、長短[24,27])、圖標映射法(構建圖標集,在相關標準和圖標集間構建固定映射函數(shù),用不同圖標表示不同文本以向用戶展現(xiàn)文本信息內(nèi)容,缺點是圖標反映含義有限且粗糙)[28]、圖符法[7~8](圖符表示各分類領域具體含義[7],圖符信息存儲采用邏輯壓縮等方法[8])、高維空間描述法(描述文獻主題內(nèi)容)[7~8]、群集映射法(統(tǒng)計文獻關鍵詞出現(xiàn)頻率并用高頻關鍵詞構建高維信息空間,如通過轉換群集映射到三維空間構建三維知識群集圖)、自組織地圖算法(即自組織特征映射)、上下文關聯(lián)法、新聞星系法[24]等。
崔曉菡[6]認為可視化技術、方法與工具有真實可靠性和直觀性(將繁雜數(shù)據(jù)(統(tǒng)計)轉化為直觀圖形),可多維處理數(shù)據(jù),用不同屬性管理數(shù)據(jù),實現(xiàn)數(shù)字圖書館的信息瀏覽、檢索和資源組織可視化。
信息瀏覽可視化主要運用可視化工具,通過ActiveX[20]、GraphLayout[28]等組件基于后臺繪制器按表征形式所做視圖(文檔透鏡、顆粒圖[1~3]等)構建人機交互可視化界面并實現(xiàn)縮放與旋轉、導航、人機交互。此外,張棋[7]、石明芳[17]提到人機交互界面應具有直觀性、吸引性、便捷性、智能性且人性化。
顏培亮[25]認為信息檢索可視化通過圖形或圖像(如刷圖、雙曲線瀏覽[1~2]等)顯示空間數(shù)據(jù)以明確數(shù)據(jù)間聯(lián)系與規(guī)律、透明化信息檢索過程,提供良好人機交互環(huán)境以便用戶高效獲取、分析、理解數(shù)據(jù),增強用戶認知能力,提高查全率和查準率。信息檢索可視化涉及檢索結果(聚類、顯示)、過程(映射[25])可視化[16~17,21~22,24~28,33]。
3.2.1 檢索結果可視化
檢索結果可視化主要采用聚類分析和可視化顯示技術[22,24],前者通過檢索詞與后臺索引項鏈接到相關信息并對其聚類以得到初步檢索結果(文獻及其隱含關系),且可按檢索結果與檢索需求間關系優(yōu)化檢索式(基于可視化技術和檢索詞語義使用戶準確表達檢索需求[7]);后者根據(jù)檢索過程中的聚類特點及數(shù)據(jù)集維度選擇適當方式可視化顯示結果集。
3.2.2 檢索過程可視化
孫雨生[4]、石明芳[17]、王曼茹[21]、李巧蓉[22]、閆實[24]、徐剛[26]、陳俊鳳[27]、程翔[34]認為在檢索過程可視化中,首先用Shneiderman 的信息可視化分類法分析、拓展[17,22]信息空間檢索路徑[17,21~22,24,26~27]并根據(jù)檢索過程精確測量用戶行為[34],其次基于多維尺度分析、尋徑網(wǎng)絡[4,21,24,27]和自組織特征映射[4,24~25]技術通過隱性馬爾可夫模型序列行為分析信息檢索行為[4,26]來將理想檢索路徑插入隱性馬爾可夫模型程序,最后在相應語義空間動態(tài)比較以形成最優(yōu)路徑[26,34]。
檢索過程可視化引入數(shù)據(jù)映射機制,主要是映射技術,集成相應數(shù)據(jù)處理算法組織處理大數(shù)據(jù)集[33,35]并將高維數(shù)據(jù)映射到低維空間以便計算機處理[25];錢力[33]、馬雨佳[35]認為數(shù)據(jù)映射機制設計過程為先根據(jù)可視化模型集成相應數(shù)據(jù)處理算法到系統(tǒng)中,再用可視化引擎驅(qū)動錄入并根據(jù)規(guī)則算法自動處理以將原始數(shù)據(jù)轉換成可視化數(shù)據(jù)格式,最后傳輸并顯示于可視化組件。
信息資源組織可視化主要通過特征抽取資源內(nèi)容特征并按數(shù)據(jù)信息選擇特定技術(基于幾何投影、面向像素、基于圖標、基于層次等)進行處理,形成平面視圖、標簽云等表征形式。張棋[7]、周寧[8]、李玉萍[9]、閆實[24]、陳俊鳳[27]、田蔚然[32]認為館藏信息(空間、屬性信息[27])按其表現(xiàn)形式分為文本、圖像[9,24]、語音和視頻[7~9,27,32]信息。
3.3.1 文本資源可視化
文本資源可視化分提煉文字信息(分析原始文字、忽略資源格式、剔除無用信息以提煉關鍵詞、分析詞頻、總結特征)、轉為圖像(圖像要忠于文字資源含義且符合用戶審美)、人機交互(圖像直觀便捷、吸引用戶目光,提供舒適視覺觀感)三步[9]。
3.3.2 圖像資源可視化
圖像資源可視化分整理圖像內(nèi)容(涉及簡單(色彩、形狀等)、較復雜(所示對象等)、更高級(描述信息與所示對象關系等)內(nèi)容)[9]、用數(shù)據(jù)庫法[7]分類存儲圖像(標注圖像間關系)、選擇顯示模式(使圖像內(nèi)容直觀、易理解,如根據(jù)圖像間聯(lián)系關聯(lián)圖像)三步[9]。
3.3.3 語音資源可視化
語音資源可視化可用文本方式可視化[24],分音頻文字性轉換(采樣漢語語音資源、播放語音信息、分離語音音素、基于語音音素庫識別語音并轉為漢字字符串、存儲漢字文本信息生成漢字文本文件[7~8,32])、文字資源可視化轉換(抽取、可視化內(nèi)容特征(需相應圖符庫、詞庫、平臺支持)[7~8,32])兩步[9]。
3.3.4 視頻資源可視化
視頻資源可視化(有可視化特性[27,32])分抽取數(shù)字視頻信息特征構建特征庫[8~9](可通過MPEG-7與相關知識庫[27]抽取特征內(nèi)容(文本、音頻與視頻(分鏡頭、場景(關鍵幀、預測幀))特征[7~8],包括顏色、形狀、紋理、運動、位置、柵格分布、時間系列、多視點、空間坐標等[7~8])實現(xiàn))、數(shù)字化視頻信息、存儲到視頻庫[27]三步。
韓全惜[36]認為數(shù)字圖書館信息構建(結構化設計信息空間,以組織和運用有意義、清晰、直觀的內(nèi)容、結構表達數(shù)據(jù)內(nèi)容并提供直觀訪問途經(jīng))應按用戶需求(使用信息特點)組織信息、設計界面以提升用戶體驗,構建利于用戶組織、導航、標引、檢索的信息可視化系統(tǒng)以便與信息工作者互動、高效采集信息。數(shù)字圖書館資源組織涉及空間、屬性數(shù)據(jù)[10~14,23,37~38]的采集、處理和存儲。
杜慧敏[10~11]、張洪敏[12]、馬音寧[13]、王亞鳳[14]、杜娟[23]、劉麗[37]、王雅坤[38]認為空間數(shù)據(jù)(圖書館結構及館藏布局(館舍結構、空間布局、地理背景、圖書分類等))按數(shù)據(jù)結構類型分矢量、柵格數(shù)據(jù)(通過透明格網(wǎng)采集、掃描輸入)[14],結合GIS 數(shù)據(jù)分層組織法將圖書館空間數(shù)據(jù)存入地理背景、建筑物、樓層、閱覽室、書架號、書架層等[10,12,38]等圖層并逐級細化顯示[10~13,23,37~38]以詳細標明圖書空間位置[13],具體通過掃描圖紙等數(shù)字化或坐標繪圖法(用計算機自動畫線編程和實地采集的坐標點值保證圖書館部門間及房間設備、書架等間相對位置,確保地理圖形精度[10,12,38])采集;屬性數(shù)據(jù)分圖書空間(對應 空 間 實 體 地 理特 征信 息[10~12,14,23,37~38]與空 間 模型[10~12,14,37~38])、文獻資源屬性信息(書名、作者、出版社、藏書地及關鍵詞等),通過對書目數(shù)據(jù)、數(shù)字文獻資源進行標引來完成[14],數(shù)據(jù)錄入需先在ArcCatelog(地理數(shù)據(jù)資源管理器)中定義對應屬性結構并檢查邏輯一致性,鏈接圖形要素、屬性記錄,多先以手工錄入為主,后自動批量轉換錄入(需二次開發(fā)ArcGIS模塊并與MIS數(shù)據(jù)庫鏈接)[14]。
馬曉亭[39]認為信息資源空間、屬性數(shù)據(jù)預處理包括補充、剔冗、濾噪、關系描述、格式標準化與模式規(guī)范化等,通過ETL等實現(xiàn)數(shù)據(jù)萃取、轉置、加載以在可視化精度范圍內(nèi)控制因采集、處理、計算、分析、可視化等階段數(shù)據(jù)不確定性、應用過程不對稱性產(chǎn)生并累積的誤差、偏差、信息缺失比例及程度,通過隨機選取、等比例調(diào)整樣本規(guī)模以平衡數(shù)據(jù)集規(guī)模與清洗難度,真實、全面、準確、客觀反映大數(shù)據(jù)價值和關系,提高數(shù)據(jù)價值密度、經(jīng)濟性、可用性和可控性。
王亞鳳[14]認為ArcGIS(功能強大完備、應用廣泛的GIS 軟件)數(shù)據(jù)庫分別用數(shù)據(jù)庫實體(存儲如矢量、柵格數(shù)據(jù)等數(shù)據(jù)文件)、數(shù)據(jù)庫管理系統(tǒng)(增刪改查及維護數(shù)據(jù))兩子系統(tǒng)(通過標識碼(ID)連接,實現(xiàn)雙向檢索)存儲空間(存儲為線或面狀實體弧段文件)、屬性數(shù)據(jù)(存儲于關系數(shù)據(jù)庫管理系統(tǒng)[14],圖書空間、文獻資源屬性信息分別存入建筑物、樓層、房間、書架等屬性表[10~12,14,37~38]和文獻資料、讀者、設備等信息表,通過關鍵字與書架號鏈接[23]并由圖書館管理系統(tǒng)中SQL Server[11,37]存儲管理[10~12,14,37~38])。
綜上,本文從可視化表征、可視化機制、信息資源組織三方面闡述了國內(nèi)數(shù)字圖書館信息可視化核心內(nèi)容研究進展:可視化表征主要從信息瀏覽、信息檢索及信息資源組織三方面研究其表征內(nèi)容、形式及實現(xiàn)技術、方法與工具;可視化機制重點研究信息瀏覽(集中于可視化工具運用)、信息檢索(集中于檢索結果、過程可視化)、信息資源組織可視化(集中于文本、圖像、語音、視頻資源)具體過程;信息資源組織核心研究數(shù)字圖書館空間、屬性信息資源的采集、處理和存儲。接下來,筆者將嘗試構建大數(shù)據(jù)環(huán)境下智慧圖書館可視化總體方案。