楊 丹 陶 皖 劉三民 石建國 詹郭睿
(安徽工程大學(xué)計算機(jī)與信息學(xué)院,安徽 蕪湖 241000)
2016年2月,北京大學(xué)、中南大學(xué)及對外經(jīng)濟(jì)貿(mào)易大學(xué)等3所高校獲批數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè);2017年3月,復(fù)旦大學(xué)、中國人民大學(xué)等第二批32所高校獲批;2018年3月,南開大學(xué)、廈門大學(xué)等第三批248所高校獲批。據(jù)教育部統(tǒng)計共283所高校獲批數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)。該專業(yè)重點培養(yǎng)具有以下三方面素質(zhì)的人才:一是理論方面的,主要是對數(shù)據(jù)科學(xué)中模型的理解和運(yùn)用;二是實踐方面的,主要是處理實際數(shù)據(jù)的能力;三是應(yīng)用方面的,主要是利用大數(shù)據(jù)技術(shù)解決具體行業(yè)應(yīng)用問題的能力[3]。文獻(xiàn)[7]分析了大數(shù)據(jù)技術(shù)的產(chǎn)生背景,介紹了大數(shù)據(jù)的基本概念以及重要的應(yīng)用領(lǐng)域,歸納總結(jié)了大數(shù)據(jù)處理的基本流程:包括數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個階段。針對其中的關(guān)鍵技術(shù),如MapReduce、GFS、BigTable、Hadoop以及數(shù)據(jù)可視化等,介紹了基本的處理過程和組織結(jié)構(gòu)。文獻(xiàn)[8]從認(rèn)知、可視化、人機(jī)交互的綜合視角出發(fā),分析了支持大數(shù)據(jù)可視分析的基礎(chǔ)理論,包括支持分析過程的認(rèn)知理論、信息可視化理論、人機(jī)交互與用戶界面理論。并討論了面向大數(shù)據(jù)主流應(yīng)用的數(shù)據(jù)可視化技術(shù):面向文本、網(wǎng)絡(luò)、時空、多維的可視化技術(shù),同時探討了支持?jǐn)?shù)據(jù)可視分析的人機(jī)交互技術(shù)。文獻(xiàn)[9]圍繞大數(shù)據(jù)分析的本質(zhì), 對大數(shù)據(jù)可視化技術(shù)的內(nèi)涵進(jìn)行了剖析, 然后從人的視覺原理和可視化兩個角度對可視化分析技術(shù)原理進(jìn)行了綜述, 最后介紹大數(shù)據(jù)可視化在新聞傳媒和態(tài)勢感知兩個領(lǐng)域的應(yīng)用情況。文獻(xiàn)[10]從是否開源的角度,對大數(shù)據(jù)可視化工具進(jìn)行比較分析,并介紹3個典型可視化工具的教學(xué)實例。
綜上所述,在大數(shù)據(jù)與人工智能技術(shù)快速發(fā)展以及數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)大量開設(shè)的背景下,如何在新工科教育理念指導(dǎo)下開設(shè)好《數(shù)據(jù)可視化技術(shù)》這門主干課程成為當(dāng)務(wù)之急。本文歸納總結(jié)課程定位以及課程目標(biāo),對該課程的教學(xué)內(nèi)容進(jìn)行了詳盡的探討。
本課程的先修課程有高等數(shù)學(xué)、線性代數(shù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)分析語言及應(yīng)用、大數(shù)據(jù)技術(shù)基礎(chǔ)、數(shù)據(jù)挖掘與分析等課程。后繼課程有專業(yè)方向綜合實踐、畢業(yè)設(shè)計(論文)。
數(shù)據(jù)可視化有三個基本功能:
1.信息記錄:將浩瀚如煙云的信息記錄下來最有效的方法就是信息成像或圖記載;
2.信息推理和分析:數(shù)據(jù)分析的任務(wù)通常包括定位、識別、區(qū)分、分類、聚類、分布、排列、比較、內(nèi)外連接比較、關(guān)聯(lián)和關(guān)系等。將信息以可視方式呈現(xiàn)給用戶,可引導(dǎo)用戶從可視化結(jié)果中分析和推理出有效信息,提高信息認(rèn)知的效率。
3.信息傳播與協(xié)同:俗話說一圖勝千言,人類從外界獲取的信息70%以上來自于視覺感知[2]。將復(fù)雜信息傳播與發(fā)布給公眾的最有效途徑就是將數(shù)據(jù)進(jìn)行可視化,達(dá)到信息共享、信息協(xié)作、信息修正和信息過濾等目的。當(dāng)大數(shù)據(jù)以直觀的可視化的圖形形式展示在人面前時,人往往能夠一眼洞悉數(shù)據(jù)背后隱藏的信息并轉(zhuǎn)化為知識[8]。如圖2所示是自然科學(xué)領(lǐng)域1431種雜志的文章之間的217287個相互引用關(guān)系網(wǎng)絡(luò)的簡化結(jié)果。所有1431個結(jié)點被分割聚合成54個模塊,每個模塊結(jié)點是一個聚類,大小對應(yīng)聚類中原來結(jié)點的數(shù)目。
圖1 自然科學(xué)領(lǐng)域的1431種雜志互相引用的聚類數(shù)據(jù)可視化
從上面的分析可以看出,在數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)目標(biāo)中,不管是用在數(shù)據(jù)分析的可視化呈現(xiàn)階段還是單獨的數(shù)據(jù)可視分析,數(shù)據(jù)可視化都具有相當(dāng)重要的作用和地位。
如圖2是安徽工程大學(xué)2018級數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)課程配置流程。
圖2 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)課程配置流程
通過本課程的學(xué)習(xí),考慮到數(shù)據(jù)可視化技術(shù)的應(yīng)用領(lǐng)域和當(dāng)今數(shù)據(jù)可視化技術(shù)發(fā)展趨勢,要求學(xué)生在課程學(xué)習(xí)中從人、數(shù)據(jù)、可視化流程三個層面理解數(shù)據(jù)可視化基本概念[1],掌握包括時空數(shù)據(jù)、地理信息數(shù)據(jù)、高維非空間數(shù)據(jù)、層次與網(wǎng)絡(luò)數(shù)據(jù)等不同類型數(shù)據(jù)的可視化方法[2],使學(xué)生具備解決實際問題的能力,為繼續(xù)學(xué)習(xí)相關(guān)知識和今后的工作打下堅實的基礎(chǔ)。
本課程的任務(wù)是通過課堂教學(xué),使學(xué)生掌握時空數(shù)據(jù)、地理信息數(shù)據(jù)、層次與網(wǎng)絡(luò)數(shù)據(jù)等不同類型數(shù)據(jù)的可視化方法以及對數(shù)據(jù)可視化綜合應(yīng)用的了解,為數(shù)據(jù)可視化技術(shù)在人工智能和大數(shù)據(jù)等其他行業(yè)應(yīng)用打下基礎(chǔ)。支撐專業(yè)學(xué)習(xí)成果中相應(yīng)指標(biāo)點的達(dá)成。
課程目標(biāo)對學(xué)生能力要求如下:
由圖3可知,當(dāng)訓(xùn)練樣本大小為3000時,準(zhǔn)確率ACC(Accuracy)、查準(zhǔn)率P(Precision)、F1值皆達(dá)到最大值,且ROC曲線下面積AUC(Area Under Curve)達(dá)到最大值。AUC可用于評價模型對客戶是否逾期的區(qū)分能力,AUC值越大,模型的區(qū)分能力、泛化性能越強(qiáng)。為保證良好的模型訓(xùn)練效果,同時減少訓(xùn)練成本,本文確定訓(xùn)練樣集大小為3000。在實證研究中從訓(xùn)練集分層隨機(jī)抽取3000樣本對SVM模型進(jìn)行訓(xùn)練,得到訓(xùn)練的模型,并用測試集進(jìn)行檢驗,輸出結(jié)果,各項指標(biāo)如表3所示,圖5為ROC曲線圖。
課程目標(biāo)1。深刻理解數(shù)據(jù)可視化技術(shù)的含義,掌握數(shù)據(jù)可視化技術(shù)的基本原理與方法,掌握數(shù)據(jù)可視化技術(shù)的相關(guān)概念。
課程目標(biāo)2。具有針對不同的數(shù)據(jù)可視化數(shù)據(jù)類型和不同的應(yīng)用場合,運(yùn)用多方面數(shù)據(jù)可視化的應(yīng)用設(shè)計能力,具備查閱學(xué)習(xí)相關(guān)數(shù)據(jù)可視化軟件及方法的能力。
課程目標(biāo)3。理解數(shù)據(jù)可視化技術(shù)在大數(shù)據(jù)技術(shù)應(yīng)用中的重要性,培養(yǎng)學(xué)生將數(shù)據(jù)可視化應(yīng)用于信息管理系統(tǒng)和大數(shù)據(jù)分析的能力[6]。使用Python、Gephi、Matlab等工具實現(xiàn)基本數(shù)據(jù)類型的數(shù)據(jù)可視化,具有分析實驗結(jié)果的能力[3]。
本課程的理論教學(xué)內(nèi)容共10章,采用啟發(fā)式教學(xué),激發(fā)學(xué)生主動學(xué)習(xí)的興趣,培養(yǎng)學(xué)生獨立思考、分析問題和解決問題的能力,引導(dǎo)學(xué)生主動通過實踐和自學(xué)獲得自己想學(xué)到的知識。并采用電子教案,多媒體教學(xué)與傳統(tǒng)板書教學(xué)相結(jié)合,提高課堂教學(xué)信息量,增強(qiáng)教學(xué)的直觀性。穿插案例教學(xué),理論教學(xué)與工程實踐相結(jié)合,引導(dǎo)學(xué)生應(yīng)用基本理論知識對數(shù)據(jù)可視化案例進(jìn)行分析。并突出課內(nèi)討論和課外答疑相結(jié)合的互動式教學(xué)方式。理論教學(xué)內(nèi)容及要求如下:
1. 數(shù)據(jù)可視化簡介:要求掌握數(shù)據(jù)可視化的基本概念、數(shù)據(jù)可視化的發(fā)展和應(yīng)用領(lǐng)域。
2. 視覺感知與視覺通道:要求掌握視覺感知與認(rèn)知的定義和相對性、視覺通道的類型和特性[2]。
3. 數(shù)據(jù):掌握數(shù)據(jù)屬性和數(shù)據(jù)相似性度量;掌握數(shù)據(jù)統(tǒng)計特征和數(shù)據(jù)的不確定性;掌握數(shù)據(jù)質(zhì)量、數(shù)據(jù)預(yù)處理步驟、數(shù)據(jù)預(yù)處理與可視化;掌握文件存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)存儲;理解統(tǒng)計分析方法、探索性數(shù)據(jù)分析、數(shù)據(jù)挖掘、可視數(shù)據(jù)挖掘與可視分析[1]。
4. 數(shù)據(jù)可視化基礎(chǔ):掌握數(shù)據(jù)可視化流程;掌握數(shù)據(jù)濾波、數(shù)據(jù)降維、數(shù)據(jù)采樣以及數(shù)據(jù)聚類和配準(zhǔn);掌握可視化編碼元素的優(yōu)先級以及統(tǒng)計圖表的可視化;掌握可視化設(shè)計框架、數(shù)據(jù)的篩選、視圖選擇與交互設(shè)計、數(shù)據(jù)可視化的直觀映射以及可視化隱喻[5]。
5. 時空數(shù)據(jù)可視化:掌握一維標(biāo)量數(shù)據(jù)可視化;掌握顏色映射法、等值線提取法、高度映射法、標(biāo)記法等二維標(biāo)量數(shù)據(jù)可視化方法;理解等值面繪制、直接體繪制等三維標(biāo)量數(shù)據(jù)可視化方法;了解多變量空間數(shù)據(jù)可視化方法;掌握時序數(shù)據(jù)可視化方法。
7. 高維非空間數(shù)據(jù)可視化:掌握主成分分析法、多維尺度分析法等高維數(shù)據(jù)變換;掌握高維數(shù)據(jù)的可視化呈現(xiàn);理解高維數(shù)據(jù)的可視化交互方法[2][5]。
8. 層次與網(wǎng)絡(luò)數(shù)據(jù)可視化:掌握層次數(shù)據(jù)可視化方法;掌握網(wǎng)絡(luò)數(shù)據(jù)可視化的方法;了解動態(tài)網(wǎng)絡(luò)數(shù)據(jù)的可視化;了解圖可視化中的交互與簡化。
9. 跨媒體數(shù)據(jù)可視化:掌握文本可視化釋義及基本流程;掌握單文本以及多文檔可視化方法;掌握社交網(wǎng)絡(luò)可視化的基本方法以及案例分析;理解系統(tǒng)日志數(shù)據(jù)可視化。
10. 可視化交互與評估:掌握布局、過濾、分組等可視化交互方法[8];了解可視化價值和評估方法。
實驗是本課程一個重要環(huán)節(jié),對學(xué)生完成數(shù)據(jù)可視化技術(shù)的教學(xué)具有重要的作用,通過實驗使學(xué)生掌握數(shù)據(jù)可視化技術(shù)的基本原理與方法。鞏固課堂所講授的內(nèi)容,提高分析問題解決問題的能力。要求態(tài)度認(rèn)真、原理清楚、方法正確、程序完整、實驗報告工整。
完成6個實驗項目(其中4個必做實驗,2個選做實驗),按照自編實驗指導(dǎo)書要求獨立完成或團(tuán)隊協(xié)作完成,并提交實驗報告。在實驗教學(xué)的基礎(chǔ)上,授課教師可以酌情增加綜合實踐環(huán)節(jié),以提高學(xué)生的工程實踐素養(yǎng)以及解決實際問題的能力,將知識無縫轉(zhuǎn)化為實踐動手能力和問題解決方案。實驗項目名稱及要求如下:
1.數(shù)據(jù)可視化繪制與編輯:要求用Python編程實現(xiàn)NumPy庫、Matplotlib庫中可視化繪制與編輯基本函數(shù)及方法。
2.統(tǒng)計圖數(shù)據(jù)可視化:要求用Python語言編程實現(xiàn)餅圖、散點圖、盒須圖等統(tǒng)計圖數(shù)據(jù)可視化。
3.二維數(shù)據(jù)可視化:要求用Python語言編程實現(xiàn)向圖表中添加數(shù)據(jù)表、使用subplots子區(qū)、創(chuàng)建等高線圖、用散點圖理解數(shù)據(jù)等[3]。
4.三維數(shù)據(jù)可視化:要求用Python語言編程實現(xiàn)3D柱狀圖、3翼面圖、3D直方圖等三維圖形的創(chuàng)建[4]。
5.層次與網(wǎng)絡(luò)數(shù)據(jù)可視化(選做):要求用Gephi實現(xiàn)層次與網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)入、結(jié)點篩選、結(jié)點大小、結(jié)點顏色、鏈接、標(biāo)簽等功能[6]。
6.數(shù)據(jù)可視化交互(選做):要求用Gephi實現(xiàn)整理圖形、力導(dǎo)向布局、篩選數(shù)據(jù)、分組、動態(tài)圖形等交互功能[6]。
在大數(shù)據(jù)與人工智能技術(shù)快速發(fā)展以及數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)大量開設(shè)的背景下,本文在新工科教育理念指導(dǎo)下歸納總結(jié)《數(shù)據(jù)可視化技術(shù)》課程定位以及課程目標(biāo),對該課程的教學(xué)內(nèi)容進(jìn)行了詳盡的探討。通過信息管理與信息系統(tǒng)(大數(shù)據(jù)方向)專業(yè)2014級和2015級兩輪教學(xué)實踐的不斷改進(jìn)與優(yōu)化,取得了良好的教學(xué)效果,為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)《數(shù)據(jù)可視化技術(shù)》課程開設(shè)打下了堅實的基礎(chǔ)。