◇湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院 許健 何少芳
當(dāng)前,農(nóng)業(yè)信息化智能化正在逐步推進(jìn),農(nóng)業(yè)院校的才培養(yǎng)模式需緊跟產(chǎn)業(yè)需求的變化。本文首先分析了我校傳統(tǒng)多元統(tǒng)計分析課程教學(xué)中存在的問題與不足,之后提出了要用好農(nóng)業(yè)院校優(yōu)勢,引入農(nóng)業(yè)相關(guān)學(xué)科領(lǐng)域真實案例數(shù)據(jù)和問題需求,以問題驅(qū)動,從解決問題的過程中學(xué)習(xí)相關(guān)概念和方法,建立問題驅(qū)動型教學(xué)模式。
“多元統(tǒng)計分析”是應(yīng)用性較強的一門統(tǒng)計學(xué)基礎(chǔ)課程,其中的很多經(jīng)典方法比如主成分分析、因子分析、聚類分析、判別分析等,早已經(jīng)應(yīng)用到諸如物理、化學(xué)、生物、醫(yī)學(xué)、經(jīng)濟學(xué)等領(lǐng)域,目前也是是機器學(xué)習(xí)方法庫中的重要組成部分。本課程一般以“概率論與數(shù)理統(tǒng)計”和“線性代數(shù)”為先修課程,涉及的內(nèi)容豐富,除了經(jīng)典的多元分析方法,新出版的教材還會納入一些機器學(xué)習(xí)方法,比如決策樹、bagging 回歸、隨機森林等。這門課作為一門統(tǒng)計學(xué)應(yīng)用課程,其目的是提高學(xué)生對真實數(shù)據(jù)的分析能力。只有準(zhǔn)確理解方法背后的原理,才能在真實數(shù)據(jù)分析場景中嵌入合適的方法。為了在有限的學(xué)時中盡快引導(dǎo)學(xué)生入門,在方法與編程實現(xiàn)方面都有所提高,筆者從課程教學(xué)內(nèi)容安排和教學(xué)模式方面進(jìn)行了一些探索。
該課程的理論部分對數(shù)學(xué)以及統(tǒng)計學(xué)理論有較高要求,編程實現(xiàn)方面需要學(xué)生學(xué)習(xí)R或者Python等編程語言。為了在授課中突出方法原理,強調(diào)編程實現(xiàn),培養(yǎng)學(xué)生的“問題驅(qū)動”思維意識,同時結(jié)合農(nóng)業(yè)院校特色,在課程教學(xué)內(nèi)容上進(jìn)行了適當(dāng)調(diào)整。
當(dāng)前,大數(shù)據(jù)、人工智能、5G通信等現(xiàn)代信息技術(shù)逐漸融入農(nóng)業(yè)生產(chǎn)過程的各個環(huán)節(jié),智慧農(nóng)業(yè)已經(jīng)成為現(xiàn)代農(nóng)業(yè)發(fā)展的新業(yè)態(tài)和前進(jìn)方向。2020年,中央和地方各級政府尤其提出要加快大數(shù)據(jù)、人工智能、第五代移動通信網(wǎng)絡(luò)等現(xiàn)代信息技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用[1-2]。智慧農(nóng)業(yè)涵蓋的內(nèi)容豐富,所需技術(shù)門類多,存在明顯的學(xué)科交叉融合。未來智慧農(nóng)業(yè)領(lǐng)域的研發(fā)重點將聚焦在以下三個方面:①以農(nóng)業(yè)遙感為代表的作物識別與生長監(jiān)測技術(shù);②以機器視覺為代表的影像分析與利用技術(shù);③以農(nóng)業(yè)物聯(lián)網(wǎng)為代表的信息感知、分析與調(diào)控技術(shù)[3]。
農(nóng)業(yè)遙感的有效應(yīng)用,首先要能“讀懂”高光譜等遙感數(shù)據(jù),機器視覺中大量的影像數(shù)據(jù)需要做模式識別,物聯(lián)網(wǎng)數(shù)據(jù)中蘊含著寶貴的商業(yè)信息等待挖掘。這些都是農(nóng)業(yè)信息化中的真實問題,并且相關(guān)或類似的數(shù)據(jù)往往在本校也能夠獲取到。這些數(shù)據(jù)案例是天然的優(yōu)秀教學(xué)題材。比如,不同品種油菜籽的近紅外光譜之間的差異在主成分上的體現(xiàn)方式,可以用于理解主成分方法的原理;不同品種紅薯質(zhì)地口感專家打分情況與體現(xiàn)紅薯風(fēng)味的各項物化指標(biāo)間的關(guān)系,用于解釋因子模型如何探索變量之間的相關(guān)性結(jié)構(gòu);根據(jù)油菜籽的近紅外光譜判斷品種類型,體現(xiàn)判別分析方法的功能;油菜冠層光譜與油菜氮素營養(yǎng)的偏最小二乘回歸模型,展示當(dāng)變量個數(shù)大于樣本個數(shù)情況下的多元回歸建模。
經(jīng)典的多元統(tǒng)計分析教材通常都著重于數(shù)學(xué)理論和推導(dǎo),關(guān)于多元正態(tài)分布的性質(zhì)占據(jù)很大的篇幅,過度強調(diào)在理想的假設(shè)下能推得的諸多性質(zhì),而對于真實數(shù)據(jù)的分析強調(diào)得則不夠,同時,在統(tǒng)計軟件的應(yīng)用方面可能會慢于軟件技術(shù)的進(jìn)步速度。根據(jù)我的經(jīng)驗,由于多元分析的理論推導(dǎo)過程通常相對“規(guī)模龐大”,講清楚一個理論細(xì)節(jié)要花費大量的課堂時間,學(xué)生很容易產(chǎn)生排斥心理,影響教學(xué)效果,同時也造成方法的應(yīng)用部分匆匆?guī)н^,花了大量精力,學(xué)生留下的可能只是理論的碎片,而對于方法有什么用、怎么用則不甚清楚。鑒于以上問題,在我們的教學(xué)中,對于經(jīng)典多元分析方法,如判別和分類分析、主成分分析、因子分析、聚類分析、典型相關(guān)分析,我們強調(diào)它們的原理的直觀性解釋和在數(shù)據(jù)分析場景中的應(yīng)用,弱化理論的數(shù)學(xué)推導(dǎo),但是注重方法的幾何直觀解釋,比如二次型與置信橢圓[4],主成分與方差極大化方向,線性判別與最優(yōu)投影方向等,幾何直觀對理解方法的原理十分有益。在講解經(jīng)典方法的同時,補充一些原理簡單但有效果優(yōu)良的機器學(xué)習(xí)方法,比如決策樹、隨機森林等。具體的內(nèi)容安排見表1。多元正態(tài)分布有關(guān)的方法,比如針對均值和協(xié)方差矩陣的檢驗等,由于實際問題可能難以滿足多元正態(tài)的分布假設(shè),實際應(yīng)用場景不多,所以在課堂教學(xué)中去掉這一部分內(nèi)容,減輕學(xué)生負(fù)擔(dān)。
表1 理論課教學(xué)內(nèi)容
多元數(shù)據(jù)的分析處理幾乎離不開計算機的輔助,因此學(xué)生必須掌握經(jīng)典多元方法的編程實現(xiàn)。試驗課的內(nèi)容基本上與理論課相對應(yīng),R語言或者Python只在第一次實驗課上做簡要介紹,學(xué)生自學(xué),不在課堂上學(xué)習(xí)。通常,如果使用R語言,那么語言自帶了幾乎所有經(jīng)典多元分析方法的命令,了解命令的相關(guān)參數(shù)功能就能實現(xiàn)相關(guān)方法。但是這樣對初學(xué)者掌握方法的原理沒有幫助,因此在實驗課中,對于合適的內(nèi)容,要求學(xué)生自己編程實現(xiàn),不直接套用現(xiàn)成命令。適合自己編程實現(xiàn)的方法有經(jīng)典的回歸方法、線性判別、Logistic判別、主成分的計算、因子模型的主成分方法、K均值聚類、系統(tǒng)聚類、對應(yīng)分析的模型計算。對于這些方法,編程過程實際上只需要將對應(yīng)的數(shù)學(xué)推導(dǎo)變?yōu)橛嬎銠C代碼即可,因此對學(xué)生來說門檻不會太高,而同時這對于理解方法的理論細(xì)節(jié)又大有裨益。
在對實際問題數(shù)據(jù)的建模分析過程中,多元方法的使用和效果評估存在一定的主觀性,這種主觀性也體現(xiàn)了統(tǒng)計學(xué)處理和分析問題所特有的思維方式,它是在處理沒有“標(biāo)準(zhǔn)答案”的真實問題時所不可避免的,而這也是在初學(xué)階段很難處理好的地方。真實問題可能有很多不同的答案,每種答案都具備某種合理性,尋求“標(biāo)準(zhǔn)答案”會限制想象力,造成對問題本身復(fù)雜性的回避。面對復(fù)雜的問題,對問題本身的意義以及對數(shù)據(jù)的理解是能力培養(yǎng)的關(guān)鍵,而這很難用套入一個固定的模式中[5]。因此,實踐教學(xué)環(huán)節(jié)我們主張讓學(xué)生開放性的選題,找一個自己感興趣的問題,準(zhǔn)確定位問題的背景及意義,獲取數(shù)據(jù),做必要的探索性分析和統(tǒng)計建模分析,得到自己的研究結(jié)論。采用任務(wù)分解的方式,在問題解決的各個環(huán)節(jié)對學(xué)生加以引導(dǎo)。圖一列出的是從選題到撰寫分析報告整個過程的典型步驟,問題是千變?nèi)f化的,但基本上都可以遵循這樣一個分析流程,將問題的解決分解為一個個具體的任務(wù),各個擊破。完成好每一個子任務(wù),得到一份合格的分析報告就不會太難。
圖1中所示的流程中,選題策略和問題背景及意義的重要性是學(xué)生最容易忽視的地方。如何從錯綜復(fù)雜的行業(yè)現(xiàn)象,從面到點的聚焦到一個具體明確的研究問題,是實踐環(huán)節(jié)的教學(xué)重點。很多學(xué)生受到教材中的例題影響,視野局限在多元分析在國民經(jīng)濟統(tǒng)計數(shù)據(jù)上的應(yīng)用。對于此,最好的辦法是多讓學(xué)生多看一些教材上沒有的商業(yè)數(shù)據(jù)分析案例,現(xiàn)在的很多數(shù)據(jù)科學(xué)方面的公眾號上面不乏有這方面的好素材。像“狗熊會”、“數(shù)據(jù)幫”等公眾號給出了諸如從數(shù)據(jù)看足球運動員身價,房屋租金影響因素,旅游產(chǎn)品銷售分析,電影票房,雙十一銷售分析等有趣而生動的案例。這些案例具有很好的啟發(fā)性,能夠幫助學(xué)生在選題以及問題聚焦上該如何思考。
圖1 實踐環(huán)節(jié)主線圖
多元統(tǒng)計分析方法眾多,牽涉到大量的統(tǒng)計理論基礎(chǔ)和優(yōu)化計算方法,有效的課堂教學(xué)需要學(xué)生做好充足的準(zhǔn)備。因此,調(diào)動學(xué)生的學(xué)習(xí)積極性,加強自主學(xué)習(xí)是關(guān)鍵。這需要在學(xué)習(xí)時間和學(xué)習(xí)內(nèi)容兩個維度上下功夫。
(1)采用線上線下混合式教學(xué)模式。多元方法主要分為兩類,其中一類是基于分布假設(shè)的方法,比如多元正態(tài)分布的相關(guān)內(nèi)容,這部分在整個課程中的比重不大,但是理論推導(dǎo)繁瑣。另一類可以看成是基于優(yōu)化的方法,比如主成分分析、聚類分析、判別分析等。這些方法到直觀性較強,但是優(yōu)化計算求解也是一個數(shù)學(xué)性較強的內(nèi)容。零零后的大學(xué)生是互聯(lián)網(wǎng)中的原住民,他們更習(xí)慣在網(wǎng)絡(luò)上進(jìn)行隨時隨地的學(xué)習(xí),加之目前各大慕課學(xué)習(xí)平臺的成熟,建設(shè)一門線上課程較容易實現(xiàn)。線上課程的好處是,學(xué)生理解速度的不同不大會影響學(xué)習(xí)的效果,有充足的時間查閱相關(guān)的資料和做演算。這樣,線下課堂有更寬裕的時間來統(tǒng)籌講解方法的原理、技術(shù)特點以及應(yīng)用范圍。
(2)強調(diào)問題驅(qū)動思維方式。農(nóng)業(yè)生產(chǎn)領(lǐng)域的很多具體問題曾經(jīng)推動了統(tǒng)計學(xué)的發(fā)展,比如費歇爾爵士1935年出版的《試驗設(shè)計》一書就是對他以及合作者在洛桑農(nóng)業(yè)實驗站工作期間所運用的統(tǒng)計方法的總結(jié)。農(nóng)業(yè)院校的一個優(yōu)勢正是有著大量這一類數(shù)據(jù)和對解決相關(guān)問題的需求。比如,利用土壤近紅外光譜數(shù)據(jù)預(yù)報土壤有機物含量、利用油菜冠層光譜數(shù)據(jù)監(jiān)控油菜氮肥營養(yǎng)素狀況、食品發(fā)酵過程中多種微生物繁殖數(shù)量變化規(guī)律、利用照片數(shù)據(jù)估算水稻葉面積、作物產(chǎn)量試驗數(shù)據(jù)等,這一類的數(shù)據(jù)首先維數(shù)都較高,并且伴隨著一個個真實的問題,天然是多元統(tǒng)計分析教學(xué)的良好素材。在教學(xué)中采用這些數(shù)據(jù),給學(xué)生的感覺會是問題和需求都很真實,就是身邊的例子,讓學(xué)生更有興趣,從而更加主動的去摸索方法的原理和使用上的注意事項,這也為學(xué)生未來進(jìn)入智慧農(nóng)業(yè)相關(guān)產(chǎn)業(yè)做了有益的鋪墊。
(3)強調(diào)編程計算能力。學(xué)生基本上都明白編程能力的重要性,他們甚至經(jīng)常會問R和Python到底學(xué)哪一個更好。在教學(xué)中,我們不會限制學(xué)生使用軟件的類型,也不以精通某樣語言為編程練習(xí)的目的,而是以能夠用工具完成手中的任務(wù)為第一要務(wù)。軟件是工具,無論是R還是Python都在不停向上更新迭代,時刻都有新的功能特征添加進(jìn)來,因此通過網(wǎng)絡(luò)尋求幫助以及根據(jù)自己的需求學(xué)習(xí)新的技能才是真正重要的能力。當(dāng)然,軟件入門的常規(guī)訓(xùn)練是需要的,像頭歌(EduCoder)這樣的實訓(xùn)平臺對軟件基礎(chǔ)知識的學(xué)習(xí)是很有幫助的。對軟件的熟練使用,最終還是在實際問題的解決中逐漸得到的。
線上課程的先導(dǎo)作用明顯。學(xué)生可以一邊查閱參考書,一邊跟隨線上課程的內(nèi)容,通過有網(wǎng)課輔導(dǎo)的自學(xué)能夠熟悉方法的原理、運用和理論細(xì)節(jié),并及時使用計算機編程進(jìn)行方法驗證,遇到問題可以在討論區(qū)展開討論。線下課堂的教學(xué)內(nèi)容能夠更靈活的安排,利于學(xué)生從宏觀上把握方法的應(yīng)用范圍與局限。通過線上和線下相結(jié)合的方式,學(xué)生對多元方法的理解與把握明顯變好。
為期兩周的課程設(shè)計中,學(xué)生的選題視野明顯拓寬。以前大多數(shù)學(xué)生都傾向于選擇國民經(jīng)濟數(shù)據(jù),做主成分分析或者因子分析,解釋經(jīng)濟現(xiàn)象。通過平時的引導(dǎo),現(xiàn)在學(xué)生在選題方向上更加大膽,敢于從自己感興趣的問題入手,比如,一款綜藝節(jié)目為什么火爆?喜歡籃球的同學(xué)會選擇“NBA球員價值評估”這類課題,還有研究二手車保值率影響因素,二手房價格影響因素等與生活息息相關(guān)的經(jīng)濟現(xiàn)象??偟膩碚f,因為選題本身符合學(xué)生的興趣,在后續(xù)的數(shù)據(jù)獲取,建模分析,撰寫論文等環(huán)節(jié),研究小組的熱情高漲,在小組匯報中精彩的報告能強烈吸引觀眾的注意,獲得成就感。