杜月嬌
“彩云之南,我心的方向……”一首《彩云之南》唱出了世人對這片凈土的向往之心。伴隨著悠揚的歌聲,記者來到滇池腳下的巍巍學府——云南大學。
2015年1月,國家主席習近平在考察云南時,為云南的發(fā)展點明了新的定位:“云南要主動服務和融入國家發(fā)展戰(zhàn)略,闖出一條跨越式發(fā)展的路子來。”
諄諄教誨猶如燈塔指明了云大人創(chuàng)新發(fā)展的航向。幾年來,他們始終牢記習總書記的殷切囑托,以脫胎換骨之勇氣和自我革新之精神,主動融入國家和地方建設,闖出一條創(chuàng)新發(fā)展的路子。2017年9月,在國家“雙一流”建設高校名單中,云南大學赫然在列。
“被列入‘雙一流是新機遇,也是新挑戰(zhàn),往后的發(fā)展任重道遠。”云南大學數學與統計學院院長唐年勝如是總結“雙一流”帶來的影響。15年來,他和所帶領的團隊融入在云大跨越發(fā)展的浪潮中,奏響了一曲來自數學與統計學的現代創(chuàng)新之歌。
堅守初心
——讓數學與統計為民所用
運用統計學的方法,從某些人的生活特性和生活習慣所展現的數據中找出異常點和影響點,以此判斷他有沒有老年癡呆癥的前兆;
建立數學模型,通過數據分析識別出一個人的甲狀腺結節(jié)屬于什么階段;
…………
進入唐年勝及其團隊構建的研究世界,你會發(fā)現數學和統計并不是枯燥難懂的數字和公式,而是人們生活中實實在在用到的靈巧工具?!皩祵W搬下高閣,帶入尋常百姓家?!边@其實是唐年勝最初投入統計研究的初心,也是他多年堅持其中的動力源泉。
時光倒回到20世紀90年代初,純真樸實的四川伢子唐年勝還在重慶師范大學數學系攻讀學士學位的時候,有一天在圖書館里看到統計學應用于天氣預報的相關文獻,瞬間聯想到家鄉(xiāng)農民“靠天吃飯”的疾苦。如果能將所學應用到天氣預報上,提高天氣預報的準確度,不就可以幫助家鄉(xiāng)父老乃至全國農民早日擺脫“靠天吃飯”的困境嗎?帶著樸實的愿望,唐年勝從此投身其中,這一干就是近30年。
近30年間,他從一名普通的本科畢業(yè)生,一路攀爬象牙塔,先后成為云南大學統計系理學碩士、東南大學數學系工學博士,之后到香港中文大學心理學系擔任副研究員并在統計系從事博士后研究工作。在此之后還先后成為美國哥倫比亞大學醫(yī)學院博士后研究員、香港浸會大學數學系訪問學者、美國北卡羅萊納大學生物統計系訪問教授……“讀萬卷書,不如行萬里路?!倍嗄攴e累,收獲了居于學科前沿的觀念技術,為他之后帶領云南大學數學與統計學院奔涌在相關學科理論和應用研究浪潮前端奠定了堅實的基礎。
當新世紀的鐘聲敲響,人類進入了一個信息化的時代。彼時經常流轉在國內外統計學研究殿堂學習進步的唐年勝對國家在相關領域的大力舉措和投入發(fā)展有著深刻的體會。師夷長技以自強,和眾多海外華人及學子一樣,他也愿意將自己所學所得帶回祖國、報效祖國。
2005年,唐年勝開始全職回到母校——云南大學擔任統計系主任,至此扎根彩云之南,將多年在數學與統計領域收獲的居于前沿的思想和技術在云山之巔散發(fā)出其特有的光芒。
搬下高閣
——研究成果潤澤大地
隨著現代科學技術尤其是計算機、網絡信息和生物醫(yī)學工程等的發(fā)展,大量的數據出現在諸如:生物醫(yī)學、經濟、金融、環(huán)境科學、醫(yī)療健康等學科領域,并以前所未有的速度產生和積累。
“從統計學的角度來看,這類大數據的主要特點是維數高,樣本量大但通常小于變量的個數,并且具有復雜的相依結構。”如何把這些高維數據準確利用起來,是唐年勝及其團隊這些年來一直關注的焦點。
傳統的統計分析方法、統計計算和統計推斷理論并不能勝任,立足國際前沿,他們通過大量的摸索和調整,創(chuàng)新地提出“懲罰指數傾斜似然方法”,并在傳統假設不成立的情況下,利用“懲罰”函數方法將可能不重要的變量個數盡可能地壓縮至可接受的范圍,通過降低重要變量的個數從而巧妙地達到降維的目的。
為更好地提高效率,唐年勝還帶領團隊與香港中文大學合作對超高維齊性分類數據提出了獨立于模型假設的篩選重要變量的分類自適應方法。這一方法的獨特性在于適用響應選擇(Responseselective)抽樣數據分析,在1∶1還原數據原本屬性情況下,既得到準確的統計推斷,還可提高數據處理速度。
目前,部分研究成果已成功運用于醫(yī)院甲狀腺結節(jié)的病例篩查中。醫(yī)生只需通過患者的臨床觀察,輸入其年齡、性別、生活習慣、C T數據等,利用建立的模型,即可快速探測是否存在甲狀腺結節(jié)的癥狀,不需要過度依賴醫(yī)生的經驗,探測準確率基本可達到90%左右。事實上,這只是唐年勝及其團隊研究應用于醫(yī)學研究領域的“冰山一角”。
針對生物醫(yī)學研究中的有序分類數據、動態(tài)空間數據和缺失數據等復雜數據,唐年勝及其團隊提出了分析處理這類復雜數據的新理論和新方法。特別是,在不假設不可忽略缺失數據機制模型的具體形式的情況下,找到了估計方程在給定觀測數據和缺失數據示性函數下的條件期望的一個非常重要的、簡潔的公式,該公式是推廣和發(fā)展可忽略缺失數據估計方程的統計推斷理論的一個至關重要的成果。
在日常生活中,我們常常遇見很多統計數據都不同程度的存在部分缺失。針對數據缺失的問題,唐年勝及其團隊在假設缺失數據機制是不可忽略缺失的情況下,提出了查補缺失數據的一些新方法,如基于傾斜得分的非參數查補方法等。模擬研究表明:這些方法對查補缺失數據是非常有效的,可用于處理經濟、金融、心理學、社會學等領域中的缺失數據。
“識別數據集中的強影響點或異常點以及評價模型微小擾動對統計推斷的影響是統計學中一個重要的研究領域?!碧颇陝賹@一重要研究領域展現出極大的興趣?!敖y計建模就是把可能對響應變量有影響的因素作為協變量建立一個簡單的回歸模型,但是存在一個自然的問題,這些模型假設是否合理?數據與假定的模型是否大致一致等”,對此唐年勝開展了統計診斷研究,而這正代表了他多年研究的獨特性。