【編者語】
2022年5—8月,由江蘇省科學(xué)技術(shù)協(xié)會、江蘇省氣象局作為指導(dǎo)單位,江蘇省氣象學(xué)會、江蘇省氣象臺和阿里云天池聯(lián)合組織了2022年江蘇氣象AI算法挑戰(zhàn)賽。此次挑戰(zhàn)賽以“AI助力強對流預(yù)報”為主題,旨在聚焦短臨強對流預(yù)報技術(shù)研發(fā)及應(yīng)用,探索利用人工智能技術(shù)突破短臨預(yù)報關(guān)鍵性技術(shù)瓶頸,推進人工智能技術(shù)在氣象領(lǐng)域的學(xué)術(shù)合作、人才培養(yǎng)、技術(shù)交流以及多學(xué)科交叉融合應(yīng)用。這種不限年齡、國籍、職業(yè)與專業(yè)的新型眾創(chuàng)機制,既可以為短臨強天氣預(yù)報技術(shù)提供新思路新方案,同時也為氣象青年人才創(chuàng)造了更多機遇與挑戰(zhàn)。中國氣象局氣象干部培訓(xùn)學(xué)院組成的團隊,在這次競賽中,從1874支參賽代表隊中脫穎而出,取得了第25名的好成績。本刊委托來自中國氣象局氣象發(fā)展與規(guī)劃院的于丹和唐偉,對團隊進行采訪,共享這支朝氣蓬勃的青年教師隊伍通過競賽經(jīng)歷的鍛煉和感悟。干部學(xué)院AI教學(xué)團隊負責(zé)人鐘琦博士的點評也啟發(fā)我們?nèi)绾蚊鎸I引領(lǐng)的新創(chuàng)新時代。
采訪人:組建團隊參加本次氣象AI算法挑戰(zhàn)賽的動力及目的是什么?
趙陽:“氣象+AI”是當下發(fā)展非??斓臒衢T領(lǐng)域之一,近年來中國氣象局氣象干部培訓(xùn)學(xué)院(以下簡稱“干部學(xué)院”)新創(chuàng)立了人工智能教學(xué)團隊,吸引了許多對“氣象+AI”感興趣的青年教師。本次氣象AI算法挑戰(zhàn)賽,瞄準的基于觀測數(shù)據(jù)預(yù)報強對流天氣,是當下“氣象+AI”的重點和難點領(lǐng)域,受到了團隊年輕老師的關(guān)注,大家躍躍欲試。相比于之前的文獻研究、參與項目等研究AI的方法,通過參加競賽,一是可以提高大家的編程能力,檢驗大家的學(xué)習(xí)成果,通過真正動手實踐,暴露出理論學(xué)習(xí)中發(fā)現(xiàn)不了的問題,避免了“紙上談AI”;二是通過參加比賽,能夠更好地磨合團隊,讓每位隊員都能在“氣象+AI”的大海中找到自己擅長或感興趣的領(lǐng)域;三是參與競爭,開拓視野,看看我們與強隊之間的差距,了解自身不足。
采訪現(xiàn)場合影(從左至右依次為于丹、王晴旭、趙陽、張悅含、唐偉)
張悅含:我們?nèi)硕际歉刹繉W(xué)院人工智能教學(xué)團隊的成員(鏈接1),想借此機會練練兵,在實踐中學(xué)習(xí)。同時,作為干部學(xué)院的一線教師,也希望積累一些授課的素材。
采訪人:團隊此次參賽,采用了哪種機器學(xué)習(xí)算法,預(yù)報結(jié)果如何,是否和傳統(tǒng)短臨預(yù)報方法——光流矢量計算方法的預(yù)報結(jié)果進行對比,有何優(yōu)勢?
王晴旭:強對流預(yù)報,即時空序列預(yù)測問題,我們采用了時空序列預(yù)測的經(jīng)典開源算法ConvLSTM(圖1)。ConvLSTM是2015年香港科技大學(xué)的施行健博士提出的,結(jié)合了卷積(Conv)可以提取空間特征的能力以及長短期記憶網(wǎng)絡(luò)(LSTM)可以處理序列的能力,特別適合時空序列預(yù)測任務(wù)。很多文獻研究表面,相比于光流法預(yù)測結(jié)果,ConvLSTM擁有更好的效果。另外我們團隊采用了本地配置的計算資源,相比于云端高性能計算資源,勝在配置簡單,能夠更快上手。
圖1 經(jīng)典時空序列預(yù)測算法——卷積長短期記憶網(wǎng)絡(luò)ConvLSTM
采訪人:剛才提到團隊三位隊員來自不同專業(yè),平均年齡僅30歲,那么在全球1784支參賽隊伍中能夠脫穎而出取得優(yōu)異成績,具有哪些優(yōu)勢條件?團隊在參賽過程中還面臨哪些挑戰(zhàn),是否遇到了瓶頸問題?
王晴旭:我們團隊充分利用了多學(xué)科交叉和合理的團隊分工。在我們剛獲悉題目的時候,一開始大家都沒什么比賽的經(jīng)驗,但是通過一兩天的集中討論,確定了每個人的方向,比如趙陽負責(zé)編程,悅含負責(zé)研究評分標準和數(shù)據(jù)處理,我負責(zé)算法調(diào)研和開發(fā),這樣每個人的優(yōu)勢都能發(fā)揮出來,進而階段性地整理每個人的成果并匯總形成方案。另一方面,雖然缺乏參賽經(jīng)驗,但是作為干部學(xué)院的教師,平時在教學(xué)培訓(xùn)工作中也積累了一些其他的經(jīng)驗,例如調(diào)研、編程,以及細致嚴謹?shù)慕虒W(xué)經(jīng)驗,這使得我們在比賽中可以很快地實現(xiàn)初步方案。最后一點,干部學(xué)院的領(lǐng)導(dǎo)和團隊中其他指導(dǎo)老師或前輩也給予了我們很多幫助和支持,讓我們能夠在比賽中堅持不懈,始終保持信心和熱情。
趙陽:相對于成績更佳的隊伍,我們還有很多不足。例如在算法方面,通過這次挑戰(zhàn)賽,我發(fā)現(xiàn)了自身對于AI的很多底層邏輯理解還有欠缺。我們采用的是2015年開源的算法,對于近兩年來的新算法研究不足。另外在數(shù)據(jù)處理、訓(xùn)練技巧、評分檢驗等方面,也都暴露出很多經(jīng)驗不足的問題。發(fā)現(xiàn)不足,補齊短板,這是我們這次比賽最滿意的“收獲”。
張悅含:和優(yōu)勝隊伍比,我們確實在技術(shù)實現(xiàn)上有很大差距,我想這主要是由于我們?nèi)齻€都不是科班出身,并且沒有整段的時間全身心投入比賽吧,畢竟業(yè)務(wù)工作還是比較繁忙的。
采訪人:構(gòu)建優(yōu)良的數(shù)據(jù)集是AI研究的核心。本次氣象AI算法挑戰(zhàn)賽提供的數(shù)據(jù)集對您今后的業(yè)務(wù)工作是否有所借鑒?
趙陽:一個優(yōu)秀的數(shù)據(jù)集是發(fā)展AI最重要的基礎(chǔ),比如眾所周知的ImageNet數(shù)據(jù)集在十多年前就成為了圖像識別領(lǐng)域飛速發(fā)展的奠基石(圖2)。本次挑戰(zhàn)賽的數(shù)據(jù)集也給我們的AI教學(xué)提供了參考,例如將多源數(shù)據(jù)進行時空匹配,算是一個很好的思路。對于氣象領(lǐng)域來說,我們不缺數(shù)據(jù),但是缺乏對數(shù)據(jù)集的整理,包括質(zhì)量控制、重點天氣現(xiàn)象標注、數(shù)據(jù)匹配等工作,這算是一個很難但意義重大的工作,對于“氣象+AI”的長遠發(fā)展是必不可少的。
圖2 ImageNet圖像識別數(shù)據(jù)集
采訪人:團隊共參與了幾次氣象AI算法挑戰(zhàn)賽?具體到方法上來說,是否可以以不變應(yīng)萬變,用一個算法就可以參加不同的氣象AI大賽?
趙陽:這是我們第一次參加類似的比賽。對于AI的研究者來說,我們最理想的情況當然是找到一個通用算法來滿足所有的任務(wù),但是在現(xiàn)階段是不可能的。受限于AI的發(fā)展,計算資源的有限,業(yè)界每年都會有新的思路、新的算法出現(xiàn),AI也在向著(計算速度)更快、(評價分數(shù))更高、(實現(xiàn)效果)更強的方向不斷“內(nèi)卷”。這樣也更能激勵我們在AI領(lǐng)域不斷探索、繼續(xù)前進!
采訪人:通過此次實戰(zhàn),團隊對“氣象+AI”是否有了新的認識,人工智能在氣象領(lǐng)域融合應(yīng)用的現(xiàn)狀如何,實現(xiàn)深度融合應(yīng)用還面臨哪些困難與挑戰(zhàn)?
趙陽:自2016年起,先后有40余個國家和地區(qū)將推動人工智能發(fā)展上升到國家戰(zhàn)略高度。人工智能已成為科技創(chuàng)新的關(guān)鍵領(lǐng)域和數(shù)字經(jīng)濟時代的重要支柱。目前,人工智能在醫(yī)療、制造、自動駕駛等領(lǐng)域的應(yīng)用已持續(xù)深入?!皻庀?AI”有很多可以結(jié)合的點,比如本次比賽所涉及的強對流天氣的短臨預(yù)報,還有氣候預(yù)測,衛(wèi)星云圖識別等。此外,AI領(lǐng)域最成熟的圖像處理技術(shù),例如圖像識別或語義分割,還可以應(yīng)用在氣象服務(wù)領(lǐng)域,例如農(nóng)業(yè)氣象中對農(nóng)作物狀態(tài)的智能識別,還有旅游氣象、交通氣象等領(lǐng)域。
我們都知道AI是運用了大量統(tǒng)計學(xué)的知識,可以通過訓(xùn)練從過往數(shù)據(jù)中尋找特征,繼而運用到新的情況,這和老資歷的預(yù)報員通過經(jīng)驗分析是類似的,甚至說AI會越來越強、越來越穩(wěn)定,而不會依賴個人經(jīng)驗的差異。同時傳統(tǒng)預(yù)報方法還結(jié)合了很多大氣動力學(xué)的知識,如何把氣象學(xué)的先驗知識應(yīng)用到AI中,是我們要深入研究的。
采訪人:如您所說AI會越來越強、越來越穩(wěn)定,那么隨著人工智能技術(shù)的發(fā)展與深度應(yīng)用,對預(yù)報員來說,借助外腦作用是否是一種替代關(guān)系?
趙陽:當下AI是一個高速發(fā)展的領(lǐng)域,目前AI的門檻也是逐年降低,即使是非計算機專業(yè)的人員也能輕易上手。在不遠的未來,AI會更加接地氣,成為像互聯(lián)網(wǎng)一樣的“新基建”,一個很普通的工具。但同時也要看到,AI還存在很多問題,最大的問題就是常說的黑箱,即存在不穩(wěn)定性。例如數(shù)據(jù)集中的噪聲會對結(jié)果產(chǎn)生不可預(yù)見的不良影響,這對于預(yù)報業(yè)務(wù)來說是難以接受的。因此在短時間內(nèi),AI還難以承擔(dān)核心的預(yù)報業(yè)務(wù)工作,但可以作為一個輔助工具提供參考結(jié)果,或者參與到一些細分工作中。直到其準確率獲得認可,再應(yīng)用到核心業(yè)務(wù)中。
采訪人:本次挑戰(zhàn)賽既是推動AI在氣象領(lǐng)域應(yīng)用實踐的一次重要探索,同時也是形成解決預(yù)報瓶頸的一種新型眾創(chuàng)機制的具體嘗試。但此次競賽在氣象領(lǐng)域并不是首次探索。2022年6月11—12日,ECMWF舉辦了2022年黑客馬拉松:可視化氣象數(shù)據(jù)(#VisMetData,鏈接2),探索如何將天氣和氣候數(shù)據(jù)可視化。深圳市氣象局2017—2018年連續(xù)兩年通過與阿里巴巴公司、香港天文臺合作,共同組織了“全球AI氣象挑戰(zhàn)賽”,通過眾創(chuàng)機制促進智能臨近預(yù)報的發(fā)展。您認為采用競賽方式對于AI技術(shù)而言具有怎樣的特殊意義?
鏈接2:2022年黑客馬拉松:可視化氣象數(shù)據(jù)
黑客馬拉松(Hackathons),又稱編程馬拉松,是指將程序員或者軟件工程師等互聯(lián)網(wǎng)相關(guān)的從業(yè)者聚在一起,在特定時間內(nèi)自由完成比賽題目。通過為技術(shù)人員提供一個自我表達和展現(xiàn)創(chuàng)造力的平臺,使富有創(chuàng)新性的技術(shù)得到開發(fā)和應(yīng)用,它是程序員和軟件開發(fā)人員向往的業(yè)內(nèi)頂級盛會,也成為業(yè)界進行開發(fā)創(chuàng)新和融資的契機。
2022年黑客馬拉松:可視化氣象數(shù)據(jù)由ECMWF在其總部英國雷丁舉辦,目的是探索如何將氣象數(shù)據(jù)、天氣和氣候可視化,以便對用戶和更廣泛的公眾更有用、更易于理解和更有影響力。此次活動注重吸引來自不同背景和多樣性的參與者,不僅包含編碼人員,還包含了設(shè)計師、數(shù)據(jù)管理員、氣象學(xué)家、講故事的人、記者等任何對氣象數(shù)據(jù)和可視化感興趣的人員,共有9支隊伍37人參加。
Hackathon 2022年提出了三個挑戰(zhàn):可視化數(shù)據(jù)(#VisData);用數(shù)據(jù)講故事(#StorytellingData);數(shù)據(jù)處理(#101MemberEnsemble)。除此之外還有一個公開挑戰(zhàn)(#OpenHack)。在每個挑戰(zhàn)中,ECMWF工作人員都會提出項目供參與者開展工作或幫助激發(fā)他們的項目。比賽時間為24小時,每個項目根據(jù)四個標準進行評估:原創(chuàng)性、影響力、令人印象深刻和數(shù)據(jù)的使用。除了目前可從ECMWF獲得的所有公開數(shù)據(jù)之外,參與者還可以獲得許多數(shù)據(jù)。
最終#isitnormal團隊成為獲勝者,他們的項目關(guān)注的問題是“今天的天氣與歷史正常相比如何?”通過使用來自ECMWF的ERA5再分析的溫度數(shù)據(jù),以氣候條紋為靈感,繪制了可點擊的歷史月度溫度時間序列和創(chuàng)新的小提琴圖,以展示當今溫度與世界各地不同城市的歷史值和平均值相比。該團隊還創(chuàng)建了一個地圖功能,以展示跨地區(qū)和局部的溫度變化。
趙陽:AI的優(yōu)勢就在于它是建模無關(guān)的,能夠高效地、大規(guī)模地提取數(shù)據(jù)中的特征。以我們團隊為例,大家都沒有觀測預(yù)報的相關(guān)工作經(jīng)驗,卻也能夠取得一定的成果。這證明了非專業(yè)的人員也有一席之地?!皻庀?AI”并不是要完全替代傳統(tǒng)預(yù)報方法,而是借助AI的一些優(yōu)勢或數(shù)學(xué)思路,來解決預(yù)報的一些難點。例如圖像識別中所用到的卷積可以用來提取特征,例如無監(jiān)督學(xué)習(xí)可以讓機器自主學(xué)習(xí)到前所未知的特征,這些都是可以借鑒的思路。
張悅含:在短臨預(yù)報中,機器學(xué)習(xí)的效果確實不錯。而這種通過比賽集思廣益的形式也非常振奮人心。在我看來,是一種雙贏機制,對于業(yè)務(wù)單位來說,低成本地收獲了一些新的研究思路和算法;對于參賽選手來講,不僅開拓了思維,還獲取了一系列的“激勵”。
采訪人:作為干部學(xué)院的AI教學(xué)團隊,從干部學(xué)院作為國家級氣象管理干部和高層次專業(yè)技術(shù)人才培訓(xùn)基地出發(fā),在氣象業(yè)務(wù)培訓(xùn)中是否可以借鑒這種新型眾創(chuàng)機制,未來的業(yè)務(wù)培訓(xùn)將呈現(xiàn)怎樣的趨勢?
王晴旭:將AI應(yīng)用到預(yù)報中是一個熱門的研究方向。在過去兩年時間里,干部學(xué)院的AI教學(xué)團隊已經(jīng)開展了多期研究型天氣業(yè)務(wù)培訓(xùn)班,邀請到了各單位或高校的“氣象+AI”領(lǐng)域的專家作為授課老師。全國的預(yù)報員或研究人員都踴躍報名參加,收到了非常好的反響。但AI畢竟是一個新興的、高速發(fā)展的學(xué)科,來自全國各地的學(xué)員其數(shù)學(xué)和編程水平也都不盡相同,使得當前的AI培訓(xùn)更偏向前沿講座的性質(zhì)。我們的團隊也在積極探索“氣象+AI”的培訓(xùn)方式,爭取在未來的預(yù)報員培訓(xùn)中看到更多、更先進、更實用的AI內(nèi)容。
采訪人:謝謝團隊接受采訪,愿團隊今后在AI領(lǐng)域取得更多的成果!
Advances in Meteorological Science and Technology2022年5期