對(duì)科學(xué)的熱愛、對(duì)世界的好奇,驅(qū)動(dòng)胡宇韜去尋找答案、探索未知、發(fā)現(xiàn)新事物。從北京航空航天大學(xué)、香港大學(xué)到東南大學(xué),在時(shí)空變換中突破知識(shí)的藩籬,在不同科研體驗(yàn)中發(fā)現(xiàn)興趣,他的科研方向也逐漸明晰。
早在本科求學(xué)時(shí),胡宇韜就在嘗試做科研,雖學(xué)的是偏通信的電子信息工程專業(yè),但出于興趣愛好他學(xué)了編程知識(shí),這為他后來從事人工智能研究打下了基礎(chǔ)。而參加科技競(jìng)賽,讓他對(duì)如何做科研有了一些認(rèn)識(shí)。
興趣使然,博士階段胡宇韜轉(zhuǎn)向了人工智能研究。這一時(shí)期的求學(xué),讓他得到了全方位鍛煉,論文投稿、帶領(lǐng)師弟師妹完成項(xiàng)目、出差實(shí)地驗(yàn)證科研成果,雖忙碌但充實(shí)。
通過參與大項(xiàng)目,胡宇韜的科研能力獲得迅速提升。在國(guó)家重點(diǎn)研發(fā)項(xiàng)目“天臨空地車軌道交通安全監(jiān)視”中,他完成了系統(tǒng)中多個(gè)視覺算法的模塊化實(shí)現(xiàn)并完善了各個(gè)功能模塊間的信息傳遞、整合與分析,實(shí)現(xiàn)對(duì)鐵軌異常狀況的識(shí)別與預(yù)警。
胡宇韜坦言,在博士求學(xué)后期,在課題選擇上他已有了更多自己的判斷,“基于動(dòng)態(tài)自蒸餾機(jī)制優(yōu)化的細(xì)粒度分類網(wǎng)絡(luò)”就是個(gè)人能動(dòng)性得到充分發(fā)揮的一個(gè)課題?!罢n題涉及的問題,我在剛讀博士時(shí)就發(fā)現(xiàn)了,但那時(shí)我的研究還不夠深入,就把它先放了放。后來,我看到一篇論文,它解決問題的思路,我覺得可以拿來用,就去做了實(shí)驗(yàn),發(fā)現(xiàn)效果很好?;谶@個(gè)模型我后面還參加了圖像分類比賽,并獲得了好名次。我們是以輕量化的參數(shù)和結(jié)構(gòu),在有限的資源情況下獲得了很好的表現(xiàn)?!?/p>
在北京航空航天大學(xué)求學(xué)9年,博士畢業(yè)后,胡宇韜想到不同的環(huán)境中去體驗(yàn)一下。香港大學(xué)羅平教授在計(jì)算機(jī)視覺領(lǐng)域的實(shí)力很強(qiáng),胡宇韜慕名聯(lián)系到他,并順利跟隨他做博士后研究。
在科研中,羅平非常尊重胡宇韜的想法,同時(shí)又會(huì)及時(shí)糾正他的偏差。多模態(tài)學(xué)習(xí)是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),剛到香港,胡宇韜做的是用文本知識(shí)輔助圖片完成一些視覺任務(wù)?!耙婚_始我很關(guān)注精度的提升,羅老師提醒我,做科研更應(yīng)該關(guān)注如何解決領(lǐng)域內(nèi)的問題,如果只是提升了一點(diǎn)點(diǎn)精度,意義不大,很難做出有影響力的工作?!焙铐w說。
在羅平的帶領(lǐng)下,胡宇韜的科研進(jìn)展很快。而這些前期研究,也為他之后開展多模態(tài)大模型在醫(yī)學(xué)領(lǐng)域的能力評(píng)測(cè)研究奠定了基礎(chǔ)?!坝?jì)算機(jī)視覺領(lǐng)域涌現(xiàn)出多種不同的多模態(tài)大模型,為了準(zhǔn)確評(píng)估它們的能力,研究人員從不同角度對(duì)模型進(jìn)行了評(píng)測(cè),但這些評(píng)測(cè)工作大多只關(guān)注模型在通用視覺任務(wù)中的效果,它們?cè)卺t(yī)學(xué)領(lǐng)域的潛力尚未被充分探索。”胡宇韜介紹。
準(zhǔn)確評(píng)估多模態(tài)大模型在醫(yī)學(xué)領(lǐng)域的能力,構(gòu)建一個(gè)大規(guī)模、全面的醫(yī)學(xué)評(píng)測(cè)數(shù)據(jù)集十分重要。為此,胡宇韜他們建立了OmniMedVQA數(shù)據(jù)集,并對(duì)現(xiàn)有主流多模態(tài)大模型進(jìn)行了全面評(píng)測(cè)。評(píng)測(cè)結(jié)果顯示,現(xiàn)有主流多模態(tài)大模型面對(duì)很多醫(yī)學(xué)問題仍然無法得到很好的結(jié)果。同時(shí),醫(yī)學(xué)大模型的效果并沒有明顯優(yōu)于通用大模型?!耙虼耍覀冋J(rèn)為可以嘗試從某一器官的部分模態(tài)入手,建立一個(gè)針對(duì)某個(gè)科室或某幾種疾病的專門化醫(yī)學(xué)大模型。我們希望OmniMedVQA數(shù)據(jù)集可以為未來醫(yī)學(xué)多模態(tài)大模型的發(fā)展提供評(píng)測(cè)基準(zhǔn)?!?/p>
胡宇韜介紹,除醫(yī)療領(lǐng)域,在羅平帶領(lǐng)下他們也做了其他方面的多模態(tài)大模型評(píng)測(cè)?!岸嗄B(tài)大模型是更靈活的模型,未來在應(yīng)用中,它需要有一些基準(zhǔn),通用的、行業(yè)的基準(zhǔn),這些都需要我們深入去研究?!焙铐w說。
在香港兩年,胡宇韜收獲很大,無論在生活中還是學(xué)習(xí)上,羅平都極力支持和幫助他,讓他迅速適應(yīng)了陌生的環(huán)境,并在科研方向上有了新拓展。結(jié)束博士后研究,胡宇韜回到東南大學(xué)。雖已離開香港,但他與羅平仍保持密切的合作。未來,胡宇韜希望結(jié)合計(jì)算機(jī)視覺的基礎(chǔ)研究在人工智能醫(yī)學(xué)圖像處理上做更深入的探索。