多模態(tài)信息抽取旨在從多模態(tài)數(shù)據(jù)中抽取所需要的信息,形成結(jié)構(gòu)化知識(shí),是多模態(tài)數(shù)據(jù)分析的重要方向之一。多模態(tài)數(shù)據(jù)通常包括結(jié)構(gòu)化表格、非結(jié)構(gòu)化文本、圖形、圖像、視頻等,是數(shù)據(jù)呈現(xiàn)的基本形式,廣泛存在于醫(yī)療領(lǐng)域。隨著醫(yī)療人工智能技術(shù)的發(fā)展,多種不同模態(tài)的醫(yī)療數(shù)據(jù)均受到廣泛關(guān)注,出現(xiàn)大量行之有效的醫(yī)療多模態(tài)信息抽取技術(shù)。數(shù)據(jù)(尤其是人工標(biāo)注數(shù)據(jù))是人工智能技術(shù)發(fā)展的關(guān)鍵要素,為推動(dòng)醫(yī)療人工智能技術(shù)的快速發(fā)展,中國(guó)中文信息學(xué)會(huì)醫(yī)療健康與生物信息處理專業(yè)委員會(huì)2022年學(xué)術(shù)年會(huì)——中國(guó)健康信息處理大會(huì)(CHIP 2022)組織了多個(gè)面向醫(yī)療多模態(tài)信息抽取的公開(kāi)評(píng)測(cè),并以專論的形式對(duì)這些公開(kāi)評(píng)測(cè)數(shù)據(jù)集進(jìn)行介紹,以期為醫(yī)療多模態(tài)信息抽取技術(shù)提供公開(kāi)可用的基準(zhǔn)數(shù)據(jù)集和系統(tǒng)。
“醫(yī)療多模態(tài)信息抽取技術(shù)評(píng)測(cè)數(shù)據(jù)集”系列文章緊密圍繞國(guó)家《關(guān)于加快推進(jìn)人口健康信息化建設(shè)的指導(dǎo)意見(jiàn)》《關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》《關(guān)于印發(fā)“十三五”全國(guó)人口健康信息化發(fā)展規(guī)劃的通知》《關(guān)于加強(qiáng)全民健康信息標(biāo)準(zhǔn)化體系建設(shè)的意見(jiàn)》《國(guó)家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》《新一代人工智能發(fā)展規(guī)劃》等系列政策文件精神,從數(shù)據(jù)、算法和知識(shí)3個(gè)維度助推醫(yī)療人工智能的發(fā)展,助力健康中國(guó)建設(shè)。具體內(nèi)容包括“醫(yī)療多模態(tài)信息抽取技術(shù)評(píng)測(cè)數(shù)據(jù)集概述”“評(píng)測(cè)縱覽:面向‘基因-疾病’的關(guān)聯(lián)語(yǔ)義挖掘任務(wù)”“臨床診斷編碼技術(shù)評(píng)測(cè)數(shù)據(jù)集及基線模型概述”“Text2DT:面向臨床診療文本的決策規(guī)則抽取技術(shù)”“中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集CMedCausal”“醫(yī)療材料光學(xué)字符識(shí)別要素提取數(shù)據(jù)集MedOCR”幾方面,詳細(xì)描述5個(gè)醫(yī)療多模態(tài)信息抽取公開(kāi)評(píng)測(cè)任務(wù)及基線系統(tǒng),希望能夠引起相關(guān)研究者與實(shí)踐者的關(guān)注,進(jìn)一步優(yōu)化醫(yī)療多模態(tài)信息抽取技術(shù),加快相關(guān)技術(shù)落地。