■文/彭宇新
人工智能2.0時(shí)代的跨媒體智能,跨越視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等不同的感官信息,形成跨媒體認(rèn)知、分析和推理的模型、方法、技術(shù)與計(jì)算平臺(tái),實(shí)現(xiàn)跨媒體智能應(yīng)用,滿(mǎn)足高度個(gè)性化的人類(lèi)社會(huì)需求。
隨著多媒體、計(jì)算機(jī)視覺(jué)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,信息傳播已經(jīng)從文字、圖像、音頻、視頻等單一媒體形態(tài)逐步過(guò)渡到相互融合的多種媒體形態(tài),越來(lái)越顯現(xiàn)跨媒體特性。這些來(lái)源于信息、物理、社會(huì)三元空間的跨媒體數(shù)據(jù)相互融合,全面形象地表現(xiàn)綜合性知識(shí)并反映個(gè)體和群體的行為,對(duì)于感知與認(rèn)知客觀(guān)世界具有重要價(jià)值。然而,跨媒體數(shù)據(jù)多源異構(gòu)、關(guān)聯(lián)復(fù)雜,蘊(yùn)含的知識(shí)具有內(nèi)隱性和異質(zhì)性,使得跨媒體智能面臨重要挑戰(zhàn)。
當(dāng)今世界,人工智能已成為國(guó)際競(jìng)爭(zhēng)的新焦點(diǎn)?;谝寻l(fā)生重大變化的信息新環(huán)境,為提高國(guó)家科技競(jìng)爭(zhēng)力和產(chǎn)業(yè)競(jìng)爭(zhēng)力,我國(guó)著眼于發(fā)展新一代人工智能??缑襟w智能是其中的重要組成部分,是計(jì)算機(jī)感知認(rèn)知世界的重要基礎(chǔ),也是實(shí)現(xiàn)聯(lián)想、設(shè)計(jì)、概括、創(chuàng)造等智能行為的關(guān)鍵技術(shù)。IBM Watson 2016年的報(bào)告指出,圖像、視頻等媒體數(shù)據(jù)已經(jīng)占到大數(shù)據(jù)的80%以上,大數(shù)據(jù)的真正價(jià)值在于內(nèi)容的理解與利用。針對(duì)跨媒體數(shù)據(jù)的分析與推理已受到廣泛關(guān)注,成為亟須突破的重大難題,也成為國(guó)家的重要戰(zhàn)略需求,對(duì)于搶占人工智能制高點(diǎn)具有重要意義。
國(guó)務(wù)院于2017年7月發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中將“跨媒體協(xié)同處理”列為人工智能的五大發(fā)展重點(diǎn)之一,并將“跨媒體感知計(jì)算”和“跨媒體分析推理技術(shù)”列為新一代人工智能重大科技項(xiàng)目中的基礎(chǔ)理論和關(guān)鍵共性技術(shù)。通過(guò)構(gòu)建跨媒體智能計(jì)算平臺(tái),形成在智能城市、智能制造、智能醫(yī)療等重要領(lǐng)域的產(chǎn)業(yè)應(yīng)用,將對(duì)國(guó)民經(jīng)濟(jì)、國(guó)計(jì)民生、國(guó)家安全等產(chǎn)生深遠(yuǎn)的影響。人工智能2.0時(shí)代的跨媒體智能不僅能夠通過(guò)跨媒體大數(shù)據(jù)的智能分析為政府決策提供重要依據(jù),也能夠推進(jìn)企業(yè)智能制造轉(zhuǎn)型,為經(jīng)濟(jì)增長(zhǎng)注入新的活力,提升中國(guó)經(jīng)濟(jì)的發(fā)展質(zhì)量。
科學(xué)研究表明,人腦生理組織結(jié)構(gòu)決定了其對(duì)外界的感知認(rèn)知過(guò)程是跨越多種感官信息的融合處理。而如何借鑒人腦的這一過(guò)程,通過(guò)視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等多種感知通道的協(xié)同處理來(lái)認(rèn)知外部世界,成為跨媒體智能的主要研究問(wèn)題。跨媒體感知認(rèn)知是跨媒體智能的重要基礎(chǔ),主要研究針對(duì)多模態(tài)感知通道(視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等)的統(tǒng)一感知認(rèn)知理論和多模態(tài)協(xié)同技術(shù)。然而,一方面計(jì)算機(jī)特征表示和人類(lèi)認(rèn)知之間存在“語(yǔ)義鴻溝”,另一方面不同媒體數(shù)據(jù)的特征表示不一致導(dǎo)致了“異構(gòu)鴻溝”,使得跨媒體數(shù)據(jù)的統(tǒng)一感知認(rèn)知面臨巨大挑戰(zhàn)。
為實(shí)現(xiàn)跨媒體感知認(rèn)知,我們首先需要研究跨媒體感知計(jì)算技術(shù),包括面向真實(shí)世界的主動(dòng)視覺(jué)感知及計(jì)算、自然聲學(xué)場(chǎng)景的聽(tīng)知覺(jué)感知及計(jì)算、自然交互環(huán)境的言語(yǔ)感知及計(jì)算等。在跨媒體認(rèn)知上,針對(duì)海量低質(zhì)、多態(tài)異構(gòu)、多源異質(zhì)的跨媒體數(shù)據(jù),需要探索跨媒體統(tǒng)一表征理論和方法,突破跨媒體數(shù)據(jù)之間的“異構(gòu)鴻溝”。具體地,可以采用子空間映射的思想,通過(guò)典型相關(guān)分析等方法,使用統(tǒng)一表征來(lái)表示不同媒體的數(shù)據(jù),突破跨媒體的信息表示壁壘。近年來(lái),深度學(xué)習(xí)在人工智能領(lǐng)域取得了突破性進(jìn)展,英國(guó)倫敦大學(xué)學(xué)院教授肯尼思? 哈里斯(Kenneth D. Harris)于2013年11月在《自然》(Nature)雜志上發(fā)表論文指出,大腦高級(jí)皮層能夠?qū)Σ煌襟w的感官信息進(jìn)行整合。這啟發(fā)我們,模仿人腦神經(jīng)元結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型有望實(shí)現(xiàn)跨媒體統(tǒng)一認(rèn)知。據(jù)此,我們可以構(gòu)建基于深度網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)聯(lián)分析方法,通過(guò)對(duì)媒體內(nèi)部與媒體之間關(guān)聯(lián)關(guān)系的共同建模與分析,實(shí)現(xiàn)對(duì)復(fù)雜跨媒體內(nèi)容的數(shù)據(jù)表示學(xué)習(xí)。在此基礎(chǔ)上,研究跨媒體關(guān)聯(lián)理解方法,構(gòu)建跨媒體數(shù)據(jù)的相似性計(jì)算機(jī)制,實(shí)現(xiàn)跨媒體關(guān)聯(lián)融合與描述生成。此外,在開(kāi)放的大數(shù)據(jù)應(yīng)用環(huán)境中,語(yǔ)義類(lèi)別和數(shù)據(jù)總量劇增,對(duì)計(jì)算效率、自適應(yīng)性、可泛化性等提出了更高要求。因此,需要進(jìn)一步突破面向大規(guī)??缑襟w智能計(jì)算的算法復(fù)雜度優(yōu)化理論和方法,通過(guò)構(gòu)建多源異構(gòu)媒體數(shù)據(jù)對(duì)象的結(jié)構(gòu)化索引等機(jī)制,滿(mǎn)足實(shí)際應(yīng)用環(huán)境中的高效計(jì)算需求。
對(duì)于跨媒體智能而言,知識(shí)驅(qū)動(dòng)方法是一個(gè)研究重點(diǎn)。早期的人工智能主要以文本為主,通過(guò)謂詞、命題和規(guī)則等方法在充分定義的前提下進(jìn)行推理。然而,現(xiàn)實(shí)世界中的知識(shí)以及推理過(guò)程通常會(huì)有視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等的共同參與,僅僅依靠文本難以利用多種媒體蘊(yùn)含的豐富語(yǔ)義信息。因此,如何將文本推理擴(kuò)展到跨媒體推理成為重要的研究問(wèn)題??缑襟w知識(shí)圖譜是實(shí)現(xiàn)跨越不同媒體的知識(shí)表達(dá)與推理的關(guān)鍵,現(xiàn)有知識(shí)圖譜的研究主要基于文本數(shù)據(jù),包括關(guān)系抽取、知識(shí)融合、知識(shí)推理等關(guān)鍵技術(shù)。近年來(lái),一些知識(shí)圖譜陸續(xù)被構(gòu)建與開(kāi)放,如DBpedia、Wikidata等,基于知識(shí)圖譜的信息檢索、智能問(wèn)答等應(yīng)用也成為廣泛研究的熱點(diǎn)問(wèn)題。然而,針對(duì)具有視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等多種模態(tài)的跨媒體知識(shí)圖譜的構(gòu)建,以及如何基于跨媒體知識(shí)表達(dá)實(shí)現(xiàn)跨媒體推理等的研究尚屬空白。
因此,如何擴(kuò)展傳統(tǒng)基于文本的知識(shí)體系,形成針對(duì)跨媒體數(shù)據(jù)的泛化知識(shí)圖譜構(gòu)建與推理技術(shù),成為跨媒體分析走向?qū)嶋H應(yīng)用的一個(gè)關(guān)鍵問(wèn)題。實(shí)體是知識(shí)圖譜的基本要素,跨媒體語(yǔ)義實(shí)體的有效獲取對(duì)跨媒體知識(shí)圖譜的構(gòu)建至關(guān)重要。我們需要研究面向跨媒體數(shù)據(jù)的實(shí)體檢測(cè)機(jī)制,通過(guò)跨媒體語(yǔ)義特征表示和實(shí)體識(shí)別等方法,從大規(guī)??缑襟w數(shù)據(jù)中獲取語(yǔ)義實(shí)體。實(shí)體之間的關(guān)聯(lián)關(guān)系是知識(shí)圖譜的另一基本要素,跨媒體實(shí)體的關(guān)聯(lián)計(jì)算是知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)。在傳統(tǒng)人工智能通過(guò)謂詞、命題和規(guī)則等方法進(jìn)行推理的基礎(chǔ)上,我們需要研究演繹邏輯、類(lèi)比推理等技術(shù)手段在跨媒體中的應(yīng)用和發(fā)展,從大規(guī)模跨媒體數(shù)據(jù)中自動(dòng)推理得到新的關(guān)聯(lián)模式。基于上述研究,我們可以進(jìn)一步實(shí)現(xiàn)知識(shí)的持續(xù)增量和自動(dòng)化獲取,使得跨媒體知識(shí)圖譜同時(shí)具備概念識(shí)別、實(shí)體發(fā)現(xiàn)、屬性預(yù)測(cè)、知識(shí)演化和關(guān)系挖掘等能力,能夠動(dòng)態(tài)更新與自我完善,實(shí)現(xiàn)永不終止的知識(shí)獲取、挖掘和演化過(guò)程。
近年來(lái),計(jì)算機(jī)和大數(shù)據(jù)科學(xué)的發(fā)展方興未艾,人工智能技術(shù)正被越來(lái)越廣泛地應(yīng)用于各個(gè)行業(yè),深刻改變著人類(lèi)的生活與思維方式??缑襟w智能作為新一代人工智能發(fā)展的重要內(nèi)容具有廣闊的應(yīng)用前景,將對(duì)各個(gè)行業(yè)產(chǎn)生重要影響。這里我們介紹3個(gè)典型的應(yīng)用領(lǐng)域:內(nèi)容監(jiān)管、網(wǎng)絡(luò)態(tài)勢(shì)分析和智能醫(yī)療。
●跨媒體內(nèi)容監(jiān)管
互聯(lián)網(wǎng)已經(jīng)成為影響社會(huì)穩(wěn)定的重要因素之一。由于互聯(lián)網(wǎng)跨媒體數(shù)據(jù)具有語(yǔ)義抽象、復(fù)雜多變、孤立分散、海量動(dòng)態(tài)等特點(diǎn),自動(dòng)分析與識(shí)別的難度很大。多個(gè)國(guó)家嘗試建立智能化的互聯(lián)網(wǎng)內(nèi)容監(jiān)管系統(tǒng),但跨媒體數(shù)據(jù)的異構(gòu)性與分散性導(dǎo)致這些系統(tǒng)時(shí)效性差、覆蓋面窄。針對(duì)這些問(wèn)題,我們可以通過(guò)基于跨媒體協(xié)同處理的智能數(shù)據(jù)識(shí)別技術(shù),以及基于跨媒體關(guān)聯(lián)分析的信息融合方法,利用跨媒體語(yǔ)義互補(bǔ)性實(shí)現(xiàn)對(duì)不同媒體數(shù)據(jù)的綜合分析與識(shí)別。通過(guò)構(gòu)建有效的跨媒體內(nèi)容監(jiān)管技術(shù),提高我國(guó)互聯(lián)網(wǎng)內(nèi)容監(jiān)管的智能水平,維護(hù)我國(guó)互聯(lián)網(wǎng)內(nèi)容安全和促進(jìn)網(wǎng)絡(luò)文化健康發(fā)展。
●跨媒體網(wǎng)絡(luò)態(tài)勢(shì)分析
當(dāng)前互聯(lián)網(wǎng)環(huán)境中,輿情信息已經(jīng)從文本為主轉(zhuǎn)變?yōu)榘ㄎ谋?、圖像、視頻、音頻等的跨媒體形式,跨媒體網(wǎng)絡(luò)信息態(tài)勢(shì)分析對(duì)維護(hù)社會(huì)穩(wěn)定、處置突發(fā)情況等國(guó)家重大需求具有重要支撐作用。針對(duì)跨媒體網(wǎng)絡(luò)態(tài)勢(shì)分析應(yīng)用,我們需要研究事件熱度、用戶(hù)觀(guān)點(diǎn)及情感傾向性的演化規(guī)律,發(fā)展跨媒體跨空間協(xié)同分析和事件推理技術(shù),通過(guò)基于知識(shí)元的跨媒體語(yǔ)義分析方法和基于情感觀(guān)點(diǎn)的話(huà)題追蹤方法,實(shí)現(xiàn)對(duì)海量動(dòng)態(tài)互聯(lián)網(wǎng)輿情話(huà)題的實(shí)時(shí)監(jiān)測(cè)與傳播分析。
●跨媒體智能醫(yī)療
醫(yī)療行業(yè)是一個(gè)關(guān)系國(guó)計(jì)民生的重要領(lǐng)域,人工智能新技術(shù)對(duì)于提高醫(yī)療服務(wù)的智能化、個(gè)性化水平,推動(dòng)醫(yī)療事業(yè)的發(fā)展具有重要作用。但是,現(xiàn)有智能醫(yī)療模型方法著眼于對(duì)同源同質(zhì)醫(yī)療數(shù)據(jù)的分析,無(wú)法實(shí)現(xiàn)多源異構(gòu)的跨媒體醫(yī)療數(shù)據(jù)的協(xié)同處理。針對(duì)這一問(wèn)題,需要建立多源醫(yī)療數(shù)據(jù)融合與分析機(jī)制,通過(guò)跨媒體數(shù)據(jù)的協(xié)同分析,實(shí)現(xiàn)疫情監(jiān)測(cè)和預(yù)警、臨床決策、醫(yī)療資源管理、藥品調(diào)配等重要應(yīng)用,提升醫(yī)療服務(wù)的質(zhì)量與效率。
要充分發(fā)揮跨媒體智能的應(yīng)用潛力,關(guān)鍵在于形成集底層跨媒體數(shù)據(jù)表征、索引、關(guān)聯(lián)和高層知識(shí)表達(dá)、演化、推理等機(jī)制為一體的跨媒體智能計(jì)算系統(tǒng),在智能城市、智能制造、智能醫(yī)療等重要領(lǐng)域形成生態(tài)圈和產(chǎn)業(yè)鏈。在人工智能2.0時(shí)代,跨媒體智能的深度應(yīng)用將對(duì)互聯(lián)網(wǎng)、醫(yī)療、教育、城市管理、環(huán)境保護(hù)等重要領(lǐng)域產(chǎn)生深遠(yuǎn)影響,在提升國(guó)家實(shí)力、改善民生上發(fā)揮重要作用。