據(jù)Giordano B 2023年4月10日[Nat Neurosci,2023,26(4):664-672.]報(bào)道,法國國家科學(xué)研究中心等機(jī)構(gòu)的研究人員通過研究嘗試?yán)糜?jì)算模型來預(yù)測(cè)人類大腦是如何將聲音轉(zhuǎn)化成為周圍環(huán)境中所發(fā)生的事情的語義表征的; 一些基于深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)的模型或許就能更好地預(yù)測(cè)來自神經(jīng)成像和實(shí)驗(yàn)數(shù)據(jù)的神經(jīng)過程。 研究人員利用了一個(gè)模型對(duì)比框架,并對(duì)比了聲學(xué)、語義(連續(xù)和分類)和聲音-事件深度神經(jīng)網(wǎng)絡(luò)表示模型預(yù)測(cè)感知聲音差異和7 T 人類聽覺皮層fMRI 反應(yīng)的能力。
研究人員對(duì)自然聲音是如何在大腦中被感知和表現(xiàn)進(jìn)行數(shù)值預(yù)測(cè), 而且利用計(jì)算模型來理解如何將所聽到的聲音轉(zhuǎn)化為聽覺環(huán)境中物體和事件的語義表征;目前在這方面所面臨的一個(gè)大的障礙并不是缺乏計(jì)算模型(新的模型會(huì)定期被發(fā)表),而是缺少對(duì)其所解釋的行為或神經(jīng)成像數(shù)據(jù)能力的系統(tǒng)性比較。 于是研究人員的關(guān)鍵目標(biāo)就是系統(tǒng)性地比較不同計(jì)算模型在預(yù)測(cè)自然聲音的神經(jīng)表征方面的表現(xiàn),在實(shí)驗(yàn)中,研究人員評(píng)估了三類計(jì)算模型,即聲學(xué)、語義和聲音到事件的DNN。在COVID 流行的頭幾個(gè)月,研究人員討論了需要對(duì)計(jì)算模型進(jìn)行系統(tǒng)性地比較,經(jīng)過幾次遠(yuǎn)程頭腦風(fēng)暴會(huì)議后,研究人員意識(shí)到他們已經(jīng)獲得了回答問題所需要的數(shù)據(jù):在2009年所收集的行為數(shù)據(jù)庫中有20 例加拿大參與者,其評(píng)估了一組80 個(gè)自然聲音的感知差異;2016年收集的fMRI 數(shù)據(jù)庫中有5 例荷蘭參與者,其聽到了一組不同的288 個(gè)自然聲音,同時(shí)研究人員還記錄了其機(jī)體fMRI 的反應(yīng)。 在不需要在實(shí)驗(yàn)室中收集新數(shù)據(jù)的情況下,研究人員開始著手利用在此前實(shí)驗(yàn)中所收集的數(shù)據(jù)來測(cè)試3 種計(jì)算模型方法的性能和表現(xiàn);具體而言,他們將呈遞給人類參與者的聲音刺激投射到了不同的計(jì)算模型中,隨后測(cè)定其能預(yù)測(cè)參與者對(duì)刺激所產(chǎn)生的反應(yīng)及在大腦中所發(fā)生事情的程度。
研究人員被谷歌公司所開發(fā)的聲音到事件DNN 優(yōu)于競(jìng)爭(zhēng)性的聲學(xué)和語義模型的程度所震驚; 同時(shí)也能很好地預(yù)測(cè)行為和fMRI 數(shù)據(jù)以便將聲音投射到DNN 上, 這樣研究人員就能從2016年荷蘭參與者的fMRI 反應(yīng)來預(yù)測(cè)2009年加拿大參與者機(jī)體的行為,即使其所聽到的聲音完全不同。 研究人員發(fā)現(xiàn),基于DNN 的模型能大大超過基于聲學(xué)的計(jì)算方法和將聲音歸入不同類別(比如聲音、街道上的聲音等等)從而反映大腦反應(yīng)的技術(shù),與這些更為傳統(tǒng)的計(jì)算方法相比,DNN 能以更高的準(zhǔn)確度來預(yù)測(cè)神經(jīng)活動(dòng)和參與者的行為。
根據(jù)研究人員的觀察及基于DNN 模型所產(chǎn)生的輸出數(shù)據(jù),研究人員還推測(cè),人類大腦對(duì)聲音的理解方式與其處理單詞的方式相類似,盡管單詞的意義是通過處理單個(gè)字母、聲音和音節(jié)來進(jìn)行推斷的,然而,聲音的意義則可能是通過結(jié)合一組不同的基本單元來進(jìn)行提取的。 目前研究人員正在收集新的神經(jīng)成像數(shù)據(jù)來測(cè)試研究人員在研究中所提出的關(guān)于這些基本單元可能是什么的具體假設(shè),他們正在訓(xùn)練新型及更像大腦的神經(jīng)網(wǎng)絡(luò)從而進(jìn)行自然的聲音處理;比如研究人員開發(fā)出了一種特殊的神經(jīng)網(wǎng)絡(luò),其能學(xué)習(xí)語言聲音描述符的數(shù)字表示(語義嵌入),而并不是聲音事件類別。
該研究結(jié)果表明,大腦的顳上回(STG)需要從聲學(xué)到語義的中間聲音表征,這些表征既不是聲學(xué)模型也并不是語義模型所能解釋的,而且這些表征在本質(zhì)上具有一定的構(gòu)成性,與行為無關(guān)。