張金溪,李永宏,寇 贇
(1.蘭州財(cái)經(jīng)大學(xué) 商務(wù)傳媒學(xué)院,甘肅 蘭州 730020;2.西北民族大學(xué) 中國民族語言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)
語言研究中可以借助相關(guān)實(shí)驗(yàn)設(shè)備[1],在語言認(rèn)知方面,可以采用肌電腦電儀、眼動儀等設(shè)備,結(jié)合語言學(xué)、認(rèn)知科學(xué)和計(jì)算科學(xué)多學(xué)科、多方位地探討語言產(chǎn)生和語言習(xí)得過程中的腦機(jī)制;在語音生理方面,可以采用氣流氣壓計(jì)、喉頭儀、呼吸帶傳感器、鼻流計(jì)、動態(tài)腭位儀、超聲記錄分析儀、三維運(yùn)動捕捉等設(shè)備獲取發(fā)音時(shí)的語音、嗓音、呼吸、肌電、氣流、腭位、鼻流、舌位、唇形多種生理信號,進(jìn)行語音生理多模態(tài)的研究;在語音聲學(xué)和口傳文化方面,可以采用錄音設(shè)備、非線性編輯器、專業(yè)攝像機(jī)和提詞器等設(shè)備,進(jìn)行語音資源庫數(shù)字化建設(shè)、語音和口傳文化的聲學(xué)分析。
長期以來,由于受到實(shí)驗(yàn)方法和實(shí)驗(yàn)設(shè)備的局限,很多語言中的語言現(xiàn)象沒有被客觀、科學(xué)、合理的描述出來,采用超聲成像技術(shù)能夠一定程度上解決長期存在的描述性問題,因此一些學(xué)者較為注重使用超聲成像技術(shù)來進(jìn)行語言研究。在國外,早在20世紀(jì)60年代末,超聲波就被用于語音研究。隨后的幾十年中,超聲成像技術(shù)被實(shí)際應(yīng)用到語言學(xué)中的語言教學(xué)、二語習(xí)得、田野調(diào)查、音系學(xué)、方言和語言接觸、協(xié)同發(fā)音、語言治療、語言病理學(xué)、發(fā)音生理、母語對學(xué)習(xí)樂器影響以及言語工程等眾多領(lǐng)域。
目前為止,國內(nèi)尚未發(fā)現(xiàn)有學(xué)者把超聲成像技術(shù)應(yīng)用到少數(shù)民族語言研究中。而且十多年來,只有極少數(shù)研究人員把超聲成像技術(shù)應(yīng)用在漢語的生理語音學(xué)和言語工程領(lǐng)域,且發(fā)表的相關(guān)文章也不多。隨著人工智能、機(jī)器學(xué)習(xí)的發(fā)展,新的圖像處理技術(shù)、新的實(shí)驗(yàn)方法以及實(shí)驗(yàn)設(shè)備的出現(xiàn)將會推動實(shí)驗(yàn)語言學(xué)的發(fā)展進(jìn)步,全面改善與提升超聲成像技術(shù)在語言研究方面的應(yīng)用,通過超聲成像技術(shù)來分析語言現(xiàn)象的研究將會越來越多。因此,超聲成像技術(shù)將越來越多的被應(yīng)用在語言研究中,可以用來研究的領(lǐng)域也會越來越廣泛,研究的問題也會更加深入。先進(jìn)的實(shí)驗(yàn)設(shè)備和實(shí)驗(yàn)方法對解釋語言現(xiàn)象發(fā)揮著重要作用,尤其是在語音生理方面的研究,對我們理解人類言語產(chǎn)生機(jī)制的原理有著重要的理論和實(shí)踐意義。
早在20世紀(jì)60年代末,超聲就被用于語音研究[2]、語言訓(xùn)練[3]。超聲能夠捕捉動態(tài)的舌形,使其能夠研究舌根、矢狀溝、元音和輔音之間的相互作用等難以理解的語言現(xiàn)象。隨著技術(shù)的發(fā)展,超聲從開始的一維變成二維(B模式,圖1是實(shí)驗(yàn)室和臨床上廣泛使用的超聲設(shè)備),發(fā)展到現(xiàn)在的三維(時(shí)間分辨率對于測量大多數(shù)自然語言來說還太低)。診斷超聲的高頻(3-16MHz)聲波很容易穿透皮膚、脂肪和肌肉(見圖2),但它們會被骨骼吸收并反射出空氣的邊界。為了盡可能全面的看到舌頭,超聲探測器需要緊貼頸部以下的下巴,所以聲波從下面穿透舌頭(見圖3)。探頭聲波穿過下頜骨和舌骨,通過舌頭肌肉表面的空氣進(jìn)行反射。根據(jù)探頭的方向,可以獲得正中矢狀或冠狀圖像,圖4顯示了使用超聲波獲得的典型正中矢狀舌形圖像[4],其中舌根(Tongue root)、舌骨陰影(Hyoid shadow)在左邊,舌尖(Tongue tip)、下頜骨陰影(Jaw shadow)在右邊。
圖1 中國民族語言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室的超聲設(shè)備
圖2舌體剖面圖 圖3超聲波從下面穿透舌頭 圖4/z/的正中矢狀舌曲線的圖像
超聲成像技術(shù)和目標(biāo)跟蹤技術(shù)可以對語言發(fā)音時(shí)的舌體運(yùn)動進(jìn)行動態(tài)成像記錄,而這些技術(shù)設(shè)備一般都在實(shí)驗(yàn)室的環(huán)境中使用。便攜式超聲被證明是一種非常有用的實(shí)地語言研究工具。圖5便攜式超聲[5]和圖6基于個人電腦的超聲[6]、數(shù)字視頻記錄設(shè)備、圖像處理分析軟件的可用性及其較低的價(jià)格為語言語音的田野調(diào)查研究成為可能。Gick B,Bird S[7]討論了在野外相關(guān)應(yīng)用中使用超聲波進(jìn)行語言成像的技術(shù),研究確定了在現(xiàn)場環(huán)境中控制頭部/傳感器運(yùn)動的重要因素,研究了在不同的語音背景下頭部運(yùn)動的范圍以及舌頭組織壓迫對舌頭圖像數(shù)據(jù)的影響。結(jié)果表明,采用一種簡單的方法包括頭枕或曲面以及固定的傳感器,可以在現(xiàn)場收集可靠的語言超聲數(shù)據(jù)。
圖5便攜式超聲設(shè)備 圖6微型超聲系統(tǒng)
語言中的大量研究可以借助超聲舌成像(Ultrasound Tongue Imaging)實(shí)時(shí)反饋技術(shù)觀察到發(fā)音時(shí)的舌體運(yùn)動情況,讓發(fā)音人比較容易的調(diào)整舌位,糾正發(fā)音,也可以根據(jù)舌位信息解釋語言中某些音的發(fā)音現(xiàn)象。同時(shí),可以將超聲舌成像保存成圖像視頻文件,根據(jù)后期的計(jì)算機(jī)圖像處理技術(shù)很容易獲取舌位的高低、前后極值點(diǎn)數(shù)據(jù),舌位最高點(diǎn)與硬腭距離,舌根松緊程度,舌面彎曲度等信息,通過這些數(shù)據(jù)可以進(jìn)一步研究發(fā)音生理模型,但是其中最為關(guān)鍵的是如何獲取高質(zhì)量的舌形輪廓。獲取舌形輪廓之前先把超聲舌像視頻處理成一張張的圖片,然后從每一張圖片中獲取舌形輪廓,有兩種方法,一種方法是手工標(biāo)記,在舌線的位置用鼠標(biāo)點(diǎn)擊打點(diǎn),每張圖片上標(biāo)記150~200點(diǎn);另一種方法是自動舌形輪廓跟蹤(Tongue tracking)算法,除了收費(fèi)的軟件AAA(Articulate Assistant Advanced)[8]之外,還有4個免費(fèi)的軟件,分別是美國馬里蘭大學(xué)的EdgeTrak[9],美國北卡州立大學(xué)的Palatoglossotron[10],加拿大西蒙弗雷澤大學(xué)的TongueTrack[11]以及加拿大多倫多大學(xué)的Ultra-CATS[12]。這幾個軟件各有優(yōu)缺點(diǎn),要根據(jù)具體的實(shí)驗(yàn)環(huán)境進(jìn)行選擇使用,也可以根據(jù)這些軟件的優(yōu)缺點(diǎn),使用語言科學(xué)研究的Matlab[13]搭建適合自己研究方向的超聲舌像處理平臺。
生理語音學(xué)(Physiological Phonetics)是研究有關(guān)語音產(chǎn)生和感知的一門學(xué)科。語音的產(chǎn)生依靠的是發(fā)音器官,我們經(jīng)常提及的發(fā)音生理研究就是借助實(shí)驗(yàn)設(shè)備對發(fā)音器官展開研究。人的發(fā)音器官大致可分為3個部分:喉下、喉部、喉上。其中:喉下有用來呼吸并且也作為發(fā)音能源的各器官,包括氣管、肺、胸廓、橫膈膜和腹?。缓聿渴锹曉雌鞴?,包括喉頭、聲帶;喉上是用共鳴作用或阻礙作用來調(diào)節(jié)聲音的各器官,包括口腔中各部位及鼻腔。而口腔中又包含了3個部分:口壁(包括雙唇、上下齒、齒齦、硬腭、軟腭、小舌)、舌(分為舌尖、舌葉、舌面和舌根)以及咽喉。由于超聲成像的特殊性,目前學(xué)者們借助超聲成像技術(shù)主要在咽喉、腭及舌等部位開展發(fā)音生理研究。
Hamlet S L等人[14]通過超聲波穿過咽喉來研究喉顫音(Laryngeal trills),認(rèn)為喉顫音是一種連續(xù)發(fā)生的脈動聲音,通常在基頻和強(qiáng)度上有很大的變化,每秒鐘發(fā)生7次左右,頻率和強(qiáng)度的變化并不總是同步,發(fā)聲脈動也不是完全有規(guī)律,而超聲數(shù)據(jù)中的周期性模式與聲道強(qiáng)度變化相對應(yīng)。Moisik S R等人[15-16]提出了一種利用喉超聲(laryngeal ultrasound,LUS)影像資料的光學(xué)流分析來量化喉部高度變化的方法,采用該方法能夠精確地量化喉部高度的變化,以此來評價(jià)喉頭高度對元音共振峰頻率的影響,同時(shí),他們在規(guī)范的普通話聲調(diào)上進(jìn)行了同步檢測,從而驗(yàn)證了該方法的有效性,指出喉超聲最適合喉部高度的量化,也可以提供喉部狀態(tài)的部分信息。在此基礎(chǔ)上證明了雖然喉下降一般會產(chǎn)生預(yù)期的降喉效果,但喉抬高對F2和F3有降低作用,而F2和F3則更具有已被標(biāo)記為咽化的特征。
Wodzinski等人[17-18]通過超聲波對軟腭前音(Velar fronting)和軟腭元音(Velar-vowel)進(jìn)行了初步研究。在對軟腭前音的研究中指出軟腭輔音的關(guān)閉位置在所有的中、后元音中都是一致的;對于前元音,軟腭音靠前的程度似乎與元音的正面有關(guān);雙元音關(guān)閉位置的測量方法遵循單詞目標(biāo)的后元音模式;對于非單詞,關(guān)閉位置受前雙元音的發(fā)音質(zhì)量和下一個雙元音的發(fā)音質(zhì)量的影響。在對軟腭元音的研究中指出在軟腭前端,因?yàn)樵粽Z境,所以軟腭輔音的關(guān)閉位置沿著上顎向前移動。
Bouavichith等人[19]用馬拉雅拉姆語(也稱德拉威語,被描述為有7個鼻音位:唇音、牙齒音、齒槽音、卷舌音、硬顎音、軟腭音及鼻音)中的軟硬腭鼻音來研究對比硬顎和軟腭發(fā)鼻音的不同,使用超聲成像來確定這兩個部位的鼻音發(fā)音是否是動態(tài)穩(wěn)定的,集中討論硬腭鼻音和軟腭鼻音在舌與腭接觸的位置和時(shí)間上不同,以及其他腭音的輔音位置和時(shí)間上的不同。
Gick[20]使用便攜式超聲設(shè)備進(jìn)行語言語音實(shí)地調(diào)查,研究的問題主要集中在舌根上,第一個問題是關(guān)于Kinande(剛果的班圖語)的舌根和諧,第二個問題是關(guān)于Nuu-chah-nulth(溫哥華島西海岸的一種瓦卡山語)中的咽部化和元音降低。Alwabari[21]探討了硬腭和軟腭的背側(cè)抬高是否會阻礙舌根收縮以及這個阻礙力度的大小和時(shí)間跨度問題。結(jié)果表明發(fā)音約束的程度導(dǎo)致了對發(fā)音的梯度阻力,發(fā)音約束對發(fā)音阻力的時(shí)間跨度有明確影響。
在元音和諧律方面,Stewart[22]提出了一種舌根前伸(ATR,Advanced Tongue-root,分為-ATR和+ATR)特征來區(qū)分許多非洲語言中的成對元音,如/i/和//、/u/和//、/o/和//。為了進(jìn)一步研究元音和諧問題,Eichholz等人[23]用超聲記錄贊德語元音的舌形輪廓,統(tǒng)計(jì)后發(fā)現(xiàn)舌體輪廓線在舌背區(qū)域是有規(guī)律的偏離,而在舌根區(qū)域偶爾存在偏離,結(jié)果表明贊德語中負(fù)責(zé)元音和諧的語言特征主要是與舌頭高度差異有關(guān)而不是與舌根前伸有關(guān)(見圖7)。
圖7 成對元音的舌體輪廓線之間存在顯著性差異(p<0.05)(粗線表示)
Lu Z等人[6]98通過超聲舌像來研究中國陜西西安方言的舌體運(yùn)動模型。文中對西安方言的靜態(tài)視位(Viseme)進(jìn)行了分類,通過超聲成像記錄舌頭在VCV和CVC的話語中發(fā)音活動的時(shí)間和位置屬性,開發(fā)了相關(guān)程序能夠在超聲舌像中自動進(jìn)行舌頭運(yùn)動輪廓跟蹤,對提取的視覺信息進(jìn)行了分類并定義了全部視位,用于創(chuàng)建陜西西安方言舌體的動態(tài)視位系統(tǒng)。
傳統(tǒng)的語言教學(xué)一般都是通過聲學(xué)的方法,學(xué)習(xí)者往往通過耳朵聽和觀察發(fā)音口形來習(xí)得語音發(fā)音,但是對于一些難發(fā)的音就束手無策。如果學(xué)習(xí)者能夠直接看到發(fā)音時(shí)舌體運(yùn)動變化情況,那么他們會對發(fā)音過程有更深入的了解,能夠盡量準(zhǔn)確地調(diào)整自己的發(fā)音舌位。
Gick[24]對超聲成像在二語習(xí)得中的應(yīng)用作了描述,對相關(guān)概念進(jìn)行了簡要介紹,并給出了具體的應(yīng)用案例。Tsui[25]對日本成年人學(xué)習(xí)第二語言英語的/l/和//進(jìn)行了超聲訓(xùn)練研究,研究結(jié)果表明,所有參與者都提高了英語/l/和//在各種詞匯位置和語境中發(fā)音的準(zhǔn)確性,將超聲應(yīng)用于語言訓(xùn)練對學(xué)習(xí)英語發(fā)音的日本成年人是有益的。Suzuki[26]使用超聲、視頻和MRI開發(fā)了可視化語音發(fā)音應(yīng)用程序(見圖8),該程序?qū)⒁纛l、正面和側(cè)面視頻、MRI和超聲波視頻連接在一起,用戶可以觀看到發(fā)音視頻,也可以錄制自己的音頻/視頻,并與模型同步播放,以便進(jìn)行比較。
圖8 可視化語音發(fā)音學(xué)習(xí)APP
超聲波可以用來解決音位理論中尚未解決的問題。一些研究已經(jīng)表明,通過超聲成像手段可以揭示出音位元素的差異是如何變化的。Davidson L[27]選擇了5名說英語的人,他們用元音插入(例如[zegomu])來修復(fù)這些非單詞(例如[zgomu]),利用超聲成像技術(shù),將這些非單詞序列與發(fā)音相似的合法序列單詞進(jìn)行比較,以評估在/z/和后面輔音之間非重讀央元音的性質(zhì)。結(jié)果表明,對于一些發(fā)音者來說,在[zC]序列(例如[zdiri]與[zderu]、[zgama]與[zgomu]、[zbura]與[zbertu])中產(chǎn)生的非重讀央元音與非重讀央元音的音位轉(zhuǎn)換是不一致的,相反,發(fā)音者似乎沒有充分地重疊輔音。協(xié)同發(fā)音是語言的一個共同特征,雖然不可能對語言的協(xié)同發(fā)音效應(yīng)作出普遍的概括,但Krebs[28]通過研究部分元音與輔音的協(xié)同發(fā)音問題,證實(shí)了[k]的兩個同音詞在一個類型不同的語言中存在協(xié)同發(fā)音效應(yīng),證實(shí)[k]對協(xié)同發(fā)音的抵抗力較低,舌根參與了舌背前元音的協(xié)同發(fā)音。
Zharkova[29]針對兒童語言協(xié)同發(fā)音發(fā)展方面利用超聲成像進(jìn)行了有關(guān)研究,該研究描述了6組3至10歲的蘇格蘭英語兒童的語言協(xié)同發(fā)音模式,利用超聲舌成像數(shù)據(jù),對4個不同約束程度的聲母進(jìn)行舌預(yù)測協(xié)同發(fā)音分析,在所有年齡組中,包括兩個最小的兒童群體,可以觀察到由這兩個元音語境(以[pi]和[pa]為例)制約的輔音舌形的某些差異,對于圖9所示的/p/,兩個元音上下文中最集中的部分舌的相對位置(沿舌曲線)的差異是可見的,在/i/的上下文中,更多地向舌的前面聚集,而在/a/的上下文中,則更多地聚集到舌的后面,其中各年齡組內(nèi)的輔音在舌形上的差異較小。結(jié)果表明,隨著年齡的增加,個體語音協(xié)同發(fā)音程度的發(fā)展變化受到舌頭發(fā)音限制。
圖9 各年齡組的[pi](點(diǎn)狀線)和[pa](實(shí)線)發(fā)音時(shí)的舌形
McAllister Byun T等人[30]采用聲學(xué)測量和超聲測量(舌背偏移指數(shù),Dorsum Excursion Index)方法分析軟腭前音中的隱性差異(Covert contrast),結(jié)果顯示,不同的軟腭音和齒槽音之間存在顯著差異,一個能發(fā)軟腭前音的兒童在聲學(xué)和超聲波測量中表現(xiàn)出了隱性差異,另一個則沒有顯示出差異的跡象。借助超聲成像技術(shù)來分析語言現(xiàn)象,對于具有兒化或卷舌的語言來說,目前還不清楚這種咽收縮姿勢是否也是一種發(fā)音功能,Boyce等人[31]研究比較了不同語系的兒化或卷舌現(xiàn)象,描述了咽部收縮的存在與否,結(jié)果表明在所有的語言中都能觀察到咽部的收縮,這被認(rèn)為是兒童難以獲得的。
葉為昌[32]利用超聲觀察成人發(fā)音時(shí)的舌頭運(yùn)動,對健康成人男性和女性在發(fā)元音時(shí)的舌體運(yùn)動時(shí)長和舌體上下運(yùn)動距離進(jìn)行了測量。陳彧[33]利用超聲波檢測方法對漢語普通話基礎(chǔ)元音發(fā)音的舌體運(yùn)動進(jìn)行了研究,結(jié)果表明:各元音發(fā)音的舌體都會出現(xiàn)相應(yīng)的形態(tài)變化,舌體形態(tài)在穩(wěn)定程度上不一樣,在舌體形態(tài)峰值出現(xiàn)的時(shí)刻上也不一致,同時(shí),驗(yàn)證了超聲在發(fā)音生理研究中的可行性,驗(yàn)證了發(fā)音音系學(xué)和元音格局理論能夠?qū)υ舭l(fā)音舌位特征進(jìn)行描寫。
臨床表現(xiàn)為構(gòu)音障礙、失語癥以及言語失用等病理現(xiàn)象,從構(gòu)音障礙與言語失用的定義上我們可以發(fā)現(xiàn)這兩類患者的聽理解尚未受損,其聽理解功能是正常的,而失語癥患者中不論其為哪一種失語類型,其聽理解能力多少都會有異常。研究表明視覺反饋技術(shù)可以成為語言康復(fù)的有效工具。采用視聽結(jié)合的實(shí)時(shí)反饋治療技術(shù),能夠改變語言的濫用和誤用,誘導(dǎo)正確發(fā)聲技能的形成。語言障礙治療中采用超聲成像技術(shù),為語言康復(fù)治療工作人員進(jìn)行科學(xué)系統(tǒng)的治療和訓(xùn)練提供了有益的幫助,使有語言障礙的人能方便、清楚地表達(dá),提高他們的交流溝通能力。Bernhardt B、Gick B等人[34]論述了超聲在語言治療中的作用,對患有嚴(yán)重聽力障礙、持續(xù)語言障礙、帶有英語口音的青少年和成人進(jìn)行語音治療研究,并從動態(tài)二維超聲中得到反饋。
發(fā)音視覺反饋技術(shù)的進(jìn)步為治療語言障礙提供了新的機(jī)會。Bernhardt等人[35]對4名患有聽力損失和語言障礙的青少年進(jìn)行了為期14周的語言治療研究,方案中設(shè)計(jì)了一對齒擦音/s/和/?/,一對流音/l/和//,以及松緊元音和高元音。在該研究中他們使用了電腭造影技術(shù)和超聲成像技術(shù)兩種動態(tài)的視覺反饋系統(tǒng)技術(shù),其中,電腭造影提供了關(guān)于舌頭硬腭接觸點(diǎn)的信息,超聲成像顯示了舌頭的形狀和從舌尖到舌根的兩個維度的運(yùn)動。結(jié)果表明,治療效果顯著改善,與治療前相比,測試者在輔音上表現(xiàn)出了很大的進(jìn)步。
圖10 超聲播放器圖 圖11 發(fā)音過程中舌頭運(yùn)動的中矢狀舌形圖像和結(jié)果分析
使用超聲成像技術(shù)可以提高語音發(fā)音的準(zhǔn)確性。Michelle Cavin[36]利用超聲生物反饋技術(shù)來對北美英語/r/發(fā)音進(jìn)行矯正,這種非侵入性的生物反饋技術(shù)可以讓一個人看到他們舌頭形狀的運(yùn)動特征,這樣他們就可以根據(jù)正確的發(fā)音模型來修改自己的發(fā)音。Preston J L、Brick N等人[37]對6名9歲至15歲語音失用癥(apraxia of speech)的兒童進(jìn)行了18個療程的實(shí)驗(yàn),利用實(shí)時(shí)超聲波圖像的視覺反饋,孩子們被要求調(diào)整舌頭的動作,在治療前、治療中和治療后收集探測器數(shù)據(jù),以評估治療和未處理的聲音序列的詞匯水平準(zhǔn)確性,所有參與者在至少2個處理過的聲音序列中達(dá)到了性能標(biāo)準(zhǔn)(連續(xù)兩次的準(zhǔn)確率為80%),結(jié)果表明,為了提高語音失用癥相關(guān)的持續(xù)語音錯誤的兒童語音的準(zhǔn)確性,使用超聲生物反饋的治療方案是一個可行的選擇。為了提高患者的發(fā)音意識,Hueber T[38]開發(fā)了超聲播放器(見圖10),一種為語音治療和發(fā)音訓(xùn)練應(yīng)用而設(shè)計(jì)的超聲可視化以及舌、唇視頻序列的軟件。
Adam Buchwald[39]等人對一個失語癥患者做了關(guān)于音位增音方面的研究,患者說話時(shí)會把類似于非重讀央元音插入到輔音中(例如clone和c[]lone)。實(shí)驗(yàn)中采用輔音(C1C2)組(例如clue)與插入一個元音的單詞(C1VC2)組(例如collude)做對比分析,全部發(fā)音采用超聲成像來記錄,它提供了發(fā)音過程中舌頭運(yùn)動的中矢狀舌形圖像,如圖11-a所示。結(jié)果如圖11-b顯示,C1C2組(glue、clue,實(shí)線表示)與C1VC2組(galoot-collude,虛線表示)沒有明顯的區(qū)別,對于插入到輔音之間的元音的感知僅僅反映了兩個輔音相關(guān)聯(lián)的動態(tài)發(fā)音姿勢錯誤。
隨著人工智能技術(shù)的發(fā)展,新的圖像處理技術(shù)、新的實(shí)驗(yàn)方法以及新的實(shí)驗(yàn)設(shè)備的出現(xiàn)將會推動實(shí)驗(yàn)語言的發(fā)展進(jìn)步,超聲成像將繼續(xù)在語言研究中被使用,可以用來研究的領(lǐng)域更廣范,研究的問題更深入。超聲成像技術(shù)能夠進(jìn)一步提升語音識別和語音合成的質(zhì)量。
傳統(tǒng)的語音識別采用的是聲學(xué)特征。我們也可以通過提取超聲圖像和光學(xué)圖像中的視覺特征用于語音識別(見圖12),這樣的合成器只能通過發(fā)音生理數(shù)據(jù)來驅(qū)動,稱為“無聲語音接口”(SSI,Silent Speech Interface)[40],由于聲音的發(fā)聲是不必要的,無聲語音接口有許多潛在的應(yīng)用。例如,為了幫助接受過喉切除術(shù)的病人,無聲語音接口可以被用來代替電喉。此外,在嘈雜背景環(huán)境中,無聲語音接口可以提高通信質(zhì)量。
圖12 基于超聲的無聲語音接口原理圖
Hueber T[41-42]從超聲舌頭圖像和嘴唇光學(xué)圖像中獲取信息進(jìn)行了連續(xù)語音識別,對語音語料庫的處理采用自動語音校正程序和強(qiáng)大的視覺特征提取技術(shù)進(jìn)行語音標(biāo)記,并基于HMM(Hidden Markov Model)的隨機(jī)模型分別在視覺語料庫和聲學(xué)語料庫中進(jìn)行估算,將視覺語音識別系統(tǒng)的性能與傳統(tǒng)的基于聽覺的識別系統(tǒng)進(jìn)行了比較,證明了通過超聲圖像和嘴唇的光學(xué)圖像來識別語音的可行性,這對于我們?nèi)ダ斫鉄o聲語言與發(fā)聲語言的區(qū)別聯(lián)系有著重要意義。
Wang J[43]提出了一種將動態(tài)信息集成到基于超聲波的無聲語音接口中的新方法,該方法中分別對靜態(tài)和動態(tài)視覺特征信息的可靠性進(jìn)行了加權(quán),采用了多流隱馬爾可夫模型(MSHMM,Multi-stream Hidden Markov Model)技術(shù)。最終在普通話多模態(tài)數(shù)據(jù)庫中對基于多流的集成方法進(jìn)行了評估,并與傳統(tǒng)的連接融合方法進(jìn)行了比較,結(jié)果表明語音解碼的準(zhǔn)確性得到提高。路文煥等人[44]在基于超聲的無聲語音接口實(shí)現(xiàn)中,提出了3種混合特征提取方法:使用主成分分析從小波系數(shù)中提取特征(WaveletPCA)、分塊離散余弦變換主成分分析(block DCT G PCA)和分塊WalshHadamard變換主成分分析(block WHT G PCA),實(shí)驗(yàn)結(jié)果表明:混合特征提取方法更能夠提取舌部超聲圖像中重要的特征,該方法優(yōu)于通常使用的主成分分析或離散余弦變換,其中block DCT G PCA方法最優(yōu)。借助深度學(xué)習(xí)技術(shù)、新方法以及新算法的應(yīng)用,相關(guān)研究人員對語音識別中的基于超聲成像的無聲語音接口方面的研究更加深入。Yan Ji等人[45]引入深度學(xué)習(xí)技術(shù),使得基于超聲的無聲語音接口的準(zhǔn)確率大幅提升。Grósz T等人[46-47]采用深度神經(jīng)網(wǎng)絡(luò)(DNN),從超聲波圖像中進(jìn)行發(fā)音和聲學(xué)轉(zhuǎn)換,重點(diǎn)是基于超聲波的發(fā)音—聲學(xué)映射中執(zhí)行基頻估計(jì),結(jié)果證明了發(fā)音與基頻的預(yù)測是有希望的。同時(shí),他們還將舌體的二維超聲作為深度神經(jīng)網(wǎng)絡(luò)的輸入信息,給出了基于超聲舌體運(yùn)動的語音轉(zhuǎn)換的初步結(jié)果。上述研究將會對無聲語音接口的應(yīng)用起著重要作用。
此外,在語音合成方面,Jaumard-Hakoun[48]提出了一種基于超聲舌成像和唇形的歌唱聲音合成方法,提取超聲舌像和唇形圖像序列中的特征,利用多層結(jié)構(gòu)對這些特征中最相關(guān)的特征進(jìn)行非線性預(yù)測,最終合成的質(zhì)量效果令人滿意。
超聲被用于語音中提供舌頭位置和配置的實(shí)時(shí)視覺反饋,與EMMA(電磁中矢狀發(fā)音測量儀,也稱“艾瑪儀”)提供視覺反饋相比,超聲是一種更廣泛、更少侵入性的技術(shù),而且它提供了整個舌頭形狀信息的優(yōu)勢。超聲具有足夠的靈活性,能夠快速地從矢狀面轉(zhuǎn)變?yōu)楣跔钜晥D,可以動態(tài)或靜態(tài)地觀察舌頭的矢狀或冠狀斜視圖,提供關(guān)于構(gòu)形和運(yùn)動的不同視角。超聲成像可以疊加到視頻中,能夠同時(shí)觀察到口形和舌位運(yùn)動。另外,超聲波不需要個性化的硬件(比如EPG的人工腭),它可以立即使用,而不增加每個用戶的費(fèi)用,尤其是便攜式超聲設(shè)備允許用戶在田野進(jìn)行數(shù)據(jù)收集。
首先,與核磁共振成像(MRI)或造影技術(shù)相比,超聲成像技術(shù)具有劣勢,因?yàn)樵诔暢上裰胁豢赡苡涗浬喔恼麄€形狀(由于舌骨的陰影),加上探測器范圍的局限性,舌尖信息也很難獲取到。其次,二維超聲不能同時(shí)監(jiān)測矢狀位和冠狀位,三維動態(tài)超聲(目前是一種靜態(tài)顯示)或同時(shí)使用EPG(電子腭位儀)和超聲可以提供更多的多維視圖,這可能更容易實(shí)現(xiàn)。再次,超聲不提供舌腭接觸信息,但是EPG和超聲的組合使用可能比靜態(tài)參考線或透明性更具有啟發(fā)性。最后,超聲不提供聲學(xué)信息,顯示舌頭結(jié)構(gòu)和聲音顯示的分隔屏幕可以提供關(guān)于音調(diào)、強(qiáng)度、聲音、發(fā)音方式和發(fā)音的附加信息。
使用超聲成像作為科學(xué)研究的工具,它的測量方法和研究結(jié)果是否具有有效性,還需要進(jìn)一步研究證明。Ménard L等人[49]用超聲成像測量舌頭的形狀和位置,通過開發(fā)的VLAM發(fā)音模型來評估超聲測量方法的有效性。提出的數(shù)據(jù)分析方法將舌形輪廓重新塑造成三角形,然后提取出舌頭最高點(diǎn)、曲率度和曲率位置的角度、x和y坐標(biāo)。結(jié)果表明,與絕對舌位(舌頭高度和前后位置)相關(guān)的參數(shù)對探頭的水平和垂直位移更敏感,而與舌曲率有關(guān)的參數(shù)對這種位移的敏感度較低。Wodzinski等人[17]2395評估了超聲成像對測量軟腭輔音關(guān)閉位置的有效性。McAllister等人[30]249指出由于目前的研究并沒有提供令人信服的證據(jù),證明超聲波在聲學(xué)測量方法上的優(yōu)勢,研究人員和臨床醫(yī)生可能會質(zhì)疑,是否有可能為將超聲波技術(shù)納入研究或治療兒童語言所需的時(shí)間和資源進(jìn)行辯護(hù)。然而,這項(xiàng)研究僅限于對從超聲波和聲學(xué)數(shù)據(jù)中提取的定量測量方法進(jìn)行比較。
首先,發(fā)音生理部位舌體的舌尖和舌邊信息補(bǔ)全機(jī)制。在元音和輔音的產(chǎn)生過程中,對舌頭的整體結(jié)構(gòu)進(jìn)行研究是最有用的,但由于舌頭的前部經(jīng)常被下巴所遮蔽,所以舌尖和舌邊的信息會丟失,如何補(bǔ)全丟失的信息或許可以成為未來關(guān)注的重點(diǎn)。其次,添加多模態(tài)的發(fā)音生理數(shù)據(jù)增加語音合成的自然性??梢詫⒒诔暤纳囿w形態(tài)數(shù)據(jù)應(yīng)用在文字—語音轉(zhuǎn)換系統(tǒng)(TTS,Text-To-Speech synthesis)[50]中,即視聽語音合成系統(tǒng)(Audiovisual TTS)[51]。在文字—語音轉(zhuǎn)換系統(tǒng)中添加舌體運(yùn)動(Tongue movement)和唇形動作(Lip motion)等發(fā)音特性將會提高TTS的自然性,最終研發(fā)出一個會講話的人頭(Talking head)。最后,在語音識別中的無聲語音接口研究方面,采用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)、自動編碼技術(shù),研究并添加舌、唇、上下文相關(guān)模型、統(tǒng)計(jì)語言模型和新的集成模式的新視覺特征,改善識別效果,推動無聲語音接口的實(shí)際應(yīng)用。
語言學(xué)方面的研究需要在廣度與深度上繼續(xù)展開,一些傳統(tǒng)的研究方法和研究手段也需要不斷更新。超聲成像技術(shù)的發(fā)展推動了語言的深度研究,以前,對于某些語言現(xiàn)象只能依靠理論推測,而今,我們可以借助超聲成像技術(shù)用科學(xué)合理的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行解釋分析。雖然超聲成像技術(shù)有著一定的不足,但是國外有大量的學(xué)者們已將超聲成像技術(shù)應(yīng)用在語言研究中,并且取得了重要研究成果。相信隨著超聲成像、圖像處理、三維建模、機(jī)器學(xué)習(xí)等技術(shù)的深入發(fā)展,對于我國的語言實(shí)踐研究有著重要意義。