汪高武,龐 博,李晨光,楊豆豆
(北京師范大學(xué) 文學(xué)院 北京 100875)
提 要 在各種社會(huì)重大突發(fā)事件的應(yīng)急處理中,智能語(yǔ)音技術(shù)能起到彌補(bǔ)人力資源嚴(yán)重不足、緊急處理海量信息、有效應(yīng)對(duì)風(fēng)險(xiǎn)、降低損失的作用,具有獨(dú)特的優(yōu)勢(shì)。在2020年新冠肺炎疫情中,全國(guó)各地支援湖北,不同方言人群之間的溝通也成為一個(gè)問題,這對(duì)語(yǔ)音識(shí)別技術(shù)提出了要求和挑戰(zhàn)。本文以科大訊飛智能語(yǔ)音輸入法為例,根據(jù)全國(guó)多種方言(139個(gè)方言點(diǎn),共283位發(fā)音人)在疫情防控模擬場(chǎng)景下的語(yǔ)音識(shí)別材料,對(duì)其成效進(jìn)行了評(píng)估和分析,并探討了智能語(yǔ)音技術(shù)的應(yīng)用和發(fā)展。
智能語(yǔ)音技術(shù)是人機(jī)交互中最為重要的一種,計(jì)算機(jī)通過(guò)語(yǔ)音的交互方式理解、輔助人類(陳鵬2017;王海坤,等2018)。智能語(yǔ)音技術(shù)具有永不疲倦、降低人力成本、智能可擴(kuò)展等特點(diǎn),已廣泛應(yīng)用在各種領(lǐng)域,包括醫(yī)療健康(張海波,等2017)、出版?zhèn)髅剑ê?,?016;朱晶晶2016)、教育教學(xué)(張?bào)闾m,王保論2011)、公安警務(wù)(肖益茂,等2018)、呼叫中心(李楓,徐韜2016)、客服質(zhì)檢(林可希2013)等等。其中語(yǔ)音轉(zhuǎn)為文字的技術(shù),幫助人們免于手寫或打字的限制與勞累,為社會(huì)做出了很大的貢獻(xiàn)。以科大訊飛智能語(yǔ)音輸入法為例,2019年全國(guó)訊飛輸入法用戶語(yǔ)音錄入共計(jì)35 560億字,可為用戶節(jié)省8.38億分鐘,接近9.6萬(wàn)年(中關(guān)村在線2020)。
隨著社會(huì)發(fā)展、人口集中、人力成本越來(lái)越高,對(duì)智能語(yǔ)音技術(shù)的需求也日益增長(zhǎng)。特別是在各種社會(huì)重大突發(fā)事件中,智能語(yǔ)音技術(shù)能起到彌補(bǔ)人力資源嚴(yán)重不足、緊急處理海量信息、有效應(yīng)對(duì)風(fēng)險(xiǎn)、降低損失的作用,具有獨(dú)特的優(yōu)勢(shì)。重大突發(fā)事件的特點(diǎn)主要有:(1)突破生活常態(tài),意味著新的場(chǎng)景、任務(wù)和交流,以及龐雜的人員聚集重組。人類對(duì)某些場(chǎng)景的適應(yīng)性很強(qiáng),但有些情況,例如不同方言和不同語(yǔ)言之間的障礙,卻不是短時(shí)間內(nèi)能適應(yīng)解決的。等適應(yīng)了、學(xué)會(huì)了,應(yīng)急處理可能又過(guò)去了,語(yǔ)言學(xué)習(xí)就顯得不太劃算。(2)重大突發(fā)事件,特別是重大自然災(zāi)害,往往是人員大量受損、人力資源緊張甚至枯竭的時(shí)候,為避免諸如醫(yī)療資源被擠兌甚至“擊穿”的風(fēng)險(xiǎn),正需要語(yǔ)音智能去幫助溝通、輔助篩查、緩解人力、安撫情緒,減輕醫(yī)療、救援及工作人員的負(fù)擔(dān)。例如本次疫情中,有智能語(yǔ)音呼梯系統(tǒng)幫助避免電梯按鍵接觸式感染、人工智能輔助醫(yī)療協(xié)助基層醫(yī)生進(jìn)行疫情篩查防控和防疫知識(shí)宣教、智能醫(yī)療助理為一線提供最迫切需求的醫(yī)療服務(wù)和國(guó)家基層醫(yī)療培訓(xùn)等各種應(yīng)用(任曉寧2020)。
在本次疫情中,全國(guó)各地支援湖北,方言溝通成為一個(gè)問題。為幫助外地援鄂醫(yī)療隊(duì)解決醫(yī)患溝通的方言障礙問題,教育部語(yǔ)言文字信息管理司指導(dǎo)組成了“戰(zhàn)疫語(yǔ)言服務(wù)團(tuán)”,迅速研制了涵蓋湖北九大方言片區(qū)的《抗擊疫情湖北方言通》,為抗擊疫情的醫(yī)護(hù)人員及相關(guān)群體提供多維度語(yǔ)言服務(wù)(李宇明2020)??梢灶A(yù)期,將來(lái)智能語(yǔ)音技術(shù)會(huì)在防疫等重大緊急事件中起到相當(dāng)?shù)淖饔?。為此,我們也需要?duì)智能語(yǔ)音技術(shù)在這些實(shí)際應(yīng)用場(chǎng)景下的性能進(jìn)行第三方獨(dú)立的、非商業(yè)的、科學(xué)的評(píng)估,為將來(lái)國(guó)家制定行業(yè)標(biāo)準(zhǔn)、政府采購(gòu)智能語(yǔ)音技術(shù)產(chǎn)品提供科學(xué)依據(jù)和參考,以更好地為社會(huì)民生服務(wù)。
由于歐美國(guó)家醫(yī)療健康產(chǎn)業(yè)更為發(fā)達(dá),人力成本也更昂貴,所以對(duì)人工智能技術(shù)在健康衛(wèi)生行業(yè)的應(yīng)用和評(píng)估也比較多(Johnson et al. 2014),但國(guó)內(nèi)對(duì)智能語(yǔ)音識(shí)別技術(shù)的測(cè)試評(píng)估比較少(蔣平,吳振國(guó)2003)。因此本研究將以語(yǔ)音輸入法對(duì)疫情防控場(chǎng)景相關(guān)語(yǔ)料的識(shí)別為例,討論智能語(yǔ)音技術(shù)的應(yīng)用情況和表現(xiàn)。智能語(yǔ)音目前有很多家的技術(shù)和產(chǎn)品,選擇以訊飛輸入法為例是因?yàn)椋菏紫龋嶏w輸入法識(shí)別語(yǔ)言種類最多,提供了全國(guó)23種漢語(yǔ)方言的識(shí)別(其硬件產(chǎn)品“訊飛翻譯機(jī)”可提供59種語(yǔ)言翻譯)。其次,訊飛技術(shù)相對(duì)較成熟。有醫(yī)療團(tuán)隊(duì)在對(duì)兒童發(fā)音評(píng)估的研究中,對(duì)比了兩種語(yǔ)音識(shí)別軟件,發(fā)現(xiàn)其識(shí)別率更優(yōu),性能更穩(wěn)定(韓源,等2017)。最后,訊飛輸入法應(yīng)用最為廣泛。在移動(dòng)互聯(lián)領(lǐng)域,訊飛輸入法用戶達(dá)4億,活躍用戶數(shù)1.1億(中國(guó)網(wǎng)2016)。同時(shí),科大訊飛被國(guó)家科技部列入新一代人工智能開放創(chuàng)新平臺(tái)名單,為同行業(yè)唯一(科技部2017)。
要評(píng)估智能語(yǔ)音技術(shù)的應(yīng)用狀況,最佳方案是在防疫工作醫(yī)療實(shí)際場(chǎng)景中進(jìn)行調(diào)查。但為了避免影響防疫工作、增加醫(yī)療人員或患者的負(fù)擔(dān),以及避免調(diào)查志愿者感染風(fēng)險(xiǎn),我們采取部分模擬真實(shí)場(chǎng)景的一種體驗(yàn)方式,讓發(fā)音人(被試)用方言念相關(guān)的語(yǔ)料。語(yǔ)料應(yīng)該涵蓋可能癥狀的描述(例如咳嗽、發(fā)燒、呼吸困難)和相關(guān)的醫(yī)療用語(yǔ)(例如打針、口罩)等。在教育部語(yǔ)言文字信息管理司指導(dǎo)下成立的“戰(zhàn)疫語(yǔ)言服務(wù)團(tuán)”,根據(jù)語(yǔ)料庫(kù)統(tǒng)計(jì)和醫(yī)用場(chǎng)景調(diào)研,遴選了156個(gè)詞和76個(gè)短句(北京日?qǐng)?bào)客戶端2020),應(yīng)用廣泛,較為典型。但根據(jù)我們預(yù)調(diào)查的反饋,其篇幅對(duì)于本次的調(diào)查任務(wù)來(lái)說(shuō)還是比較重。經(jīng)過(guò)多次反饋和調(diào)整,盡量用較少的文本包含更多的信息,本次調(diào)查研究從中選取了21個(gè)跟疫情最為相關(guān)的詞匯(包括癥狀、醫(yī)療、程度副詞、否定副詞),以及20個(gè)短句,并對(duì)短句加以擴(kuò)充(加入不同的親屬稱謂、醫(yī)療用語(yǔ)等)和調(diào)整,作為本次調(diào)查研究的語(yǔ)料,具體內(nèi)容請(qǐng)見下文和附錄。
本次調(diào)查研究共有100位志愿者參與,均為學(xué)習(xí)語(yǔ)言學(xué)課程的學(xué)生。調(diào)查對(duì)象為志愿者自己與其居家隔離親友,共計(jì)283位發(fā)音人。年齡從9歲~84歲,平均年齡35.7歲,標(biāo)準(zhǔn)差17.97歲。其中96位男性,187位女性,女性比男性多主要是因?yàn)榘嗉?jí)學(xué)生的性別比例女性占多。有鼻炎、鼻塞現(xiàn)象的3例,牙齒缺失的7例,經(jīng)人耳聽辨錄音,對(duì)于發(fā)音沒有太大影響。除了極個(gè)別情況(例如帶鼻炎的“發(fā)燒”人耳聽辨無(wú)問題,但輸入法識(shí)別為“放手”),語(yǔ)音識(shí)別也沒有太大問題,屬于可接受范圍。
調(diào)查方法是讓發(fā)音人在自己的手機(jī)上下載并安裝訊飛語(yǔ)音輸入法,根據(jù)自己的方言情況,從訊飛輸入法提供的23種方言中選取跟自己最接近的方言。然后讓發(fā)音人用自己的方言,以對(duì)應(yīng)普通話詞句的當(dāng)?shù)乇磉_(dá)方式,對(duì)著手機(jī)說(shuō)話,由志愿者記錄下方言的文本和訊飛輸入法識(shí)別出的文本。然后由志愿者標(biāo)記語(yǔ)音識(shí)別的錯(cuò)誤之處,并加以分析,填寫到調(diào)查表中。同時(shí)保留錄音,以做后期的校對(duì)和分析。調(diào)查表收取后,經(jīng)過(guò)研究小組的校對(duì)和核查,用Python和Matlab編程進(jìn)行數(shù)據(jù)文件的處理和統(tǒng)計(jì)分析。
本次調(diào)查的發(fā)音人地點(diǎn)有139個(gè),詳細(xì)到城區(qū)或鄉(xiāng)鎮(zhèn)。除青海和臺(tái)灣外,全國(guó)各省市自治區(qū)均有分布,地址為“鄉(xiāng)/鎮(zhèn)”的57個(gè),“市/區(qū)/縣”的82個(gè),城區(qū)略占優(yōu)勢(shì)。訊飛輸入法提供的23種“方言”,是一種籠統(tǒng)的、并非學(xué)術(shù)意義上的說(shuō)法,大體相當(dāng)于23種“地方話”。本次調(diào)查沒有發(fā)音人選擇天津話、蘇州話和合肥話作為識(shí)別方言,另外有些發(fā)音人沒有母語(yǔ)方言只會(huì)說(shuō)普通話,所以最終在圖1中列出了20種“方言”和普通話的人數(shù)分布。
本次研究,是讓發(fā)音人自行從訊飛輸入法提供的23種方言中選取,所以會(huì)遇到選擇錯(cuò)誤的情況。一般人對(duì)自己方言的認(rèn)識(shí),往往是以距離、行政歸屬來(lái)判斷,對(duì)于語(yǔ)言學(xué)里劃分的方言、次方言、片區(qū)等并無(wú)太大概念。本次調(diào)查中,有6人選擇了錯(cuò)誤的方言,占總?cè)藬?shù)的2.1%。例如:104號(hào)發(fā)音人是講河南省安陽(yáng)市內(nèi)黃縣井店鎮(zhèn)的方言,初期選擇了輸入法提供的河南話,實(shí)際上安陽(yáng)話屬晉語(yǔ)邯新片獲濟(jì)小片,不屬于中原官話,保留了入聲,跟通常所說(shuō)到的河南話區(qū)別很大,相比較而言更應(yīng)該選取輸入法提供的山西話(太原)來(lái)識(shí)別。143號(hào)發(fā)音人是講江西省贛州市蓉江新區(qū)潭東鄉(xiāng)的方言,根據(jù)行政歸屬選擇了訊飛提供的江西話(南昌)。實(shí)際上,贛州話是一個(gè)方言島,市區(qū)是西南官話,周邊都是客家話。這個(gè)地點(diǎn)在贛南師范大學(xué)黃金校區(qū)附近,經(jīng)錄音聽辨,有入聲,基本上還是客家話。以上都在訊飛提供的23種方言中有更好的選擇,但還有很多方言,只能相對(duì)擇優(yōu),選擇其中一種最為靠近的方言,這會(huì)嚴(yán)重影響識(shí)別錯(cuò)誤率,這些將在下文討論。
另外,為了解社會(huì)大眾對(duì)智能語(yǔ)音技術(shù)特別是語(yǔ)音輸入法的認(rèn)知狀況,本次研究在調(diào)查問卷中設(shè)置了9個(gè)相關(guān)的問題,具體情況將另文介紹??傮w上看,語(yǔ)音識(shí)別技術(shù)還是廣泛進(jìn)入社會(huì)生活、被大眾認(rèn)知的,但只有很少一部分人(占比16.4%)使用過(guò)方言識(shí)別的功能。
1.錯(cuò)誤率的判斷標(biāo)準(zhǔn)
對(duì)于智能語(yǔ)音識(shí)別(語(yǔ)音輸入法),最重要的衡量指標(biāo)就是把語(yǔ)音識(shí)別成文字的正確率或錯(cuò)誤率。英語(yǔ)的錯(cuò)誤率一般用錯(cuò)詞率,漢語(yǔ)一般用錯(cuò)字率。通常設(shè)定普通人類錯(cuò)詞率為5.9%,受過(guò)嚴(yán)格訓(xùn)練的專業(yè)速記員錯(cuò)詞率在3%左右。2018年的Pyramidal-FSMN語(yǔ)音識(shí)別模型,錯(cuò)詞率低至2.97%,將全球語(yǔ)音識(shí)別準(zhǔn)確率紀(jì)錄提高到97.03%,超過(guò)了受過(guò)嚴(yán)格訓(xùn)練的專業(yè)人類速記員(Yang et al. 2018)。但無(wú)論算法如何改進(jìn),只要是基于統(tǒng)計(jì)模型,識(shí)別正確率都只會(huì)無(wú)限趨近而不會(huì)達(dá)到100%。而且這些正確率都是基于特定的數(shù)據(jù)庫(kù),真實(shí)場(chǎng)景的正確率實(shí)際上會(huì)降低,這也是語(yǔ)音識(shí)別沒有更為普及的原因。當(dāng)然相比于自動(dòng)駕駛、機(jī)床操作等對(duì)安全有極高要求的領(lǐng)域,語(yǔ)音的識(shí)別錯(cuò)誤相對(duì)來(lái)講更容易被用戶接受,達(dá)到“可信任”水平。
本次主要研究漢語(yǔ)方言,錯(cuò)誤率的判斷標(biāo)準(zhǔn)說(shuō)明如下:(1)因?yàn)闈h語(yǔ)基本上是一個(gè)漢字對(duì)應(yīng)一個(gè)音節(jié),所以計(jì)算錯(cuò)誤率的時(shí)候可以用字符數(shù)或音節(jié)數(shù)計(jì)算均可。但日常使用語(yǔ)言當(dāng)中常常會(huì)有英文和數(shù)字,例如這次的語(yǔ)料里就含有英文“CT”和數(shù)字“38”,以及常見的“WC、18、花兒”等,我們這里統(tǒng)一標(biāo)準(zhǔn),都按字符算成兩個(gè)字。(2)“的、地、得”之類的混淆不算錯(cuò)誤。這3個(gè)字的發(fā)音一樣,在短句正文中即使輸入法識(shí)別錯(cuò)誤,對(duì)正確意思的理解也幾乎沒有影響,就不計(jì)入錯(cuò)誤。(3)標(biāo)點(diǎn)符號(hào)。一般的情況(例如逗號(hào)、句號(hào)等)對(duì)正確理解影響極小。除了極個(gè)別情況,例如問號(hào)和句號(hào)弄錯(cuò)。但在本次調(diào)查的語(yǔ)料中,所有的問句都含有疑問詞,例如“要不要緊?”“治得好不?”“在哪兒?”“哪個(gè)醫(yī)院?”等,所以對(duì)于普通話以及北方方言一般都能識(shí)別為問號(hào)。但對(duì)于有些方言,其疑問方式未必帶有疑問詞,例如云南曲靖方言,“我外婆的病要不要緊?”對(duì)應(yīng)的方言表達(dá)為“我外婆的病可嚴(yán)重?”,就會(huì)被輸入法識(shí)別為陳述句。所以標(biāo)點(diǎn)符號(hào)的識(shí)別錯(cuò)誤會(huì)跟正文字符分開單獨(dú)處理。
2.各方言點(diǎn)的識(shí)別錯(cuò)誤率
表1是各方言點(diǎn)的識(shí)別錯(cuò)誤率,包括21個(gè)孤立詞和20個(gè)短句的錯(cuò)誤率。從表中可以看出,普通話短句的錯(cuò)誤率為2.5%,達(dá)到了宣稱的97%正確率水平。孤立詞的錯(cuò)誤率稍高,這是正常的,因?yàn)槿鄙偕舷挛沫h(huán)境,難以區(qū)分同音詞。選擇普通話識(shí)別的,大部分是北京人或新疆、黑龍江、內(nèi)蒙古等地的移民家庭成員(特別是已經(jīng)不說(shuō)方言而以普通話為母語(yǔ)的年輕人)。東北話的識(shí)別錯(cuò)誤率3.1%也比較低,這是因?yàn)橄鄬?duì)于其他方言,東北方言內(nèi)部一致性更高,差別較小。表1中各方言的排序大致有幾個(gè)規(guī)律:
表1 各方言點(diǎn)識(shí)別錯(cuò)誤率
(1)北方方言(或者說(shuō)官話)內(nèi)部一致性相對(duì)較高,所以即使我們的發(fā)音人不是恰好在訊飛方言所提供的方言點(diǎn),區(qū)別也不會(huì)很大,其識(shí)別錯(cuò)誤率會(huì)相對(duì)較低,除了山西話(晉語(yǔ)),絕大部分的短句錯(cuò)誤率在15%以下。
(2)南方方言(或者說(shuō)東南方言)內(nèi)部區(qū)別較大,有的鄰近地區(qū)甚至無(wú)法溝通,發(fā)音人所說(shuō)方言若跟訊飛方言選點(diǎn)不在一處,其識(shí)別錯(cuò)誤率極高,幾乎無(wú)法識(shí)別。例如,125號(hào)發(fā)音人說(shuō)的是海南省??诘姆窖?,選擇的訊飛方言是閩南語(yǔ),識(shí)別錯(cuò)誤率高達(dá)80%。這可能是因?yàn)楹?诜窖詫儆陂}語(yǔ)瓊文片府城小片,與閩南片差距較大。發(fā)音人還嘗試了選擇粵方言和客家話,準(zhǔn)確率都很低。
(3)南方方言內(nèi)部一致性相對(duì)較低,發(fā)音人的分布對(duì)錯(cuò)誤率影響較大。例如選擇貴州話的6位發(fā)音人都是貴陽(yáng)市區(qū)的,與訊飛輸入法選點(diǎn)(大概率為貴陽(yáng)市)一致,錯(cuò)誤率較低。而同為西南官話的武漢話、四川話和云南話錯(cuò)誤率卻相對(duì)較高,這是因?yàn)榘l(fā)音人分布較廣,例如選擇云南話的21位發(fā)音人分屬昆明市、曲靖市、玉溪市和昭通市,與訊飛輸入法的選點(diǎn)“云南話(昆明)”有一定差異,所以錯(cuò)誤率較高?;浄窖缘膬?nèi)部差異也不小,但在本次調(diào)查中,由于其使用人數(shù)少、分布又集中,所以作為南方方言錯(cuò)誤率反而較低。
(4)方言交界地區(qū)的方言點(diǎn),往往受到臨近多個(gè)方言的影響,同時(shí)帶有不同方言的特點(diǎn),按方言歸屬來(lái)選擇訊飛輸入法的方言點(diǎn),錯(cuò)誤率就會(huì)很高。例如,40號(hào)發(fā)音人是湖南省株洲市茶陵縣的方言,根據(jù)行政歸屬選擇了訊飛提供的湖南話(長(zhǎng)沙),方言劃分上也同是湘語(yǔ)長(zhǎng)益片長(zhǎng)株潭小片,但錯(cuò)誤率依舊接近40%。實(shí)際上湖南省株洲市茶陵縣處于湖南江西交界地帶,緊鄰江西井岡山,受贛客方言影響較大。同樣的錄音,選擇客家話和江西話,也基本無(wú)法識(shí)別。所以對(duì)于交界地帶受各種方言影響的方言點(diǎn)來(lái)說(shuō),語(yǔ)音識(shí)別很是困難。以上規(guī)律說(shuō)明,智能語(yǔ)音輸入法如要提高方言特別是南方方言的識(shí)別正確率,需要更加細(xì)分的方言選點(diǎn)。
3.具體語(yǔ)句的識(shí)別錯(cuò)誤分析
本次調(diào)查的語(yǔ)料包括疫情相關(guān)的21個(gè)孤立詞和20個(gè)短句。雖然在實(shí)際生活場(chǎng)景中,也會(huì)有單獨(dú)詞成句的,但孤立詞因?yàn)闆]有上下語(yǔ)境,語(yǔ)音識(shí)別的難度會(huì)高很多。本次調(diào)研選取的21個(gè)疫情相關(guān)用語(yǔ),其平均識(shí)別錯(cuò)誤率如表2所示。錯(cuò)誤率最高的是“發(fā)麻”,識(shí)別出的錯(cuò)誤結(jié)果有“發(fā)嗎、發(fā)嘛、煩嗎、壞嗎、花馬、喝嘛、號(hào)碼、干嘛、干嗎、嘎瑪、福馬、服務(wù)忙、放忙、番麥、砝碼、伐麻、發(fā)息、發(fā)墨、發(fā)膜、發(fā)毛、發(fā)忙、發(fā)碼、發(fā)馬、幫忙、白馬、霸蠻、爸媽、發(fā)墨、丈母娘啊、Fame”等。錯(cuò)誤率第二的“嘔吐”,在很多方言里的說(shuō)法為“噦”,這樣的一個(gè)單音節(jié)詞是很難被識(shí)別出來(lái)的,識(shí)別錯(cuò)誤有“哦、敢約、約、干約、干悅、與、原、月、我、暈、約”等等。由于篇幅限制,關(guān)于孤立詞和短句更為具體的錯(cuò)誤分析將另文討論。
表2 調(diào)查表中21個(gè)孤立詞語(yǔ)的識(shí)別錯(cuò)誤率
本研究是以訊飛語(yǔ)音輸入法在疫情防控場(chǎng)景下的識(shí)別情況為例,對(duì)智能語(yǔ)音技術(shù)在重大突發(fā)事件中應(yīng)用評(píng)估的初步探索。可以看到,社會(huì)大眾對(duì)智能語(yǔ)音輸入法已經(jīng)有了相當(dāng)?shù)牧私夂推诖?,訊飛輸入法對(duì)于疫情語(yǔ)料的識(shí)別,在官話地區(qū)的方言表現(xiàn)較好,可以達(dá)到實(shí)用水平,而在東南地區(qū)的方言表現(xiàn)較差,需要更加細(xì)分的方言選點(diǎn)。由于現(xiàn)實(shí)條件的多種限制,本次調(diào)查語(yǔ)料樣本的數(shù)量和部分方言點(diǎn)的發(fā)音人數(shù)量(少于10人)還不太夠,這也使得調(diào)查數(shù)據(jù)有一定的隨機(jī)性,導(dǎo)致最終結(jié)果受手機(jī)狀況、背景噪音、發(fā)音人狀況、分布等各種因素的影響,這些我們將在下一步的工作中加以改進(jìn)。其中有兩個(gè)問題需要在這里討論一下。
本次實(shí)驗(yàn)的語(yǔ)料是固定的,調(diào)查表里的21個(gè)詞語(yǔ)和20個(gè)短句,都是普通話的表達(dá)方式,但在各個(gè)方言里往往會(huì)有不同的說(shuō)法,甚至具體到某個(gè)發(fā)音人,表述的方式都可能有所不同。這也跟發(fā)音人的言語(yǔ)轉(zhuǎn)換能力和風(fēng)格有關(guān),其中老中青不同年齡段發(fā)音人的說(shuō)法往往就不一樣。例如贛方言某方言點(diǎn),其老中青三代對(duì)“雞蛋”的說(shuō)法分別是“嘎=子”①此處在字后右上角加等號(hào)“=”表示同音字?!半u子”“雞蛋”。一般來(lái)說(shuō),越年輕的人受普通話影響越多,會(huì)用方言的讀音來(lái)念普通話的句子(例如有些方言里年輕人不再說(shuō)“噦”,而只是用方言的讀音來(lái)念“嘔吐”),而中老年人會(huì)用更為本地方言甚至瀕臨消失的表達(dá)方式(常常被認(rèn)為是特別“土”的表達(dá)方式),這對(duì)識(shí)別錯(cuò)誤影響會(huì)很大。從實(shí)際需求來(lái)看,在語(yǔ)言應(yīng)急服務(wù)中,以解決方言障礙為目標(biāo)的主要人群是中老年人,所以我們?cè)谡{(diào)查和實(shí)驗(yàn)的時(shí)候,需要考慮周到,把各年齡階段的老中新派方言表達(dá)方式都要涵蓋進(jìn)來(lái),以更好地應(yīng)社會(huì)所需。
漢語(yǔ)方言差異較大,劃分復(fù)雜,給語(yǔ)音識(shí)別提出了很大的挑戰(zhàn)。從本次調(diào)查研究可以看出,方言的選擇和劃分對(duì)識(shí)別結(jié)果影響很大,需要認(rèn)真對(duì)待。(1)從使用者角度來(lái)看,需要恰當(dāng)選擇方言,不僅僅是根據(jù)距離和行政區(qū)劃,還要根據(jù)方言學(xué)上的劃分。但普通人一般都不會(huì)具備這樣的語(yǔ)言學(xué)知識(shí),所以還需要語(yǔ)音技術(shù)(結(jié)合地理定位功能)能夠更加智能地識(shí)別方言,這就需要知道并能提取各方言的特征因素(戴慶廈,等2018)。另外,語(yǔ)音識(shí)別的錯(cuò)誤率跟方言間的可懂度、互通度等因素有關(guān),但可懂度不是劃分方言區(qū)屬的唯一依據(jù),也不是最為重要的依據(jù),所以方言區(qū)屬劃分跟語(yǔ)音識(shí)別的效果偶爾會(huì)出現(xiàn)矛盾,在實(shí)際應(yīng)用中應(yīng)當(dāng)以識(shí)別效果為準(zhǔn)。(2)從技術(shù)研發(fā)者角度看,需要給出更多的方言點(diǎn)。但方言猶如顏色一樣,界限模糊,可以無(wú)限細(xì)分。另外,普通話長(zhǎng)期形成了規(guī)范的文語(yǔ)對(duì)應(yīng),而方言很多時(shí)候“考本字”都很困難,分得太細(xì),則語(yǔ)料庫(kù)的訓(xùn)練成本會(huì)很高。那方言到底要細(xì)分到什么地步?好在到了智能信息時(shí)代,可以有新的思路。首先是數(shù)據(jù)獲取更為容易,在需求驅(qū)動(dòng)下,哪個(gè)方言點(diǎn)的用戶多、使用頻率高,軟件搜集的數(shù)據(jù)越多,對(duì)該地區(qū)方言的劃分就可以更細(xì)。所以不一定以方言劃分為唯一標(biāo)準(zhǔn),而是以識(shí)別效果為標(biāo)準(zhǔn),不降到一定的錯(cuò)誤率標(biāo)準(zhǔn),就繼續(xù)細(xì)分,達(dá)到實(shí)用程度為止。其次是用戶參與,現(xiàn)在智能終端普及,人手一機(jī),均可對(duì)本家鄉(xiāng)方言的識(shí)別結(jié)果加以校正,這種方式可以大大降低成本,使得技術(shù)能更快地進(jìn)入社會(huì)使用。值得注意的是,對(duì)于商業(yè)應(yīng)用來(lái)講,需要考慮到市場(chǎng)和成本因素,但從社會(huì)民生角度來(lái)講,需要適當(dāng)?shù)乇U险Z(yǔ)言“少數(shù)、弱勢(shì)”群體的權(quán)益。
本次疫情中,語(yǔ)音智能技術(shù)并沒有得到如我們所期望的大規(guī)模應(yīng)用。原因之一是對(duì)新生事物要求往往會(huì)更高更挑剔。好比自動(dòng)駕駛技術(shù)已經(jīng)可以比人類司機(jī)事故率更低,但只有其安全系數(shù)高出很多倍,才有可能被認(rèn)可進(jìn)入大眾生活。語(yǔ)音技術(shù)也是如此,雖然本次調(diào)查表明大眾對(duì)語(yǔ)音技術(shù)是期望的,但根據(jù)我們另外一項(xiàng)對(duì)159人的調(diào)查,大眾對(duì)語(yǔ)音識(shí)別技術(shù)依然不滿意,認(rèn)為需要改進(jìn)的地方有:準(zhǔn)確率低(占比54.09%)、轉(zhuǎn)換速度慢(31.45%)、缺少方言識(shí)別(64.15%)、缺少外語(yǔ)識(shí)別(29.56%)、無(wú)法感知話語(yǔ)中的情感態(tài)度(45.28%)等。語(yǔ)音識(shí)別技術(shù)要真正達(dá)到實(shí)用,進(jìn)入日常生活,還需要繼續(xù)降低識(shí)別錯(cuò)誤率。目前語(yǔ)音智能技術(shù)(采用深度神經(jīng)網(wǎng)絡(luò))有兩個(gè)缺陷:(1)計(jì)算量龐大,大量參數(shù)迭代收斂、訓(xùn)練封裝后如果有新的數(shù)據(jù)需要學(xué)習(xí),用戶端的簡(jiǎn)單設(shè)備就做不到了;(2)模型不可解釋,難以保證下一次不犯同樣的錯(cuò)誤。有學(xué)者提出了深度模糊系統(tǒng)及其快速學(xué)習(xí)算法可以克服這兩大缺陷,是一個(gè)很好的發(fā)展方向(Wang 2003)。另外,人的大腦適應(yīng)性極強(qiáng),具有很強(qiáng)的泛化能力,但神經(jīng)網(wǎng)絡(luò)無(wú)法把學(xué)到的東西泛化到和訓(xùn)練集統(tǒng)計(jì)規(guī)律稍有區(qū)別的地方。長(zhǎng)期以來(lái),語(yǔ)音智能技術(shù)依靠統(tǒng)計(jì)模型,很多試圖從規(guī)則知識(shí)出發(fā)或者采用兩者結(jié)合的方法都不是很成功。最近的符號(hào)主義人工智能提出了一個(gè)切實(shí)可行的道路,就是利用符號(hào)和它的一套操作系統(tǒng),重新把知識(shí)和模型教給神經(jīng)網(wǎng)絡(luò)(Marcus 2020)。這些新方法都為降低錯(cuò)誤率提供了新的發(fā)展方向。
目前很多語(yǔ)音智能識(shí)別技術(shù)的高正確率是基于特定語(yǔ)料庫(kù)的,從本次調(diào)查和研究可以看到,智能語(yǔ)音技術(shù)在疫情防控場(chǎng)景下,特別是對(duì)方言的識(shí)別效果,還是有很大的改進(jìn)空間。我們期待語(yǔ)言學(xué)和計(jì)算機(jī)領(lǐng)域的學(xué)者,不斷探索新思路、新技術(shù),提升智能語(yǔ)音技術(shù),在重大突發(fā)事件中能更好地為社會(huì)民生服務(wù)。
(感謝參與調(diào)查工作的諸位志愿者:白薦楠、陳麗琳、陳璐、陳雯茜、程婭惠、從恩竹、崔澤馨、樊星辰、范婧婕、馮星云、馮驛雯、付羿雨、高凡舒、高山倩、高子庭、關(guān)喬之、郝雨潔、胡硯才、黃悅、賈紫琳、姜啟寧、姜玉郎、金靈、拉姆、李晨光、李吉霞、李康敏、李樂樂、李祺溦、李宛婷、李正、梁霄云、劉晨筱、劉會(huì)珠、劉麓基、劉瑞秋、劉一新、劉玉萍、羅會(huì)露、羅家淇、馬悅霞、毛翎、歐陽(yáng)瑞美、潘新宇、龐博、彭曉鈺、彭彥涵、蒲素素、蒲璇妃、陜?cè)隆⑸婿涡?、邵芊涵、孫建亞、孫銘澤、孫千千、唐銳奇、汪子涵、王春醒、王家琪、王京欣、王曉宇、王雪瑩、王祎琳、王瑜琦、尉然、鮮欣儀、肖開捷、熊莉萍、徐立恒、鄢冉、楊豆豆、楊渙渙、楊子謙、姚安甫、殷王會(huì)、尹雪力、袁詩(shī)夢(mèng)、張競(jìng)兮、張沁萌、張瑞穎、張婷婷、張鈺琪、張鈺揚(yáng)、張蕓鷺、趙姝忞、趙怡昕、趙玥、周博聞、周婧妍、朱思恒、朱芷妍、曾心怡、鄒雨桐等。并向身體不便特別是手指受傷無(wú)法寫字、打字的文字工作者致敬!本調(diào)查為獨(dú)立進(jìn)行,跟任何語(yǔ)音公司,包括科大訊飛,均無(wú)利益關(guān)聯(lián)。)
附錄(調(diào)查表中的20個(gè)短句):
(1)我頭疼,我頭暈。
(2)我咳嗽,干咳,我咳得出不了氣了。
(3)我女兒拉肚子,肚子痛。
(4)我全身酸痛,我沒有力氣。
(5)我奶奶平時(shí)身體還好,沒有什么別的病。
(6)我外婆的病要不要緊?
(7)醫(yī)生,我媽媽的病治得好不?
(8)我爸爸輸液輸完了,要拔針頭。
(9)我家里有人好像不舒服,還沒確診。
(10)我想上廁所,廁所在哪兒?
(11)我老婆吃了飯,還沒有吃藥。
(12)我爺爺發(fā)燒,燒得很厲害,燒了幾天了。
(13)我量了體溫,我老公的體溫是38度多。
(14)我外公做過(guò)CT、做過(guò)核酸檢測(cè)、做過(guò)采樣了。
(15)我昨天到湖北去過(guò)一趟,沒有去過(guò)武漢。
(16)我今天應(yīng)該到哪個(gè)醫(yī)院、哪個(gè)科室去看???
(17)護(hù)士,我對(duì)青霉素和其他抗生素都不過(guò)敏。
(18)我喉嚨疼、我腰疼、我胸口疼。
(19)我自己沒事,就是我兒子有點(diǎn)流鼻涕。
(20)我的頭很疼,都快要炸了。