[摘 要]上海市地鐵規(guī)模不斷擴張,但調度工作的工作方式和依賴工具依然較為落后。為了應對日益繁重的調度工作任務,從根本上減輕上海市地鐵調度工作人員的工作壓力和工作強度,實現降本增效的發(fā)展目標,文章從調度業(yè)務入手,詳細分析在調度業(yè)務中引入語音識別技術的可行性及其可能達到的效果,設想了在調度通話、事后質檢、表單填寫、預案觸發(fā)等業(yè)務流程中引入語音識別技術的效果和可能面臨的困難,以供參考。
[關鍵詞]上海地鐵;語音識別技術;調度業(yè)務
中圖分類號:U239.5 文獻標識碼:A 文章編號:1674-1722(2024)11-0034-03
現階段,語音識別技術作為人工智能領域重要的發(fā)展方向之一,在軌道交通行業(yè)已經具備諸多實際落地的應用場景,如語音購票、智能客服、智能開關站等。目前,上述應用場景主要側重于地鐵車站的日常運營工作,在軌道交通行業(yè)各業(yè)務中充當“大腦”的角色,與語音識別技術的實際結合案例相對較少。
基于此,文章針對上海地鐵調度業(yè)務與語音識別技術結合后,能夠對原有流程或工作實施提升和優(yōu)化的點展開大膽設想,希望可以在不擴張現有上海地鐵調度團隊規(guī)模的同時,減輕調度工作人員的工作壓力,提高工作效率。
ASR技術的發(fā)展歷史可以追溯到20世紀六七十年代,當時主要集中在單詞識別上。2 0世紀八九十年代,隱馬爾可夫模型(Hidden Markov Model,HMM)引起了人們的興趣,并成功地應用于語音識別領域。近年來,隨著深度學習技術的發(fā)展,深度神經網絡(Deep Neural Networks,DNN)模型在語音識別領域表現越來越好。
目前,主流的ASR技術包括基于統(tǒng)計方法的傳統(tǒng)ASR系統(tǒng)和基于深度學習的新一代ASR系統(tǒng)兩種。其中,基于統(tǒng)計方法的傳統(tǒng)ASR系統(tǒng)使用高斯混合模型(GMM)和HMM等統(tǒng)計建模方法對語音信號進行建模和識別。基于深度學習的新一代ASR系統(tǒng)則利用DNN、長短時記憶網絡(LSTM)、卷積神經網絡(CNN)等深度學習模型對語音信號進行建模和識別[ 1 ]。相比之下,基于深度學習的新一代ASR系統(tǒng)在性能上明顯優(yōu)于傳統(tǒng)ASR系統(tǒng),因此得到了廣泛應用和研究。
(一)工作內容
調度工作人員的工作內容從類型上主要分為三種。
一是溝通類工作。調度工作本身絕大部分工作內容都是溝通類工作,主要包括與車站的溝通、內部跨專業(yè)的溝通以及與運營公司和第三方維保單位間的溝通等。相對于文字類信息,溝通類工作的語言類信息在時效性上更具優(yōu)勢,而調度工作的性質也決定了其對時效性的強烈要求。
二是表單類工作。相較于溝通類工作,表單類工作雖然也起到傳遞信息的作用,但與溝通類工作不同的是信息傳遞的對象和對時效性的要求。表單類工作更關注信息的準確性。表單類工作最大的優(yōu)點在于留痕和有跡可查,多數溝通類工作在事后也會相應地補充一項表單類工作。
三是復聽轉寫類工作。復聽轉寫類工作主要是將溝通類工作過程中產生的錄音文件,通過重復收聽轉寫為文字版,一般在遇到重大事項需要專門向上匯報時進行。平時更多是復聽類工作,也就是抽調專人對溝通類工作過程中產生的錄音文件進行復聽,檢查在溝通過程中是否有不合規(guī)、不專業(yè)以及遺漏項等問題。
(二)工作流程
溝通類工作的工作方式主要依賴專用話機,調度中心與車站、運營單位、內部跨專業(yè)以及第三方等的溝通需要通過不同話機進行。溝通類工作結束后會產生通話錄音。如果屬于日常類溝通工作,需要補充填寫表單的就需要人工進行表單補充填寫。通話產生的錄音在后續(xù)會被抽樣做復聽質檢,復聽質檢實際就是抽派專人復聽抽樣的通話錄音,檢查通話過程是否合規(guī)、是否有遺漏項等。如果屬于重大事項,如列車火災、車門夾人等,則需要調度人員對通話過程中產生的所有錄音復聽轉寫,即由調度工作人員人工復聽錄音文件,將錄音文件轉寫為文字版上報給領導,方便領導檢查。
(一)復聽轉寫
相較于文字信息,語言信息雖然在信息傳遞的實時性方面具有不可比擬的優(yōu)越性,但在事后復盤檢閱過程中其便利性卻又不如文字信息,文字的閱讀速度因人而異,音頻的復聽速度卻依賴于音頻的長度,一段三分鐘的音頻如果復聽一定需要3分鐘的時長,而且一段音頻還可能會被復聽,但是將其蘊含的內容轉寫成文字,閱讀起來可能只需要1分鐘的時間,可以略讀不重要的內容,重點關注主要內容即可。正因如此,為了上級領導可以及時注意到關鍵內容,調度人員上報重大事項時需要先將音頻內容轉寫成文字版。
(二)復聽質檢
相較于復聽轉寫工作,復聽質檢少了將音頻文件轉寫為文字版的過程,但是其在事后復盤檢閱文字信息的便利性是語音信息不具備的,由于調度工作對實時性的要求,溝通工作只能以語言溝通為主。
(三)表單填寫
表單填寫工作需要調度工作人員回憶在電話溝通過程中雙方交換的信息,在信息較多無法完整回憶時,要復聽錄音文件,將正確的信息以文字的形式填寫在表單內,這一過程有點類似復聽轉寫,但與復聽轉寫不同的是,表單填寫不需要將對話內容完整轉換,表單相對固定,只需要將表單內需要的內容轉成文字填入即可,因調度人員無法直觀地看到所需內容具體在哪一部分,其依然需要從頭到尾完整地復聽整段錄音,直到將表單所需內容填寫完整。
(四)信息檢索
因溝通過程中可能只會產生音頻文件而沒有文字記錄,這會對事后檢索所需信息造成嚴重障礙,工作人員無法對所需信息進行有效檢索,只能逐個排查。如果涉及應急事件的處置,工作人員核對后,需要在系統(tǒng)中手動檢索相關的預案,在這種較為緊急的時刻,手動檢索的動作相對就顯得比較低效。
在調度業(yè)務中,為了保證重要信息傳遞的實時性,最關鍵和不可缺少的環(huán)節(jié)是語言類的信息傳遞,但是與之矛盾的是,語言類的信息在事后的回顧和檢查過程中會帶來種種不便,遠不如文字信息直觀和便捷。在此過程中,引入語音識別技術,實現語音信息到文字信息的自動轉換,可以為調度工作人員節(jié)省大量的精力,減輕絕大部分文字輸入類工作的壓力。
(一)實時轉寫
針對復聽轉寫和復聽質檢的痛點引入語音識別技術后,將語音識別服務對接通話系統(tǒng),在調度人員與車站、運營單位和其他第三方維保單位等通話過程中,將對話內容實時轉寫成文字版,既可以避免事后復聽轉寫的工作,也可以將對話內容更加直觀、實時地呈現在調度人員眼前,最大限度地避免了信息在口語傳遞過程中可能產生的誤解和偏差[ 2 ]。
具體設想如下:通話系統(tǒng)中接入語音識別的服務,實時監(jiān)聽雙方的通話內容,將對話內容實時識別輸出成文字版,將輸出的文字內容展示在調度工作人員的計算機屏幕上。這樣既可以及時發(fā)現并糾正通話雙方溝通過程中可能無意中出現的口誤,也可以對溝通內容形成的文字+音頻進行雙重記錄,在節(jié)省人為復聽轉寫的精力和時間的同時,提高了質檢工作人員的工作效率。
(二)表單自動化
表單填寫工作具有模式化的特點,單一表單中所需填寫的信息是比較固定的,但是,部分表單所需填寫的內容又是比較多的,在雙方通話過程中填寫表單比較耗時,效率較低,會有長時間占線的風險,違背了調度工作最基本的及時性響應和語音信息傳遞的快捷性。所以,調度人員一般會在通話結束后依靠對通話內容的回憶填寫表單,內容較多記不清楚的還會反復聽通話錄音,這會占用較多的精力。
針對這一問題,可以將表單填寫工作交給語音識別技術,稍作改動就可以實現這一目標。具體構想如下:在雙方通話的同時,語音識別服務將通話內容實時轉寫為文本內容,輸出的文本內容經過關鍵字檢測。關鍵字檢測分為表單生成關鍵字和內容填充關鍵字,通常要求一次通話只能生成一次表單,識別到生成表單的關鍵字后調用表單系統(tǒng),頁面彈框提示,詢問是否生成該表單。調度工作人員確認生成后,在本次通話過程中不再生成新的表單。
表單生成后,開始執(zhí)行內容填充關鍵字的識別,將識別到的相關內容在表單內進行自動填充,在本次通話掛斷時頁面再次彈框提示調度工作人員,自動填充已結束,工作人員在檢查無誤后可手動點擊提交按鈕進行表單提交。內容有誤的可以有針對性地修改,修改后再提交。
(三)調度預案自動化
在調度工作過程中,某些特定情況下需要緊急啟動某些已經提前設置好的預案,比如氣象災害、人員入侵、列車事故、淹水倒灌等,需要啟動預案的場景一般是特別緊急的情況,在這種緊急關頭,每多浪費一秒鐘,危險就會增加一分,可以考慮將語音識別技術對接到預案啟動中[ 3 ]。具體構想如下:在關鍵字檢測中再添加一類應急預案關鍵字,當通話雙方在對話過程中觸發(fā)該關鍵字時,則立馬調用應急預案系統(tǒng),在調度人員工作計算機的相關頁面上彈框對其提示和詢問,是否要啟動該預案,工作人員手動確認后,預案啟動執(zhí)行。
該流程省去了工作人員檢索相關預案的步驟,直接在對話過程中檢測雙方的對話內容,調度工作人員最少只需要點擊一次確認按鈕,就可以及時啟動相關預案,之所以設計為工作人員手動確認啟動,同樣是考慮到語音識別技術的容錯機制。
(四)語音檢索
以上功能的實現,已經基本涵蓋調度工作中的人工文字輸入類工作,語音檢索功能的構想是對以上功能的補充,以上功能主要關注的是在調度工作人員和其他方通話的場景下,只能以話機作為入口去觸發(fā)各種場景的功能,語音檢索功能的設計則是在話機之外,單獨設置收音麥克風,調度工作人員可以直接對麥克風講話來觸發(fā)語音識別的服務。
(一)方言
語音識別技術是對語言發(fā)音內容的識別,與發(fā)音準確性高度相關。目前市面上主流的語音識別技術一般都支持普通話和英語的識別,但是我國幅員遼闊,對散布在中華大地各個地方的方言的識別是難點之一,雖然探討的是上海市地鐵的業(yè)務場景,申通集團可以通過規(guī)章制度和招聘要求等,將崗位人員的從業(yè)資v0EwQvCig9MD/9pm7j5AdbdTauam5ItZp3mVSE3DnFU=格限制在普通話或上海話這一范圍內,但部分業(yè)務場景下與調度人員發(fā)生通話的可能是外部的第三方人員,如施工負責人、第三方維保單位等,此類外部人員的發(fā)音習慣和方言口音等對語音識別技術是一大挑戰(zhàn)。
(二)噪聲
對上海市地鐵部分調度通話錄音調研后發(fā)現,在錄音文件中,部分音頻中存在非常嚴重的噪聲干擾問題,噪聲的來源大致有兩種。
一種是調度人員與多車站開群體會議時,部分車站因參會目的已達到,在經過調度人員同意后,會先行掛斷電話,在掛斷電話時產生的話機聽筒與話機機身磕碰的聲音音量非常大,這個時候基本聽不到正在發(fā)言的工作人員所說的內容。
另一種是通話人員旁邊無關人員的說話聲,此類情況一般出現在車站,無關人員的聲音被收錄后會對語音識別功能造成干擾,在應用場景中很可能造成相關系統(tǒng)的誤觸發(fā)或無法準確觸發(fā)等問題。
(三)誤識別
誤識別問題主要發(fā)生在發(fā)音人語速過快或發(fā)音音量過小時,語速過快時容易發(fā)生連音現象,即兩個字或兩個以上的字發(fā)音連在一起,實際發(fā)出的只有一個音,此時系統(tǒng)接收的發(fā)音只有一個,就會造成漏識別、錯識別等。音量過小時可能無法達到語音識別系統(tǒng)的音量能量值,導致識別出錯、不識別等。
(四)其他
其他可能對語音識別功能造成負面影響的情形還有多人同時發(fā)音、發(fā)音模糊等。發(fā)音模糊多發(fā)生在調度人員與多車站通過電話召開群體會議時,在點名簽到環(huán)節(jié),車站工作人員的回答發(fā)音極為模糊,基本聽不清回答的內容;多人同時發(fā)音的情況在調研過程中出現較少,在此僅做記錄用以提醒。
人工智能技術有語音識別技術,還有圖像識別、行為分析、語義理解、語音合成等領域,文章對語音識別技術引入調度業(yè)務的淺談希望可以起到拋磚引玉的效果,期待諸位同仁可以發(fā)散思維,從不同的領域作出專業(yè)的審視。未來希望能夠與諸君一起,共同建設更加聰明、便捷、高效的調度業(yè)務流程。
[1]吳佳佳,彭其淵,魯工圓.基于調度電話語音信息的調度命令智能生成方法[J].鐵道運輸與經濟,2021(04):105-111+134.
[2]謝璟捷.地鐵運營調度關鍵業(yè)務數據特征分析及中臺架構研究[J].交通科技與管理,2023(21):22-24.
[3]代偉,劉洪.基于神經網絡的中文語音識別技術[J].四川師范大學學報(自然科學版),2022(01):131-135.