馬勇,沈得智,劉國承,高翔,甘才發(fā)
(中國鐵路青藏集團(tuán)有限公司,青海 西寧 810007)
目前,許多機(jī)務(wù)段都配備了機(jī)車乘務(wù)員錄音筆、機(jī)車視頻監(jiān)控,并制定了管理辦法,組建了分析隊伍,結(jié)合LKJ專人分析,以監(jiān)督乘務(wù)員落實日常作業(yè)標(biāo)準(zhǔn)。但由于視頻監(jiān)控、錄音筆裝置是不間斷一直記錄,即乘務(wù)員開車多長時間,記錄多長時間,使轉(zhuǎn)儲后地面音視頻分析人員工作量巨大,每個機(jī)務(wù)段每天有少則幾百名乘務(wù)員,多則上千名乘務(wù)員在線值乘,產(chǎn)生海量的音視頻數(shù)據(jù),而分析員能夠分析的數(shù)量相對每天產(chǎn)生的數(shù)據(jù)量相比很少,不能做到全覆蓋分析,使乘務(wù)員存在僥幸心理,因此,在值乘過程中違章問題始終沒有杜絕,且是事后管理,發(fā)現(xiàn)問題時已經(jīng)構(gòu)成既成事實,甚至造成事故無法挽回。
因此,研究一種能夠在線實時智能識別并進(jìn)一步規(guī)范乘務(wù)員行車標(biāo)準(zhǔn)化操作的裝置十分有必要,同時,人工智能成為當(dāng)今社會主導(dǎo)方向,在人工智能領(lǐng)域,語言識別、圖像識別、自然語言處理和專家系統(tǒng)等是核心技術(shù),這為利用語言識別、圖像設(shè)備技術(shù)實現(xiàn)對機(jī)車乘務(wù)員值乘標(biāo)準(zhǔn)化作業(yè)執(zhí)行情況、車載在線智能識別提供了技術(shù)基礎(chǔ),使之成為可能。
《乘務(wù)員值乘標(biāo)準(zhǔn)化車載音視頻智能分析管理裝置》由主機(jī)、圖像采集器、拾音器音響、TAX板卡、電纜及輔助配件組成。主要部件如下。
主機(jī):用于分析圖像采集器數(shù)據(jù),分析TAX信息,產(chǎn)生報警信息等(圖1)。圖像采集器:用于實時采集人臉圖像和手勢圖像(圖2)。相控陣一體音箱:用于錄音、語音播放使用(圖3)。
該系統(tǒng)的工作詳細(xì)參數(shù)如下。工作溫度:-25~+70℃;工作海拔:0~3000m; 相 對 濕 度:8%~90%;外殼防護(hù)等級:IP65GB4208-93;電源輸入:DC+77~+137V;功耗:20W(不帶外設(shè))。
圖1 系統(tǒng)主機(jī)設(shè)備圖
圖2 圖像采集器設(shè)備圖
圖3 相控陣一體音箱設(shè)備圖
視頻:視頻輸入:2路BNC1.0VPP75歐姆;視頻壓縮標(biāo)準(zhǔn):H.264;視頻編碼尺寸:D1;視頻制式:PAL。
音頻:音頻輸入:6路復(fù)合視頻輸入,阻抗600Ω,車載航空插頭;音頻輸出:單路音頻輸出,阻抗600Ω,BNC,車載航空插頭和RCA;基本輸出:線性電平;錄音方式:聲音與視頻同步錄制。
本項目主要研究的內(nèi)容是實現(xiàn)車載音視頻裝置,采集機(jī)車乘務(wù)員值乘實時影音,并在線識別乘務(wù)員語音內(nèi)容與呼喚應(yīng)答標(biāo)準(zhǔn)用語進(jìn)行比較,在線識別乘務(wù)員動作行為與手指眼看標(biāo)準(zhǔn)行為比較,在線識別乘務(wù)員瞭望狀態(tài)、間斷瞭望、實時提醒3大主要功能。
(1)研究適用于在線識別的音視頻采集裝置。在線音視頻識別對音頻和圖像質(zhì)量有別于傳統(tǒng)的攝像機(jī)加拾音盒組成的視頻裝置,在音頻方面需要對司機(jī)室嘈雜的背景音進(jìn)行降噪過濾,提取出較為清晰的司機(jī)講話聲音,在視頻方面需要獲取到3D的視頻流,提取出乘務(wù)員在X、Y、Z3個方向上的動態(tài),同時,這些降噪后的音頻和3D視頻的數(shù)據(jù)量較傳統(tǒng)視頻裝置成倍增長,又要實現(xiàn)在線實時識別,需要處理能力超強(qiáng)的CPU、緩存空間大、速度快的緩儲器等硬件,因此,要針對性能需求設(shè)計具有超強(qiáng)運算能力的處理器與相控陣麥克風(fēng)、3D攝像機(jī)組成的音視頻采集裝置,作為整個項目的硬件底盤。
(2)研究實現(xiàn)在線提醒功能。采用智能圖像處理方法,以目前世界先進(jìn)的人臉識別技術(shù)為基礎(chǔ)和PERCLOS方法識別人眼狀態(tài),并融合人體姿態(tài)、運動特征,實現(xiàn)機(jī)車乘務(wù)員瞭望狀態(tài)智能識別。
當(dāng)乘務(wù)員出現(xiàn)盹睡、間斷瞭望的現(xiàn)象,系統(tǒng)根據(jù)不同的間斷瞭望狀態(tài),分3個級別發(fā)出不同的提醒聲音,級別劃分如下。①間斷瞭望持續(xù)時間達(dá)到10s,發(fā)出一級提醒;②間斷瞭望持續(xù)時間達(dá)到15s,發(fā)出二級提醒;③間斷瞭望持續(xù)時間達(dá)到20s,發(fā)出三級提醒。各級提醒報警過程中,當(dāng)機(jī)車乘務(wù)員恢復(fù)瞭望狀態(tài)后,提醒報警自動解除,目前,該項技術(shù)是項目團(tuán)隊成熟技術(shù),在既有產(chǎn)品的基礎(chǔ)上,針對本項目開發(fā)的硬件底盤進(jìn)行軟件修改,嵌入實現(xiàn)。
(3)研究實現(xiàn)對“手指確認(rèn)”操作行為的在線識別提醒。手勢識別:通過Kinect傳感器獲得深度圖像,利用深度圖像信息進(jìn)行人體初步分割與定位,實現(xiàn)人體與背景的分離,進(jìn)而識別人體各部分(例如四肢、軀干),并根據(jù)人體各部分的實時位置形成相應(yīng)的指令反饋給主機(jī),主機(jī)根據(jù)反饋的指令進(jìn)行相應(yīng)的操作。根據(jù)TAX信息中信號機(jī)顯示變化、機(jī)車工況變化等工況條件信息,在設(shè)定的工況條件下,識別乘務(wù)員在規(guī)定情況是否做出相應(yīng)的手勢或行為,在識別前進(jìn)行友善提醒,對簡化作業(yè)進(jìn)行錄像記錄。
(4)研究實現(xiàn)對“呼喚應(yīng)答”的在線識別提醒。在前期語音采集過程中,根據(jù)語音特點建立合適的語音模型,并提取特征參數(shù),構(gòu)建語音識別參考模型;應(yīng)用過程中,采用相控陣麥克風(fēng)將接收到的語音信號轉(zhuǎn)換成電信號,并對待識別的語音進(jìn)行預(yù)處理、端點檢測和特征參數(shù)提取,與“呼喚應(yīng)答”語音識別參考模型進(jìn)行匹配,進(jìn)而通過判決規(guī)則得出識別結(jié)果。同樣,根據(jù)TAX信息中信號機(jī)顯示變化、機(jī)車工況變化等在設(shè)定的工況條件下,識別乘務(wù)員在規(guī)定情況是否進(jìn)行呼喚應(yīng)答,在識別前進(jìn)行友善提醒,對簡化作業(yè)進(jìn)行錄音記錄。
(5)智能結(jié)果分析功能。研發(fā)智能地面分析軟件,對值乘全過程的音視頻錄像進(jìn)行“摘要”化剪輯分析,自動甄選有價值能夠反映乘務(wù)員標(biāo)準(zhǔn)化執(zhí)行程度的音視頻畫面供管理者分析,并實現(xiàn)數(shù)據(jù)檢索回放功能以及統(tǒng)計分析功能,按月生成車隊、車間報表,以及重點區(qū)域、時間段分析,方便各級管理者分析使用。
采用智能圖像處理方法,以目前世界先進(jìn)的人臉識別技術(shù)為基礎(chǔ)和PERCLOS方法識別人眼狀態(tài),并融合人體姿態(tài)、運動特征,實現(xiàn)機(jī)車乘務(wù)員瞭望狀態(tài)智能識別。系統(tǒng)能夠全天候?qū)崟r在線監(jiān)測乘務(wù)員的瞭望狀態(tài),當(dāng)監(jiān)測到乘務(wù)員有視野偏離、精神不振等間斷瞭望現(xiàn)象時,立即實施分級語音報警,在線提醒乘務(wù)員,使之保持專注瞭望,瞭望間斷現(xiàn)象消除后語音報警隨即結(jié)束。
通過Kinect傳感器獲得深度圖像,利用深度圖像信息進(jìn)行人體初步分割與定位,實現(xiàn)人體與背景的分離,進(jìn)而識別人體各部分(例如四肢、軀干),并根據(jù)人體各部分的實時位置形成相應(yīng)的指令反饋給主機(jī),主機(jī)根據(jù)反饋的指令進(jìn)行相應(yīng)的操作。
采用相控陣麥克風(fēng)對司機(jī)的音頻進(jìn)行定向降噪提取,將接收到的語音信號轉(zhuǎn)換成電信號,并對待識別的語音進(jìn)行預(yù)處理、端點檢測和特征參數(shù)提取,與“呼喚應(yīng)答”語音識別參考模型進(jìn)行匹配,進(jìn)而通過判決規(guī)則得出識別結(jié)果。