摘要:災(zāi)情受理是消防救援隊(duì)伍滅火救援行動的首要步環(huán)節(jié),關(guān)系著救援行動的成敗和群眾生命的安危。然而,在實(shí)際接警中,由于單純語音溝通的局限性和表達(dá)描述的口頭性,災(zāi)情定位和事故類型等關(guān)鍵要素需要反復(fù)確認(rèn)任然極易出現(xiàn)偏差,導(dǎo)致調(diào)派效率低下,裝備力量不準(zhǔn),甚至貽誤戰(zhàn)機(jī),嚴(yán)重威脅到國家與人民群眾的生命財(cái)產(chǎn)安全。本文基于AI語音語義識別、AI文本轉(zhuǎn)換優(yōu)化的關(guān)鍵信息智能提取等多種技術(shù),提出一種新型智能化災(zāi)情受理系統(tǒng)的設(shè)計(jì)方案。
關(guān)鍵詞:AI;全媒體;災(zāi)情受理系統(tǒng)
中圖分類號:X915文獻(xiàn)標(biāo)識碼:A文章編號:1672-9129(2020)07-0064-03
Abstract:The acceptance of the disaster is the first step of the fire rescue team fire rescue operation, related to the success of the rescue operation and the safety of people's lives. In actual receiving alarm, however, due to the limitation of the simple voice communication and expression to describe oral sex, disaster and accident types such as key element requires repeated confirmation still deviation, appear easily lead to inefficient transfer, power equipment, and even delay, serious threat to the country and the people's life and property safety. Based on AI speech semantic recognition, AI text conversion optimization of key information intelligent extraction and other technologies, this paper proposes a new intelligent disaster acceptance system design scheme.
Key words:AI;All the media;Disaster acceptance system
1前言
目前各級消防救援隊(duì)伍的災(zāi)情受理方式還主要是程控電話傳統(tǒng)方式?!半娫拡?bào)警”“短信報(bào)警”“網(wǎng)上報(bào)警”3種方式進(jìn)行報(bào)警。而提取災(zāi)情的關(guān)鍵信息則依靠人工,從其效率和準(zhǔn)備性上有待提高。市場上的報(bào)警方法或產(chǎn)品主要問題:報(bào)警方式不夠自動化。報(bào)警人在事發(fā)過程中往往不及反映,或沒有精力來完成報(bào)警動作;報(bào)警后處置系統(tǒng)需要完全由人工甄別災(zāi)情,在處置資源不足時(shí)往往造成災(zāi)情處置延誤,謊報(bào)、誤報(bào)的災(zāi)情往往也造成無效接警。
現(xiàn)如今,人工智能技術(shù)的飛速發(fā)展,在各種行業(yè)都有應(yīng)用,基于AI語音語義識別,文本轉(zhuǎn)換等技術(shù)有效的提取信息,能減少或避免傳統(tǒng)的災(zāi)情受理靠成延誤或無效接警。
2總體目標(biāo)
研究基于語音語義識別、文本轉(zhuǎn)換優(yōu)化的關(guān)鍵信息智能提取技術(shù),提供災(zāi)情定位等有效信息,通過移動應(yīng)用(android/ios)、微信小程序等多種互聯(lián)網(wǎng)報(bào)警方式的融合接入技術(shù),基于實(shí)時(shí)全媒體災(zāi)情信息和歷史接處警信息智能化動態(tài)生成人、車、裝備輔助調(diào)派方案。
3研究內(nèi)容
3.1 AI語音語義識別:包括以語言學(xué)、計(jì)算機(jī)語言等學(xué)科為背景的,對自然語言進(jìn)行詞語解析、信息抽取、時(shí)間因果、情緒判斷等等技術(shù)處理,最終達(dá)到讓計(jì)算機(jī)“懂”人類的語言的自然語言認(rèn)知,以及把計(jì)算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語言的自然語言生成。
詞語解析與信息抽?。喊ǚ衷~、詞性標(biāo)注、命名實(shí)體識別和詞義消歧,從給定文本中抽取重要的信息。
句法解析與語篇理解:對篇章結(jié)構(gòu)的一系列連續(xù)的子句、句子和語段間一定層次結(jié)構(gòu)和語義關(guān)系的分析,包括時(shí)間、事件、因果關(guān)系等,甚至于文本所攜帶的情緒識別。
自然語言生成:從結(jié)構(gòu)化數(shù)據(jù)中以可讀地方式自動生成文本的過程。包括三個(gè)階段:文本規(guī)劃(完成結(jié)構(gòu)化數(shù)據(jù)中基礎(chǔ)內(nèi)容的規(guī)劃)、語句規(guī)劃(從結(jié)構(gòu)化數(shù)據(jù)中組合語句,來表達(dá)信息流)、實(shí)現(xiàn)(產(chǎn)生語法通順的語句來表達(dá)文)。
詞典、數(shù)據(jù)集、語料庫、知識圖譜,以及外部世界常識性知識等都是語義識別算法模型的基礎(chǔ)。模式匹配部是語音識別系統(tǒng)的關(guān)鍵組成部分,它一般采用“基于模式匹配方式的語音識別技術(shù)”或者采用“基于統(tǒng)計(jì)模型方式的語音識別技術(shù)”。前者主要是指“動態(tài)時(shí)間規(guī)整(DTW法”,后者主要是指“隱馬爾可夫(HMM)法”。
隱馬爾可夫模型(HMM)是語音信號處理中的一種統(tǒng)計(jì)模型,是由Markov鏈演變來的,所以它是基于參數(shù)模型的統(tǒng)計(jì)識別方法。由于其模式庫是通過反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲存好的模式樣本,且其識別過程中運(yùn)用待識別語音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對應(yīng)的最佳狀態(tài)序列作為識別輸出,因此是較理想的語音識別模型。
動態(tài)時(shí)間歸整算法:在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態(tài)時(shí)間歸整)算法,該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法,用于孤立詞識別。HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語音識別中,DTW算法仍然得到廣泛的應(yīng)用。
3.2 AI文字文本轉(zhuǎn)換:
Ocr:光學(xué)字符識別(英語:Optical Character Recognition)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程。
將彩色圖像中的三分量的亮度作為三個(gè)灰度圖像的灰度值,可根據(jù)應(yīng)用需要選取一種灰度圖像。
根據(jù)重要性及其它指標(biāo),將三個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均。由于人眼對綠色的敏感最高,對藍(lán)色敏感最低,因此,按下式對RGB三分量進(jìn)行加權(quán)平均能得到較合理的灰度圖像。F(i,j) = 0.30R(i,j) + 0.59G(i,j) + 0.11B(i,j))
(1)對圖像進(jìn)行二值化處理。圖像的二值化處理就是將圖像上的點(diǎn)的灰度置為0或255,也就是將整個(gè)圖像呈現(xiàn)出明顯的黑白效果。即將256個(gè)亮度等級的灰度圖像通過適當(dāng)?shù)拈撝颠x取而獲得仍然可以反映圖像整體和局部特征的二值化圖像。在數(shù)字圖像處理中,二值圖像占有非常重要的地位,特別是在實(shí)用的圖像處理中,以二值圖像處理實(shí)現(xiàn)而構(gòu)成的系統(tǒng)是很多的,要進(jìn)行二值圖像的處理與分析,首先要把灰度圖像二值化,得到二值化圖像,這樣子有利于在對圖像做進(jìn)一步處理時(shí),圖像的集合性質(zhì)只與像素值為0或255的點(diǎn)的位置有關(guān),不再涉及像素的多級值,使處理變得簡單,而且數(shù)據(jù)的處理和壓縮量小。為了得到理想的二值圖像,一般采用封閉、連通的邊界定義不交疊的區(qū)域。所有灰度大于或等于閾值的像素被判定為屬于特定物體,其灰度值為255表示,否則這些像素點(diǎn)被排除在物體區(qū)域以外,灰度值為0,表示背景或者例外的物體區(qū)域。如果某特定物體在內(nèi)部有均勻一致的灰度值,并且其處在一個(gè)具有其他等級灰度值的均勻背景下,使用閾值法就可以得到比較的分割效果。如果物體同背景的差別表現(xiàn)不在灰度值上(比如紋理不同),可以將這個(gè)差別特征轉(zhuǎn)換為灰度的差別,然后利用閾值選取技術(shù)來分割該圖像。
(2)對圖像進(jìn)行腐蝕處理原理。特征提取和降維:特征是用來識別文字的關(guān)鍵信息,每個(gè)不同的文字都能通過特征來和其他文字進(jìn)行區(qū)分。對于數(shù)字和英文字母來說,這個(gè)特征提取是比較容易的,因?yàn)閿?shù)字只有10個(gè),英文字母只有52個(gè),都是小字符集。對于漢字來說,特征提取比較困難,因?yàn)槭紫葷h字是大字符集,國標(biāo)中光是最常用的第一級漢字就有3755個(gè);第二個(gè)漢字結(jié)構(gòu)復(fù)雜,形近字多。在確定了使用何種特征后,視情況而定,還有可能要進(jìn)行特征降維,這種情況就是如果特征的維數(shù)太高(特征一般用一個(gè)向量表示,維數(shù)即該向量的分量數(shù)),分類器的效率會受到很大的影響,為了提高識別速率,往往就要進(jìn)行降維,這個(gè)過程也很重要,既要降低維數(shù)吧,又得使得減少維數(shù)后的特征向量還保留了足夠的信息量(以區(qū)分不同的文字)。
分類器設(shè)計(jì)、訓(xùn)練和實(shí)際識別:分類器是用來進(jìn)行識別的,就是對于第二步,對一個(gè)文字圖像,提取出特征給,丟給分類器,分類器就對其進(jìn)行分類,告訴你這個(gè)特征該識別成哪個(gè)文字。
3.3智能災(zāi)情分析和出警信息調(diào)度。終端 設(shè)備采集數(shù)據(jù)信息,對歷史 出警數(shù)據(jù)快速分析,以找到最有效的出警調(diào)度信息。
3.4精確定位。GPS+北斗+基站定位+WiFi的混合定位模式進(jìn)行定位,以達(dá)到更準(zhǔn)確的定位。
4技術(shù)路線
4.1 MFCC提取一般流程。
預(yù)濾波:CODEC前端帶寬為300-3400Hz的抗混疊濾波器。
A/D變換:8kHz的采樣頻率,12bit的線性量化精度。
預(yù)加重:通過一個(gè)一階有限激勵響應(yīng)高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應(yīng)的影響。
分幀:根據(jù)語音的短時(shí)平穩(wěn)特性,語音可以以幀為單位進(jìn)行處理,實(shí)驗(yàn)中選取的語音幀長為32ms,幀疊為16ms。
加窗:采用哈明窗對一幀語音加窗,以減小吉布斯效應(yīng)的影響。
快速傅立葉變換(Fast Fourier Transformation, FFT):將時(shí)域信號變換成為信號的功率譜。
三角窗濾波:用一組Mel頻標(biāo)上線性分布的三角窗濾波器(共24個(gè)三角窗濾波器),對信號的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來模擬人耳的掩蔽效應(yīng)。
求對數(shù):三角窗濾波器組的輸出求取對數(shù),可以得到近似于同態(tài)變換的結(jié)果。
離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號之間的相關(guān)性,將信號映射到低維空間。
譜加權(quán):由于倒譜的低階參數(shù)易受說話人特性、信道特性等的影響,而高階參數(shù)的分辨能力比較低,所以需要進(jìn)行譜加權(quán),抑制其低階和高階參數(shù)。
倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語音輸入信道對特征參數(shù)的影響。
差分參數(shù):大量實(shí)驗(yàn)表明,在語音特征中加入表征語音動態(tài)特性的差分參數(shù),能夠提高系統(tǒng)的識別性能。在本系統(tǒng)中,我們也用到了MFCC參數(shù)的一階差分參數(shù)和二階差分參數(shù)。
短時(shí)能量:語音的短時(shí)能量也是重要的特征參數(shù),本系統(tǒng)中我們采用了語音的短時(shí)歸一化對數(shù)能量及其一階差分、二階差分參數(shù)。
4.2模式匹配和語言處理。
通過語音特征分析以后接下來就是模式匹配和語言處理。
聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據(jù)不同語言的特點(diǎn)、識別系統(tǒng)詞匯量的大小決定識別單元的大小。
語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。語音識別過程實(shí)際上是一種認(rèn)識過程。就像人們聽語音時(shí),并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開來,因?yàn)楫?dāng)語音發(fā)音模糊時(shí)人們可以用這些知識來指導(dǎo)對語言的理解過程,但是對機(jī)器來說,識別系統(tǒng)也要利用這些方面的知識,只是如何有效地描述這些語法和語義還有困難:
小詞匯量語音識別系統(tǒng)。通常包括幾十個(gè)詞的語音識別系統(tǒng)。
中等詞匯量的語音識別系統(tǒng)。通常包括幾百個(gè)詞至上千個(gè)詞的識別系統(tǒng)。
大詞匯量語音識別系統(tǒng)。通常包括幾千至幾萬個(gè)詞的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。
模式匹配部是語音識別系統(tǒng)的關(guān)鍵組成部分,它一般采用“基于模式匹配方式的語音識別技術(shù)”或者采用“基于統(tǒng)計(jì)模型方式的語音識別技術(shù)”。
5實(shí)施方案
以下所述包括前端AI云端引擎服務(wù)、地圖定位服務(wù)、AI前端信息采集系統(tǒng),三個(gè)主要部分組成;所述前端AI信息采集系統(tǒng)通過restful 接口與AI研判引擎系統(tǒng)相連接,將自動化采集到的信息發(fā)送引擎進(jìn)行處理;所述AI研判引擎系統(tǒng)通過restful 接口與后臺AI云端引擎服務(wù)相連接,將災(zāi)情處理的研判結(jié)果發(fā)送調(diào)度系統(tǒng),輔助調(diào)度人員的災(zāi)情研判。本發(fā)明結(jié)合AI技術(shù),利用計(jì)算機(jī)視覺處理、聲音識別對報(bào)警信息自動化采集、處理,實(shí)現(xiàn)信關(guān)鍵信息,報(bào)警信息傳送后計(jì)算機(jī)系統(tǒng)自動化輔助分析判斷,極大地提高災(zāi)情受理的及時(shí)性、便捷性與處置效率。
5.1 AI云端引擎服務(wù)開發(fā)
開發(fā)Ai調(diào)試引擎服務(wù),監(jiān)控文本和語音服務(wù),將音頻或文字交附給對對應(yīng)的AI語音服務(wù)和AI文本服務(wù)。對應(yīng)的服務(wù)快速提取關(guān)鍵信息并迅速反饋。
目前市場語音語義解析產(chǎn)品解決方案AIUI,AIUI是科大訊飛推出的一套以語音為核心的人機(jī)交互解決方案,意在使應(yīng)用和設(shè)備能夠快速具備能聽會說,能理解會思考的能力。
支持語音喚醒,高喚醒率,低配置需求,低功耗。支持語音識別:識別結(jié)果響應(yīng)時(shí)間低于200ms,支持中文、英文、粵語、四川話等,依托機(jī)器學(xué)習(xí)和積累的海量數(shù)據(jù),識別復(fù)雜主義,作出精準(zhǔn)響應(yīng)。
構(gòu)建文字檢測和識別服務(wù)
可以考慮OpenCV。OpenCV是一個(gè)基于BSD許可(開源)發(fā)行的跨平臺計(jì)算機(jī)視覺庫,可以運(yùn)行在Linux、Windows、Android和Mac OS操作系統(tǒng)上。它輕量級而且高效——由一系列C函數(shù)和少量C++ 類構(gòu)成,同時(shí)提供了Python、Ruby、MATLAB等語言的接口,實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺方面的很多通用算法。
文字檢測:OpenCV的文字檢測模塊textDetectorCNN中使用了TextBoxes:具有單個(gè)深度神經(jīng)網(wǎng)絡(luò)的快速文本檢測器 鏈接地址為:
文字識別:OCRHolisticWordRecognizer類提供了分段詞語的功能。給定預(yù)定義的詞匯表,使用DictNet來選擇給定輸入圖像的最可能的詞。
5.2 地圖定位服務(wù)。
定位SDK通過GPS+基站定位+WiFi的混合定位模式進(jìn)行定位,不論在室外、室內(nèi)還是在高樓林立的城市峽谷,都可以實(shí)現(xiàn)精準(zhǔn)的定位。
地圖開放平臺應(yīng)提供2D、3D、衛(wèi)星多種地圖形式供開發(fā)者選擇,無論基于哪種平臺,都可以提供API和SDK
5.3 AI前端信息采集系統(tǒng)。
開發(fā)android/ios app 開發(fā),用于收集報(bào)警信息,語音信息,文字信息,當(dāng)前海量信息加入深度學(xué)習(xí)計(jì)劃,為后續(xù)的ai服務(wù)提供支撐,為數(shù)據(jù)服務(wù)提供數(shù)據(jù)支撐。
同時(shí)要開發(fā)web管理后端,對于一些用戶權(quán)限,信息匯總統(tǒng)計(jì),基本設(shè)置,服務(wù)治理等公共服務(wù)進(jìn)行管理操作。完成人、車、裝備等信息的管理功能 ,可以有效的匯總此類信息。
參考文獻(xiàn):
[1]安全,城市面對的嚴(yán)峻課題[J]. 王利公. 中國城市經(jīng)濟(jì). 2004(08)
[2]重大突發(fā)事件及其應(yīng)急決策研究[J]. 袁輝. 安全. 1996(02)
作者簡介:于春強(qiáng)(1970、8一),男,漢族,黑龍江密山市人,大學(xué)本科,工科學(xué)士,工程師,黑龍江省消防救援總隊(duì),研究方向:信息通信、消防安全。