国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語音問答在地區(qū)電網(wǎng)調(diào)度專業(yè)培訓(xùn)中的實(shí)踐

2023-01-16 01:38:02李煥奇綦雪松
東北電力技術(shù) 2022年12期
關(guān)鍵詞:數(shù)組分詞實(shí)體

劉 詩,李煥奇,綦雪松

(國網(wǎng)吉林供電公司,吉林 吉林 132011)

能讓機(jī)器像人一樣用語言來溝通,是人工智能的重要任務(wù)之一。用戶和具有智能問答系統(tǒng)的手機(jī)之間通過一問一答的形式進(jìn)行交互,讓手機(jī)為用戶提供答案的智能問答系統(tǒng),是利用碎片化時間學(xué)習(xí)專業(yè)領(lǐng)域問題的有效培訓(xùn)方案[1]。目前智能交互系統(tǒng)研究已較為成熟,但由于電網(wǎng)調(diào)度系統(tǒng)的復(fù)雜性與專業(yè)性,用于地區(qū)電網(wǎng)調(diào)度的智能問答系統(tǒng)并不多見[2-4]。

地區(qū)電網(wǎng)調(diào)度是地市級電網(wǎng)正常倒閘操作和事故及異常處理的指揮機(jī)構(gòu),所面向的對象是地區(qū)電網(wǎng)。地區(qū)電網(wǎng)由一個個以一次變電站及其所帶線路以及二次變電站和用戶構(gòu)成的分區(qū)網(wǎng)組成,分區(qū)網(wǎng)由變電站和連接變電站的線路構(gòu)成,變電站由母線、主變壓器(以下稱主變)、無功補(bǔ)償裝置、站用變壓器(以下稱站用變)、消弧線圈、保護(hù)及自動裝置等一、二次設(shè)備構(gòu)成。由這些電網(wǎng)、分區(qū)網(wǎng)、變電站、母線、主變、設(shè)備、線路等電網(wǎng)構(gòu)成要素作為定位實(shí)體特征詞以及其間相連接的拓?fù)潢P(guān)系,就可以通過人工預(yù)定義規(guī)則將其設(shè)計(jì)成實(shí)體詞表,構(gòu)建成知識庫,應(yīng)用知識推理和規(guī)則推理,實(shí)現(xiàn)智能問答對話功能。

1 系統(tǒng)概述與總體架構(gòu)

1.1 開發(fā)工具與所用數(shù)據(jù)庫簡介

本系統(tǒng)利用火山安卓軟件開發(fā)平臺制作,程序運(yùn)行在安卓系統(tǒng)移動設(shè)備上?;鹕杰浖_發(fā)平臺是一個目的硬件設(shè)備無關(guān)、目的軟件環(huán)境無關(guān)、完全本地化的軟件快速開發(fā)平臺,使用者無需掌握太多的專業(yè)編程知識,即可快速開發(fā)高效實(shí)用的各類應(yīng)用軟件[5]。

本系統(tǒng)的數(shù)據(jù)采用SQLite存儲。SQLite是一款體積小、性能高、支持各種軟硬件平臺、提供多種語言接口、支持SQL查詢、視圖、觸發(fā)器等機(jī)制的輕型數(shù)據(jù)庫,是一個進(jìn)程內(nèi)的庫,實(shí)現(xiàn)了自給自足、無服務(wù)器、零配置、事務(wù)性的SQL數(shù)據(jù)庫引擎[6,7]。其已內(nèi)嵌于安卓系統(tǒng)中,無需安裝和配置。

1.2 系統(tǒng)界面與總體設(shè)計(jì)思路

本系統(tǒng)的主UI界面采用火山安卓的界面布局設(shè)計(jì)器設(shè)計(jì),最底層的啟動類是一個安卓無標(biāo)題白色窗口,其上放一個縱向線性布局器。整體構(gòu)思是仿QQ和微信界面,通過多個線性布局器按不同縱橫比例的屬性設(shè)置和一個布局在縱向滾動容器上的氣泡聊天框來實(shí)現(xiàn)類似于QQ和微信中的左、右交替效果的對話列表顯示。按鈕及控件背景圖用XML安卓背景制作工具制作。本系統(tǒng)的主UI界面的實(shí)際效果如圖1所示。

圖1 系統(tǒng)的主UI界面截圖

本系統(tǒng)作為地區(qū)電網(wǎng)調(diào)度專業(yè)培訓(xùn)用的智能問答系統(tǒng),依賴的是地區(qū)電網(wǎng)實(shí)際拓?fù)浣Y(jié)構(gòu)和電網(wǎng)調(diào)度專業(yè)知識,知識集中在地區(qū)電網(wǎng)調(diào)度領(lǐng)域內(nèi),由經(jīng)驗(yàn)豐富的老調(diào)度員制作的人工預(yù)定義規(guī)則能夠有針對性提供良好的知識推理,知識庫中的表結(jié)構(gòu)即為人工預(yù)定義規(guī)則。

本系統(tǒng)實(shí)現(xiàn)的知識問答,實(shí)際上是對預(yù)先存儲在知識庫問答對表中的問題進(jìn)行搜索與匹配,根據(jù)地區(qū)電網(wǎng)調(diào)度專業(yè)涉及問題的實(shí)際情況,在對問題進(jìn)行分詞處理時,將問題分詞劃分為實(shí)體分詞和非實(shí)體分詞,再分別給予不同的權(quán)重,即每匹配上一個分詞,吻合度判據(jù)加不同的分?jǐn)?shù),最終找到吻合度判據(jù)分?jǐn)?shù)最高的問題對應(yīng)的答案,將其用TTS語音播放出來。

1.3 系統(tǒng)的架構(gòu)與功能模塊

本系統(tǒng)主要包含系統(tǒng)設(shè)置、知識庫維護(hù)和語音問答3個功能模塊,3個功能均可通過UI界面上的按鈕進(jìn)入。系統(tǒng)設(shè)置按鈕只有在APK安裝后首次開啟時才可直接進(jìn)入設(shè)置,是通過讀寫一個保存在系統(tǒng)資源文件夾中的config.txt文件實(shí)現(xiàn)的。在設(shè)置文件中,每個變量值占一行,包括系統(tǒng)名稱、注冊信息、問答虛擬人物的昵稱等內(nèi)容。知識庫維護(hù)模塊提供了對庫中各表內(nèi)容進(jìn)行增、刪、查詢和導(dǎo)入功能;問答模塊是本系統(tǒng)的主體,實(shí)現(xiàn)語音問答功能??傮w架構(gòu)和功能如圖2所示。

圖2 系統(tǒng)架構(gòu)與功能框圖

2 知識庫及其維護(hù)

2.1 知識庫的構(gòu)成及作用

本系統(tǒng)的知識庫是一個名為zsku.db的SQLite數(shù)據(jù)庫,庫中有4個表,分別是實(shí)體詞表、同義詞表、停用詞表和問答對表,其中同義詞表用于詞義消歧、停用詞表用于剔除無關(guān)緊要的虛詞和標(biāo)點(diǎn)符號,這2個表都用于實(shí)體規(guī)范化;實(shí)體詞表中結(jié)構(gòu)化存放著本地區(qū)電網(wǎng)內(nèi)分區(qū)網(wǎng)(系統(tǒng))、變電站、發(fā)電廠名稱及其具體設(shè)備名稱和描述設(shè)備屬性的實(shí)體詞,用于實(shí)現(xiàn)從問答對中匹配出提問的問題;問答對表中存放的是一問一答的問答對,只要搜索到了問題,答案也就找到,因?yàn)閱栴}與答案具有相同的ID,查詢和維護(hù)管理都比較容易。

2.2 實(shí)體詞表

實(shí)體詞用于對提問問句文本進(jìn)行分詞,其中定位實(shí)體詞用于在實(shí)體詞表中定位其所在行ID,用定位實(shí)體特征詞來識別該實(shí)體詞是否為定位實(shí)體詞。定位實(shí)體詞每行一個,排在行首,主要有:地區(qū)、系統(tǒng)、變電站、線路、主變、母線等;本行其他實(shí)體詞均為其屬性或其所連接的設(shè)備,主要有:參數(shù)、電容器、站用變、消弧線圈、保護(hù)、自動裝置、運(yùn)行方式、維護(hù)單位、所帶負(fù)荷等。

2.3 停用詞表和同義詞表

停用詞用于剔除問句文本中無實(shí)際意義的虛詞和標(biāo)點(diǎn)符號,主要有“什么、是、的”和“問號、逗號、句號”等。停用詞表每行一個停用詞,在程序中用空字符替換停用詞。同義詞用于詞義消歧,同義詞表是每行一個同義詞對,一個為實(shí)體別名,一個為規(guī)范同義實(shí)體詞,通過同義詞表把平時具有別名和不規(guī)范的口語化名詞,統(tǒng)一替換為規(guī)范實(shí)體詞,在程序中通過文本替換函數(shù)過濾后,提問問句中的實(shí)體詞得以規(guī)范化。

2.4 問答對表

問答對表是一問一答的2段文本,在表中占同一行,具有相同的ID,只要程序搜索到問題,其答案也就同時被找到了。程序?qū)⒄业降拇鸢肝谋居肨TS播放出來,就完成了一輪語音問答,因此本系統(tǒng)的關(guān)鍵問題在于如何搜索到提問的問題。

2.5 各表的維護(hù)

本系統(tǒng)在封面歡迎頁上提供了維護(hù)入口按鈕,點(diǎn)擊后可進(jìn)入各個表的維護(hù)頁面,不但設(shè)計(jì)了查詢、添加、刪除和修改功能,而且還設(shè)置了由給定utf8格式的txt文件導(dǎo)入數(shù)據(jù)功能,導(dǎo)入數(shù)據(jù)時有在尾部追加和清空后導(dǎo)入2種選擇。修改txt文件需要用文本編輯工具打開或在PC機(jī)中按格式編輯好后再傳入移動設(shè)備中。

zsku.db和config.txt文件作為安卓外部資產(chǎn),在系統(tǒng)首次安裝時便被寫入到其所在文件夾下,每次重啟時都會自動檢測文件是否存在,若已缺失則會自動補(bǔ)全,若已存在則不會覆蓋,以保證文件內(nèi)容為最新。

3 語音問答的實(shí)現(xiàn)

語音問答的實(shí)現(xiàn)是本系統(tǒng)的主體和核心,包括輸入輸出、實(shí)體規(guī)范化、語義解析和問答匹配5個功能模塊,詳細(xì)流程如圖3所示。

圖3 語音問答實(shí)現(xiàn)流程

3.1 輸入與輸出

輸入模塊的功能是將用戶的提問語音轉(zhuǎn)換成文字,讓機(jī)器具有聽的能力[8];輸出模塊是將系統(tǒng)查詢到的答案文字轉(zhuǎn)換成語音,讓機(jī)器具有說的能力。本系統(tǒng)的輸入和輸出采用的是火山安卓封裝的“訊飛語音支持”模塊。用訊飛在線語音識別類實(shí)現(xiàn)語音到文本的轉(zhuǎn)換功能;用訊飛在線語音合成類實(shí)現(xiàn)文本到語音的TTS語音輸出[9]。

由于系統(tǒng)面向地區(qū)電網(wǎng)調(diào)度用戶,有很多轄區(qū)內(nèi)電網(wǎng)中的自定義名詞在通用的語音識別模型中不能很好地識別,因此系統(tǒng)利用了訊飛輸入法先將語音識別成文字到文本框,由用戶校正確認(rèn)后再發(fā)送到系統(tǒng),這樣可以利用訊飛輸入法的添加個人語音詞庫功能,批量添加自定義名詞以提升識別準(zhǔn)確率。

3.2 實(shí)體規(guī)范化

由麥克風(fēng)輸入的語音經(jīng)訊飛輸入法識別出來的原始問題文本經(jīng)詞義消歧和過濾停用詞后即完成了實(shí)體規(guī)范化,輸出的是凈問題文本。其中詞義消歧是通過將具有一個和多個別名的實(shí)體詞全部替換為實(shí)體詞表中可查到的規(guī)范詞來實(shí)現(xiàn)的;過濾停用詞是通過將無實(shí)際意義的虛詞和標(biāo)點(diǎn)符號替換為空字符實(shí)現(xiàn)的。

3.3 語義解析

語義解析是通過實(shí)體識別形成實(shí)體數(shù)組和非實(shí)體數(shù)組實(shí)現(xiàn)的。實(shí)體識別即用實(shí)體詞表為字典對凈問題文本進(jìn)行分詞處理,找出凈問題中的實(shí)體詞,形成實(shí)體詞數(shù)組[10]。首先在問題文本的前半部分搜索定位實(shí)體特征詞,如果找到則將該定位實(shí)體特征詞前的定位實(shí)體提取出來,如果沒有找到且多輪問答判據(jù)為真,則將上輪定位實(shí)體取出賦值給本輪,完成詞槽填充,并將定位實(shí)體詞賦值給實(shí)體詞數(shù)組0元素。然后在實(shí)體詞表中搜索定位實(shí)體詞,找到后遍歷該行其他實(shí)體詞去逐一匹配凈問題文本,將匹配到的詞賦值給實(shí)體詞數(shù)組1及以后的元素得到完整的實(shí)體詞數(shù)組。最后將挖去實(shí)體詞的凈問題文本進(jìn)行逐字分割,得到非實(shí)體詞數(shù)組。

3.4 問答匹配

首先用實(shí)體詞數(shù)組中的每一個元素去遍歷知識庫問答對表中的問題文本,并用包含文本函數(shù)對其進(jìn)行匹配,每匹配到一個元素,就將該ID的問題吻合度判據(jù)加5分。然后再用非實(shí)體詞數(shù)組中的每一個元素去遍歷知識庫問答對表中的問題文本,并用包含文本函數(shù)對其進(jìn)行匹配,每匹配到一個元素,就將該ID的問題吻合度判據(jù)加1分。最后將各問題ID吻合度按分?jǐn)?shù)由高到低進(jìn)行排序,當(dāng)問題吻合度判據(jù)分?jǐn)?shù)相同時以問題文本長度最短者優(yōu)先。這樣,分值最高者即為最吻合的問題,其ID對應(yīng)的答案即為要尋找的答案。如果吻合度小于2,表明問答對表中沒有與此匹配的問題,則用“這個問題我還沒有學(xué)會,你能告訴我答案嗎?”進(jìn)行兜底回答,然后將你告訴的答案和剛才提問的問題組成一個新的問答對添加到庫中,完成自我學(xué)習(xí)的知識積累過程。

3.5 多輪問答與詞槽填充

在多輪問答過程中,提問者不斷發(fā)問,在口語化的問句中就會省略很多前面已經(jīng)提到過的內(nèi)容,這樣就需要對上輪實(shí)體數(shù)組和上輪非實(shí)體數(shù)組進(jìn)行提前備份,用來填充本輪實(shí)體數(shù)組和非實(shí)體數(shù)組中缺失的元素,才能得到完整正確的回答內(nèi)容。通過判斷用戶所提問題是單輪對話還是多輪對話、若為多輪對話則要進(jìn)一步判斷提問中缺失的是否為定位實(shí)體,然后分3種情況進(jìn)行處理。系統(tǒng)默認(rèn)第一問為單輪。舉例說明如下,效果見圖1。

第一問:龍?zhí)蹲冸娬局髯內(nèi)萘渴嵌嗌伲?/p>

經(jīng)詞義消歧、過濾停用詞和分詞處理后問題凈文本變?yōu)閇龍?zhí)蹲僝[電][站][主變][容量],實(shí)體分詞數(shù)組為{[龍?zhí)蹲僝[主變][容量]}、非實(shí)體分詞數(shù)組為{[電][站]},其中[龍?zhí)蹲僝為定位實(shí)體,通過它可識別出問題意圖范圍在龍?zhí)蹲?,用其定位?shí)體詞表的ID。再同該ID的其他實(shí)體詞去匹配問答對表中的問題,從而找到答案。然后程序會將這些分詞備份到“上輪實(shí)體數(shù)組”和“上輪非實(shí)體數(shù)組”變量中。

第二問:那土城變的呢?

經(jīng)詞義消歧、過濾停用詞和分詞處理后問題凈文本只剩下[土城變]一個定位實(shí)體,其他部分全部為空。此種情況程序會將數(shù)組中缺失元素用先前備份過的上輪數(shù)組元素填充,從而得到完整的問題:[土城變][電][站][主變][容量],再按第一問的辦法搜索到答案。

第三問:再說說消弧線圈吧。

經(jīng)詞義消歧、過濾停用詞和分詞處理后問題凈文本只剩下[消弧線圈]一個實(shí)體元素,定位實(shí)體和非實(shí)體分詞數(shù)組全部為空。此種情況程序亦會將數(shù)組中缺失元素用先前備份過的上輪數(shù)組元素填充,從而得到完整的問題:[土城變][電][站][消弧線圈][容量],再按第一問的辦法搜索到答案。

如此反復(fù),便可實(shí)現(xiàn)單輪和多輪的各種問答。

4 結(jié)語

以火山安卓為工具,開發(fā)了地區(qū)電網(wǎng)調(diào)度智能問答系統(tǒng),驗(yàn)證了人工預(yù)定義規(guī)則在地區(qū)電網(wǎng)調(diào)度專業(yè)領(lǐng)域內(nèi)規(guī)則推理的有效性,提高了調(diào)度員培訓(xùn)的靈活性,為充分利用碎片化時間進(jìn)行專業(yè)領(lǐng)域培訓(xùn)提供了一個良好的途徑。

猜你喜歡
數(shù)組分詞實(shí)體
JAVA稀疏矩陣算法
電腦報(2022年13期)2022-04-12 00:32:38
JAVA玩轉(zhuǎn)數(shù)學(xué)之二維數(shù)組排序
電腦報(2020年24期)2020-07-15 06:12:41
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
值得重視的分詞的特殊用法
尋找勾股數(shù)組的歷程
高考分詞作狀語考點(diǎn)歸納與疑難解析
柯坪县| 平江县| 隆林| 克拉玛依市| 玛纳斯县| 敦煌市| 白朗县| 安图县| 建水县| 泊头市| 衡东县| 府谷县| 平乡县| 常州市| 淮北市| 南城县| 揭东县| 镇康县| 噶尔县| 新丰县| 郓城县| 乌兰察布市| 芦溪县| 德兴市| 盐山县| 萨迦县| 广州市| 福州市| 永宁县| 商水县| 噶尔县| 丹东市| 固始县| 阳泉市| 杭州市| 贵州省| 沧源| 台北县| 炉霍县| 赤壁市| 河津市|