王乾 張毅 梁凱 王立峰 孫巖 浦朔 白揚
摘要:近年來,隨著信息技術(shù)的發(fā)展,人工智能已經(jīng)成為信息時代的一個熱門話題。自然語言處理(NLP)是計算機科學(xué)、人工智能和語言學(xué)的一個研究領(lǐng)域,主要研究計算機和人類語言之間的相互作用。該領(lǐng)域產(chǎn)生了大量的人工智能研究成果和產(chǎn)品,是人工智能領(lǐng)域的一個熱點。調(diào)度操作票的智能自動生成是一項既有技術(shù)又有經(jīng)驗的綜合性工作。本文結(jié)合自然語言處理技術(shù)和機器學(xué)習(xí)方法,基于數(shù)學(xué)理論和中文信息的MMT模型,實現(xiàn)了操作票內(nèi)容的智能提取和操作票的自動生成。結(jié)果表明,基于中文信息的多語言機器翻譯模型是進一步解決當(dāng)前句法分析問題、減少歧義、提高分析水平的一種參考方法。研究結(jié)果的意義在于語法規(guī)則可以被測試,句子的語法模型結(jié)構(gòu)可以進一步加工為主體,建立實用工具和模型可以提供深入的理解自然語言,語法知識基礎(chǔ)的擴展和深入研究法語句子的意義。
關(guān)鍵字:人工智能;自然語言處理;操作票
Abstract:Inrecentyears,withthedevelopmentofinformationtechnology,artificialintelligencehasbecomeahotresearchtopicintheinformationage.Naturallanguageprocessingisafieldofcomputerscience,artificialintelligenceandlinguisticsthatfocusesontheinteractionbetweencomputerandhumanlanguage.Inthisfield,alargenumberofresearchresultsandproductsofartificialintelligencehavebeenproduced,whichisaresearchhotspotinthefieldofartificialintelligenceatpresent.Usingthetheoryofalgebraiclinguisticstobuildtheexpertsystemofsyntacticanalyzer,theMMTmodelofChineseinformationisusedintheresearch.TheresearchresultsshowthattheMMTmodelbasedonChineseisareferencemethodtofurthersolvethecurrentsyntacticanalysisproblems,reducingambiguityandanalysislevel.Thesignificanceofitsresearchresultsliesinthatitcantestgrammarrules,establishsentencegrammarmodelstructurethroughdeepprocessingofcorpus,providepracticaltoolsandmodelsfordeepunderstandingofnaturallanguage,expansionofgrammarknowledgebase,andin-depthstudyofsentenceFrenchmeaning.
Keywords:Artificialintelligence;naturallanguageprocessing;operationticket
1引言
電力生產(chǎn)過程中經(jīng)常要進行電氣操作。由于電力系統(tǒng)開關(guān)操作失誤,嚴(yán)重的人身和設(shè)備事故時有發(fā)生。如何讓自然語言處理技術(shù)與操作票結(jié)合,讓操作員方便快捷的開出合規(guī)的操作票,就是電力行業(yè)一個急需解決的問題。
語義維度是基于自然語言處理(NLP)的句子研究的出發(fā)點和重點,是指導(dǎo)句子研究的語義維度。從語義維度構(gòu)建句子研究框架,從語義維度對句子類型進行分類,形成句子語義類型體系。本文的研究內(nèi)容包括,一個完整的語法分析操作票信息,還有通過語料庫的處理,提取規(guī)則,提取的語法規(guī)則和邏輯分析,最后還有基于代數(shù)理論實現(xiàn)語義和語篇結(jié)構(gòu)分析,建立中文文本規(guī)則匹配工具,包括現(xiàn)代漢語語料庫加工和探索漢語語法的實際模型理論方法和工具?;跇?gòu)詞的中文分詞方法,分詞用于操作票指令,然后,通過詞性標(biāo)注部分詞性標(biāo)注對分詞結(jié)果進行標(biāo)記。最后,根據(jù)操作票的語法規(guī)則,實現(xiàn)操作票動作、對象和狀態(tài)的提取。該方法不僅消除了常規(guī)提取所需的大量人工配置工作,而且提高了效率。
2實現(xiàn)方法
中文分詞的結(jié)果是識別和提取的基礎(chǔ)操作票的內(nèi)容,中文分詞的目標(biāo)是提高操作票文本分詞的準(zhǔn)確性,特別是沒有用的詞語(沒有加入單詞列表的詞),要把其徹底的剔除。
在采用基于詞表的分詞算法時,如正向最大匹配法和n-最短路徑法,最大的問題之一是沒有加入詞典的詞的分詞存在固有的缺陷。一般的解決方案是添加一個沒有加入詞典的詞模塊來處理沒有加入詞典的詞的分割。在中文分詞中,沒有加入詞典的詞的分詞錯誤嚴(yán)重影響了整個分詞的查全率?;跇?gòu)詞的漢語分詞算法將漢語分詞轉(zhuǎn)化為漢語單詞序列標(biāo)記,較好地解決了沒有加入詞典的詞的處理問題。根據(jù)單詞在單詞中的位置,將單詞的單詞位類別分為四種:單字(S)、單詞前綴(B)、單詞中間(M)和單詞結(jié)尾(E)。
句法分析是在給定的語法基礎(chǔ)上,自動識別句子中所包含的句法單位及其相互之間的關(guān)系。語法分析工具利用語法符號語言將系統(tǒng)獲取的中文文本轉(zhuǎn)化為符號語言表達式。利用符號句和中文文本句構(gòu)成二部圖模型,構(gòu)成符號句。推理機的工作包括兩個方面:一是確定語言的語法體系,即在操作指令語言中正式定義句子的語法結(jié)構(gòu);另一方面,句法分析意味著一個句子的語法結(jié)構(gòu)可以自動地從一個給定的語法系統(tǒng)中派生出來,并且可以分析一個句子中所包含的句法單位和這些句法單位之間的關(guān)系。基于語料庫的句法分析,是基于語料庫提供的數(shù)據(jù)資源來分析漢語或英語句子并生成報告的過程。句法分析包括句法功能分析和句法結(jié)構(gòu)分析。語法知識庫的設(shè)計采用馮志偉的中文信息MMT模型來構(gòu)建一本語法詞典。使用初級標(biāo)準(zhǔn)現(xiàn)代漢語語料庫中各語言塊的自動分析結(jié)果作為數(shù)據(jù)集。然后再對對語料庫中的所有句子進行分析和統(tǒng)計分析。
本文構(gòu)建了一個基于MMT中文信息模型的語法知識庫規(guī)則詞典。多分支結(jié)構(gòu)用于描述語法規(guī)則。它是一個基于規(guī)則的自底向上的集成算法。多標(biāo)記識別,如漢字的170個部分可分為12類。根據(jù)這個分類系統(tǒng),可以在歸一化的過程中進行分析。相同和不同的漢語構(gòu)詞理論和實證數(shù)據(jù)。作為漢字的標(biāo)記,可分為語音標(biāo)記、語義標(biāo)記、、漢字分類標(biāo)記等。利用漢語信息的MMT模型、多樹語法詞典和帶有部分語音標(biāo)記的分詞詞典對語料庫文本進行自動分析。
句法分析結(jié)果可分為兩組:1)成功組。2)分析故障塊集合。處理部分需要人工檢查,根據(jù)系統(tǒng)給出的分析,添加足夠的詞典或語法規(guī)則,直到所有的句子、段落或章節(jié)自動分析。根據(jù)句法規(guī)則,我們用遞歸的方法替換句子,得到句子的句法結(jié)構(gòu)。該系統(tǒng)將現(xiàn)代漢語的具體詞匯轉(zhuǎn)化為語法和短語符號,實現(xiàn)漢語句子復(fù)雜特征集的操作。運用符號學(xué)理論構(gòu)建語法符號學(xué)句子。本文的核心和關(guān)鍵技術(shù)是語法符號和句子的遞歸分析的融合操作。
語音標(biāo)注部分的輸入為漢語分詞后的操作票文本的輸出,輸出為相應(yīng)的語音部分。語音部分標(biāo)注基于HMM實現(xiàn),中文分詞結(jié)果對應(yīng)于觀測序列(一個詞對應(yīng)一個觀測值,一個文本對應(yīng)一個觀測序列),語音序列部分對應(yīng)于狀態(tài)序列。以“合上#5機380V脫硫工作PC端電源6275開關(guān)”為例,觀測序列為{合上,#5機,380V,脫硫工作,PC端電源,6257開關(guān)},其相應(yīng)的狀態(tài)序列是詞性{動詞、名詞、名詞、名詞、名詞、名詞}的一部分。其狀態(tài)空間模型是{s1、s2、s3、s4 ,s5,s6} = { v,n,n,n,n},n,n}},并觀察空間{o1、o2……是所有單詞的非重復(fù)集合。這樣就對所有的操作指令進行標(biāo)注。
該技術(shù)需要使用訓(xùn)練語料庫對中文分詞和詞性標(biāo)注兩種模式進行訓(xùn)練,使用具有代表性的訓(xùn)練語料庫有助于提高模型的效果。利用收集到的操作票指令數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù),訓(xùn)練基于HMM的漢語分詞模型。按照規(guī)則的訓(xùn)練數(shù)據(jù)進行處理,為后一個詞詞位序列根據(jù)詞性標(biāo)注一節(jié)中描述的參數(shù)估計方法,遍歷行語句,訓(xùn)練語料庫統(tǒng)計獲得第一個),每個詞的頻率連續(xù)的詞語轉(zhuǎn)換數(shù),每個單詞對應(yīng)的詞性,每個單詞的次數(shù)歸一化得到π初始狀態(tài)矩陣,狀態(tài)轉(zhuǎn)移矩陣和狀態(tài)觀測矩陣。遍歷每一行后訓(xùn)練語料庫,使用相鄰詞的轉(zhuǎn)換數(shù)量,和相應(yīng)數(shù)量每個詞性的出現(xiàn)次數(shù)獲得的統(tǒng)計數(shù)據(jù),然后就形成初始狀態(tài)矩陣,狀態(tài)轉(zhuǎn)移矩陣和狀態(tài)觀測矩陣。最后訓(xùn)練出操作票指令專用的分詞和詞性模型。
結(jié)合中文分詞的狀態(tài)序列和部分詞性標(biāo)注,分析了操作票文本的語法語義模型,所有的操作票語句都可以抽象為“動作+設(shè)備+初始狀態(tài)+最終狀態(tài)”的形式。
建立事實和知識規(guī)則庫,應(yīng)用ES推理機制,推理形成實際操作票。該機制由數(shù)據(jù)庫、知識庫和推理機三部分組成。其中,電站和變電站的主要接線形式及相關(guān)設(shè)備存儲在數(shù)據(jù)庫中,與電氣名稱、事實陳述和推理過程中的中間結(jié)果有關(guān)。將電氣操作的知識規(guī)則存儲在知識庫中,利用元規(guī)則系統(tǒng)對這些規(guī)則進行約束、補充、選擇和控制。在推理機制中,利用MMT訓(xùn)練模型實現(xiàn)自動匹配和回溯的推理控制機制,在知識庫中搜索與目標(biāo)任務(wù)匹配的規(guī)則,最終解決問題。
3關(guān)鍵技術(shù)點
本文開發(fā)的操作票系統(tǒng)在保證系統(tǒng)可靠性的基礎(chǔ)上,具有開放性、通用性、靈活性和實用性的基礎(chǔ)上,綜合分析國內(nèi)外現(xiàn)有的操作票系統(tǒng),結(jié)合實地調(diào)查收集用戶需求,提出使用面向?qū)ο蟮?、跨平臺的編程技術(shù)相結(jié)合的理論專家系統(tǒng),開發(fā)一套具有良好的開放性、通用性、靈活性和實用性的智能操作票專家系統(tǒng)的設(shè)計思想和設(shè)計一套全面和有效的解決方案。
由于操作票的生成過程是一個需要大量知識和經(jīng)驗推理的過程,很難建立精確的數(shù)學(xué)模型,因此傳統(tǒng)的數(shù)學(xué)分析方法顯然不適合該系統(tǒng)。專家系統(tǒng)是一種弱解方法,適用于解決經(jīng)驗問題和邏輯問題。因此,本文從機器學(xué)習(xí)和自然語言處理的角度出發(fā),機器可以學(xué)習(xí)理解操作票指令的相關(guān)內(nèi)容,然后將理解結(jié)果訓(xùn)練成模型,提供操作票的內(nèi)容提取和智能生成。
4結(jié)論
智能性:利用專家系統(tǒng)理論,建立自動開票模型和錯誤檢查模型。本系統(tǒng)具有智能開票和糾錯功能。系統(tǒng)還可以智能識別各種線路和設(shè)備的各種運行狀態(tài)。
通用性:本文根據(jù)總體思路設(shè)計了專家數(shù)據(jù)庫。該系統(tǒng)通過提供用戶友好的維護工具和增加專家數(shù)據(jù)庫的知識,可以滿足用戶的開票要求。此外,還使用跨平臺編程工具來開發(fā)具有跨平臺執(zhí)行能力的系統(tǒng)。
可靠性:本系統(tǒng)根據(jù)電網(wǎng)實時運行參數(shù),通過專家知識的推理,完成開票流程,操作票準(zhǔn)確性高。同時,系統(tǒng)具有綜合糾錯能力,提供操作票預(yù)覽功能,進一步保證了系統(tǒng)的可靠性。本系統(tǒng)具有用戶權(quán)限管理功能,保證系統(tǒng)不越權(quán)操作。
實用性:本系統(tǒng)采用時下流行的IONIC工具包開發(fā)用戶界面,界面簡潔美觀;充分考慮用戶的操作習(xí)慣等因素,設(shè)計操作簡單方便。系統(tǒng)提供了大量的用戶設(shè)置,提高了系統(tǒng)的可用性。
該技術(shù)提高了效率,具有通用性,可直接應(yīng)用于不同的變電站。此外,該技術(shù)具有機器學(xué)習(xí)方法的共同優(yōu)勢,通過對訓(xùn)練數(shù)據(jù)的整理,提高模型的效果,具有實用性和可靠性。
參考文獻
[1]宗成慶.中文信息處理研究現(xiàn)狀分析[J].語言戰(zhàn)略研究,2016,1(6):19-26.
[2]楊福義.基于雙語平行語料庫的術(shù)語自動抽取[J].中國科技術(shù)語,2018(2):13.
[3]馮志偉.自然語言計算機形式分析的理論與方法[M].合肥:中國科技大學(xué)出版社,2017:819-820.
[4]鄭志恒.智能信息處理-漢語語料庫加工技術(shù)[M].北京:科學(xué)技術(shù)出版社,2010:168.
[5]曹倩,趙一鳴.知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應(yīng)用[J].情報理論與實踐,2015,38(12):13-18.
[6]鄧?yán)颦?,張貴新,郝向?qū)?基于知識圖譜的圖像語義分析技術(shù)及應(yīng)用研究[J].計算機科學(xué)與應(yīng)用,2018,8(9):1364-1371.
[7]李躍鵬,金翠,及俊川.基于Word2vec的關(guān)鍵詞提取算法[J].科研信息化技術(shù)與應(yīng)用,2015,6(4):54-59.
[8]Wang,Z.,Kuan,K.Ravaut,M.,etal.(2017)TrulyMulti-ModalYoutube-8MVideoClassificationwithVideo,Audio,andText.ComputerScience,arxivpreprintarxiv2017:1706.05461.
[9]鄧?yán)颦?,吳吉祥,張?從視頻到語義:基于知識圖譜的視頻語義分析技術(shù)[J].計算機科學(xué)與應(yīng)用,2019,9(8):1584-1590.