国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)

2018-04-12 14:16:14夏同飛李志王超郭振張學(xué)敏費(fèi)曉璐
電子元器件與信息技術(shù) 2018年9期
關(guān)鍵詞:分詞臺(tái)賬管控

夏同飛,李志,王超,郭振,張學(xué)敏,費(fèi)曉璐

(安徽繼遠(yuǎn)軟件有限公司,安徽 合肥 230088)

0 引言

電網(wǎng)發(fā)展進(jìn)程不斷推進(jìn),為了有效研究配電網(wǎng)運(yùn)行情況,要結(jié)合營(yíng)配調(diào)基礎(chǔ)臺(tái)賬對(duì)其進(jìn)行分析。目前,營(yíng)配調(diào)基礎(chǔ)臺(tái)賬在應(yīng)用過程中就存在自動(dòng)化程度不足、數(shù)據(jù)關(guān)系維護(hù)失衡以及監(jiān)測(cè)手段單一化等問題,要想全面提高其應(yīng)用價(jià)值,就需要系統(tǒng)分析問題的處理措施和改進(jìn)方式,并且有效建立對(duì)應(yīng)的管控流程,文章中就中文分詞系統(tǒng)改進(jìn)的可行性分析與應(yīng)用前景予以分析,全面建立了系統(tǒng)分析模式旨在有效創(chuàng)建基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)路徑。

1 營(yíng)配調(diào)基礎(chǔ)臺(tái)賬存在的問題和改進(jìn)建議

1.1 自動(dòng)化程度受限

在營(yíng)配調(diào)基礎(chǔ)臺(tái)賬建立的過程中,依舊存在應(yīng)用工具對(duì)數(shù)據(jù)運(yùn)行結(jié)構(gòu)依賴性較強(qiáng)的問題,使得整體項(xiàng)目的自動(dòng)化程度和基礎(chǔ)水平比較滯后,值得一提的是,目前應(yīng)用的營(yíng)配調(diào)基礎(chǔ)臺(tái)賬工具僅僅能完成兩端系統(tǒng)表和字段輔助臺(tái)賬的配對(duì)處理,沒有對(duì)差異化系統(tǒng)之間的臺(tái)賬匹配關(guān)系予以關(guān)注,就常常會(huì)出現(xiàn)臺(tái)賬實(shí)際數(shù)據(jù)不滿足差異化系統(tǒng)匹配原則的問題出現(xiàn)[1]?;诖耍e極夯實(shí)自動(dòng)化處理機(jī)制,引導(dǎo)相關(guān)部門全面開展自動(dòng)化管理流程,確保能對(duì)差異化系統(tǒng)進(jìn)行區(qū)別處理和判定,從而提升臺(tái)賬系統(tǒng)的匹配度。

1.2 數(shù)據(jù)關(guān)系維護(hù)不到位

在對(duì)臺(tái)賬數(shù)據(jù)匹配關(guān)系進(jìn)行分析和判定的過程中,要借助專用的數(shù)據(jù)接口完成基礎(chǔ)性維護(hù)工作,但是,目前存在結(jié)合源端業(yè)務(wù)系統(tǒng)開發(fā)過程和集成聯(lián)調(diào)業(yè)務(wù)量較大的問題,實(shí)際處理機(jī)制和管控流程并不能符合要求。另外,接口同步主要采取的是定時(shí)和批量處理的方式,這必然會(huì)使得業(yè)務(wù)的連續(xù)性受到影響。與此同時(shí),因?yàn)閿?shù)據(jù)維護(hù)工作不到位,使得臺(tái)賬數(shù)據(jù)模型的升級(jí)、維護(hù)都存在滯后性,甚至因?yàn)樯?jí)同步失效造成整體系統(tǒng)運(yùn)行結(jié)構(gòu)崩壞。因此,技術(shù)部門要對(duì)數(shù)據(jù)關(guān)系予以重視,建立完整的管控流程和管理標(biāo)準(zhǔn),定期按照接口同步要求對(duì)業(yè)務(wù)進(jìn)行綜合維護(hù),尤其是對(duì)數(shù)據(jù)進(jìn)行整理,應(yīng)用大數(shù)據(jù)處理技術(shù)完善數(shù)據(jù)模型升級(jí)工作,充分應(yīng)用先進(jìn)的數(shù)據(jù)分析工具提升數(shù)據(jù)同步性和實(shí)時(shí)性。

1.3 監(jiān)測(cè)手段有待提高

在對(duì)營(yíng)配調(diào)臺(tái)賬數(shù)據(jù)匹配進(jìn)行監(jiān)測(cè)的過程中,因?yàn)椤U?線-變-戶拓?fù)潢P(guān)系比較復(fù)雜,單一化的監(jiān)督管理手段并不能有效提升管控水平,這就導(dǎo)致跨系統(tǒng)間臺(tái)賬匹配落實(shí)不到位,對(duì)同期線損計(jì)量工作造成了嚴(yán)重的制約,甚至?xí)霈F(xiàn)個(gè)別區(qū)域模型配置率和線損可算率嚴(yán)重超標(biāo)的問題,造成了安全隱患。基于此,監(jiān)測(cè)部門要建立合理性的監(jiān)督管控流程,按照監(jiān)測(cè)標(biāo)準(zhǔn)完善監(jiān)測(cè)手段,并且要融合新型監(jiān)測(cè)工序,對(duì)站-線-變-戶拓?fù)潢P(guān)系予以調(diào)研,且利用每月、每季度和每年的定期檢查和不定期抽測(cè)完善監(jiān)測(cè)流程,應(yīng)用SQL多元化監(jiān)測(cè)機(jī)制對(duì)線損可算率進(jìn)行綜合判斷。

2 中文分詞系統(tǒng)改進(jìn)的可行性分析與應(yīng)用前景

之所以要建立中文分詞系統(tǒng)改進(jìn)機(jī)制,就是為了輔助相關(guān)工作人員核實(shí)臺(tái)賬,一定程度上提高營(yíng)配基礎(chǔ)數(shù)據(jù)的整體質(zhì)量,為后續(xù)工作的全面落實(shí)奠定基礎(chǔ)。

2.1 可行性分析

一方面,從業(yè)務(wù)角度分析可行性。在國(guó)家電網(wǎng)不斷發(fā)展進(jìn)步的時(shí)代背景下,我國(guó)國(guó)家電網(wǎng)輸電、變電、配電以及實(shí)際用電管理方面呈現(xiàn)出全面優(yōu)化的態(tài)勢(shì),整體管理標(biāo)準(zhǔn)和水平也有所提高,管理規(guī)范的執(zhí)行效果符合預(yù)期,且能在明確設(shè)備基礎(chǔ)臺(tái)賬管理要求的同時(shí),對(duì)臺(tái)賬內(nèi)容、命名規(guī)則、編碼等基礎(chǔ)信息進(jìn)行校對(duì)。基于此,要在此基礎(chǔ)上對(duì)中文分詞系統(tǒng)予以改進(jìn)具有一定的發(fā)展空間。加之信息化技術(shù)已經(jīng)逐漸普及,在專業(yè)信息系統(tǒng)中已經(jīng)累積了較多的數(shù)據(jù)資源,也能為分詞改進(jìn)系統(tǒng)的運(yùn)行和項(xiàng)目?jī)?yōu)化提供平臺(tái),為課題研究工作提供了充足的業(yè)務(wù)和數(shù)據(jù)環(huán)境[2]。

另一方面,從技術(shù)角度分析可行性。在計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域的研究中,自然語言處理是非常關(guān)鍵的課題,其融合了語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等基礎(chǔ)自然學(xué)科,并且能建立人與計(jì)算機(jī)之間的自然語言體系,應(yīng)用不同的理論和方法就能合理性完善漢語詞分析以及句法分析,借助計(jì)算機(jī)中的中文索引也能給建構(gòu)完整的數(shù)據(jù)處理模塊。另外,近幾年大數(shù)據(jù)處理技術(shù)的發(fā)展也為中文分詞系統(tǒng)改進(jìn)提供了良好的技術(shù)平臺(tái),能利用大數(shù)據(jù)技術(shù)建立系統(tǒng)性較好的生態(tài)環(huán)境,為海量數(shù)據(jù)深度解析和處理提供充足的算法和應(yīng)用框架,維護(hù)了研究工作的基本環(huán)境和條件。

2.2 應(yīng)用前景

第一,能完成企業(yè)級(jí)數(shù)據(jù)的綜合治理。在數(shù)據(jù)處理機(jī)制中,應(yīng)用中文分詞系統(tǒng)改進(jìn)機(jī)制能對(duì)臺(tái)賬數(shù)據(jù)進(jìn)行統(tǒng)籌管控,因?yàn)榕_(tái)賬數(shù)據(jù)是各系統(tǒng)的核心數(shù)據(jù),因此,只要建立系統(tǒng)化的數(shù)據(jù)處理框架體系,就能將不同數(shù)據(jù)進(jìn)行關(guān)聯(lián)整合,已維護(hù)企業(yè)級(jí)數(shù)據(jù)治理的基本水平。不僅能高效開展跨系統(tǒng)的數(shù)據(jù)對(duì)齊處理機(jī)制,也能提升校驗(yàn)治理工作的基本效果,對(duì)隱藏問題予以控制,提升應(yīng)用水平[3]。

第二,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的深度挖掘。在設(shè)計(jì)專業(yè)系統(tǒng)建立和應(yīng)用的過程中,局限性較為明顯,且信息體系中會(huì)出現(xiàn)較多的大文本非結(jié)構(gòu)化數(shù)據(jù),其中,客戶地址、投訴報(bào)修工單內(nèi)容等較為常見,這些數(shù)據(jù)會(huì)潛藏業(yè)務(wù)線索,利用相應(yīng)的系統(tǒng)改進(jìn)處理機(jī)制就能對(duì)信息進(jìn)行深度挖掘,從而提升業(yè)務(wù)信息和管理工序的完整性。

第三,非結(jié)構(gòu)化數(shù)據(jù)管理。在傳統(tǒng)的管控工作體系內(nèi),非結(jié)構(gòu)化數(shù)據(jù)的處理一直是困擾管理者的數(shù)據(jù)內(nèi)容,多數(shù)都是采取人工處理方式對(duì)其進(jìn)行分類和關(guān)鍵字索引,不僅會(huì)浪費(fèi)大量的人力,也會(huì)出現(xiàn)信息質(zhì)量不均衡的問題,此時(shí),需要結(jié)合字典模型進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)處理,應(yīng)用升級(jí)算法就能靈活補(bǔ)充非結(jié)構(gòu)化數(shù)據(jù)信息,對(duì)數(shù)據(jù)管理和深度挖掘創(chuàng)設(shè)了良好的平臺(tái)[4]。

3 基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)路徑

基于互信息改進(jìn)算法對(duì)中文分詞系統(tǒng)進(jìn)行集中處理和綜合改進(jìn),最重要的就是要借助技術(shù)提取機(jī)制和識(shí)別方式,有效對(duì)電力設(shè)備臺(tái)賬名稱中的關(guān)鍵信息進(jìn)行綜合管控和應(yīng)用,從而提升改進(jìn)處理功效的完整性。在經(jīng)典處理機(jī)制中,技術(shù)人員要建立詞庫,將其作為基礎(chǔ)的分詞詞典,這其中會(huì)借助技術(shù)和應(yīng)用工具盡可能多的包含系統(tǒng)運(yùn)行過程中所有可能出現(xiàn)的詞。與此同時(shí),操作人員要對(duì)給定的待切分漢字串s予以分類管理,并且依據(jù)正向或逆向原則取s的子串,若子串與詞典中的某個(gè)基礎(chǔ)詞條匹配,則系統(tǒng)默認(rèn)該子串是需要的詞,并且會(huì)利用對(duì)應(yīng)的技術(shù)將其切分出來,然后對(duì)剩余部分繼續(xù)開展對(duì)應(yīng)的切分工作,一直到所有的詞都被切分處理,針對(duì)子串不是詞的情況,要進(jìn)行下一子串的匹配處理。而雙數(shù)組Trie(Double-Array Trie)分詞方法是在經(jīng)典處理方式基礎(chǔ)上建立的新型處理機(jī)制,能有效提升處理效率和質(zhì)量[5]。

3.1 不同場(chǎng)景下跨系統(tǒng)同一對(duì)象特征匹配模型

在實(shí)際文本建模工作中,技術(shù)人員要結(jié)合不同業(yè)務(wù)場(chǎng)景對(duì)中文分詞方法予以應(yīng)用,從而有效提取業(yè)務(wù)對(duì)象的特征數(shù)據(jù),并且要關(guān)聯(lián)處理其實(shí)際的關(guān)鍵屬性,從而有效計(jì)量差異化系統(tǒng)之間的模型匹配概率,一定程度上減少匹配范圍,提升工作效率,也為匹配精度的提升奠定基礎(chǔ)[6]。目前主要的模型分為VSM向量空間模型、布爾模型和概率模型,具體情況如下:

第一,向量空間模型VSM。主要是在實(shí)際應(yīng)用過程中借助規(guī)范化特征向量、定義特征向量權(quán)重、統(tǒng)計(jì)詞頻以及計(jì)算匹配概率等進(jìn)行對(duì)象的處理和匹配。本文主要選擇了配電線路命名在調(diào)度、運(yùn)檢和營(yíng)銷系統(tǒng)中的命名匹配,結(jié)合實(shí)際要求和信息對(duì)相關(guān)問題予以驗(yàn)證和處理,配電臺(tái)區(qū)在電力運(yùn)檢和營(yíng)銷系統(tǒng)中的命名匹配等不同場(chǎng)景,能在樣本數(shù)據(jù)提取之后對(duì)相關(guān)訓(xùn)練集和驗(yàn)證集進(jìn)行集中設(shè)定,合理性完善中文分詞特征提取和匹配度計(jì)算,結(jié)合匹配效果驗(yàn)證就能得出最終的結(jié)論,也為后續(xù)模型的優(yōu)化升級(jí)奠定基礎(chǔ)。

第二,布爾模型。主要是借助二值映射函數(shù)f∶T→{0,1}代替權(quán)重設(shè)定,能一定程度上簡(jiǎn)化匹配模型的構(gòu)建和訓(xùn)練過程,為整個(gè)系統(tǒng)簡(jiǎn)化度和匹配度提升奠定基礎(chǔ)。與此同時(shí),也能和向量空間模型展開深度比對(duì),從而直觀判定整個(gè)系統(tǒng)運(yùn)行體系中概率模型在不同電力業(yè)務(wù)場(chǎng)景下的實(shí)用數(shù)據(jù)。

第三,概率模型。結(jié)合基于特征項(xiàng)就能對(duì)匹配優(yōu)先級(jí)進(jìn)行集中處理和排序,綜合提升相關(guān)數(shù)據(jù)的應(yīng)用效果,也為后續(xù)特征向量的權(quán)重管理奠定基礎(chǔ),維護(hù)構(gòu)建過程的合理性,也為概率計(jì)算算法處理效果的優(yōu)化提供保障。與此同時(shí),能與向量空間模型進(jìn)行比對(duì),優(yōu)化提取數(shù)據(jù)的實(shí)用性[7]。

3.2 分詞與匹配引擎研究開發(fā)

一方面,能提供經(jīng)典中文分詞、改進(jìn)型Trie索引樹分詞、雙數(shù)組Trie(Double-Array Trie)分詞等算法,并且優(yōu)化處理機(jī)制。另一方面,依據(jù)不同應(yīng)用場(chǎng)景(一對(duì)一匹配驗(yàn)證、一對(duì)多匹配),將不同分詞算法與匹配模型相結(jié)合,完成數(shù)據(jù)處理和匹配。

4 結(jié)論

總而言之,在基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)工作中,要依據(jù)實(shí)際要求提升臺(tái)賬數(shù)據(jù)處理和特征匹配模型的應(yīng)用水平,確保能提高非結(jié)構(gòu)化數(shù)據(jù)管控效果,全面融合中文分詞系統(tǒng)改進(jìn)方式,建立健全系統(tǒng)化的分詞與匹配引擎體系,并且要在優(yōu)化檢測(cè)手段、數(shù)據(jù)更新管理、數(shù)據(jù)更新維護(hù)等質(zhì)量的同時(shí),優(yōu)化數(shù)據(jù)平臺(tái),實(shí)現(xiàn)新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)應(yīng)用價(jià)值的全面進(jìn)步。

猜你喜歡
分詞臺(tái)賬管控
EyeCGas OGI在泄漏管控工作中的應(yīng)用
多端聯(lián)動(dòng)、全時(shí)管控的高速路產(chǎn)保通管控平臺(tái)
管控老年高血壓要多管齊下
結(jié)巴分詞在詞云中的應(yīng)用
工作落實(shí),一本臺(tái)賬起什么作用?
靖邊規(guī)范基層黨建工作臺(tái)賬
值得重視的分詞的特殊用法
失控還是管控?
軍工文化(2015年10期)2015-05-14 07:03:14
韓雪峰的“臺(tái)賬”
ERP系統(tǒng)的設(shè)備創(chuàng)建及臺(tái)賬管理
紫云| 公安县| 云龙县| 攀枝花市| 安顺市| 丰顺县| 铜山县| 南涧| 府谷县| 滁州市| 英吉沙县| 尼勒克县| 凉城县| 柘城县| 内江市| 勐海县| 内丘县| 晋江市| 内乡县| 琼海市| 泸水县| 南宁市| 富平县| 武威市| 秦安县| 钦州市| 双辽市| 西乌| 湘潭县| 靖安县| 江华| 鞍山市| 宝丰县| 神木县| 岱山县| 榆林市| 勃利县| 鹿邑县| 西乌珠穆沁旗| 海南省| 蓬溪县|