国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

水庫安全管理文檔質(zhì)量評估系統(tǒng)設計與實現(xiàn)

2022-05-26 08:56:30葛從兵嚴吉皞
軟件導刊 2022年5期
關(guān)鍵詞:詞頻分詞文檔

葛從兵,嚴吉皞,陳 劍

(南京水利科學研究院,江蘇南京 210029)

0 引言

我國現(xiàn)有水庫9 萬多座,數(shù)量居世界之首。修建水庫是調(diào)控水資源時空分布、優(yōu)化水資源配置及防洪減災的重要工程措施,是貫徹落實新時期治水方針的重要手段,對保障國家用水安全發(fā)揮著不可替代的基礎性作用。但水庫在發(fā)揮其效益同時,也存在一定風險,一旦失事,可能會給下游帶來滅頂之災,不僅影響下游公共財產(chǎn)安全與生態(tài)環(huán)境安全,而且直接影響社會穩(wěn)定。

水庫安全管理工作是保障水庫安全運行的重要的非工程措施。水庫安全管理文檔質(zhì)量不僅可反映水庫管理單位的安全管理工作情況,而且會影響水庫安全管理工作開展。大壩安全鑒定[1]、水庫調(diào)度規(guī)程[2]和水庫大壩安全管理應急預案(以下簡稱水庫應急預案)[3]是水庫安全管理工作中的3 個重要文檔。大壩安全鑒定通過現(xiàn)場檢查與大壩安全評價鑒定大壩安全狀況:將大壩分為一類壩、二類壩與三類壩,其中三類壩存在較嚴重的安全隱患,不能按設計正常運行,需進行除險加固;水庫調(diào)度規(guī)程明確水庫各項調(diào)度依據(jù)、調(diào)度任務與調(diào)度原則、調(diào)度要求與調(diào)度條件、調(diào)度方式等,是水庫調(diào)度運用的依據(jù)性文件;水庫大壩安全管理應急預案是在水庫大壩發(fā)生突發(fā)安全事件時用于避免或減少損失的預先制定的方案,是提高水庫管理單位及其主管部門應對突發(fā)事件能力及降低水庫風險的重要非工程措施。由于我國水庫數(shù)量眾多,參與編制以上文檔的單位較多,難免會存在質(zhì)量差的文檔。若大壩安全鑒定文檔質(zhì)量差,可能會對大壩安全狀況進行誤判,使大壩帶病運行,或浪費除險加固資金;若水庫調(diào)度規(guī)程文檔質(zhì)量差,可能會提供錯誤的調(diào)度方案,給水庫工程帶來險情,或使水資源無法得到有效利用;若水庫應急預案文檔質(zhì)量差,可能造成應對突發(fā)事件不當?shù)那闆r,不僅不能降低突發(fā)事件損失,甚至可能增加損失。如果采用人工查閱方式發(fā)現(xiàn)質(zhì)量差的文檔,需要大量專家,且工作量大、時間長。

針對文檔質(zhì)量評估,研究人員已開展了相關(guān)研究。如陳琪等[4]在軟件文檔質(zhì)量評價方法研究中提出文檔質(zhì)量度量模型,審查人員可根據(jù)模型對文檔質(zhì)量進行評價;寧凌[5]提出PDM 文檔自動審核算法,該算法在模型訓練之前,需要專業(yè)審核人員對文檔的標題、字詞級錯誤及語法錯誤進行標注;湯莉等[6]提出Web 文檔數(shù)據(jù)質(zhì)量評估方法,該方法采用正例樣本和負例樣本對模型進行訓練。本文通過對中文分詞與文檔質(zhì)量評估方法的研究,提出一種基于詞頻的水庫安全管理文檔質(zhì)量評估方法。該方法屬于無監(jiān)督學習,訓練樣本無需專家進行處理,可實現(xiàn)水庫安全管理文檔質(zhì)量的自動評估,從而有效提高文檔質(zhì)量評估能力及速度。

1 總體設計

水庫安全管理文檔質(zhì)量評估系統(tǒng)對全部文檔進行中文分詞(Chinese Word Segmentation,CWS),獲取詞及詞頻[7];對詞進行關(guān)鍵詞學習,獲得文檔質(zhì)量評估標準;根據(jù)文檔質(zhì)量評估標準與單個文檔中的關(guān)鍵詞及詞頻,評估文檔質(zhì)量。

1.1 系統(tǒng)框架

水庫安全管理文檔質(zhì)量評估系統(tǒng)框架見圖1。文檔格式可以是TXT、Word、PDF 等,數(shù)據(jù)庫采用MySQL[8],編程語言采用Python[9]。水庫安全管理文檔質(zhì)量評估系統(tǒng)采用B/S 架構(gòu),選用Python 語言的Web 框架Django[10],內(nèi)建中文分詞、關(guān)鍵詞學習、文檔質(zhì)量指數(shù)計算等功能模塊。

1.2 系統(tǒng)功能

水庫安全管理文檔質(zhì)量評估系統(tǒng)功能見圖2。

全文檔中文分詞對全部文檔進行中文分詞,獲得詞及詞頻;關(guān)鍵詞選取按照一定選取率從詞中選擇關(guān)鍵詞;關(guān)鍵詞學習通過不斷剔除關(guān)鍵詞和文檔,直至文檔質(zhì)量平均指數(shù)滿足要求;評估標準生成在關(guān)鍵詞學習結(jié)束時,將最終的關(guān)鍵詞及詞頻作為最終評估標準存入數(shù)據(jù)庫;單文檔中文分詞通過對文檔進行中文分詞,獲得詞及詞頻;質(zhì)量指數(shù)計算根據(jù)評估標準和文檔的關(guān)鍵詞及詞頻,計算文檔質(zhì)量指數(shù),給出文檔質(zhì)量水平;用戶管理可添加、修改、刪除用戶,對用戶進行認證;參數(shù)設置可設置系統(tǒng)所需參數(shù)。

Fig.1 System framework圖1 系統(tǒng)框架

Fig.2 System function圖2 系統(tǒng)功能

2 中文分詞

分詞是指將連續(xù)的字序列按照一定規(guī)范重新組合成詞序列的過程,中文分詞是指將一個漢字序列切分成一個個單獨的詞。

2.1 分詞方法

現(xiàn)有分詞方法較多,可分為3 大類:基于規(guī)則的分詞方法、基于統(tǒng)計的分詞方法[11]與基于理解的分詞方法[12]。

(1)基于規(guī)則的分詞方法又稱機械分詞方法,其按照一定策略將待分析的漢字串與一個“充分大”的機器詞典中的詞條進行匹配,若找到某個字符串,則匹配成功。常用字符串匹配方法有最大匹配法[13]、逆向最大匹配法、最小切分法、雙向最大匹配法[14]等。此類方法簡單高效、易于實現(xiàn),但對歧義和未登錄詞的處理效果不佳。

(2)基于統(tǒng)計的分詞方法采用統(tǒng)計模型,對給定的大量已分詞文本進行學習,獲得詞語切分規(guī)律,再應用此規(guī)律對未知文本進行切分。主要統(tǒng)計模型有N 元文法模型(N-gram)、隱馬爾可夫模型(Hidden Markov Model,HMM)[15]、最大熵模型(ME)、條件隨機場模型(Conditional Random Fields,CRF)[16]等。此類方法能夠結(jié)合上下文識別未登錄詞,自動消除歧義。

(3)基于理解的分詞方法在分詞的同時還進行句法、語義分析,利用句法信息和語義信息處理歧義現(xiàn)象。通常包括3 部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。基于理解的分詞方法主要有專家系統(tǒng)分詞法與神經(jīng)網(wǎng)絡分詞法。此類方法準確度高,但速度慢。

2.2 分詞工具

中文分詞工具有BosonNLP、IKAnalyzer、NLPIR、SCWS、結(jié)巴分詞(jieba)[17]、盤古分詞、庖丁解牛、搜狗分詞、新浪云、語言云等,調(diào)用形式有REST API、JAR 包、多語言接口、PHP 庫、Python 庫等。從功能、準確度、易用性等方面綜合考慮,文檔質(zhì)量評估系統(tǒng)采用較常用的結(jié)巴分詞。

結(jié)巴分詞基于字典樹(Trie)結(jié)構(gòu)實現(xiàn)詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(Directed Acyclic Graph,DAG);采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;對于未登錄詞,采用基于漢字成詞能力的HMM 模型,并使用Viterbi算法。

結(jié)巴中文分詞支持4 種分詞模式:精確模式、全模式、搜索引擎模式與Paddle 模式。精確模式可將句子精確地切分開,適合文本分析;全模式把句子中所有可以成詞的詞語都掃描出來,速度快,但不能解決歧義問題;搜索引擎模式在精確模式基礎上,對長詞再次進行切分,提高召回率,適用于搜索引擎分詞;Paddle 模式利用PaddlePaddle 深度學習框架,訓練序列標注(雙向GRU)網(wǎng)絡模型,從而實現(xiàn)分詞[18]。

結(jié)巴中文分詞能夠識別新詞、去除停用詞、提取關(guān)鍵詞及標注詞性,并支持自定義字典和并行分詞。

2.3 詞頻統(tǒng)計

詞頻(Term Frequency,TF)是一個詞在文件中出現(xiàn)的次數(shù)。為了標準化,詞頻通常用概率表示,見公式(1)。由于水庫安全管理文檔質(zhì)量評估會關(guān)注文檔中的關(guān)鍵詞出現(xiàn)次數(shù),故這里詞頻采用次數(shù)表示,而不采用概率表示。

式中,fij為詞t i在同類文檔dj中出現(xiàn)的次數(shù)。

詞頻統(tǒng)計采用結(jié)巴分詞對每個文檔進行分詞,然后統(tǒng)計各詞的詞頻。

3 質(zhì)量評估

3.1 評估方法

文檔質(zhì)量評估依據(jù)是文檔中關(guān)鍵詞詞頻是否達到標準要求。評估方法是計算文檔中關(guān)鍵詞詞頻與標準中關(guān)鍵詞詞頻的比值,見公式(2)。

式中,e為文檔質(zhì)量指數(shù),fi為文檔中關(guān)鍵詞ki的詞頻,sfi為標準中關(guān)鍵詞ki的詞頻,n為標準中的關(guān)鍵詞數(shù)量。計算e時,如果fi>sfi,則取fi=sfi。當e≥0.9 時,文檔質(zhì)量優(yōu);e≥0.8 時,文檔質(zhì)量良;e≥0.6 時,文檔質(zhì)量中;e<0.6 時,文檔質(zhì)量差。

3.2 關(guān)鍵詞學習

評估標準是文檔中應有的關(guān)鍵詞及詞頻。目前相關(guān)專家還無法準確給出評估標準,因此需要對全部文檔中的關(guān)鍵詞進行學習以獲得評估標準。

關(guān)鍵詞學習是一個不斷剔除關(guān)鍵詞和文檔的遞歸過程。學習參數(shù)包括關(guān)鍵詞選取率s、文檔質(zhì)量指數(shù)標準es、關(guān)鍵詞初始剔除率kr0與文檔初始剔除率dr0。

關(guān)鍵詞來自經(jīng)過結(jié)巴分詞后全部文檔中的詞,考慮到大部分詞不能成為關(guān)鍵詞,為提高學習效率,設關(guān)鍵詞選取率s為0.5,即選取詞頻排序前50%的詞。

文檔質(zhì)量平均指數(shù)是所有選用文檔(即非剔除文檔)質(zhì)量指數(shù)的平均值,當文檔質(zhì)量平均指數(shù)大于等于文檔質(zhì)量指數(shù)標準es時,遞歸過程結(jié)束,設文檔質(zhì)量指數(shù)標準es為0.95。

每輪關(guān)鍵詞學習都會剔除詞頻較低的關(guān)鍵詞和文檔質(zhì)量指數(shù)較低的文檔,隨著學習的深入,選用的關(guān)鍵詞和文檔越來越少,剔除率也應越來越低。剔除率遞減速度與文檔質(zhì)量平均指數(shù)變化量成反比,即指數(shù)變化量越大,剔除率遞減量越小,以保持較高剔除率;指數(shù)變化量越小,剔除率遞減量越大,將大幅減少剔除率。由于文檔全部參與學習,故文檔剔除率遞減量小于關(guān)鍵詞剔除率遞減量,使文檔剔除率高于關(guān)鍵詞剔除率,從而提高學習效率。剔除率計算見公式(3),初始剔除率kr0與dr0均設為0.1。

4 系統(tǒng)實現(xiàn)

4.1 主要功能實現(xiàn)

(1)詞頻統(tǒng)計。詞頻統(tǒng)計要先進行中文分詞。結(jié)巴分詞提供Python 庫,系統(tǒng)通過調(diào)用Python 庫完成中文分詞。在中文分詞時,通過添加水利專業(yè)名詞,以提高分詞正確率;通過去除停用詞,特別是地名,以提高搜索效率。詞頻統(tǒng)計主要代碼如下:

(2)文檔質(zhì)量標準計算。文檔質(zhì)量評估依據(jù)文檔質(zhì)量標準,文檔質(zhì)量標準計算主要代碼如下:

(3)關(guān)鍵詞學習。關(guān)鍵詞學習較為復雜,主要過程如下:①對全部文檔進行結(jié)巴分詞,存儲水庫名稱、文檔類型、詞、詞頻等信息;②按詞頻由大到小對詞進行排序,按關(guān)鍵詞初始選取率s 選擇詞作為關(guān)鍵詞;③計算文檔質(zhì)量平均指數(shù)及其變化量,如果文檔質(zhì)量平均指數(shù)大于等于文檔質(zhì)量指數(shù)標準es,則學習結(jié)束;④按關(guān)鍵詞剔除率kri和文檔剔除率dri,分別剔除詞頻較低的關(guān)鍵詞和文檔質(zhì)量指數(shù)較低的文檔;⑤計算kri+1和dri+1,轉(zhuǎn)至步驟③。

4.2 實驗測試

選用部分省市水庫的應急預案文檔,對水庫安全管理文檔質(zhì)量評估系統(tǒng)進行實驗。首先進行關(guān)鍵詞學習,得到應急預案文檔質(zhì)量標準見表1(僅列出詞頻前20 的關(guān)鍵詞,下同),然后對每個文檔進行評估。例如,經(jīng)過評估,某大型水庫的應急預案文檔關(guān)鍵詞及詞頻見表2,文檔質(zhì)量指數(shù)為0.91;某中型水庫的應急預案文檔關(guān)鍵詞及詞頻見表3,文檔質(zhì)量指數(shù)為0.72。

Table 1 Document quality standard表1 文檔質(zhì)量標準

續(xù)表

Table 2 Key words and term frequency in some large reservoir document表2 某大型水庫文檔關(guān)鍵詞及詞頻

Table 3 Key words and term frequency in some medium reservoir document表3 某中型水庫文檔關(guān)鍵詞及詞頻

實驗結(jié)果表明,大部分大型水庫的應急預案文檔質(zhì)量指數(shù)大于0.85,質(zhì)量較好;中型水庫質(zhì)量指數(shù)通常在0.65~0.85 之間,質(zhì)量一般;小型水庫質(zhì)量指數(shù)通常在0.45~0.65 之間,質(zhì)量較差。這與現(xiàn)實情況基本一致,主要因為大型水庫管理人員多,相關(guān)資料多,管理規(guī)范;中小型水庫管理人員少,相關(guān)資料少,管理水平一般。

5 結(jié)語

本文研發(fā)基于詞頻的水庫安全管理文檔質(zhì)量評估系統(tǒng)對水庫安全管理文檔的質(zhì)量評估基本準確,表明詞頻可作為同類文檔的質(zhì)量評估因子。由于不同水庫在工程規(guī)模、控制流域面積、庫容、壩型、最大壩高、壩頂長度、水工建筑物數(shù)量等方面存在差異,客觀上造成各水庫的大壩安全鑒定、水庫調(diào)度規(guī)程及應急預案等文檔在詞頻上存在一定差異,而本文的質(zhì)量評估方法與關(guān)鍵詞學習算法沒有考慮這些因素。因此,為使文檔質(zhì)量評估更加準確,后續(xù)將進一步研究上述因素對詞頻的影響,并在質(zhì)量評估方法和關(guān)鍵詞學習算法中增加相應的權(quán)重因子。

猜你喜歡
詞頻分詞文檔
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
有人一聲不吭向你扔了個文檔
結(jié)巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
基于RI碼計算的Word復制文檔鑒別
值得重視的分詞的特殊用法
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學圖書館學報》學術(shù)研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
高考分詞作狀語考點歸納與疑難解析
炎陵县| 司法| 宁津县| 图木舒克市| 佛冈县| 汉源县| 耒阳市| 霍邱县| 济阳县| 宣武区| 舞阳县| 府谷县| 望城县| 南岸区| 建水县| 崇礼县| 乌拉特后旗| 资中县| 陕西省| 宝山区| 郓城县| 安阳县| 天门市| 寿光市| 胶州市| 阜平县| 吉木乃县| 江华| 罗甸县| 武汉市| 利津县| 西藏| 元阳县| 扬州市| 清镇市| 台北市| 清远市| 民乐县| 鹿泉市| 固阳县| 安国市|