国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然資源標準名稱語義一致性分析

2021-05-18 11:31:36馬聰麗陳駿張玉賢呂玉霞張瑩
遙感信息 2021年2期
關鍵詞:名稱交叉一致性

馬聰麗,陳駿,張玉賢,呂玉霞,張瑩

(自然資源部測繪標準化研究所,西安 710054)

0 引言

自然資源部組建前,我國土地、海洋、地礦、測繪地理信息、森林、草原等分屬國務院各部門管理,各部門在具體工作中形成了各自的標準、規(guī)范及工作機制,為國家重大決策部署及促進經(jīng)濟社會發(fā)展發(fā)揮了重要作用。但這些標準與規(guī)范由于是不同渠道立項,立項時的依據(jù)不同,存在部分標準名稱、名詞術語、規(guī)定對象等方面相似相近、不易區(qū)分等情況。自然資源部組建以來,標準一致性[1]研究成為自然資源標準化工作的重點,國土、海洋、地礦、測繪地理信息、林草等標準亟待梳理,急需開展系統(tǒng)的、基礎的、專業(yè)的分析工作,為自然資源標準化工作提供及時、有效的支持,為今后自然資源標準化工作的深入開展打下基礎。開展自然資源標準名稱語義一致性分析,對于自然資源標準化管理工作具有重要的現(xiàn)實意義。

針對自然資源有關現(xiàn)行標準1 173 項[2]、在研標準843 項[3]的標準名稱,建立自然資源標準名稱數(shù)據(jù)庫,研制相關軟件工具,利用大數(shù)據(jù)、人工智能等技術,對存在內(nèi)容重復、語義不清的標準名稱進行一致性和差異性分析,找出自然資源標準名稱存在的混淆、指代不清等問題,以便對自然資源標準進行科學化、信息化管理。

1 研究對象

本文分析的自然資源標準名稱共2 016項,來源于自然資源部發(fā)布的標準目錄,包括2個部分:其一是2019年4月發(fā)布的自然資源領域現(xiàn)行標準目錄,包括土地、地礦、海洋、測繪共461項國家標準和712項行業(yè)標準,共計1 173項標準,詳見表1;其二是2019年5月,自然資源部發(fā)布的繼續(xù)執(zhí)行標準計劃項目清單,共包含843項在研標準,詳見表2。

表1 自然資源領域現(xiàn)行標準數(shù)量統(tǒng)計表(截至2019年4月)

表2 自然資源領域在研標準數(shù)量統(tǒng)計表(截至2019年5月)

2 研究重點及研究流程

首先,開發(fā)自然資源標準語義數(shù)據(jù)庫及軟件并將標準名稱入庫;其次,提取標準名稱關鍵詞;然后,基于標準名稱關鍵詞提取相關度較高標準名稱;最后,對相關度較高的標準名稱進行語義一致性分析。具體工作研究重點及研究流程如圖1所示。

圖1 標準名稱語義一致性分析流程

2.1 自然資源標準語義數(shù)據(jù)庫及軟件系統(tǒng)研發(fā)

在Windows系統(tǒng)環(huán)境下,采用Python3[4-5]語言開發(fā)軟件應用系統(tǒng),并利用PYQT5開發(fā)框架開發(fā)系統(tǒng)交互界面。軟件系統(tǒng)具有外部數(shù)據(jù)獲取、文本結構化處理、詞義分析、主題分析、知識抽取等算法功能,可以實現(xiàn)相似性檢測、矛盾性檢測、文檔歸類、知識庫構建以及檢索匹配等功能[6]。功能模塊設計圖如圖2所示,圖中第1行、第2行為主要算法功能模塊,第3行為每個功能模塊所具備的實現(xiàn)的功能。

圖2 軟件功能模塊設計圖

2.2 標準名稱入庫及關鍵詞提取

將表1、表2中所列共2 016項現(xiàn)行及在研標準名稱入庫,采用Jieba分詞軟件[7]對2 016項標準名稱進行關鍵詞提取,把句子中所有可以成詞的詞語都掃描出來,并結合自定義詞典作為補充。部分關鍵詞組提取結果見圖3。從圖3可以看出,標準名稱關鍵詞的提取基本合理。

圖3 標準名稱關鍵詞提取界面

2.3 相關度較高標準名稱提取

利用提取的關鍵詞通過軟件對標準名稱進行相似性檢測[8],以標準《GB/T 12719—1991 礦區(qū)水文地質(zhì)工程地質(zhì)勘探規(guī)范》為例,對所提取的相關度最高的前20項標準進行分析。

《GB/T 12719—1991礦區(qū)水文地質(zhì)工程地質(zhì)勘探規(guī)范》的關鍵詞提取及相關度較高的系列標準名稱見表3。標準名稱提取關鍵詞為“礦區(qū)/地質(zhì)/水文/勘探/工程”,關鍵詞提取較為合理。共提取相關標準名稱20個,排序靠前的是相關度較高的標準,排序16以后的標準名稱相關度開始下降。

表3 關鍵詞提取標準匹配度示例

從表3可以看出,源標準和序號1、2、5、8、12的標準名稱中都包含“水文地質(zhì)”“工程地質(zhì)”“勘查”“勘探”或者“調(diào)查”等關鍵詞,都含有地質(zhì)勘查的內(nèi)容,但僅從標準名稱無法判斷其標準內(nèi)容是否有重復或精度指標不一致的情況,需要從標準內(nèi)容上進一步判斷標準的一致性,這項工作的開展可以為日后自然資源標準申報、制定、審批等環(huán)節(jié)提供一致性管理依據(jù)。

3 標準名稱語義一致性分析

3.1 關鍵詞熱度

對表1所列的4個行業(yè)領域共1 173項現(xiàn)行標準名稱按行業(yè)交叉語義關鍵詞進行一致性分析[9],在所提取的關鍵詞基礎上形成1 173項現(xiàn)行標準名稱關鍵詞集合,經(jīng)查重、去重后,得到各行業(yè)領域的單語義關鍵詞集合,并計算出關鍵詞的熱度(出現(xiàn)頻率),如圖4所示。

圖4 現(xiàn)行1 173項標準關鍵詞熱度Top25

1) 土地行業(yè)領域關鍵詞。土地行業(yè)領域關鍵詞98個,主要包括:土地、整治、土地利用、復墾、方案、調(diào)查、規(guī)劃、基本農(nóng)田、城鎮(zhèn)等,關鍵詞熱度Top10 如圖5所示。

圖5 土地行業(yè)領域關鍵詞熱度Top10

2) 海洋行業(yè)領域關鍵詞。海洋行業(yè)領域關鍵詞618個,主要包括:海洋、測定、監(jiān)測、海水、調(diào)查、儀器、環(huán)境、術語、檢測、資源、海域等,關鍵詞熱度Top10 如圖6所示。

圖6 海洋相關行業(yè)領域關鍵詞熱度Top10

3) 地礦行業(yè)領域關鍵詞。地礦行業(yè)領域關鍵詞526個,主要包括:稀土、礦山、珠寶、鎢礦、測定、地質(zhì)圖、樣品、物理、礦產(chǎn)資源、光譜法等,關鍵詞熱度Top10 如圖7所示。

圖7 地礦行業(yè)領域關鍵詞熱度Top10

4) 測繪行業(yè)領域關鍵詞。測繪行業(yè)領域關鍵詞285個,主要包括:內(nèi)業(yè)、服務、規(guī)則、航空攝影、電子、地圖編繪、質(zhì)量、基準、衛(wèi)星、符號庫等,關鍵詞熱度Top10如圖8所示。

圖8 測繪相關行業(yè)領域關鍵詞熱度Top10

3.2 提取行業(yè)間有交叉的關鍵詞

提取土地、海洋、地礦、測繪相關行業(yè)領域內(nèi)存在的交叉關鍵詞,2個行業(yè)領域的交叉關鍵詞共183個;3個行業(yè)領域的交叉關鍵詞共39個;4個行業(yè)領域的交叉關鍵詞共8個,具體見圖9。

圖9 行業(yè)領域關鍵詞交叉情況

以4行業(yè)和2行業(yè)交叉領域關鍵詞分析為例。4個行業(yè)領域的交叉關鍵詞為數(shù)據(jù)、監(jiān)測、建設、術語、分類、代碼、質(zhì)量、編寫;2個行業(yè)領域的交叉關鍵詞數(shù)量較多,以矩陣形式表述,如表4所示。

表4 2行業(yè)領域關鍵詞交叉情況

從表4可以看出,按照行業(yè)領域關鍵詞交叉所占比例,地礦-土地、海洋-土地、測繪-土地行業(yè)領域關鍵詞交叉較少,地礦-海洋、測繪-海洋行業(yè)領域關鍵詞交叉較多。

3.3 按行業(yè)交叉關鍵詞提取相關標準

1)4行業(yè)領域關鍵詞交叉標準名稱。對自然資源現(xiàn)行1 173項標準按照在4個行業(yè)內(nèi)均存在交叉的8個關鍵詞進行檢索,共提取出相關標準305項。其中,“數(shù)據(jù)”關鍵詞相關標準70項,“監(jiān)測”關鍵詞相關標準51項,“建設”關鍵詞相關標準33項,“術語”關鍵詞相關標準34項,“分類”關鍵詞相關標準32項,“代碼”關鍵詞相關標準16項,“質(zhì)量”關鍵詞相關標準63項,“編寫”關鍵詞相關標準6項。有的標準名稱可能同時出現(xiàn)2個及2個以上關鍵詞交叉,在相應關鍵詞相關標準數(shù)目中均有統(tǒng)計。詳見圖10。

圖10 4行業(yè)領域關鍵詞交叉標準提取統(tǒng)計圖

2)2行業(yè)領域關鍵詞交叉標準名稱。對自然資源現(xiàn)行1 173項標準按照海洋-測繪、地礦-測繪、地礦-海洋、海洋-土地、測繪-土地、地礦-土地兩兩分析,提取出海洋-測繪關鍵詞交叉標準1 082項、地礦-測繪關鍵詞交叉標準688項、地礦-海洋關鍵詞交叉標準2 070項、海洋-土地關鍵詞交叉標準344項、測繪-土地關鍵詞交叉標準420項、地礦-土地關鍵詞交叉標準253項。詳見圖11。

圖11 2個行業(yè)領域關鍵詞交叉標準提取統(tǒng)計圖

3.4 行業(yè)領域關鍵詞交叉的標準名稱一致性分析

1) 4行業(yè)領域。分別以“監(jiān)測”“術語”“分類”3個關鍵詞提取的標準名稱為例,展開標準名稱語義一致性分析。

(1)“監(jiān)測”關鍵詞相關標準名稱語義一致性分析?!氨O(jiān)測”關鍵詞相關標準共51項,其中測繪3項,地礦11項,海洋35項,土地2項,部分標準名稱見表5。測繪領域主要是變形監(jiān)測、應急監(jiān)測相關的標準,地礦領域主要是地質(zhì)災害監(jiān)測、水文地質(zhì)環(huán)境監(jiān)測相關的標準,海洋領域主要是海洋生態(tài)環(huán)境監(jiān)測相關的標準,土地領域主要是土地利用、城市地價監(jiān)測相關的標準。

表5中,序號為6、7、9的3個標準(表中加粗部分)的名稱都包含“遙感”“監(jiān)測”關鍵詞,分別是利用遙感技術動態(tài)監(jiān)測地質(zhì)環(huán)境、礦產(chǎn)資源開發(fā)、土地利用情況,都使用了遙感技術手段,在名稱上判斷其相關度較高,需進一步從標準內(nèi)容上判斷3個標準的技術方法及精度指標是否存在一致性問題。

(2)“術語”關鍵詞相關標準名稱語義一致性分析。“術語”關鍵詞相關標準34項,其中測繪6項,地礦8項,海洋18項,土地2項,部分標準名稱見表6。測繪領域主要是測繪、地理信息相關術語,地礦領域主要是水文、地質(zhì)、礦產(chǎn)相關術語以及少量地質(zhì)遙感術語,海洋領域主要是海洋資源利用、海洋能、海洋資源物理、化學、生物特性等術語,土地領域主要是土地基本術語、土地整治相關術語。

表5 “監(jiān)測”關鍵詞相關標準(部分示例)

表6 “術語”關鍵詞相關標準(部分示例)

表6中,序號為6、9的2個標準(表中加粗部分)的名稱都包含“遙感術語”,從標準名稱上判斷其相關度較高,需進一步從標準內(nèi)容上判斷2個標準是否存在內(nèi)容重復或者矛盾等一致性問題。

(3)“分類”關鍵詞相關標準名稱語義一致性分析?!胺诸悺标P鍵詞相關標準共32項,其中測繪8項,地礦10項,海洋12項,土地2項,部分標準名稱見表7。測繪領域主要是地理信息要素分類相關的標準,地礦領域主要是地質(zhì)、礦產(chǎn)資源分類相關的標準,海洋領域主要是海洋相關產(chǎn)業(yè)、海洋信息、海洋儀器分類相關的標準,土地領域主要是土地利用現(xiàn)狀分類、土地整治信息分類相關的標準。

表7 “分類”關鍵詞相關標準(部分示例)

表7中,序號為5、6的2個標準(表中加粗部分)的名稱都包含“海洋”“產(chǎn)業(yè)分類”關鍵詞,從標準名稱上判斷存在包含關系,需進一步從標準內(nèi)容上判斷2個標準是否存在內(nèi)容重復或者矛盾等一致性問題。序號4、8、9的3個標準(表中加粗部分)分別是地理信息要素、海洋信息、土地利用現(xiàn)狀分類,雖然從標準名稱上判斷其相關度不高,但其分類內(nèi)容可能存在交叉、不一致。

2) 2行業(yè)領域。2行業(yè)領域間關鍵詞交叉標準名稱特點分析見表8。

表8 2行業(yè)領域間關鍵詞交叉標準名稱特點分析

從表8可以看到,“分類、代碼”比較均衡,各行業(yè)都有相應數(shù)量標準;“地圖、地形、導航、質(zhì)量、檢驗”在測繪行業(yè)出現(xiàn)較多;“保護、監(jiān)測、環(huán)境、調(diào)查、處理”在海洋行業(yè)出現(xiàn)較多;“規(guī)劃、利用、編制”在土地行業(yè)出現(xiàn)較多;“測定、地質(zhì)、分析”在地礦行業(yè)出現(xiàn)較多。這與各自的行業(yè)特點有關,也與各行業(yè)制定的標準數(shù)量有關,制定標準數(shù)量多的行業(yè)領域,同一關鍵詞標準數(shù)量占比也會大一些。

表9至表11是名稱易混淆的典型標準名稱示例。經(jīng)分析對比,2行業(yè)領域的關鍵詞交叉標準名稱一致性情況和4行業(yè)領域關鍵詞交叉標準名稱一致性情況基本相同,也存在部分標準名稱相近,需要進一步分析標準內(nèi)容一致性的情況。

表9 海洋、測繪關鍵詞交叉標準名稱易混淆示例

表10 測繪、地礦關鍵詞交叉標準名稱易混淆示例

表11 地礦、海洋關鍵詞交叉標準名稱易混淆示例

4 結束語

本文借助項目開發(fā)的系統(tǒng)軟件,對自然資源現(xiàn)行標準1 173項、在研標準843項標準名稱進行關鍵詞提取,對自然資源標準目錄中標準的相關度進行分析,并對標準名稱相關度較高的一些標準進行重點分析;最后對現(xiàn)行標準名稱進行行業(yè)交叉語義關鍵詞的提取和分析,重點分析具有4行業(yè)領域相同關鍵詞和2行業(yè)領域相同關鍵詞的標準名稱一致性。

研究發(fā)現(xiàn),在自然資源現(xiàn)行1 173項標準中,相同行業(yè)領域以及交叉行業(yè)領域之間皆存在標準名稱相關度較高的情況。通常情況下,依照標準編制程序,在標準立項批準、研究制定、審查報批等各個階段,同一技術指標存在差異或矛盾,不同行業(yè)標準中采用相同的技術路線和方法,且各自呈現(xiàn)的要求亦大多是難于一致的。本文的研究旨在對相關度較高的標準作進一步的梳理分析、匯總列表,制定下一步重點研究方向,分析每個方向相似標準間內(nèi)容描述是否存在重復、相互矛盾的現(xiàn)象,技術指標及技術方法是否存在不一致及偏差。特別是具有跨行業(yè)領域相同關鍵詞的標準名稱,是分析標準內(nèi)容重復現(xiàn)象的重點對象。

標準是指導生產(chǎn)實踐的基本準則,對自然資源現(xiàn)行標準的有效梳理研究可以為自然資源標準化管理工作及自然資源領域技術融合提供幫助,為重點標準研制提供思路,為自然資源標準化體系建設[10]提供數(shù)據(jù)支撐,繼而為落實自然資源“兩統(tǒng)一”職責、實現(xiàn)“一張網(wǎng)、一張圖、一個平臺”[11]提供技術幫助。

猜你喜歡
名稱交叉一致性
關注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
“六法”巧解分式方程
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
連一連
基于事件觸發(fā)的多智能體輸入飽和一致性控制
池州市| 镇平县| 阳西县| 孟州市| 手机| 长丰县| 惠水县| 黑龙江省| 赤水市| 临漳县| 满城县| 博湖县| 平凉市| 通渭县| 波密县| 蒙山县| 晋江市| 大埔区| 两当县| 兴业县| 达拉特旗| 本溪| 浦城县| 阿拉善右旗| 广灵县| 电白县| 松江区| 永靖县| 太仆寺旗| 湘潭市| 松潘县| 昆山市| 新宁县| 延安市| 霍城县| 隆林| 赞皇县| 巴马| 老河口市| 津市市| 潍坊市|