国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的ISO標準術(shù)語自動識別與標準術(shù)語知識圖譜構(gòu)建研究

2024-12-31 00:00:00方思怡
標準科學 2024年8期
關(guān)鍵詞:文本挖掘國際標準

關(guān)鍵詞:ISO,國際標準,術(shù)語自動識別,標準數(shù)字化,文本挖掘

0 引言

術(shù)語(Ter m)是蘊含特定學科領(lǐng)域核心概念的專用名詞,與特定學科的領(lǐng)域知識密切相關(guān)[1,2]。術(shù)語識別(Terminology recognition,TR)是指從語料中抽取具有領(lǐng)域代表性的詞匯或短語的過程,被視為信息抽取和命名實體識別(Naming entityrecognition,NER)領(lǐng)域的重要分支[3]。近年來術(shù)語自動識別(Terminology automatic recognition,TAR)逐漸引起各界研究者的關(guān)注。標準是領(lǐng)域技術(shù)情報的重要來源,標準術(shù)語也是領(lǐng)域技術(shù)信息的核心載體,具有較強的專業(yè)性與系統(tǒng)性。在標準文本中,ISO國際標準是推進國際貿(mào)易與合作的重要準繩,其地位和影響力不言而喻。在標準數(shù)字化轉(zhuǎn)型下,ISO術(shù)語自動識別將為標準語料庫、標準知識圖譜、標準智能檢索、標準自動標引、標準智能翻譯、標準本體、相關(guān)產(chǎn)業(yè)畫像和知識體系構(gòu)建等標準知識服務(wù)奠定重要的數(shù)據(jù)基礎(chǔ)[4,5]。

1 標準術(shù)語自動識別的研究現(xiàn)狀

1.1 術(shù)語自動識別的相關(guān)研究進展

縱觀已有的研究,術(shù)語識別技術(shù)歷經(jīng)多個發(fā)展階段,迄今為止已形成了基于專家人工、基于規(guī)則與統(tǒng)計、基于傳統(tǒng)機器學習以及基于深度學習的識別方法。

受限于技術(shù)水平,早期的術(shù)語識別研究多通過專家人工模式進行,該方法能確保術(shù)語抽取的質(zhì)量,但人力和時間成本較高,可推廣性不強。隨著計算機技術(shù)的發(fā)展,術(shù)語自動識別逐漸取代了專家人工識別,成為各領(lǐng)域術(shù)語識別的主流發(fā)展方向。術(shù)語自動識別的具體技術(shù)取決于其所針對的文本語料特性。本研究系統(tǒng)梳理了術(shù)語自動識別研究的技術(shù)方法,表1概括了不同術(shù)語自動識別方法的原理、特點及案例。

1.2 標準術(shù)語自動識別的現(xiàn)狀與發(fā)展趨勢

當前國內(nèi)外標準數(shù)字化轉(zhuǎn)型正處于起步階段。2021年發(fā)布的《國家標準化發(fā)展綱要》明確指出要加快標準的數(shù)字化、網(wǎng)絡(luò)化和智能化轉(zhuǎn)型,由此對標準數(shù)字化文本的知識自動抽取與加工技術(shù)提出了全新的要求[6]。與專利、科技論文等領(lǐng)域相比,標準術(shù)語自動識別研究尚存在大量的提升空間。作為標準的基本要素之一,標準術(shù)語是標準文本技術(shù)信息的重要組成,也是標準知識自動抽取的對象之一。近來涉及標準實體識別的國內(nèi)外研究大多針對標準起草單位、標準提出單位、標準指標和標準規(guī)范性引用文件[7-9],尚未對國際和國內(nèi)外標準進行術(shù)語自動識別的深入探索。

盡管標準術(shù)語自動識別尚存在大量研究空白,在標準數(shù)字化轉(zhuǎn)型的驅(qū)動下,隨著標準知識服務(wù)對細粒度和深層次的需求日益增加,國際和國內(nèi)外標準的術(shù)語自動識別方法將成為大勢所趨。作為國際標準的重要品種,ISO標準術(shù)語自動識別技術(shù)也存在迫切的發(fā)展和應(yīng)用需求。

2 ISO標準術(shù)語自動識別的研究方法

2.1 研究思路

本研究以上海市質(zhì)量和標準化研究院“標準文獻發(fā)行系統(tǒng)”中現(xiàn)有的ISO文本為數(shù)據(jù)來源,結(jié)合ISO文本編寫的相關(guān)要求[10]和對ISO文本結(jié)構(gòu)特性的深入分析,形成相應(yīng)的研究思路。經(jīng)過分析可知,當前ISO國際標準的載體為PDF格式的數(shù)字化文本,通常以英語語種為主,可能存在多語種的情況,ISO術(shù)語條目的編寫也遵循較為明確的規(guī)則。綜上所述,本研究選取基于規(guī)則的文本挖掘技術(shù)作為ISO標準術(shù)語的自動識別方法,由此制定相應(yīng)的技術(shù)路徑。

2.2 研究流程

本研究基于研究思路,制定了如圖1所示的研究流程框架。

2.2.1 分析ISO標準術(shù)語模塊的結(jié)構(gòu)特性

研究流程的第一步為分析ISO標準術(shù)語模塊的結(jié)構(gòu)特性,以ISO的編寫指南為依據(jù),結(jié)合現(xiàn)行ISO文本術(shù)語數(shù)據(jù)的實際情況,明確ISO術(shù)語自動識別的研究范疇,并概括研究范疇內(nèi)ISO術(shù)語模塊核心元素的文本結(jié)構(gòu)特性。

經(jīng)過系統(tǒng)分析可知,I S O標準術(shù)語模塊可以囊括的元素有術(shù)語介紹(Introductory wording)、術(shù)語編號(Term number)、首選術(shù)語(Prefer redterm)、首選術(shù)語的縮略語、可接受的術(shù)語同義詞(Accepted term)、棄用術(shù)語(Deprecated term)、術(shù)語領(lǐng)域(Te r m d o m a i n)、術(shù)語定義(Te r mde f i n it ion)、術(shù)語示例(Ter m ex a mple)、術(shù)語條目注釋(Note to ent r y)以及術(shù)語來源(Ter msource)。本研究堅持以應(yīng)用到導(dǎo)向,重點關(guān)注ISO術(shù)語中與技術(shù)密切相關(guān)的信息,故將研究范疇界定為術(shù)語編號、首選術(shù)語、首選術(shù)語縮略語、可接受的術(shù)語同義詞、棄用術(shù)語、術(shù)語定義、術(shù)語示例、術(shù)語條目注釋和術(shù)語來源。結(jié)合現(xiàn)有的ISO文本數(shù)據(jù),將上述核心要素的定義、結(jié)構(gòu)特性和示例概括見表2。

2.2.2 總結(jié)ISO標準術(shù)語模塊中核心元素的抽取規(guī)則

在此基礎(chǔ)上開展研究流程的第二步,也即根據(jù)文本結(jié)構(gòu)特性,從文本表述形式、在術(shù)語條目中的所在位置等幾個方面總結(jié)ISO標準術(shù)語模塊中核心元素的抽取規(guī)則。以術(shù)語元素中的術(shù)語編號為例,其抽取規(guī)則可以概括為兩點,其一是通常位于術(shù)語模塊的第一個位置,其二是由阿拉伯數(shù)字和間隔點構(gòu)成,且間隔點位于兩個阿拉伯數(shù)字之間。

2.2.3 構(gòu)建ISO標準術(shù)語自動識別模型

研究流程的第三步為針對ISO標準術(shù)語模塊的各個核心元素,采用Python構(gòu)建基于規(guī)則的ISO標準術(shù)語自動識別模型,本研究首先將ISO標準術(shù)語模塊中各核心元素的抽取規(guī)則轉(zhuǎn)化為偽代碼,進而通過Python編寫程序,形成適用于ISO術(shù)語各核心元素的自動識別算法,再將上述算法整合成為統(tǒng)一的算法模塊,完成ISO術(shù)語自動識別模型的構(gòu)建。

2.2.4 構(gòu)建ISO標準術(shù)語結(jié)構(gòu)化數(shù)據(jù)集的路徑

研究流程的第四步為采用Python構(gòu)建ISO標準術(shù)語結(jié)構(gòu)化數(shù)據(jù)集的實現(xiàn)路徑,主要包括設(shè)定結(jié)構(gòu)化數(shù)據(jù)集的數(shù)據(jù)表達框架和結(jié)構(gòu)化數(shù)據(jù)集的轉(zhuǎn)化算法。該步驟旨在將ISO標準術(shù)語自動識別模型中獲得的ISO術(shù)語各核心要素的抽取結(jié)果自動轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)集的形式,為后續(xù)的ISO標準數(shù)據(jù)深度挖掘和加工奠定一定的技術(shù)基礎(chǔ)。

2.2.5 形成ISO標準術(shù)語自動識別和結(jié)構(gòu)化加工的技術(shù)路徑

在完成上述步驟后,采用Python將ISO標準術(shù)語自動識別模型和結(jié)構(gòu)化數(shù)據(jù)集的技術(shù)路徑相結(jié)合,完成上述兩者的代碼模塊的順利鏈接,形成ISO標準術(shù)語自動識別和結(jié)構(gòu)化加工的完整技術(shù)路徑。

2.3 模型設(shè)計

ISO標準術(shù)語自動識別模型是實現(xiàn)ISO標準術(shù)語自動抽取的關(guān)鍵所在。

本研究采用基于規(guī)則的文本挖掘方法,通過Python編寫了提取ISO標準術(shù)語條目模塊與核心元素的抽取算法以及結(jié)構(gòu)化和可視化加工的算法,形成了基于規(guī)則的ISO標準術(shù)語自動識別模型,模型框架詳如圖2所示。

由圖2可知,該模型主要由ISO標準術(shù)語條目模塊的抽取算法、ISO標準術(shù)語核心元素的抽取算法、I SO標準術(shù)語結(jié)構(gòu)化數(shù)據(jù)庫的構(gòu)建算法以及ISO標準術(shù)語知識圖譜的構(gòu)建算法組成,其中ISO標準術(shù)語條目模塊的抽取算法、ISO標準術(shù)語核心元素的抽取算法旨在實現(xiàn)ISO標準術(shù)語核心元素的自動抽取,ISO標準術(shù)語結(jié)構(gòu)化數(shù)據(jù)庫的構(gòu)建算法旨在完成自動抽取結(jié)果的結(jié)構(gòu)化加工,形成可適用于標準數(shù)字化平臺的ISO文本結(jié)構(gòu)化數(shù)據(jù)集,而ISO標準術(shù)語知識圖譜的構(gòu)建算法的目的在于對ISO標準術(shù)語的自動識別結(jié)果進行可視化展現(xiàn)并形成可供深度挖掘的數(shù)據(jù)集,為標準智能決策奠定數(shù)據(jù)基礎(chǔ)。

3 ISO標準術(shù)語自動識別的研究結(jié)果

3.1 ISO標準術(shù)語結(jié)構(gòu)化數(shù)據(jù)庫的文獻計量學分析

本研究在完成ISO標準術(shù)語自動識別及結(jié)構(gòu)化和可視化加工的技術(shù)路徑后,在特定的I SO標準文本上開展實證研究。本研究選取ISO 26262作為ISO術(shù)語自動識別技術(shù)的應(yīng)用對象。ISO 26262針對汽車安全相關(guān)的電子電氣系統(tǒng),與汽車功能安全密切相關(guān),其所涉及的汽車芯片也是近年來集成電路產(chǎn)業(yè)的熱點方向之一。

經(jīng)文本切詞后統(tǒng)計可知,ISO 26262共計10篇標準文本,含有194.42萬個字符與66.89萬個單詞。在上述文本中應(yīng)用ISO標準術(shù)語自動化識別及結(jié)構(gòu)化和可視化加工的模型,最終抽取獲得的ISO標準術(shù)語條目的字符數(shù)為6.2萬,單詞數(shù)為2.1萬;所涉及的ISO標準術(shù)語核心元素有術(shù)語編號、首要術(shù)語名稱、首要術(shù)語縮略語、術(shù)語同義詞、術(shù)語定義、術(shù)語條目注釋和術(shù)語示例,其標準術(shù)語核心元素的數(shù)量分布情況如圖3所示。

為了掌握ISO 26262標準術(shù)語數(shù)據(jù)的詞頻分布概貌,通過構(gòu)建ISO標準術(shù)語條目干擾詞庫,剔除ISO術(shù)語條目常見的無關(guān)詞,并采用Python描繪詞云圖,所得結(jié)果如圖4所示。

3.2 ISO標準術(shù)語知識圖譜

本研究基于ISO標準術(shù)語編寫的文本特性,初步設(shè)計了ISO標準術(shù)語知識圖譜的模式層,由此明確了標準術(shù)語的實體和關(guān)系類型。I SO標準術(shù)語知識圖譜的模式層框架主要以ISO標準術(shù)語核心元素為實體類型,以核心元素的名稱指向形式也即“ISO標準術(shù)語核心要素+是”的英文表述形式為關(guān)系類型。

采用Python編寫了ISO標準術(shù)語知識圖譜的可視化路徑,在Neo4j平臺中實現(xiàn)相關(guān)應(yīng)用,圖譜的示例和界面截圖分別如圖5與圖6所示。該圖譜共含有547個不同的標準實體和7種不同的標準關(guān)系類型。

4 總結(jié)與展望

4.1 總結(jié)

本研究針對ISO標準的文本特性,構(gòu)建了適用于ISO的術(shù)語自動識別模型及結(jié)構(gòu)化和可視化加工路徑,在ISO 26262標準上完成驗證與應(yīng)用,形成了ISO 26262的標準術(shù)語知識圖譜。

4.2 展望

本研究為ISO標準的標準術(shù)語自動識別提供了一定的技術(shù)參考,在后續(xù)工作中將繼續(xù)深化ISO標準實體抽取模型的研究,將其應(yīng)用在標準數(shù)字化平臺中,以期能夠?qū)崿F(xiàn)細粒度和深層次的ISO標準知識抽取與自動加工,推動標準數(shù)字化轉(zhuǎn)型下標準知識服務(wù)的發(fā)展。

猜你喜歡
文本挖掘國際標準
國際標準ISO 22992-2:2020正式發(fā)布
CTTC中紡標:國際標準誕生記
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
慧眼識璞玉,妙手煉渾金
文本觀點挖掘和情感分析的研究
我國參與編制多項光伏逆變器國際標準
我國專家制定首項緩釋肥料國際標準
浦城县| 涪陵区| 馆陶县| 太谷县| 柘荣县| 呈贡县| 无为县| 伊宁市| 普安县| 稷山县| 天全县| 福海县| 乌兰察布市| 蒲城县| 东城区| 万年县| 油尖旺区| 海盐县| 江达县| 威远县| 海口市| 石城县| 武安市| 工布江达县| 马龙县| 资源县| 夏津县| 邮箱| 阳西县| 宜阳县| 扬州市| 綦江县| 宁海县| 金山区| 邻水| 昌吉市| 石台县| 马龙县| 盐源县| 小金县| 化州市|