国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種IT領(lǐng)域術(shù)語(yǔ)識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2020-05-06 09:01木合亞提·尼亞孜別克古力沙吾利·塔里甫
中國(guó)科技術(shù)語(yǔ) 2020年2期
關(guān)鍵詞:系統(tǒng)設(shè)計(jì)

木合亞提·尼亞孜別克 古力沙吾利·塔里甫

摘 要:針對(duì)信息領(lǐng)域的術(shù)語(yǔ)識(shí)別平臺(tái)的設(shè)計(jì)和開(kāi)發(fā)是對(duì)該領(lǐng)域術(shù)語(yǔ)資源進(jìn)行更有效利用的重要手段之一。文章闡述了信息領(lǐng)域的哈薩克語(yǔ)術(shù)語(yǔ)識(shí)別平臺(tái)的設(shè)計(jì),該平臺(tái)采用條件隨機(jī)場(chǎng)和人工修改的方法,基于信息領(lǐng)域術(shù)語(yǔ)本身的特點(diǎn)分析了該領(lǐng)域術(shù)語(yǔ)的構(gòu)成規(guī)則及相關(guān)術(shù)語(yǔ)識(shí)別方法。

關(guān)鍵詞:信息領(lǐng)域;術(shù)語(yǔ)識(shí)別;系統(tǒng)設(shè)計(jì)

Abstract:The design and development of the terminology recognition platform in information technology field is one of the important means for more effective use of term resources. This paper describes the design of Kazakh language terminology recognition platform in the information technology field. Based on the characteristics of the information technology field terminology, the platform analyzes the rules of terminology formation and related terminology identification methods using a conditional random field (CRF) and manual modification method.

Keywords:information technology field; terminology recognition; system design

引 言

隨著中文各語(yǔ)言信息處理應(yīng)用領(lǐng)域的不斷擴(kuò)展,對(duì)于不同語(yǔ)言不同領(lǐng)域術(shù)語(yǔ)的檢索需求也越顯迫切。其中以計(jì)算機(jī)作為工具的哈薩克語(yǔ)信息技術(shù)領(lǐng)域術(shù)語(yǔ)識(shí)別平臺(tái)的構(gòu)建對(duì)哈薩克語(yǔ)自然語(yǔ)言信息處理、哈薩克語(yǔ)語(yǔ)言學(xué)研究、信息安全檢索、機(jī)器翻譯、語(yǔ)料庫(kù)建設(shè)、IT領(lǐng)域術(shù)語(yǔ)庫(kù)等民族語(yǔ)言信息化建設(shè)的作用日顯重要[1]。術(shù)語(yǔ)是代表特定學(xué)科領(lǐng)域基本概念的語(yǔ)言單元,是該領(lǐng)域核心知識(shí)的體現(xiàn),方便人們快速獲取專業(yè)知識(shí),如何自動(dòng)獲取術(shù)語(yǔ)自然也成為相關(guān)專業(yè)人員的研究熱點(diǎn)。術(shù)語(yǔ)自動(dòng)抽取是信息處理領(lǐng)域中一項(xiàng)重要的研究任務(wù),在詞典編纂、本體構(gòu)建、機(jī)器翻譯等領(lǐng)域都有重要應(yīng)用。術(shù)語(yǔ)抽取技術(shù)是大規(guī)模本體工程自動(dòng)或半自動(dòng)構(gòu)建、擴(kuò)充的關(guān)鍵技術(shù)之一。近年來(lái),人們已經(jīng)認(rèn)識(shí)到了術(shù)語(yǔ)抽取方法的重要性并進(jìn)行了大量研究,而目前廣泛采用的術(shù)語(yǔ)提取思想主要分為基于統(tǒng)計(jì)學(xué)、基于機(jī)器學(xué)習(xí)、基于語(yǔ)言學(xué)和多種思想結(jié)合的混合方法。本文闡述的系統(tǒng)設(shè)計(jì)為結(jié)合語(yǔ)言學(xué)規(guī)則,并采用條件隨機(jī)場(chǎng)(conditional random fields,CRF)和人工修改的方法。望通過(guò)信息領(lǐng)域哈薩克語(yǔ)術(shù)語(yǔ)識(shí)別系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),對(duì)民族文化的挖掘、傳承、創(chuàng)新及民族科技教育工作和社會(huì)安全、穩(wěn)定與繁榮發(fā)展盡一份力。

一 系統(tǒng)設(shè)計(jì)

本系統(tǒng)是基于各類哈薩克文網(wǎng)站及中小學(xué)信息技術(shù)教材中獲取的各種文本的電子版語(yǔ)料,通過(guò)目前多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室使用的各種語(yǔ)言語(yǔ)料工具進(jìn)行原始語(yǔ)料的詞法分析后獲得的已經(jīng)完成單詞提取、詞綴提取和詞性標(biāo)注的熟語(yǔ)料。在輸入基于規(guī)則的哈薩克語(yǔ)信息技術(shù)領(lǐng)域術(shù)語(yǔ)抽取系統(tǒng)中的熟語(yǔ)料后,通過(guò)領(lǐng)域術(shù)語(yǔ)詞典和術(shù)語(yǔ)聚類規(guī)則庫(kù)進(jìn)一步過(guò)濾得到最終的術(shù)語(yǔ)生成候選術(shù)語(yǔ)和候選術(shù)語(yǔ)標(biāo)注語(yǔ)料[2-4]。再通過(guò)修改將候選術(shù)語(yǔ)標(biāo)注語(yǔ)料生成為訓(xùn)練語(yǔ)料。系統(tǒng)具體流程如圖1所示。

二 系統(tǒng)功能模塊

從系統(tǒng)功能角度出發(fā),以隨機(jī)場(chǎng)的方法為處理哈薩克信息技術(shù)術(shù)語(yǔ)抽取問(wèn)題的提取條件,將哈薩克語(yǔ)信息技術(shù)領(lǐng)域術(shù)語(yǔ)識(shí)別看作一個(gè)序列詞性標(biāo)注問(wèn)題,將哈薩克語(yǔ)信息技術(shù)領(lǐng)域術(shù)語(yǔ)分布的特征量化作為系統(tǒng)的訓(xùn)練的特征,利用條件隨機(jī)場(chǎng)(CRF)的工具包訓(xùn)練出哈薩克語(yǔ)信息技術(shù)領(lǐng)域術(shù)語(yǔ)特征模板。整個(gè)系統(tǒng)可分為術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)和CRF模式識(shí)別兩個(gè)子系統(tǒng),術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)子系統(tǒng)還包括預(yù)處理部分、生成訓(xùn)練語(yǔ)料部分、術(shù)語(yǔ)識(shí)別部分、術(shù)語(yǔ)抽取部分、定界規(guī)則部分等,另一個(gè)CRF模式子系統(tǒng)還包括模型參數(shù)部分、特征選擇部分、特征模板選取部分等。系統(tǒng)功能模塊如圖2所示。

三 系統(tǒng)主界面

整個(gè)系統(tǒng)由術(shù)語(yǔ)抽取、生成訓(xùn)練語(yǔ)料、術(shù)語(yǔ)識(shí)別、退出系統(tǒng)等四個(gè)部分組成。術(shù)語(yǔ)抽取部分可以進(jìn)行術(shù)語(yǔ)的打開(kāi)、抽取、保存、退出等操作步驟,生成訓(xùn)練語(yǔ)料、術(shù)語(yǔ)識(shí)別部分進(jìn)入后也有各自不同的操作界面。系統(tǒng)主界面如圖3所示。

1. 術(shù)語(yǔ)抽取

因存在單詞術(shù)語(yǔ)、多詞術(shù)語(yǔ)等區(qū)別,不同的語(yǔ)言中術(shù)語(yǔ)組成形式也不同,例如名詞+名詞、形容詞+名詞、名詞+動(dòng)詞等,故術(shù)語(yǔ)抽取將根據(jù)語(yǔ)言特點(diǎn)及術(shù)語(yǔ)的組成結(jié)構(gòu)來(lái)界定抽取規(guī)則。該模塊主要為相關(guān)的資料中的術(shù)語(yǔ)抽取,進(jìn)入頁(yè)面后分左右兩個(gè)界面,左側(cè)可以進(jìn)行文件打開(kāi)、抽取、保存、退出、術(shù)語(yǔ)統(tǒng)計(jì)等操作,右側(cè)顯示已抽取的術(shù)語(yǔ)及抽取個(gè)數(shù)等信息。系統(tǒng)的術(shù)語(yǔ)抽取架構(gòu)圖詳細(xì)操作界面如圖4所示。

2.生成訓(xùn)練語(yǔ)料

IT術(shù)語(yǔ)語(yǔ)料庫(kù)中存放的語(yǔ)言材料均在語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò),是以電子計(jì)算機(jī)為載體承載語(yǔ)言知識(shí)的基礎(chǔ)資源,真實(shí)語(yǔ)料需經(jīng)過(guò)加工才能成為有用資源。以系統(tǒng)中的熟語(yǔ)料作為輸入,依語(yǔ)言學(xué)規(guī)則自給定文檔中抽取術(shù)語(yǔ),再經(jīng)過(guò)進(jìn)一步修改過(guò)程后生成訓(xùn)練語(yǔ)料。術(shù)語(yǔ)本身可以是詞也可以是詞組,哈薩克語(yǔ)IT領(lǐng)域術(shù)語(yǔ)結(jié)構(gòu)多種多樣,有些術(shù)語(yǔ)由一個(gè)詞或兩個(gè)詞連接組成,也有些術(shù)語(yǔ)由不同的附加成分或者嵌套組成,構(gòu)成形式有名詞+名詞、形容詞+名詞、名詞+動(dòng)詞等。生成訓(xùn)練語(yǔ)料部分包括打開(kāi)XML文件、打開(kāi)術(shù)語(yǔ)文件、XML文件中標(biāo)注術(shù)語(yǔ)、保存標(biāo)注文件等模塊,可根據(jù)需要進(jìn)一步進(jìn)行相關(guān)操作,如打開(kāi)術(shù)語(yǔ)庫(kù)文件進(jìn)行XML標(biāo)注等[5-8]。界面上也包括上一個(gè)、下一個(gè)或者上一段、下一段等選項(xiàng),每個(gè)選項(xiàng)都有不同的階段性的操作步驟,生成訓(xùn)練語(yǔ)料模塊詳細(xì)操作界面如圖5所示。

3.術(shù)語(yǔ)識(shí)別

該模塊包括訓(xùn)練、測(cè)試、分析三個(gè)部分,不同的操作界面自不同部分進(jìn)入。進(jìn)入訓(xùn)練語(yǔ)料部分后,可見(jiàn)添加語(yǔ)料、特征抽取、模型訓(xùn)練等選項(xiàng),每個(gè)選項(xiàng)中可繼續(xù)進(jìn)行相應(yīng)操作。測(cè)試模塊包括測(cè)試語(yǔ)料、術(shù)語(yǔ)識(shí)別、保存結(jié)果及快速測(cè)試等部分,分析模塊中可顯示正確識(shí)別的術(shù)語(yǔ)個(gè)數(shù)、錯(cuò)誤識(shí)別的術(shù)語(yǔ)個(gè)數(shù)、系統(tǒng)標(biāo)注為術(shù)語(yǔ)的個(gè)數(shù)、未判斷的術(shù)語(yǔ)個(gè)數(shù)、準(zhǔn)確率、召回率、F值等內(nèi)容。術(shù)語(yǔ)識(shí)別方法都已先預(yù)選,即首先候選出候選術(shù)語(yǔ),哈薩克語(yǔ)雖屬于黏著語(yǔ),但I(xiàn)T術(shù)語(yǔ)的詞性具有一定的規(guī)律性,通過(guò)分析、觀察,寫出IT術(shù)語(yǔ)的詞性規(guī)則表,再利用規(guī)則和已標(biāo)注好詞性的文本進(jìn)行匹配,抽取相應(yīng)的詞或者詞組作為候選術(shù)語(yǔ)。系統(tǒng)的術(shù)語(yǔ)識(shí)別訓(xùn)練語(yǔ)料操作界面如圖6所示。

四 結(jié) 語(yǔ)

術(shù)語(yǔ)識(shí)別平臺(tái)的建設(shè)是一個(gè)周期長(zhǎng)、數(shù)據(jù)需求量大的大型工程。而針對(duì)信息領(lǐng)域的術(shù)語(yǔ)僅完成了原始數(shù)據(jù)的收集工作與基本信息的整理工作,術(shù)語(yǔ)識(shí)別系統(tǒng)的構(gòu)建還處于初始階段,任重而道遠(yuǎn)。相關(guān)專業(yè)人員還需不懈努力,提升加工處理和分析語(yǔ)料工具的技術(shù)方法,不斷完善該系統(tǒng)的建設(shè),才能進(jìn)一步滿足哈薩克語(yǔ)語(yǔ)言學(xué)信息研究的多種需要。

參考文獻(xiàn)

[1] 戴慶廈,趙小兵.中國(guó)少數(shù)民族語(yǔ)言文字信息處理研究與發(fā)展[M].北京:民族出版社,2010.

[2] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫,達(dá)吾勒·阿布都哈依爾.采用CRF模型的哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)自動(dòng)抽取技術(shù)研究[J].西北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,52(1):53-56.

[3] 鄭家恒,張虎,譚紅葉,等.智能信息處理:漢語(yǔ)語(yǔ)料庫(kù)加工技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2010.

[4] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫.哈薩克語(yǔ)IT領(lǐng)域術(shù)語(yǔ)識(shí)別研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2016,30(3):68-73.

[5] 哈斯.蒙古語(yǔ)語(yǔ)料庫(kù)語(yǔ)言資源管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào):自然科學(xué)漢文版,2008,37(6):743-745.

[6] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫.哈薩克文信息處理現(xiàn)狀中的若干問(wèn)題探討[J].智能計(jì)算機(jī)與應(yīng)用,2011,1(4):45-46.

[7] 劉劍,唐慧豐,劉伍穎.一種基于統(tǒng)計(jì)技術(shù)的中文術(shù)語(yǔ)抽取方法[J].中國(guó)科技術(shù)語(yǔ),2014,16(5):10-14.

[8] 張榕.面向術(shù)語(yǔ)識(shí)別的術(shù)語(yǔ)界定研究[J].中國(guó)科技術(shù)語(yǔ),2014,16(4):5-8.

猜你喜歡
系統(tǒng)設(shè)計(jì)
基于FCR的城市地下供水管網(wǎng)應(yīng)急處置系統(tǒng)設(shè)計(jì)
基于移動(dòng)互聯(lián)技術(shù)的通用評(píng)價(jià)系統(tǒng)的設(shè)計(jì)
基于UML技術(shù)的高校貧困生管理系統(tǒng)建模分析
一種基于SATA硬盤陣列的數(shù)據(jù)存儲(chǔ)與控制系統(tǒng)設(shè)計(jì)研究
目標(biāo)特性測(cè)量雷達(dá)平臺(tái)建設(shè)構(gòu)想
信息管理服務(wù)平臺(tái)項(xiàng)目應(yīng)用系統(tǒng)設(shè)計(jì)探析
基于工程應(yīng)用能力培養(yǎng)的智能終端課程改革與實(shí)踐