国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

標(biāo)準(zhǔn)內(nèi)容抽取方法研究

2014-08-30 20:21劉靜
無線互聯(lián)科技 2014年8期
關(guān)鍵詞:國標(biāo)段落正文

劉靜

摘 要:標(biāo)準(zhǔn)是為了規(guī)范行業(yè)秩序,經(jīng)協(xié)商一致制定并由公認(rèn)機構(gòu)批準(zhǔn)的一種文件。由于標(biāo)準(zhǔn)種類繁多,且以電子文檔形式存在,因此標(biāo)準(zhǔn)編制單位在編制新標(biāo)準(zhǔn)時需要手工查找大量相關(guān)內(nèi)容,費時費力。為了提高標(biāo)準(zhǔn)編制效率,本文通過研究國標(biāo)規(guī)定的標(biāo)準(zhǔn)編寫的結(jié)構(gòu)和規(guī)范,提出一種從半結(jié)構(gòu)化標(biāo)準(zhǔn)中抽取信息的方法。

關(guān)鍵詞:標(biāo)準(zhǔn);信息抽取

1 引言

在信息化建設(shè)中,標(biāo)準(zhǔn)的制定和執(zhí)行起到舉足輕重的作用。目前我國已經(jīng)發(fā)布了多項標(biāo)準(zhǔn),未來計劃和新增的標(biāo)準(zhǔn)也會越來越多。信息化標(biāo)準(zhǔn)具有較高的復(fù)雜性和相關(guān)性,標(biāo)準(zhǔn)編寫人員需要全面了解現(xiàn)存標(biāo)準(zhǔn)的相關(guān)細(xì)節(jié)才能確保新編寫的標(biāo)準(zhǔn)與現(xiàn)存標(biāo)準(zhǔn)一致。然而現(xiàn)存標(biāo)準(zhǔn)內(nèi)容繁多,且大都以文檔形式存在,標(biāo)準(zhǔn)編寫人員手工查閱新舊標(biāo)準(zhǔn)是否一致是一個費時費力的工作。為了解決這個問題,本文研究了從一系列多樣化標(biāo)準(zhǔn)中粗略抽取信息的方法,并將抽取結(jié)果存于數(shù)據(jù)庫中,從而為標(biāo)準(zhǔn)編寫人員提供相關(guān)內(nèi)容的查詢和檢索幫助,以提高標(biāo)準(zhǔn)的編制效率。

2 標(biāo)準(zhǔn)抽取的總體方法

“標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”(以下簡稱“國標(biāo)”)是中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局和中國國家標(biāo)準(zhǔn)化管理委員會發(fā)布的國家標(biāo)準(zhǔn)。國標(biāo)規(guī)定了全國各行各業(yè)的標(biāo)準(zhǔn)應(yīng)該具有的結(jié)構(gòu)以及編寫規(guī)范,是編寫新標(biāo)準(zhǔn)時應(yīng)遵守的基礎(chǔ)標(biāo)準(zhǔn)。本文研究的標(biāo)準(zhǔn)符合國標(biāo)的規(guī)定。

國標(biāo)規(guī)定了標(biāo)準(zhǔn)的結(jié)構(gòu):標(biāo)準(zhǔn)必須包含封面、前言和正文,可以包含引言、附錄、參考文獻和索引,附錄可以有多個。

國標(biāo)還規(guī)定了標(biāo)準(zhǔn)各部分的編排:標(biāo)準(zhǔn)各部分都要從新的一頁起排,若有多個附錄,每個附錄都應(yīng)另起一頁。

國標(biāo)還規(guī)定了標(biāo)準(zhǔn)各部分的格式:封面是標(biāo)準(zhǔn)的第一頁,封面上各項信息都有確定位置;正文部分首頁首行是標(biāo)準(zhǔn)名稱;每個附錄部分的首頁首行是該附錄的編號,例如:“附錄A”、“附錄B”等;其余部分的首頁首行與這個部分的名稱相同,例如目次部分首頁首行是“目次”二字,前言部分首頁首行是“前言”二字。

由于國標(biāo)規(guī)定的標(biāo)準(zhǔn)各部分各有特點,且界限清晰,因此本文抽取時先對標(biāo)準(zhǔn)切分得到各部分,再對各部分分別抽取。

3 標(biāo)準(zhǔn)分塊

標(biāo)準(zhǔn)分塊時需要知道各部分的開始和結(jié)束位置。由于國標(biāo)規(guī)定標(biāo)準(zhǔn)的各部分都要從新一頁起排,因此只要知道各部分的開始和結(jié)束頁碼就能確定各部分的范圍。

4 標(biāo)準(zhǔn)抽取

4.1 各部分抽取介紹

經(jīng)過分塊后就可以對各部分內(nèi)容分別抽取。對于封面,國標(biāo)規(guī)定了標(biāo)準(zhǔn)的封面必須包含的內(nèi)容,以及它們的相對位置,因此利用Word的定位功能和字符串匹配方法就可以得到。前言常常說明了標(biāo)準(zhǔn)的起草單位和起草人,并且常用“本標(biāo)準(zhǔn)起草單位:……”,“本標(biāo)準(zhǔn)主要起草人:……”等句型描述,因此通過模式匹配方法構(gòu)造模式就可以得到前言包含的信息。引言、參考文獻和索引是可選要素,本文將這三部分內(nèi)容直接存儲。正文和附錄是一篇標(biāo)準(zhǔn)的核心部分,也是標(biāo)準(zhǔn)抽取時重點關(guān)注的部分,本文以正文為例,說明這部分內(nèi)容如何抽取。

4.2 正文抽取

國標(biāo)規(guī)定標(biāo)準(zhǔn)的正文具有章、條、段、列項這樣的層次劃分。章是正文內(nèi)容劃分的基本單元,從數(shù)字1開始編號。條是章的細(xì)分,用點分阿拉伯?dāng)?shù)字編號,第一層次的條(例如4.1)可分為第二層次的條(例如4.1.1、4.1.2等)。段是章或條的細(xì)分,不編號。列項由一段后跟冒號的文字引出,且隸屬于該段文字,列項的各項之前有專門的列項符號(“破折號”或“圓點”)。由國標(biāo)的規(guī)定可見正文部分具有樹狀結(jié)構(gòu),如圖1所示。

正文部分具有樹狀層次結(jié)構(gòu),且各層次區(qū)別明顯,因此本文處理正文時構(gòu)造了一個樹來存儲相應(yīng)內(nèi)容。本文首先用標(biāo)準(zhǔn)名稱作為根節(jié)點,然后遍歷處理正文的每一個段落。若當(dāng)前段落的開始部分符合正則表達式“ ”,則表明該部分是章編號,應(yīng)直接作為根的子節(jié)點添加;若當(dāng)前段落的開始部分符合正則表達式“ ”,則表明這部分是條編號,就要繼續(xù)分析:例如當(dāng)前讀到的是“3.2”,表明當(dāng)前內(nèi)容直接隸屬于章節(jié)3,且是章節(jié)3的第二個子節(jié)點,因此從這個樹中找到章節(jié)3對應(yīng)的節(jié)點,然后將當(dāng)前內(nèi)容作為子節(jié)點添加;若當(dāng)前段落的開始部分是列項符號,則表明當(dāng)前內(nèi)容是列項,隸屬于上一個讀到的段落中;若當(dāng)前段落的開始部分不符合上面三種情況,則表明該段落是普通段,隸屬于后序遍歷當(dāng)前樹結(jié)構(gòu)時的最后一個節(jié)點。正文部分的各個段落遍歷完以后,與之對應(yīng)的樹就形成了。從這個樹的根節(jié)點出發(fā),可以到達葉子結(jié)點代表的段和列項,這樣,即使在正文部分沒有給段和列項明確編號的情況下,通過樹狀結(jié)構(gòu)也可以知道它們之間的隸屬關(guān)系,這樣以段為單位存儲正文部分的內(nèi)容時就融入了重要的結(jié)構(gòu)信息。

5 實現(xiàn)

本文描述的標(biāo)準(zhǔn)內(nèi)容抽取方法在Java環(huán)境下開發(fā),用到了Java開源項目Jacob,標(biāo)準(zhǔn)抽取結(jié)果存儲在SQL Server2008中。本文對30個Word形式存在的標(biāo)準(zhǔn)進行抽取,實驗結(jié)果表明凡是按照國標(biāo)要求編寫的標(biāo)準(zhǔn)都能夠被正確抽取。

6 總結(jié)

本文先通過對國標(biāo)規(guī)定的標(biāo)準(zhǔn)結(jié)構(gòu)進行分析,提出了標(biāo)準(zhǔn)抽取的總體方法,即先進行切分再分別抽取。接著,對標(biāo)準(zhǔn)切分過程進行了詳細(xì)說明,通過切分得到標(biāo)準(zhǔn)的各個部分。然后,對標(biāo)準(zhǔn)各部分的抽取方法進行了描述,并重點闡述了正文部分的抽取。最后,在Java環(huán)境下實現(xiàn)了本文提出的方法。

[參考文獻]

[1]Krishnaprasad Thirunarayan,Aaron Berkovich,and Dan Z.Sokol.An information extraction approach to reorganizing and summarizing specifications,Information and Software Technology[J].2005(47):218-232.

[2]GB/T1.1-2009標(biāo)準(zhǔn)化工作導(dǎo)則,第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫[S].

[3]李瑩.文本病歷信息抽取方法研究[D].碩士學(xué)位論文.浙江大學(xué),2009.

[4]劉力.科技文檔信息抽取與格式化技術(shù)研究[D].碩士學(xué)位論文,中南大學(xué),2010.

猜你喜歡
國標(biāo)段落正文
更正聲明
更正啟事
【短文篇】
心理小測試
凝心聚力,共同迎接“新國標(biāo)”時代
夏天,愛情的第四段落
車輛碰撞預(yù)警系統(tǒng)有望進入國標(biāo)
弄清段落關(guān)系 按圖索驥讀文
中小學(xué)塑膠跑道“新國標(biāo)”立項公示
山西老陳醋有了新國標(biāo) 10月1日實施