国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中文專利文獻的有標記并列結(jié)構(gòu)的統(tǒng)計分析

2013-10-15 01:37周俏麗張桂平
中文信息學報 2013年5期
關(guān)鍵詞:例句語料邊界

石 翠,周俏麗,張桂平

(1.沈陽航空航天大學 知識工程研究中心,遼寧 沈陽110136;2.遼寧行政學院 信息技術(shù)系,遼寧 沈陽110161)

1 引言

專利文獻是一種非常重要的技術(shù)資料,它有較為固定的書寫格式和表達方式[1]。與普通文獻相比,專利文獻的文本格式比較固定,用語較為規(guī)范,除含有一些高頻詞和未登錄詞之外,還存在著大量的并列結(jié)構(gòu)。

并列結(jié)構(gòu)[2](coordinate structure),也稱聯(lián)合結(jié)構(gòu),它由兩個或更多的并列成分組成,并列結(jié)構(gòu)有時也稱為聯(lián)合短語。并列結(jié)構(gòu)里的直接成分通常稱為并列語(conjunct),并列語通常用連詞、頓號或空的連接形式連接。

在中文專利文獻里并列結(jié)構(gòu)有下列的語言結(jié)構(gòu)。

A.該通信接口1215BL【發(fā)送和接收】BL【電、電磁、或光】信號。

B.加壓包裝可包括合適的推進劑如BL【二氯二氟甲烷、三氯氟甲烷、二氯四氟乙烷、二氧化碳或其他合適的氣體】。

C.任務Z100接收BL【表征所述高頻帶部分的頻譜包絡的一組濾波器參數(shù)和表征所述高頻帶部分的時間包絡的一組增益因數(shù)】。

D.進給裝置可以包括BL【用于控制材料從第二部分6釋放的緩沖系統(tǒng)或任何其他適合的系統(tǒng)】。

E.計算機802通過BL【BL【有線和/或無線】通信網(wǎng)絡接口或適配器856】連接至局域網(wǎng)852。

A為連續(xù)的兩個并列結(jié)構(gòu);B為包含多個并列語且并列語由多個并列標記連接的并列結(jié)構(gòu);C和D為跨度較大的并列結(jié)構(gòu),但C中并列結(jié)構(gòu)是規(guī)則的,而D中并列結(jié)構(gòu)是不規(guī)則的;E為嵌套的并列結(jié)構(gòu)。

有標記并列結(jié)構(gòu)是指并列語由連詞或標點連接的并列結(jié)構(gòu),如A、B、C、D、E所列并列結(jié)構(gòu);無標記并列結(jié)構(gòu)是指并列語由空(例如,多輸入單輸出)連接的并列結(jié)構(gòu)。本文主要研究有標記的并列結(jié)構(gòu),而不分析無標記的并列結(jié)構(gòu)。

針對有標記并列結(jié)構(gòu),有關(guān)學者進行了多方面的考察與研究。吳云芳[3]利用現(xiàn)有的語言資源,從句法、語義兩個層面詳盡地考察了并列成分之間的約束關(guān)系,并對這些約束關(guān)系進行了形式化的描述,而后基于知識描述進行了并列結(jié)構(gòu)的自動識別,基于并列詞語進行了相似詞語的自動聚類。王東波[4-5]在對并列結(jié)構(gòu)進行自動識別前,詳細統(tǒng)計和分析了有標記聯(lián)合結(jié)構(gòu)的內(nèi)部語言學和外部語言學特征。苗艷軍[6]分析了賓州中文樹庫中并列結(jié)構(gòu)的內(nèi)部和外部的語言學特征。馬清華[7]立足于語言系統(tǒng)的自組織性這一理論基礎(chǔ),對并列結(jié)構(gòu)的句法語義進行較為系統(tǒng)的動態(tài)研究。Kazuo Hara et al[8]分析了英文中并列結(jié)構(gòu)的句法特征。本文基于中文專利語料,考察了中文專利文獻中有標記并列結(jié)構(gòu)的并列標記和詞性分布等內(nèi)部語言學特征,并分析了有標記并列結(jié)構(gòu)在中文專利文獻中出現(xiàn)的外部環(huán)境,統(tǒng)計了可能的邊界特征詞等外部特征。這些關(guān)于中文專利文獻的有標記并列結(jié)構(gòu)的考察與分析,一方面為并列結(jié)構(gòu)語料庫構(gòu)建提供了理論基礎(chǔ),另一方面為中文專利文獻中的并列結(jié)構(gòu)的自動識別提供了語言學知識。

本實驗所使用的語料是由本實驗室自己標注的,經(jīng)自動分詞、詞性標注并人工校對的語料,且用BL【】標記標注了語料中所有有標記的并列結(jié)構(gòu),語料的具體情況如下面表1和表2所示。

表1 語料庫的基本統(tǒng)計數(shù)據(jù)對比表

王東波,謝靖[4]在《基于清華漢語樹庫的有標記聯(lián)合結(jié)構(gòu)統(tǒng)計分析》一文中關(guān)于清華漢語樹庫的基本統(tǒng)計數(shù)據(jù)顯示清華漢語樹庫語料的平均句長為23.13,且其統(tǒng)計的語料中學術(shù)類的句子較復雜平均句長為28.4,而本文所統(tǒng)計的中文專利文獻的平均句長為31.10,顯然與非專利文獻相比,專利文獻的句子要復雜(表1給出了專利文獻與非專利文獻的對比數(shù)據(jù))。本文對中文專利文獻中的句子進行了劃分,20詞以下(含20)的句子為簡單句子,20詞以上的句子為復雜句子,則復雜句子占整個語料的78.84%。

表2 語料庫的句子長度分布數(shù)據(jù)

2 中文專利文獻中并列結(jié)構(gòu)基本情況統(tǒng)計

我們對標注的6133句中文專利語料進行了更細致的分類,從統(tǒng)計的結(jié)果更能看出并列結(jié)構(gòu)在中文專利文獻中是不容忽視的問題,具體分析情況如表3、表4所示。

表3 嵌套并列分布情況數(shù)據(jù)

表4 并列結(jié)構(gòu)規(guī)律數(shù)據(jù)表

在中文專利文獻中,不規(guī)則的并列結(jié)構(gòu)占據(jù)很大的比重,而且不規(guī)則的并列結(jié)構(gòu)有可能嵌套在規(guī)則的并列結(jié)構(gòu)中,對于內(nèi)層不規(guī)則并列結(jié)構(gòu)的識別效果影響外層規(guī)則的并列結(jié)構(gòu)的識別效果,所以只采用基于規(guī)則的方法識別中文專利文獻中的并列結(jié)構(gòu)是不夠的,要借助于統(tǒng)計的方法進行識別。

在中文專利文獻中,并列跨度大,即在整個句子中并列結(jié)構(gòu)占較大比例的句子較多,這在非專利文獻中也并不常見。例如,任務/n Z100/ws接收/v BL【表征/v所/u述/v高/a頻帶/n部分/n的/u頻譜/n包絡/n的/u一組/m 濾波器/n參數(shù)/n和/c表征/v所/u述/v高/a頻帶/n部分/n的/u時間/n包絡/n的/u一組/m增益/n因數(shù)/n】。/wp

我們對中文專利文獻中的并列結(jié)構(gòu)進行了跨度統(tǒng)計,按并列結(jié)構(gòu)內(nèi)部包含的詞語個數(shù),將語料中的并列結(jié)構(gòu)進行了劃分,具體情況如表5所示,L表示并列結(jié)構(gòu)中包含的詞語個數(shù)。

表5 并列結(jié)構(gòu)跨度統(tǒng)計表

由表5可以看出,中文專利文獻中的跨度大的并列結(jié)構(gòu)占較大比重,這將對并列結(jié)構(gòu)的識別效果產(chǎn)生一定的影響。

專利文獻中的并列結(jié)構(gòu)與非專利文獻中的并列結(jié)構(gòu)主要有下面幾點差異:(1)包含嵌套并列結(jié)構(gòu)多。(2)不規(guī)則并列結(jié)構(gòu)分布廣泛。(3)并列結(jié)構(gòu)跨度大,甚至占據(jù)整個句子。

3 中文專利文獻并列結(jié)構(gòu)內(nèi)部特征

對于中文專利文獻中并列結(jié)構(gòu)的內(nèi)部特征,我們主要從并列標記、內(nèi)部并列分析和詞性分布三方面考察。

3.1 并列標記

中文專利文獻中并列標記主要有下面三種形式:(1)并列連詞:連接并列結(jié)構(gòu)的連詞。例如,和、或、與、或者、及、及其、并、并且等。(2)標點符號:連接并列結(jié)構(gòu)的標點符號。主要有:頓號(、)、斜杠(/)、分號(;),有時逗號(,)也起并列連詞的作用。(3)復合標記:主要是并列連詞與標點符號的復合。例如,[,或者]、[;或者]、[;以及]、[和/或]等。

下面我們對中文專利文獻中比較有特點的并列標記以及規(guī)律加以敘述。

3.1.1 并列標記斜杠“/”

在專利語料里,由“/”連接的并列結(jié)構(gòu)都是包含兩個并列成分的并列結(jié)構(gòu),并且這兩個并列成分都是最理想、最嚴格的并列,即由詞性相同、結(jié)構(gòu)相同、語義類相同、音節(jié)相同的并列項組成。如例句1所示:

例句 1 擴 展/v 注 入 區(qū)/n 126S/ws 、/wp 126D/ws 、/wp 226S/ws 、/wp 226D/ws 與/c n-FET/ws和/c p-FET/ws的/u主/b源極/n//wp漏極/n層/n(/wp將/p在/p隨后/d形成/v)/wp是/v相同/a導電/n類型/n的/u雜質(zhì)層/n。/wp

由“/”連接的并列結(jié)構(gòu)里有一種情況,使我們不得不重新考慮到底該如何分詞。如例句2所示:

例句2 形成/v在/p柵極/n疊層/n周圍/s的/u受/v壓力/n的/u襯墊/n、/wp加高/v的/u BL【源/n//wp漏區(qū)/n】、/wp掩埋/v的/u阱區(qū)/n和/c//wp或/c掩埋/v且/c受/v應力/n的/u包含/v Si:C/ws和/c//wp 或/c SiGe/ws的/u BL【源/n//wp漏區(qū)/n】都/d可以/v與/p本/r發(fā)明/n一起/d使用/v。/wp

這里,顯然要說的是源區(qū)和漏區(qū),也就是說,應該是“源”和“漏”并列,那么分詞為:[源/漏 區(qū)]似乎更合理,但由于標注的專利語料里源區(qū)、漏區(qū)作為名詞性的術(shù)語大量存在,且由“/”連接的并列結(jié)構(gòu)較規(guī)則,我們可以將其作為一個整體即作為:源/漏區(qū)/n,我們將其切分為源/n//wp漏區(qū)/n,便于根據(jù)并列標記斜杠“/”的特征將其進行整合。

3.1.2 并列連詞 “與”

“與”有兩個詞性,連詞(c)和介詞(p),只有其作為連詞時,才可作為并列標記。

“與”是雙目的并列標記,即“與”只連接包含兩個并列語的并列結(jié)構(gòu),而不連接包含多個并列語的并列結(jié)構(gòu)。例如,

錯誤標注:注意/v到/vb處于/v簡化/v目的/n,/wp 未/d 具體/v 示出/v BL【UE/ws與/c控制/n功能性/n(/wp例如/c S-CSCF/ws)/wp 以及/c控制/v功能性/n與/c HSS/HLR/ws】之間/nd的/u所有/b消息/n。/wp

正確標注:注意/v到/vb處于/v簡化/v目的/n,/wp未/d具體/v示出/v BL【BL【UE/ws與/c控制/n功能性/n】(/wp例如/c S-CSCF/ws)/wp以及/c BL【控 制/v 功 能 性/n 與/c HSS/HLR/ws】】之間/nd的/u所有/b消息/n。/wp

3.1.3 復合并列標記“和/或”

在專利語料里,由“/”連接的還有“和”與“或”,如例句3所示。

例句3 在/p一些/m實現(xiàn)/v方案/n中/nd,/wp BL【監(jiān)測/v系統(tǒng)/n 130/m 和/c//wp或/c管理/v系統(tǒng)/n 160/m】可以/v是/v在/p計算機/n 165/m 上/nd運行/v的/u虛擬/a計算/v系統(tǒng)/n。/wp

此處,[和/c//wp或/c]起并列連詞的作用,所以我們把它作為復合標記使用,而不把它看作“和”與“或”的并列。

3.2 并列結(jié)構(gòu)內(nèi)部分析

3.2.1 包含多個并列語的并列結(jié)構(gòu)的并列標記分析

包含多個并列語的并列結(jié)構(gòu),并列語通常由一種或兩種并列標記連接,很少由三種及以上并列標記連接。如果包含多個并列語的并列結(jié)構(gòu)是由兩種并列標記連接的,那么只有最后一個并列標記不同于前面的并列標記。例如,

錯誤標注:優(yōu)選/v地/u在/p用于/v BL【噴墨/v裝置/n、/wp直寫/v工具/n或/c其他/r類似/v裝置/n或/c工具/n】的/u噴墨/v墨水/n中/nd或/c數(shù)字/n墨水/ng中/nd。/wp

正確標注:優(yōu)選/v地/u在/p用于/v BL【噴墨/v裝置/n、/wp直寫/v工具/n或/c其他/r類似/v BL【裝置/n或/c工具/n】】的/u噴墨/v墨水/n中/nd或/c數(shù)字/n墨水/ng中/nd。/wp

這里還需要說明的是在由兩種并列標記連接的包含多個并列語的并列結(jié)構(gòu)中,“、”(頓號)不作為最后一個并列標記。例如,

錯誤標注:它們/n或者/c是/v BL【硬件/n、/wp硬件/n和/c軟件/n的/u組合/n、/wp軟件/n】。/wp

正確標注:它們/n或者/c是/v BL【硬件/n、/wp BL【硬件/n和/c軟件/n】的/u組合/n、/wp軟件/n】。/wp

在由兩種并列標記連接的包含多個并列語的并列結(jié)構(gòu)中,前一個并列標記大多情況下為“、”(頓號),有時也用“或”、“或者”連接,很少用其他并列標記連接,也就是說其他并列標記在包含多個并列語的并列結(jié)構(gòu)中出現(xiàn)時,通常都是作為最后一個并列標記,其后面連接該并列結(jié)構(gòu)的最后一個并列語。

3.2.2 相差一個前綴的并列結(jié)構(gòu)分析

在我們考察的中文專利文獻中,有81個(占并列總數(shù)的1.3%)并列結(jié)構(gòu),并列語之間只差一個前綴詞,如例句4所示。

例句4 聲道/n縮減/v混音/v信號/n 103/m可/v被/p分類/v成/v BL【包括/v頭部/n的/u情形/n 和/c 不/d 包 括/v 頭 部/n 的/u 情 形/n】。/wp

我們對81個并列結(jié)構(gòu)的前綴詞進行了統(tǒng)計(括號中的數(shù)字表示個數(shù)):不/d(15)、非/d(4)、非/h(6)、未/d(13)、從/h(1)、毫微級/b(37)、半/m(2)、非常/d(1)、被/p(2),當“非”修飾動詞時其詞性為副詞(d),當“非”修飾名詞時其詞性為前綴(h)。在這81個并列結(jié)構(gòu)中,除了一個并列結(jié)構(gòu)(如:例句5所示)包含3個并列語外,其余并列結(jié)構(gòu)都是包含兩個并列語的并列結(jié)構(gòu)。

例句5 但是/c,/wp近年/nt來/v,/wp已經(jīng)/d開發(fā)/v出/v了/u BL【透射/v-/ws、/wp反射/v-/ws和/c半/m 透射/v-/ws】液晶/n顯示器/n,/wp其中/r傾角/n不/d總是/d 45/m°/ws,/wp因此/c,/wp優(yōu)選/v任意/d地/u調(diào)節(jié)/v拉伸/v方向/n至/p每/r種/q LCD/ws的/u設計/n。/wp

在例句5中,并列結(jié)構(gòu)的第一個和最后一個并列語相差一個前綴詞,所以我們也把該并列結(jié)構(gòu)列為相差一個前綴的并列結(jié)構(gòu)。

3.3 有標記并列結(jié)構(gòu)的詞性分布

為了能分析中文專利文獻中并列結(jié)構(gòu)的內(nèi)部特征,我們對標注的6262個并列結(jié)構(gòu)按照并列短語核心詞的詞性進行了細分類。中文專利文獻的內(nèi)部詞性分布如表6所示。

表6 有標記并列結(jié)構(gòu)內(nèi)部詞性分布表

根據(jù)中文專利文獻自身的語言特點,下面幾種詞性的并列結(jié)構(gòu)有其獨特的特點和規(guī)律。

3.3.1 英文字符 ws

在中文專利文獻中,有些詞不屬于純正意義的外文詞語,而是由英文字母和數(shù)字組成的,其沒有真正的含義,經(jīng)常表示一些設備號等,例如,轉(zhuǎn)移?。痭 102A/ws和/c 102B/ws,這里我們也將它們的詞性標注為ws。由表6中的數(shù)據(jù)可以看出,由ws組成的并列在有標記的并列結(jié)構(gòu)中占有5.92%的比重,且這些并列結(jié)構(gòu)是完全對稱的并列結(jié)構(gòu)。例如,四/m 個/q探測器/n BL【a/ws、/wp b/ws、/wp c/ws和/c d/ws】可以/v 位于/v 透明/a 屏幕/n 10/m的/u各個/r角/n上/nd。/wp

ws詞性的詞,除了與ws詞性的詞形成并列以外,只與名詞性的或數(shù)詞性的詞語形成并列。如下面的例句6、7所示。

例句6 例如/c,/wp BL【URLC8/ws和/c底物/n】,/wp例如/c含有/v D-/ws環(huán)/n的/u ntRNA/ws可/v在/p適合/v于/p nt-RNA/ws二氫尿苷/n合成/v的/u測定/v條件/n下/nd與/p給氫體/n孵育/v。/wp

例句7 將/p該/r替換/v實施/v方式/n的/u BL【一個/m或/c多/m個/q】特征/n與/p附圖/n BL【2A/ws和/c 2/m】中/nd表示/v的/u代表性/n薄膜/n組合/v。/wp

上面例句7中與ws詞性的詞“2A”并列的數(shù)詞“2”起的也是標號的作用。事實上,在中文專利文獻中,ws詞性的詞與數(shù)詞的并列,一種情況是數(shù)詞起標號的作用,一種情況是ws詞性的詞充當數(shù)詞的作用。

3.3.2 數(shù)量詞

在中文專利文獻中,數(shù)量詞并列,除了上面例句7中數(shù)量詞之間的并列和數(shù)詞與英文字符之間的并列之外還有下面幾種情況:例句8所示的數(shù)量詞之間的并列,例句9所示的基數(shù)詞之間的并列,例句10所示的數(shù)詞與數(shù)詞短語之間的并列,和例句11所示數(shù)詞與形容詞之間的并列等幾種形式。

例句8 在/p本/r實施/v方式/n中/nd,/wp磁場/n nd37/ws對準/v出口/n裝置/n 的/u BL【12/m 點鐘/q和/c 6/m 點鐘/q】位置/n之間/nd。/wp

例句9 烤爐/n在/p BL【第一/m 和/c第二/m】位置/n之間/nd的/u旋轉(zhuǎn)/v運動/v根據(jù)/p需要/v通過/p過程/n控制/v重復/v多/m次/q。/wp

例句10 語音/n模式/n參數(shù)/n具有/v BL【一個/m 或/c一個/m 以上/nd】其他/r狀態(tài)/n以/p指示/v例如/c無聲/n 或/c背景/n噪聲/n或/c無聲/n與/c濁/a語音/n之間/nd的/u轉(zhuǎn)變/v的/u模式/n。/wp

例句11 纖維材料/n片段/n的/u激光/n切割/v邊緣/n包括/v BL【兩/m 個/q或/c更/d多/a】纖維/n 熔合/v 在/p 一起/d 的/u 多/m 個/q組/n G/ws。/wp

3.3.3 “的”字并列

在中文專利文獻中,“的”字并列是指并列語的最后一個字是“的”的并列,例如,在/p使用/v中/nd,/wp移動臺/n 1401/m 的/u用戶/n對/p麥克風/n 1411/m 講話/v,/wp并且/c BL【他/r的/u或/c她/r的/u】話音/n隨同/v任何/r檢測/v到/v的/u背景/n噪聲/n被/p轉(zhuǎn)換/v為/v模擬/v電壓/n。/wp

上面表6所列的68個“的”字并列中,有31個是對稱的并列結(jié)構(gòu),27個并列結(jié)構(gòu)中并列語包含相同個數(shù)的“的”字,10處并列結(jié)構(gòu)中并列語包含不同個數(shù)的“的”字,但這10處并列結(jié)構(gòu)中有5個并列結(jié)構(gòu)的并列語的倒數(shù)第二個詞是相同的詞,如例句12所示,1個并列結(jié)構(gòu)的并列語的第一個詞相同。

例句12 動作/n模式/n 202/m 在/p所/u測量/v的/u信號/n 200/m 上/nd沿著/p時間軸/n滑動/v,/wp并且/c在/p點/m 202/m 處/n,/wp觀察/v到/v存儲/v在/p BL【動作/v模式/n 202/m 中/nd的/u 和/c所/u 測量/v的/u信號/n 峰值/n 200B/ws中/nd的/u】數(shù)據(jù)/n足夠/a一致/a,/wp以/p在/p所/u述/v設備/n中/nd將/p所/u測量/v的/u信號/n 200/d解釋/v為/p表示/v人/n的/u行走/n。/wp

除此之外,在我們所考察的專利文獻中,還有5個并列結(jié)構(gòu)是“的”字并列與名詞性、動詞性和形容詞性并列語之間的并列。

4 中文專利文獻并列結(jié)構(gòu)外部特征

吳云芳[9]對并列結(jié)構(gòu)的外部句法特征進行了詳盡的分析,下面我們將對中文專利文獻中并列結(jié)構(gòu)的外部句法特征進行分析,尋找有助于專利文獻中有標記并列結(jié)構(gòu)識別的語言學特征。

4.1 中文專利文獻并列結(jié)構(gòu)的左、右邊界詞分析

4.1.1 左邊界詞分析

并列結(jié)構(gòu)的邊界詞屬于并列結(jié)構(gòu)的外部語言學特征,這里講的邊界詞是指大多出現(xiàn)在并列結(jié)構(gòu)外部,而不出現(xiàn)在并列結(jié)構(gòu)內(nèi)部的詞語。我們把經(jīng)常出現(xiàn)在并列結(jié)構(gòu)左邊界外部的詞稱為左邊界詞。根據(jù)這一語言學特征,我們把考察范圍限定在一個句子的范圍內(nèi),且專利文獻的句子較長 ,我們進一步把考察的范圍限定在子句的范圍內(nèi),即由逗號分隔的句子。設w是句子內(nèi)的任一個詞,left設定為并列結(jié)構(gòu)的左邊及并列結(jié)構(gòu)內(nèi)部的范圍,f(w_left)表示詞w在left范圍內(nèi)出現(xiàn)的頻次,left_out設定為并列結(jié)構(gòu)左邊的范圍,f(w_left_out)表示詞w在left_out范圍內(nèi)出現(xiàn)的頻次,則詞w作為并列結(jié)構(gòu)左邊界詞的計算公式如式(1)所示。[4]

通過下面兩個例子對我們考察的并列結(jié)構(gòu)的left和left_out范圍加以解釋,如例句13中,第一個并列結(jié)構(gòu)的left范圍是:解映射/v指令/n的/u執(zhí)行/n包括/v把/p復數(shù)/n操作數(shù)/n和/p另外/b的/u復數(shù)/n操作數(shù)/n;left_out范圍是:解映射/v指令/n的/u執(zhí)行/n包括/v把/p。如果在子句范圍內(nèi)包含兩個同級的并列結(jié)構(gòu),我們把彼此的邊界作為考察的邊界,如下面例句14中,第二個并列結(jié)構(gòu)的left范圍是:網(wǎng)層/n 320/m和/c 340/m;left_out范圍是:網(wǎng)層/n。

例句13 在/p一個/m 實施例/n中/nd,/wp解映射/v指令/n的/u執(zhí)行/n包括/v把/p BL【復數(shù)/n操作數(shù)/n和/p另外/b的/u復數(shù)/n操作數(shù)/n】相乘/v ,/wp 然后/c,/wp 將/v 該/r結(jié)果/n的/u BL【實分量/n和/c//wp或/c虛分量/n】跟/p一個/m邊界值/n進行/v比較/v。/wp

例句14 薄膜/n 300/m 還/d包括/v將/p BL【第一/m 和/c第二/m】網(wǎng)層/n BL【320/m 和/c 340/m】連接/v在/p一起/d的/u縱向/n密封件段/n 352/m 。/wp

由式(1)我們可以得到,當p值越大,w作為并列結(jié)構(gòu)左邊界詞的可能性就越大,這里我們將p的閾值設為0.7,也就是說當p大于0.7時,我們將w作為并列結(jié)構(gòu)的左邊界詞。在中文專利文獻中,可以作為有標記并列結(jié)構(gòu)左邊界詞的詞如表7所示。

表7 有標記并列結(jié)構(gòu)左邊界詞表

在專利文獻中,我們將p的閾值設計為0.7,主要是因為邊界詞出現(xiàn)在內(nèi)部的幾率很大,但是通過我們的分析發(fā)現(xiàn),當邊界詞出現(xiàn)在并列結(jié)構(gòu)中時,并列結(jié)構(gòu)的并列語都包含該邊界詞且在并列語中的位置相同,即邊界詞與其自身形成并列。由于上述原因,在非專利文獻中可以作為左邊界詞的詞,如:在(0.63),例如(0.57),通過(0.69)等等,并未出現(xiàn)在左邊界詞的詞表中,如例句15所示。

例句15 就/d BL【在/p詳細/a描述/n中/nd或者/c在/p權(quán)利要求書/n中/nd】使用/v的/u術(shù)語/n“/wp包括/v”/wp而言/u

4.1.2 右邊界詞分析

與左邊界詞相同,我們把經(jīng)常出現(xiàn)在并列結(jié)構(gòu)右邊界外部的詞稱為右邊界詞。設w是句子內(nèi)的任一個詞,right設定為并列結(jié)構(gòu)的右邊及并列結(jié)構(gòu)內(nèi)部的范圍,f(w_right)表示詞w在right范圍內(nèi)出現(xiàn)的頻次,right_out設定為并列結(jié)構(gòu)右邊的范圍,f(w_right_out)表示詞w 在right_out范圍內(nèi)出現(xiàn)的頻次,則詞w作為并列結(jié)構(gòu)右邊界詞的計算公式如式(2)所示。[4]

由式(2)我們可以得到,當p值越大,w作為并列結(jié)構(gòu)右邊界詞的可能性就越大,這里我們將p的閾值設為0.7,也就是說當p大于0.7時,我們將w作為并列結(jié)構(gòu)的右邊界詞。在中文專利文獻中,可以作為有標記并列結(jié)構(gòu)右邊界詞的詞如表8所示。與左邊界詞相同,在非專利文獻中可以作為邊界詞的也(0.51)、中(0.51)等也未出現(xiàn)在右邊界詞的詞表中。

表8 有標記并列結(jié)構(gòu)右邊界詞表

4.2 專利文獻中有標記并列結(jié)構(gòu)的依存關(guān)系分布

我們在依存樹庫的基礎(chǔ)上,統(tǒng)計分析了中文專利文獻中有標記并列結(jié)構(gòu)的依存關(guān)系分布。從統(tǒng)計分析結(jié)果可以看出,專利文獻中有標記并列結(jié)構(gòu)主要出現(xiàn)在以下幾種依存關(guān)系中:動賓關(guān)系(VOB)、定中關(guān)系(ATT)、介賓關(guān)系(POB)、“的”字結(jié)構(gòu)(DE)、主謂關(guān)系(SBV),它們占據(jù)了整個并列結(jié)構(gòu)的66.47%。具體分析如下。

圖1 并列結(jié)構(gòu)做動賓關(guān)系

(1)動賓關(guān)系(VOB)

做賓語的成分,與核心詞之間的關(guān)系標注為動賓關(guān)系,一般位于核心詞的后面。并列結(jié)構(gòu)做動賓關(guān)系的句子如圖1所示(其中,由方框框起來的是并列結(jié)構(gòu);橢圓中的是它們的依存關(guān)系)。

(2)定中關(guān)系(ATT)

定語和中心語之間的關(guān)系標注為定中關(guān)系。并列結(jié)構(gòu)做定中關(guān)系的句子如圖2所示。

(3)介賓關(guān)系(POB)

依存到介詞的詞語,則該詞與依存詞之間的關(guān)系標注為介賓關(guān)系。并列結(jié)構(gòu)做介賓關(guān)系的句子如圖3所示。

圖2 并列結(jié)構(gòu)做定中關(guān)系

圖3 并列結(jié)構(gòu)做介賓關(guān)系

(4)“的”字結(jié)構(gòu)(DE)

依存到“的”的詞,該詞與“的”之間的關(guān)系為“的”字結(jié)構(gòu)?!暗摹弊纸Y(jié)構(gòu)應該屬于定語的一部分。并列結(jié)構(gòu)做“的”字結(jié)構(gòu)的句子如圖4所示。

圖4 并列結(jié)構(gòu)做“的”字結(jié)構(gòu)

(5)主謂關(guān)系(SBV)

做主語的成分,與核心詞之間的關(guān)系標注為主謂關(guān)系,一般位于核心詞的前面。并列結(jié)構(gòu)做主謂關(guān)系的句子如圖5所示。

圖5 并列結(jié)構(gòu)做主謂關(guān)系

4.3 專利文獻中并列結(jié)構(gòu)的其他外部規(guī)律

專利語料里,并列結(jié)構(gòu)的左邊界為介詞“在”,右邊界為方位名詞的情況也較普遍,例如,“在/p......之 間/nd”、“在/p......中/nd”及 “在/p......之外/nd”等。如例句16所示。

例句16 在/p BL【所/u附/v權(quán)利要求書/n及/c 其/r 等 效 物/n】 之 外/nd 受 到/v 限 制/n。/wp

在專利語料里,并列結(jié)構(gòu)的左邊界為介詞,右邊界為動詞的情況也普遍存在,例如“由/p……覆蓋/v”、“從/p……去除/v”、“與/p……相關(guān)/v”等。如下面例句17所示:

例句17 BL【通過/p研磨/v或/c通過/p化學/n機械/n拋光/v】從/p BL【跡線/n和/c//ws或/c通路/n位置/n】去除/v多余/r導電/v材料/n的/u需要/n。/wp

4 結(jié)束語

本文通過對中文專利文獻的考察,統(tǒng)計分析了有標記并列結(jié)構(gòu)在專利文獻中的內(nèi)、外部語言學特征,省略了專利文獻與非專利文獻共有的一些語言學特征,這將為中文專利文獻中有標記并列結(jié)構(gòu)的自動識別提供語言學規(guī)則。但是,由于語料有限,僅依據(jù)這些規(guī)則進行有標記并列結(jié)構(gòu)的識別顯然是不夠的。我們將擴大語料的考察范圍,對中文專利文獻中的有標記并列結(jié)構(gòu)進行更全面的考察與分析。

[1]任楚威.英文專利文獻的漢譯[J].湖南師范大學自然科學學報,2008,(9):122-125.

[2]馮文賀,姬東鴻.并列結(jié)構(gòu)的依存分析與連詞的控制語地位[J].語言科學,2011,10(2):168-181.

[3]吳云芳.面向語言信息處理的現(xiàn)代漢語并列結(jié)構(gòu)研究[D].北京:北京大學,2009.

[4]王東波.基于清華漢語樹庫的有標記聯(lián)合結(jié)構(gòu)統(tǒng)計分析[J].現(xiàn)代圖書情報技術(shù),2010,(4):12-17.

[5]王東波.有標記聯(lián)合結(jié)構(gòu)的自動識別[D].南京:南京師范大學,2008.

[6]苗艷軍.漢語并列結(jié)構(gòu)的自動識別[D].蘇州:蘇州大學,2009.

[7]馬清華.并列結(jié)構(gòu)的自組織研究[D].上海:華東師范大學,2004

[8]Kazuo Hara,Masashi Shimbo,Hideharu Okuma,Yuji Matsumoto.Coordinate Structure Analysis with Global Structural Constraints and Alignment-Based Local Features[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.Suntec,Singapore,2009:967-975.

[9]吳云芳,并列結(jié)構(gòu)的外部句法特征[C]//機器翻譯研究進展—2002年全國機器翻譯研討會論文集,2002:110-116.

猜你喜歡
例句語料邊界
守住你的邊界
基于歸一化點向互信息的低資源平行語料過濾方法*
拓展閱讀的邊界
探索太陽系的邊界
意大利邊界穿越之家
對外漢語教學領(lǐng)域可比語料庫的構(gòu)建及應用研究
——以“把”字句的句法語義標注及應用研究為例
好詞好句
好詞好句
好詞好句
好詞好句
丰城市| 繁峙县| 临桂县| 墨玉县| 新野县| 大化| 抚州市| 阳西县| 五大连池市| 深泽县| 新密市| 南涧| 黑龙江省| 商南县| 龙南县| 天峨县| 昌宁县| 黄陵县| 阿拉善盟| 武陟县| 赣州市| 于都县| 嘉荫县| 广丰县| 兴和县| 饶平县| 广昌县| 育儿| 桃园市| 信阳市| 阳高县| 宿松县| 丰原市| 兰溪市| 自治县| 江山市| 高陵县| 彩票| 苏尼特右旗| 霍山县| 阳曲县|