那日松+劉青
摘 要:主要討論了由三個詞組成的術語的抽取問題。首先從實驗語料中抽取了三個詞組成的詞串,利用語法規(guī)則剔除了不符合要求的三詞串,最后對剩下的三詞串進行了人工判別,判斷其是否為術語。研究發(fā)現(xiàn):1)由三個詞組成的術語數(shù)量相對較少;2)所獲得術語中被賦予新含義的術語占多數(shù);3)同一領域術語間的流通性不同;4)三個以上的詞組成的術語仍然存在,只是數(shù)量直線下降。
關鍵詞:三詞型術語,術語抽取,法律術語
中圖分類號:H083;H087;D90 文獻標識碼:A DOI:10.3969/j.issn.1673-8578.2017.03.002
Research on Triword Term Extraction//Narisong,LIU Qing
Abstract: This paper mainly discussed the topic of triword term extraction. We extracted all the linguistic strings formed by three words from the corpus, and filtered those illegal phrases based on the rule of grammar, and judge whether the rest of triword linguistic strings could be identified as terms. Our conclusions are: 1) there are a relatively small number of triword terms in the corpus; 2) many triword terms have been given new meanings; 3) terms in the same field have different negotiability; 4) there are terms formed by more than three words in the corpus, but the number of this kind term is falling sharply.
Keywords: triword term,term extraction,legal term
引 言
術語是專業(yè)領域中概念的語言指稱[1]。從不同的角度出發(fā)可以對術語進行多種分類。從術語語言結構的角度,可以把中文術語系統(tǒng)中的術語分為單詞型術語和多詞型術語[2]。單詞型術語是指由單詞構成的術語,多詞型術語是指采用原有的單詞構成詞組來表示新概念的術語。也就是說術語的長度不一,正如馮志偉在《現(xiàn)代術語學引論》中提出的,以組成術語的單詞數(shù)作為長度單位,術語的最小長度為1,大量術語分布在2~6詞之間[2]。
從目前的術語抽取研究來看,主要是基于語料庫利用規(guī)則和統(tǒng)計相結合的方法[3-6]來抽取術語,不過很多研究主要是側重于抽取單詞型的術語。多詞型術語數(shù)量較少、抽取難度大,使得其受到的關注度較低,而一些研究不再將術語分為單詞型術語和多詞型術語。
本文主要是討論法律術語[7-8]的抽取問題,在之前的研究中筆者主要探討了單詞型和雙詞型法律術語的抽取[9],這里重點討論三詞型法律術語抽取的問題。首先對實驗語料進行分詞和詞性標注,然后利用三元語法,將所有三詞串提取出來,之后利用排除法,剔除不符合語法規(guī)則的三詞串,最后人工識別出了所有可能的三詞型法律術語。
一 語料與研究方法
研究材料選用了香港雙語法例資料系統(tǒng)(BLIS, Bilingual Laws Information System)[10]中的1萬個句子,包含37萬多個詞的語料。語料利用ICTCLAS分詞系統(tǒng)進行了分詞和詞性標注,標注時遵循了北大詞性標準。
研究采用了統(tǒng)計和語法規(guī)則相結合的方法。三個詞組成的詞串的抽取主要使用了n元語法,即將語料中同時出現(xiàn)在一個上下文中的三個詞組成的詞串都挑選出來,并對其出現(xiàn)次數(shù)進行統(tǒng)計。之后對所有三詞串進行是否合法的判別,判斷三詞串是否符合語法規(guī)則,是否為符合人類語言規(guī)律的詞串。
n元語法(ngram)[11]是指文本中連續(xù)出現(xiàn)的n個語詞。n元語法模型是基于(n-1)階馬爾可夫鏈的一種概率語言模型,通過n個語詞出現(xiàn)的概率來推斷語句的結構。本文使用三元語法,提取了語料中所有三詞串,并計算了它們的出現(xiàn)次數(shù)。
按照國家標準GB/T 10112—1999 術語工作·原則和方法,術語選擇和術語構成的要求是:1)單名單義性;2)顧名思義性;3)簡明性;4)派生性;5)穩(wěn)定性;6)合乎本族語言習慣。我們嚴格按照該原則和方法來人工識別了語料中所有的法律術語。
二 數(shù)據(jù)與討論
除去標點符號,我們共獲得了94 823個三詞串,去掉包含助詞(/u)、介詞(/p)、副詞(/d)、方位詞(/f)、非語素詞(/x)、連詞(/c)、量詞(/q)的詞串后,剩下16 778個三詞串。人工識別出406個候選三詞型術語,在百度百科和法律詞典中查詢和確認后,共獲得了76個待定的法律術語和36個法律術語。
1.待定的法律術語
76個待定的法律術語大部分以“法律、條例、程序、合約、令、規(guī)則、狀、罪、訴訟、權、法則、法令、事宜”等詞結尾,這類詞雖然由多個修飾成分組合而成,而且大部分能讓大家理解所表述的內(nèi)容,但是也存在著法律層面對于這種條例新的詮釋和解讀,所以類似這樣的詞該如何判別其是否為術語呢?如果從術語的定義出發(fā),這樣的組合詞已經(jīng)在法律領域賦予了新的定義,而不是人們普遍理解的字面含義,應該有法律層面的解釋。這類詞主要特點是使用頻率相對較高,頻繁出現(xiàn)在法律領域文獻中,只是組成部分組詞能力較強。我們將這類法律術語稱為法律常用詞。
2.法律術語
嚴格來說,我們從16 778個詞串中只抽取到了36個法律術語,占全部三詞串的0.2%,非常低,假設我們把前述76個詞也認作術語,其比例也只占到0.67%,這也是人們很少討論或者忽略討論多詞型法律術語的原因所在。表1是我們從實驗語料中提取出來的36個法律術語。表中分別列出了每個詞的詞性和出現(xiàn)頻數(shù)。由于分詞工具無法做到百分百正確,所以有些分詞和詞性標注結果有誤。這些法律術語大部分是賦予了法律含義后的詞,所承載的含義不是組成它們的三個詞的含義的相加,所以這類法律術語是真正的法律專用詞。
3.問題討論
(1)頻率不是判斷法律術語的關鍵指標。從表1可見,這些法律術語的出現(xiàn)頻數(shù)并不高,基本都在10次以下。主要原因可能在于我們選擇的語料規(guī)模不夠大,而且這些法律術語使用范圍受限,只適合在法律領域或者其中某些部分使用,即有些法律術語只是在某些章節(jié)中集中出現(xiàn),而在其他章節(jié)較少提及或者基本不會提及。但有些組合能力較強的術語,在整個法律語料中使用的頻率都比較高。所以有必要將術語分為兩個等級:領域常用詞和領域?qū)S迷~。領域常用詞主要特點是在某一個領域內(nèi)使用頻繁,組詞能力強,而領域?qū)S迷~使用頻率并不高,但是所承載的領域信息較強。這也充分說明了在流通性方面,術語間有較大的差別。
(2)多詞型術語雖然少,仍有少量以片段的形式出現(xiàn)在三詞串中,例如:“監(jiān)/g 理/v 誓/g (2)”(監(jiān)理誓章);“知/v 會/v 備/v (45)”(知會備忘);“皇/g 制/v 誥/v (4)”(英皇制誥);“餉/v 租/v 值/v (41)”“課/n 差/v 餉/v (41)”(應課差餉租值)。
(3)分詞和詞性標注錯誤也部分影響術語的判別。特別是對于兼類詞的分詞和詞性標注錯誤常有發(fā)生。例如:“雙/b 語法/n 例/v”。
(4)多詞型術語的自動識別難度較大,因為這些術語出現(xiàn)頻次較低,組詞能力較弱,都是些新生詞,且賦予了新的含義,分詞工具無法正確地應對和切分這些詞,反而有所妨礙。
三 結 語
以上針對性地討論了三個詞組成的三詞型法律術語的抽取問題,由于大部分詞和術語的長度集中在一詞或二詞范圍內(nèi),所以三詞組成的術語相對較少。我們將所有可能的三詞串都抽取出來,對其進行了進一步的研究分析,最后只獲得了極少的術語。這也說明了自動抽取多詞型術語的難度相當大,而且完全靠自動的方法獲得所有多詞型術語需要付出比較大的代價,需要大量的人力和時間才能實現(xiàn)。不過也不能因為多詞型術語數(shù)量少,抽取難度大而忽略了對它們的研究,也應積極搜集并補充相應的術語詞典。
研究中我們總結出:1)建議將術語進行分類,例如分為領域常用詞和領域?qū)S迷~,這樣更利于術語特點的掌握及自動提取。2)分詞和詞性標注出現(xiàn)錯誤,會影響語法規(guī)則(詞性,短語結構)在剔除非法律術語時所起的作用。3)從詞的層面或者詞間關系的層面,較難給出判別術語的特別有效的規(guī)則來,所以可以考慮從句子結構的層面出發(fā),通過句法分析來發(fā)現(xiàn)和抽取術語。
參考文獻
[1] 國家技術監(jiān)督局. GB/T 10112—1999 術語工作·原則和方法[S].北京:中國標準出版社,2000:1-8.
[2] 馮志偉.現(xiàn)代術語學引論[M].北京:語文出版社,1997.
[3] 周浪. 中文術語抽取若干問題研究[D]. 南京:南京理工大學, 2009.
[4] 張榕.術語定義抽取、聚類與術語識別研究[D].北京:北京語言文化大學,2003.
[5] 張勇.中文術語自動抽取相關方法研究[D].武漢:華中師范大學,2006.
[6] 凌祺,樊孝忠.領域詞匯自動獲取的研究[J].微機發(fā)展,2005(8):148-150.
[7] 劉紅嬰.法律語言學[M].北京:北京大學出版社,2007.
[8] 封鵬程.現(xiàn)代漢語法律語料庫的建立及其詞匯計量研究[D].南京:南京師范大學,2005.
[9] 那日松.法律術語抽取研究[D].北京:中國傳媒大學,2008.
[10] 揭春雨,劉曉月,冼景炬,等.從網(wǎng)絡獲取香港法律雙語語料[C]//南京師范大學.全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集.北京:清華大學出版社,2005:193-199.
[11] Manning C D, Schütze H. Foundations of Statistical Natural Language Processing[M].Cambridge: MIT Press, 1999:192-195.