王倩,羅森林,韓磊,潘麗敏
(北京理工大學(xué)信息與電子學(xué)院信息系統(tǒng)安全對抗實驗中心,北京100081)
自然語言處理是計算機科學(xué)領(lǐng)域和人工智能領(lǐng)域中的一個重要方向,它研究能實現(xiàn)人與計算機之間用自然語言進行有效的通信的各種理論和方法。計算語言學(xué)發(fā)展至今,已能夠達到較為熟練的詞法和句法分析并大量的應(yīng)用到實際應(yīng)用中,在一定程度上能夠滿足人機交互的需求,而要讓計算機能夠真正的理解自然語言還必須從語義上進行分析。語義分析從20世紀(jì)70年代起就有人開始研究,然而到現(xiàn)在為止仍然是自然語言處理研究的一個難以跨越的瓶頸。本文進行的句義類型識別研究就是語義研究中句義分析的一項內(nèi)容。為了讓計算機能夠自動分析漢語句子并得出句義結(jié)構(gòu)模型[1],從而對漢語句子進行進一步的研究和應(yīng)用,本課題組對句義分析相關(guān)工作進行了分步研究(課題組將其分為謂詞識別、句義類型識別、句義結(jié)構(gòu)框架提取、語義格識別等9個步驟)。其中,句義類型的識別作為在整體上對句義結(jié)構(gòu)進行描述的方式之一,是對漢語句子進行完整句義結(jié)構(gòu)分析的重要步驟。
由于語言學(xué)家對于漢語句子分類的目的和要求不同,漢語句子存在多種分類方式,最常見的有:按句子結(jié)構(gòu)進行的分類、按句子語氣進行的分類、按句子成分進行的分類、按句子在語段中的地位和作用進行的分類、按句子意思的復(fù)雜程度進行的分類等。其中,按結(jié)構(gòu)進行分類的方法還可以細(xì)分為:按句子結(jié)構(gòu)的復(fù)雜程度將句子分為單句和復(fù)句;按句子結(jié)構(gòu)特征將句子分為“把”字句、“被”字句、連動句、兼語句、雙賓句、存現(xiàn)句等;按句子的語氣不同進行的分類,可將句子分為陳述句、疑問句、祈使句和感嘆句;按句子成分進行的分類又可以細(xì)分為:按句子成分在句中的排列順序?qū)渥舆M行的分類,按組成句子成分的詞性或短語的功能屬性對句子進行的分類,按句子成分是否按照常規(guī)順序排列將句子分為常式句和變式句,按句子成分是否完整將句子分為完全句和省略句等;按句子在語段中的地位和作用可以將句子分為始發(fā)句、后續(xù)句、終止句、中心句和獨立句等[2]。本文中句義類型的概念來源于賈彥德先生的《漢語語義學(xué)》[3],即句義結(jié)構(gòu)的類型。句義類型是根據(jù)句義的復(fù)雜程度以及分句義之間的組合方式,將句子分為簡單句義、復(fù)雜句義、復(fù)合句義和多重句義4類[3]。
在中文信息處理領(lǐng)域,對其他句子類型識別已有不少人做出研究,如句型識別和句式識別的研究就有很多,句類識別主要集中在進行HNC(概念層次網(wǎng)絡(luò))研究的相關(guān)研究機構(gòu)。對漢語句子類型識別研究目前采用較多的是規(guī)則匹配的方法和統(tǒng)計的方法,文獻[4-8]均是采用規(guī)則的方法或利用規(guī)則構(gòu)建正則表達式對句子類型進行識別。相比于規(guī)則的方法,統(tǒng)計機器學(xué)習(xí)的方法已經(jīng)逐漸被中文信息處理研究者青睞,并運用到句子類型識別中,文獻[9-10]即是采用統(tǒng)計的方法進行識別研究。漢語句子的靈活多變性使得利用規(guī)則的方法進行句子類型識別存在一定的局限性,且規(guī)則的方法本身就存在無法窮盡的缺點,統(tǒng)計學(xué)習(xí)的方法具有自學(xué)習(xí)和自適應(yīng)性,避免了規(guī)則方法的缺點,適用于漢語句子分類研究,因此,本文對于句義類型識別采用了統(tǒng)計的方法。
對于句義類型的識別僅文獻[10]做了一些研究,本文是在其基礎(chǔ)上以提高識別準(zhǔn)確率和效率為目標(biāo)進行的改進。
句義類型即句義結(jié)構(gòu)的類型[3],分為簡單句義、復(fù)雜句義、復(fù)合句義和多重句義4種類型。簡單句義表現(xiàn)為一個命題,通常包含一個謂詞或并列謂詞,只有一層句義結(jié)構(gòu);復(fù)雜句義指的是一個句義中又包含著句義,包含兩層句義結(jié)構(gòu)的情況;復(fù)合句義是指兩個或兩個以上的簡單句義按照某種語義關(guān)系緊密地聯(lián)接在一起的情況,也包含兩層句義結(jié)構(gòu);多重句義包含三層或三層以上的句義結(jié)構(gòu),如果復(fù)雜句義的成分句義包含更多層的句義結(jié)構(gòu)則為多重句義,同樣的,如果復(fù)合句義的分句義包含更多層次的句義結(jié)構(gòu)則為多重句義。
馮揚按照賈彥德先生《漢語語義學(xué)》中句義結(jié)構(gòu)的理論將漢語句子在語義上進行結(jié)構(gòu)化分析,提出并構(gòu)建了漢語句義結(jié)構(gòu)模型[1]。圖1為BFS-CTC漢語標(biāo)注語料庫[11](Beijing Forest Studio-Chinese Tag Corpus)中句義結(jié)構(gòu)模型的一個標(biāo)注實例。
如圖1所示,粗邊框所示的即是句義結(jié)構(gòu)模型中的句義類型塊,其中,頂層句義類型塊的內(nèi)容即是整個句子的句義類型。本文要做的工作即是在已知謂詞和句子的詞法、句法標(biāo)注的情況下,給出整個句子的句義類型。
圖1中有灰色底紋的框是謂詞塊,其中的內(nèi)容即是句子中的謂詞。為了表述方便,在句義結(jié)構(gòu)模型的樹形結(jié)構(gòu)中,從謂詞出發(fā)向上搜索,經(jīng)過的句義類型塊的個數(shù)用Numofsen表示,例如,圖1中謂詞“利用”和“推薦”的Numofsen均為2,謂詞“發(fā)表”的Numofsen為3;句子中所有謂詞的Numofsen的最大值用Maxnumofsen表示。在大量的句義標(biāo)注工作中,總結(jié)出這樣一條規(guī)律:當(dāng)Maxnumofsen=1時,必定是簡單句義;當(dāng)Maxnumofsen≥3時,必定是多重句義;當(dāng)Maxnumofsen=2時,必定是復(fù)雜句義或復(fù)合句義中的一種。同樣,在句法分析中可以總結(jié)出這樣一條規(guī)律:句法標(biāo)注中的頂端句子節(jié)點(Top-Sentence)(包括單句(dj)和復(fù)句(fj)兩種,在3.1節(jié)的特征提取中會有圖示說明。)如果為dj,則其相對應(yīng)的句義標(biāo)注中的頂層句義類型必定為簡單句義、復(fù)雜句義和多重句義中的一種;而句法標(biāo)注的頂端句子節(jié)點如果為fj,則其對應(yīng)的句義標(biāo)注中的頂層句義類型必定為復(fù)合句義或多重句義。其中,dj指的是最基本的句型組合情況,包括最為常見的主謂結(jié)構(gòu)、由狀語加上主謂結(jié)構(gòu)形成的狀中結(jié)構(gòu)、包含有連詞的結(jié)構(gòu)以及主謂結(jié)構(gòu)加上語氣詞所組成的結(jié)構(gòu)等;fj指的是有多個dj通過連詞或標(biāo)點符號連接而成的情況。綜合以上兩條規(guī)律,我們可以得出句義類型判定的一個判決方法,如式(1)所示。
圖1 句義結(jié)構(gòu)模型的一個標(biāo)注實例
根據(jù)第2節(jié)的分析,在已知Maxnumofsen值和句法標(biāo)注中頂端句子節(jié)點的基礎(chǔ)上,可以利用式(1)所示的判決方法直接判斷出句義類型,這樣,句義類型識別的工作重心就轉(zhuǎn)移到Maxnumofsen值的獲取上了。這里,我們采用統(tǒng)計機器學(xué)習(xí)的方法,選用計算較為簡單、速度快且利于探測式發(fā)現(xiàn)的C4.5決策樹算法[12]。由于只包含一個謂詞的句子必定是簡單句,且含有一個謂詞的簡單句又占常見簡單句的絕大部分,因此可以在求Maxnumofsen值之前先判斷句子中謂詞的個數(shù),進行一個初步識別,將謂詞個數(shù)為1的句子直接判斷為簡單句而不需要進行后面的步驟,從而進一步提高識別效率。句義類型識別的算法原理如圖2所示。
整個原理圖分為兩個大的模塊,即訓(xùn)練模塊和識別模塊。訓(xùn)練模塊的輸入是經(jīng)過完整句法和句義標(biāo)注的句子,輸出的是用于識別Numofsen的判定模型(C4.5分類器);識別模塊的輸入是經(jīng)過完整句法標(biāo)注且已知謂詞的句子,輸出的是句子的句義類型判定結(jié)果。
訓(xùn)練模塊包括預(yù)處理、特征提?。ㄓ?xùn)練)和C4.5訓(xùn)練三個步驟。其中,預(yù)處理是刪除謂詞個數(shù)為1的句子,僅用剩下的句子進行訓(xùn)練,原因是識別階段僅對謂詞個數(shù)大于1的句子進行Numofsen判定;訓(xùn)練階段的特征提取是根據(jù)句法和句義標(biāo)注的句子提取出每個謂詞相應(yīng)的特征和句義中對應(yīng)的Numofsen值;C4.5訓(xùn)練是根據(jù)特征提取得到的帶標(biāo)號的特征訓(xùn)練出用于Numofsen值判定的分類模型。
圖2 句義類型識別算法原理
識別模塊分為兩步識別。第一步識別即初步識別,是根據(jù)句中的謂詞個數(shù)進行判定,如果謂詞個數(shù)為1則直接判定為簡單句,否則進行第二步識別;第二步識別包括特征提取(識別)、Numofsen值判定、頂端句子節(jié)點提取和判決4個步驟。其中,識別階段的特征提取是根據(jù)句法標(biāo)注的句子提取出與已知的謂詞相應(yīng)的特征;Numofsen判定是利用訓(xùn)練階段得到的判定模型對提取的特征進行分類,得出Numofsen的判定值;頂端句子節(jié)點提取是從句法標(biāo)注的句子中直接讀取出頂端句子節(jié)點;最后的判決是將句子中所有謂詞對應(yīng)的Numofsen值的最大值Maxnumofsen和得到的頂端句子節(jié)點值作為輸入,利用式(1)所示的判決方法進行判定,最終給出句義類型的判定結(jié)果。
1)特征選擇
本文用于謂詞的Numofsen值判斷的特征主要來源于人工標(biāo)注的經(jīng)驗,即選取標(biāo)注者在人工標(biāo)注過程中常關(guān)注的一些特征。特征全部來源于句法標(biāo)注的句子,圖3即為BFS-CTC漢語標(biāo)注語料庫[11]中句法樹的一個標(biāo)注實例。
圖3 句法樹的一個標(biāo)注實例
如圖3所示的句法標(biāo)注中的頂端句子節(jié)點如果是復(fù)合句,則謂詞的Numofsen值必定大于1,因此,頂端句子節(jié)點可以作為一個特征;又如謂詞的詞性不同,其句法標(biāo)注的結(jié)果也會有很大差異,這樣在訓(xùn)練模型的過程中,詞性不同可能會結(jié)合不同的特征進行組合,因此,謂詞的詞性也可以作為一個特征;此外,在句法樹中還有一些路徑數(shù)目特征與謂詞的Numofsen值判斷有一定的關(guān)系。所有的特征列表如表1所示。其中,路徑數(shù)目特征中的“路徑”指的是句法樹中從謂詞所在節(jié)點向上搜索直到根節(jié)點所經(jīng)過的各個標(biāo)注節(jié)點,如圖3中虛線箭頭所示的謂詞“推薦”到頂端句子節(jié)點的路徑。
表1 特征列表
2)特征篩選
為了得到最優(yōu)的特征組合,對選取的特征進行特征篩選。特征篩選分為兩步。第一步是利用Weka平臺中InfoGain的屬性選擇類對屬性進行選擇,然后利用Ranker類對屬性進行了一個簡單的排序;第二步是針對第一步排序后的特征進行按信息增益率從低到高依次去除特征的實驗,最后根據(jù)實驗結(jié)果分析給出最優(yōu)特征組合。
其中,Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一個免費的,非商業(yè)化的,基于JAVA環(huán)境下開源的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。軟件中的InfoGain屬性選擇類(InfoGainAttributeEval)主要是計算出各個屬性的InfoGain信息。在Weka中為屬性選擇方法配備有搜索算法(seacher method),這里我們用最簡單的Ranker類對特征進行簡單的排序。
實驗數(shù)據(jù)來自于BFS-CTC漢語標(biāo)注語料庫[11]。相比于目前在漢語語義角色標(biāo)注領(lǐng)域主要使用的CPB語料庫(Chinese Proposition Bank)[13],BFS-CTC中的語料增加了對句子句義類型的標(biāo)注,并且提供了完整的語義角色標(biāo)注以及各句義成分之間的組合關(guān)系。
BFS-CTC由北京理工大學(xué)信息安全與對抗技術(shù)實驗室自行開發(fā),其原始語料來源于新聞?wù)Z料中的句子(如Sohu、Sina、人民日報等),所有的句子均經(jīng)過了詞法、句法、句義結(jié)構(gòu)的標(biāo)注。其中,詞法標(biāo)注集采用北京大學(xué)的詞性標(biāo)注規(guī)范[14-15];句法標(biāo)注集采用北京大學(xué)計算語言學(xué)研究所規(guī)范[16];句義結(jié)構(gòu)標(biāo)注集則依據(jù)賈彥德先生的漢語語義學(xué)理論制定,定義了句義類型(4種,包括簡單句義、復(fù)雜句義、復(fù)合句義、多重句義)、語義格類型(基本格7種,如施事格、受事格等,一般格12種,如時間格、空間格等)、謂詞類型(4種,包括0目、1目、2目、多目)、謂詞時態(tài)(3種,包括過去時、現(xiàn)在時、將來時)等,并規(guī)范了漢語句義成分之間的關(guān)系。目前BFS-CTC的規(guī)模為10 000句,約92 000詞,涵蓋了漢語中的主謂句、非主謂句、把字句、被字句、連動句、兼語句等各種句式。圖4是BFS-CTC的一個句子標(biāo)注實例。
圖4 BFS-CTC中的一個句子標(biāo)注實例
實驗采用BFS-CTC中10 221個句子,其中包括簡單句4 338個,復(fù)雜句2 171個,復(fù)合句1 512個,多重句2 200個。
特征篩選實驗的輸入是對10 221個句子進行預(yù)處理并對每個謂詞進行特征提取后得到的特征文件。實驗采用十折交叉驗證的方法,以Numofsen值的整體識別準(zhǔn)確率為指標(biāo)進行評價,其計算方法如式(2)所示。
第一步實驗得到的特征排序列表如表2所示。
表2 屬性按信息增益排序結(jié)果
從表2中可以看出,編號為4、10和11的三個特征信息增益為0,因此可以考慮去掉這三個特征。
實驗證明在去除這三個特征之后識別結(jié)果沒有任何改變,因此先排除這三個屬性,進行第二步實驗,即將剩下的11個特征,按照信息增益由低到高依次去除,再利用剩下特征進行識別。識別結(jié)果如圖5所示。
圖5 按信息增益由低到高依次去除特征Numofsen值識別結(jié)果
由圖5可知,在不斷去除信息增益率較低的特征后,識別結(jié)果越來越差,在去除編號為13的特征N_RBBISAP_NVD和編號為7的特征N_RBBISAP_VD時識別結(jié)果沒有變化,即與11個特征的識別結(jié)果相同,而在去除編號為14的特征N_ RBBISDJ_NVD時,識別準(zhǔn)確率降低了0.6個百分點。由此可得,去除編號為13和7的兩個特征在現(xiàn)有的數(shù)據(jù)源下并沒有影響,因此可以去除這兩個特征,最終保留剩下的9個特征。
1)分類算法
目前,各種機器學(xué)習(xí)算法都已經(jīng)比較成熟,而且在語義分析領(lǐng)域也得到了越來越多的應(yīng)用。決策樹方法是挖掘分類規(guī)則的有效方法。第一步,從一組帶有類標(biāo)記的訓(xùn)練樣本學(xué)習(xí)建立決策樹;第二步,使用決策樹模型對待測樣本進行分類。決策樹的構(gòu)造算法有很多,Quinlan于1986年提出的ID3算法,是國際上最早的、具有影響力的決策樹算法。1993年,Quinlan又提出了ID3的改進版本C4.5算法,C4.5算法繼承了ID3算法的優(yōu)點,并且增加了其他的一些功能,如對未知屬性的處理、對連續(xù)屬性的離散化和產(chǎn)生規(guī)則[12]。
本文采用C4.5決策樹算法[12]進行訓(xùn)練判定Numofsen值決策樹模型,主要有以下幾點原因。
①Numofsen值識別方法沒有先驗知識可借鑒,而決策樹的構(gòu)造不需要任何領(lǐng)域知識和參數(shù)設(shè)置,適合于探測式發(fā)現(xiàn);
② 決策樹計算較為簡單,速度較快,并且容易轉(zhuǎn)化為分類規(guī)則。
在C4.5中,需要調(diào)節(jié)的參數(shù)有兩個:ConfidenceFactor和MinObj,以下簡稱C和M。C影響剪枝的程度,其值越小剪枝越少,值越大剪枝越多,值為0時為不剪枝。M是在節(jié)點上能夠產(chǎn)生分枝的最小支撐樣本數(shù),例如M值為3時,則某一節(jié)點上的樣本數(shù)大于等于3時,才會繼續(xù)向下劃分。
2)參數(shù)選取
參數(shù)選取的實驗數(shù)據(jù)源和評價方法同3.1節(jié)。
實驗采用網(wǎng)格分析法進行參數(shù)選擇,首先將C以步長0.05從0.1增長到1,M以步長10從0增長到100,獲得對應(yīng)參數(shù)下的識別準(zhǔn)確率,如圖6所示。然后根據(jù)結(jié)果分布縮小C和M的取值范圍和步長進行進一步實驗,最后分析實驗結(jié)果給出最優(yōu)參數(shù)。
由圖6可以看出,固定M值變化C,識別準(zhǔn)確率變化不大,在C=0.55時會有一個小的上升;固定C變化M時,識別準(zhǔn)確率跳變較大,在M=10時達到最大值。由于M的初步取值步長較大,為了進一步確定M的最佳取值,固定C為0.55,將M以步長為1從1增長到19做進一步實驗,實驗結(jié)果如圖7所示。
圖6 參數(shù)選擇實驗結(jié)果1
圖7 參數(shù)選擇實驗結(jié)果2
由圖7可得,當(dāng)M為14或15時,達到最高識別準(zhǔn)確率。因為M為最小支撐事例數(shù),一般越大越好,因此最終選擇M為15,C為0.55為最優(yōu)參數(shù)。
對句義類型的識別僅有文獻[10]進行了一些研究,因此本文將在相同的數(shù)據(jù)源下與文獻[10]中的C4.5-SVM算法進行對比實驗,以驗證本文算法的有效性。
C4.5-SVM方法的主要思想是綜合C4.5算法和SVM算法對不同句義類型識別的優(yōu)勢。其使用了詞法和句法近50個特征,分別用C4.5算法和SVM算法進行識別,最后將兩份識別結(jié)果融合給出句義類型的判定結(jié)果。
實驗采用BFS-CTC中10 221個句子,包括簡單句4 338個,復(fù)雜句2 171個,復(fù)合句1 512個,多重句2 200個。其中9 198個用于訓(xùn)練,1 023條用于測試。由于C4.5-SVM算法[10]沒有對復(fù)合句進行識別,因此在與C4.5-SVM算法進行對比實驗時,去掉其中的復(fù)合句。對比實驗的實驗數(shù)據(jù)分布如表3所示。
表3 對比實驗數(shù)據(jù)分布說明
實驗以單個類別的準(zhǔn)確率、召回率、F值及整體準(zhǔn)確率為指標(biāo)對結(jié)果做出評價。假設(shè)類別A(簡單句義、復(fù)雜句義、復(fù)合句義和多重句義其中之一),其準(zhǔn)確率、召回率、F值計算方法如式(3)~式(5)所示。
最后綜合所有類別的分類結(jié)果,得出算法的整體識別準(zhǔn)確率,計算方法如式(6)所示。
與C4.5-SVM算法的對比實驗結(jié)果如表4所示。
表4 對比實驗結(jié)果
其中,F(xiàn)值(F-Score)為準(zhǔn)確率(Precision)和召回率(Recall)的綜合體現(xiàn),因此,將F值的對比結(jié)果另用柱形圖更直觀的表示,如圖8所示。
圖8 F值結(jié)果對比
由表4和圖8可知,本文的算法不僅能夠識別出C4.5-SVM算法不能識別的復(fù)合句,而且其他三種句義類型的識別結(jié)果也得到了大幅度的提升;總體識別準(zhǔn)確率提升了11個百分點,達到了97%以上;單個句義類型的識別結(jié)果也得到了不同程度的提升,其中復(fù)雜句的準(zhǔn)確率和多重句的召回率提高了40多個百分點,除了復(fù)合句義的識別準(zhǔn)確率為93.7%以外,簡單句義、復(fù)雜句義和多重句義的識別準(zhǔn)確率均達到了97%以上。以上結(jié)論充分證明了本文所用算法的有效性。
句義類型是現(xiàn)代漢語語義學(xué)中從語義角度對句子句義結(jié)構(gòu)的劃分,包括簡單句義、復(fù)雜句義、復(fù)合句義和多重句義4類。對句義類型進行識別是構(gòu)建完整的句義結(jié)構(gòu),進行深層次句義分析的必要步驟,為句義結(jié)構(gòu)的深入研究,包括句義成分識別、句義結(jié)構(gòu)框架提取等提供了基礎(chǔ)條件。本文基于經(jīng)過詞法、句法和句義結(jié)構(gòu)標(biāo)注的漢語標(biāo)注語料庫,通過總結(jié)人工標(biāo)注經(jīng)驗,設(shè)計并實現(xiàn)了基于謂詞和句義類型塊的句義類型識別方法。該方法先利用“只含有一個謂詞的句子一定是簡單句”這一規(guī)律對待測句子進行第一步識別,對于沒有給出句義類型的句子才會對其進行第二步識別;第二步識別是先利用C4.5機器學(xué)習(xí)算法得到一個中間結(jié)果(謂詞經(jīng)過的句義類型塊的個數(shù)Numofsen),再結(jié)合句法標(biāo)注中頂端句子節(jié)點進行判決,最終給出剩余句子的句義類型判定結(jié)果。本文利用Weka數(shù)據(jù)挖掘軟件進行了特征篩選實驗和參數(shù)選取實驗,最終確定了9個特征和最優(yōu)的參數(shù)組合。在BFS-CTC漢語標(biāo)注語料庫中10 221條數(shù)據(jù)的基礎(chǔ)上做了與C4.5-SVM算法的對比實驗,取得了97.6%的整體識別準(zhǔn)確率,提升了11個百分點,驗證了本文算法的有效性。綜上所述,本文提出的句義類型識別方法,能夠有效地識別4種句義類型,從而為基于語義學(xué)的句義分析研究奠定了基礎(chǔ)。
[1] 馮揚.漢語句義模型構(gòu)建及若干關(guān)鍵技術(shù)研究[D].北京理工大學(xué)碩士學(xué)位論文,2010.
[2] 北京市語臺學(xué)會.教學(xué)語法系列講座[C].北京:中國和平出版社,1987.
[3] 賈彥德.漢語語義學(xué)[M].北京:北京大學(xué)出版社,1995.
[4] 林世平,許細(xì)清.面向中文文本的觀點檢索技術(shù)研究[J].福州大學(xué)學(xué)報(自然科學(xué)版),2010,38(05):681-687.
[5] 張濤.基于HNC理論的句子語義分析[D].北京理工大學(xué)碩士學(xué)位論文,2010.
[6] 吳鋒文.面向中文信息處理的三句式有標(biāo)復(fù)句層次關(guān)系自動識別研究[D].華中師范大學(xué)博士學(xué)位論文,2010.
[7] 徐斌.基于PCFG-HDSM模型的語義句式識別[D].南京航空航天大學(xué)碩士學(xué)位論文,2008.
[8] 羅振聲,鄭碧霞.漢語句型自動分析和分布統(tǒng)計算法與策略研究[J].中文信息學(xué)報,1994,8(2):1-19.
[9] 李祖樞,劉朝濤.基于句型系統(tǒng)的中文問題理解研究[J].鄭州大學(xué)學(xué)報(理學(xué)版),2010,42(01):53-56.
[10] 劉莉莉.漢語句義類型及謂詞時態(tài)識別算法研究[D].北京理工大學(xué)碩士學(xué)位論文,2010.
[11] 羅森林,劉盈盈,馮揚等.BFS-CTC漢語句義結(jié)構(gòu)標(biāo)注語料庫[J].北京理工大學(xué)學(xué)報,2012(3):311-315.
[12] Quinlan J R.Induction of Decision Trees[J].Machine Learning,1986,1(1):81-106.
[13] Xue N,Palmer M.Annotating the Propositions in the Penn Chinese Treebank[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Sapporo,Japan,2003:47-54.
[14] 俞士汶,段慧明,朱學(xué)鋒,等.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報,2002,16(5):49-64.
[15] 俞士汶,段慧明,朱學(xué)鋒,等.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J].中文信息學(xué)報,2002,16(6):58-64.
[16] 周強.漢語語料庫的短語自動劃分和標(biāo)注研究[D].北京大學(xué)博士學(xué)位論文,2002.