国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學術論文子句語義類型自動標注技術研究

2021-07-17 14:59:44黃文彬王越千步一車尚錕
情報學報 2021年6期
關鍵詞:子句章節(jié)語義

黃文彬,王越千,步一,車尚錕

(1.北京大學信息管理系,北京 100871;2.清華大學經濟管理學院,北京 100084)

1 引言

學術論文是學術成果交流的主要方式,學術論文的文本挖掘也是信息管理學科重要的研究內容。與一般文本相比,學術論文具有以下特點:①學術論文的用詞和句法比較規(guī)范,這降低了對論文的語句進行語法、句法分析的難度;②學術論文內部有比較嚴密的邏輯結構,且同一學科或同一類型的論文行文內部結構具有較高的相似性。因此,除了使用一般文本的挖掘方法之外,合理利用上述特點對論文的結構進行解析,將給學術論文的文本挖掘帶來極大的便利。

為了提升學術論文的文本挖掘效果,已有不少研究引入了各種理論模型將論文結構化。例如,Swales的CARS(create a research space model)體裁分析模型[1],將論文簡介部分分為三個語輪(Move)中的7個語步(Step),但使用的范圍一般僅限于論文的特定章節(jié)(如摘要、簡介等),泛化能力較弱,難以大規(guī)模應用到學術論文的全文本分析中;黃曾陽的HNC(hierarchical network of concepts,概念層次網絡)理論[2]從詞語、語句、句群和篇章4個層級對文章進行解析輔助計算機進行自然語言理解,但語義單元類型過于復雜,提高了標注的難度;陸偉、黃永等[3-6]系列研究則對學術論文中章節(jié)的結構功能進行識別,由于其粒度局限在章節(jié)層面,故不能實現(xiàn)更細粒度的文本挖掘。

本文期望找到滿足以下條件的學術論文結構功能模型,并以此為基礎進行論文結構自動標注的研究:①通用性強,適用于不同學科和論文中的不同章節(jié);②模型規(guī)則不能過于復雜,且有明顯的語法、詞匯等語言學特征,方便機器識別;③粒度較細,即粒度要等于或更細于句子粒度。根據上述要求,本文選擇了de Waard[7]提出的篇章子段類型的模型作為本研究使用的模型。Waard認為,論文中所有子句可以分為事實(Fact)、假設(Hypothesis)、問題(Problem)、方法(Method)、結果(Result)、意義(Ⅰmplication)和目標(Goal)7種類型。以Huang等[8]一篇論文的片段為例,其劃分出的子句包括:

Although parallel browsing is more prevalent than linear browsing online(Fact),little is known about how users perform this activity(Problem).We study the use of parallel browsing(Goal)through a log-based study of millions of Web users and present findings on their behavior(Method).We identify a power law distribution in browser metrics comprising“outclicks”and tab switches(Result),which signify the degree of parallel browsing(Hypothesis).

本文旨在將論文的片段切分成子句(即上段例子中每個括號前的短句子),并用機器學習的方法給每個句子標注相應的語義角色(即括號里的內容)。與現(xiàn)有的學術論文子句語義類型自動標注研究相比,本文的主要貢獻在于:

(1)實現(xiàn)了論文全文本子句粒度的語義類型的標注。相比之下,以往研究大多是標注論文章節(jié)所屬的功能類型,或特定章節(jié)中句子的語義類型。

(2)使用了包括論文章節(jié)結構在內的更多的語法、詞匯、位置特征判斷子句的語義類型,提高了語義類型標注的準確度,并結合人工標注一致性實驗,探討導致標注錯誤的主要原因。

(3)進行了基于子句語義類型標注結果的論文主題聚類實驗,證明了本模型的價值。

2 篇章修辭結構模型和自動標注回顧

篇章修辭結構是指文章的功能結構,其定義了文章各部分的順序和修辭功能[9]。隨著學術論文的撰寫、傳播和閱讀環(huán)境由線下向線上轉移,對學術論文的篇章修辭結構進行建模以便于計算機理解,已經成為了一個研究熱點。目前,篇章修辭結構模型正在由較粗的段落粒度向較細的句子甚至子句粒度演進。本節(jié)將對句子及以下粒度的篇章結構模型和基于這些模型的篇章結構自動標注實驗進行回顧。

2.1 篇章修辭結構模型

Teufel等[10]在1999年提出的論證分區(qū)模型(argumentative zoning,AZ模型)是一種較早的句子粒度修辭結構模型。AZ模型針對語言學領域論文的結構特點,將句子分為目標(Aim)、背景(Background)、理論基礎(Basis)、對比(Contrast)、已有研究(Other)、本文研究(Own)和篇章結構(Textual)7種類型。AZ模型認為,研究者撰寫學術論文的目的在于向同行聲明其對新發(fā)現(xiàn)知識的所有權,因此,這種論文比較注重文中的新知識和已有知識之間的關系,而非對新知識本身的解析。

Mizuta等[11]參考AZ模型提出了嵌套標記模型,突破句子粒度,進入了更細的子句粒度。在子句粒度上,最常見的修辭結構模型是在引言中提及的de Waard的篇章字段類型模型[7]。2008年,de Waard等[12]對篇章子段類型模型進行改進,在保證修辭結構完整的前提下對分類粒度進行細化。除了引言中提及的7種子句語義類型外,改進模型還添加了介紹(Ⅰntroduction)大類和討論(Discussion)大類。其中,介紹大類分為研究定位(Positioning)、中心問題(Central Problem)、假設(Hypothesis)與結果匯總(Summary of Results)4個小類;討論大類分為評價(Evaluation)、對比(Comparison)、啟示(Ⅰmplications)和下一步研究(Next Steps)4個小類。另外,改進模型還對實體(專有名詞、圖標、引文)和關系(實體間關系、實體本身和實體在文中表示的關系、同一篇文章中不同類型子句的關系、不同文章中子句的關系)進行了定義。

2.2 篇章結構自動標注

科學論文篇章結構自動標注是指給定一定粒度的文本片段,要求判斷其功能類型。具體到句子粒度,則要求對給定論文文本中的每個句子進行語義類型自動標注。語義類型自動標注通常通過機器學習方法實現(xiàn)。從使用的特征上看,常用特征有句子在文中的位置特征、語法/句法特征與詞匯特征,特別是和動詞有關的詞匯特征;從使用機器學習模型上看,常用的模型有樸素貝葉斯(naive Bayesian model,NBM)、條件隨機場(conditional random field,CRF)、支持向量機(support vector machine,SVM)等傳統(tǒng)分類模型,深度學習的應用相對較少;從實驗語料上看,大多數研究只對論文的部分章節(jié)(如摘要)進行標注,對論文全文進行標注的研究較少。

Guo等[13]對篇章結構解析及其影響進行了一項較為完善的研究,其對AZ、CoreSC和摘要section headings模型(共有目標、方法、結果和結論四種句子語義類型)3種篇章修辭結構模型進行研究,抽取了上個句子類型、句子位置特征、bi-gram、動詞信息、詞性等11個特征,訓練了樸素貝葉斯、支持向量機、條件隨機場3種模型,對15種生物醫(yī)藥領域期刊的1000篇文獻的摘要部分進行了句子語義類型的自動標注。為了檢驗篇章結構解析的實際效果,該文還請領域專家閱讀了未經標注、經人工標注和經自動標注的3種不同篇章結構解析方式的論文摘要,并記錄其在閱讀時回答論文相關問題的耗時和答案的一致性。實驗結果證明,該文使用的自動標注模型能在基本不影響回答的正確率的情況下有效縮短耗時。

Dasigi等[14]提出了一個基于長短時記憶模型(long short-term memory,LSTM)的科學論述標注系統(tǒng)(scientific discourse tagging,SDT)。SDT根據在PubMed語料中訓練得到的詞嵌入模型,使用注意力(Attention)機制獲取句子的向量表示作為LSTM的輸入,按照Waard篇章子段類型模型七種子句語義類型,將PubMed中75篇文章的4497個子句進行標注。該文對注意力機制的可視化分析顯示,雖然沒有進行專門的特征工程,但注意力機制仍能捕捉到句子中對語義類型產生關鍵影響的詞匯,如“suggest”“analyze”等動詞。

為解決經過標注的訓練數據不足對監(jiān)督學習模型效果的限制,陳果等[15]將主動學習的方法應用在論文摘要語句的功能識別中,利用結構化摘要訓練學習器,并選擇少量重要的非結構化摘要進行標注,減小數據標注的工作量的同時達到較好的訓練效果。Kiela等[16]提出了一種無監(jiān)督的聚類方法完成篇章結構的自動標注任務,其以AZ模型和摘要section headings模型為分類標準,使用球面Kmeans、期望最大化高斯混合模型(expectation maximization-Gaussian mixture model,EM-GMM)和 多級加權圖3種聚類模型,對15種生物醫(yī)藥領域期刊的1000篇文獻的摘要部分中的句子進行聚類,并且試圖通過聚類結果探索新的語義類型,使結構模型更適合特定的學科領域。

3 子句語義類型自動標注實驗

本文使用de Waard的篇章字段類型模型[7]進行子句語義類型自動標注研究。整個實驗流程如下:首先,對論文語料進行預處理,人工標注訓練集和測試集,并訓練得到一個子句語義自動標注的機器學習模型。其次,選取100篇論文進行聚類實驗,使用自動標注模型對論文中每一個子句進行語義類型標注,通過幾種結構化程度不同的模型,如純文本無結構數據、LDA(latent Dirichlet allocation)模型、子句語義模型等,對這些論文進行主題聚類,通過對比聚類結果論證子句語義自動標注模型在文本挖掘等應用上的價值。

3.1 數據獲取與預處理

由于本文采用的子句語義類型模型是針對實證研究類論文而構建的,因此,將實驗語料中的論文也限制為實證研究,而不是綜述類文章或純理論文章,即論文必須具有方法部分和實驗/系統(tǒng)構建部分。本文選擇論文的具體規(guī)則包括:①文章是用英語撰寫的;②文章長度適中(2000~20000詞);③論文結構符合ⅠMRD或ⅠMRC結構,即論文至少要有表示引言、方法、結果、討論(或結論)的章節(jié)。

本文選擇了“Web信息提取”“文本信息提取”“瀏覽日志分析”和“購買記錄分析”四個主題,使用Google Scholar分別以“web information extraction”“text information extraction”“browsing log analysis”和“user behavior analysis”為檢索詞進行檢索,并人工選取相關性排名最靠前的30篇符合論文選擇規(guī)則的論文,將其中4篇加入訓練集、1篇加入測試集、25篇加入后續(xù)聚類實驗語料。因此,本文的數據集共有120篇論文,其中16篇作為訓練集、4篇作為測試集、100篇作為后續(xù)聚類實驗。實驗數據的集具體統(tǒng)計信息如下:訓練集中共有16篇論文,3658個字句,經過人工標注;測試集共有4篇論文,909個字句,經過人工標注;聚類實驗語料共有100篇論文,27085個字句,未經人工標注。

數據預處理過程分為3個步驟:子句切分、標題化歸和人工類型標注。其中,子句切分,是指根據一定規(guī)則將論文中的句子切分為粒度更細的子句;標題化歸,是指將論文中的章節(jié)標題統(tǒng)一屬于為8種標準章節(jié)標題中的一種,以作為特征輸入子句語義類型標注模型;人工類型標注,是指人工給每個子句打上語義類型的標簽,以作為訓練/測試語料。訓練集和測試集的預料需要經過所有3個步驟的預處理,而用作聚類實驗的語料只經過了子句切分和標題劃歸2個步驟。

1)子句切分

子句是指“文本中語義完整、不中斷的區(qū)間”[17],是文本分析中常見的,并且介于句子和從句之間的分析粒度。子句切分將一個句子根據一定規(guī)則切分成一個或多個子句。和系統(tǒng)功能語言學注重語法和語義結構完整性的切分方式不同,該切分方法更側重對子句語義類型或語義功能的描述。本文采用了一種較為簡單的啟發(fā)式的子句切分方法。切分原則如下:

(1)以逗號為切分點,將一個有n個逗號的句子切分為n+1個候選字句。

(2)如果一個候選子句的第一個單詞是“to”“by”或“then”,或候選子句中包含多于7個單詞,那么將這個候選子句作為一個獨立的子句單獨輸出;否則,將這個候選子句和前一個候選子句合并。

(3)如果這個候選子句是一個句子中的第一個候選子句,或者這個候選子句的前一個候選子句的第一個單詞是“to”“by”或“then”,則將其和后一個候選子句合并。

以Etzioni等[18]論文中的一個句子為例,“To address the problem of accumulating large collections of facts,we have constructed KNOWⅠTALL,a domain-independent system that extracts information from the Web in an automated,open-ended manner.”根據上述規(guī)則就應該被拆分為“To address the problem of accumulating large collections of fact,”和“we have constructed KNOWⅠTALL,a domain-independent system that extracts information from the Web in an automated,open-ended manner.”兩個子句。

2)標題化歸

Yang等[19]提出章節(jié)標題可以分為傳統(tǒng)章節(jié)標題(“引言”“理論基礎”“文獻綜述”“方法”“結果”“討論”“結論”“教學法”和“意義”)、變異標題(“背景”“前人研究”“當前研究”“研究設置和主題”和“實驗設計”等在傳統(tǒng)章節(jié)標題基礎上變異而來,但具有相似功能的標題)和內容標題(“第二語言學習者”“L2閱讀策略”“音韻學中心度”和“最短路徑算法”等表示章節(jié)具體內容的標題)。為了將宏觀結構信息結合到機器學習模型中,本文將所有標題都轉換為“摘要”“簡介”“綜述”“方法”“實驗”“結果”“討論”和“結論”8個標準章節(jié)標題中的一個。通過閱讀大量章節(jié)標題,本文總結了8類標準章節(jié)標題對應的關鍵詞。對于本文數據集中每篇科學文獻的每個標題,按“摘要”(Abstract,對應關鍵詞如“abstract”)、“簡介”(Ⅰntroduction,對應關鍵詞如“introduction”“background”)、“綜述”(Review,對應關鍵詞如“review”“background”)、“方法”(Methodology,對應關鍵詞如“methodology”“method”“model”等)、“實施”(Ⅰmplementation,對應關鍵詞如“implementation”“experiment”“validation design”等)、“結果”(Result,對應關鍵詞如“result”“analysis”“evaluation”)、討論(Discussion)和“結論”(Conclusion,對應關鍵詞如“conclusion”“future”)的順序,依次判斷每個標準章節(jié)標題對應的關鍵詞是否在該標題中出現(xiàn)。如果該標題中出現(xiàn)了某類關鍵詞,那么將這個標題化歸為對應的標準章節(jié)標題;如果標題中不含任何關鍵詞,那么將這個標題化歸為和上個章節(jié)相同的標準章節(jié)標題。大多數一級標題都是傳統(tǒng)/變異章節(jié)標題,基本都能通過關鍵詞匹配識別出來;內容標題主要是二級及更低級別的標題,即使內容標題不含關鍵詞,也可以通過化歸為和前一個章節(jié)相同的標準章節(jié)標題實現(xiàn)正確化歸。

3)人工類型標注

為方便和他人的實驗結果進行對比,本文使用de Waard[7]對子句語義類型的定義對訓練集和測試集子句進行標注。實驗采用的7種類型標記為事實(F)、問題(P)、研究目標(G)、方法(M)、結果(R)、意義(Ⅰ)和假設(H)。7種類型的具體含義分別是:

(1)事實(Fact):在領域內已經得到認可的觀點。

(2)假設(Hypothesis):對一種現(xiàn)象的說明。

(3)問題(Problem):未解決的、矛盾的或不明確的問題。

(4)方法(Method):實驗方法。

(5)結果(Result):實驗的直接結果。

(6)意義(Ⅰmplication):根據研究目標和已知事實對結果的解釋。

(7)目標(Research Goal):研究目標。

3.2 自動標注方法與實驗

3.2.1 特征選取

本文統(tǒng)計了一系列語法、句法和詞匯特征在不同類型子句上的分布情況后,選擇以下機器學習算法特征:

(1)時態(tài)。句法實驗和心理學實驗表明,子句的時態(tài)與其語義類型之間存在相關性。例如,de Waard等[20]的相關性分析實驗中已經證明,現(xiàn)在時的子句更有可能被預測為事實;過去時的子句更可能被預測為結果。這一特征的可選取值為“過去時”和“其他時態(tài)”。

(2)引用。如果一個子句引用了其他文獻或指向一個公式/圖表,那么通常表明該子句應歸類為結果或事實[21]。當一個子句沒有引用標記時,則此特征取值為“無”;如果該子句引用其他文獻,那么此特征取值為“外部”;如果該子句指向圖或表格,那么此特征取值為“內部”。

(3)章節(jié)名稱。本文根據內容將論文的傳統(tǒng)章節(jié)標題分為8類:“摘要”“簡介”“綜述”“方法”“實驗”“結果”“討論”和“結論”。將子句所在章節(jié)的傳統(tǒng)章節(jié)標題作為此特征的取值。

(4)情態(tài)動詞?!癱an”“may”等情態(tài)動詞更可能出現(xiàn)在“意義”子句中[20]。本文將子句是否包含情態(tài)動詞作為情態(tài)動詞特征的取值。

(5)詞表。本文使用了子段邊界(segment-segment boundaries)詞典和點互信息(pointwise mutual information,PMⅠ)高頻詞對兩個詞典以提取詞匯特征。子段邊界詞典是de Waard[7]統(tǒng)計得出的論文中從一種子句類型過渡到另一種子句類型時常見的標識詞。例如,若某個子句是事實類子句,而下一個子句以“we found”為起始詞組,這就往往意味著下一個子句不再是事實類子句,而是結果類子句。若某個子句以Waard統(tǒng)計的子段邊界詞之一為起始詞(組),則將這個起始詞(組)作為一個特征。為適應本文所用的語料,使用點互信息法[22]創(chuàng)建了高頻詞對詞典,若某個詞對中的兩個詞在同一個子句中出現(xiàn),則將該詞對作為這個子句的一個特征。

(6)詞性。本文使用Python nltk工具包對子句中的每個單詞的詞性進行標注,并將標注結果中的POS(part-of-speech)標簽去重后作為詞性特征。

3.2.2 機器學習模型

在撰寫科學論文時,作者通常會遵循一些寫作范式,如一個篇章子段通常先陳述事實并提出有關問題,然后根據問題確定實驗目的、設計實驗,并根據結果做出假設,即某個子句的語義類型可能和上個子句的語義類型存在關系?;谶@一特性,本文選擇序列標注模型中的條件隨機場完成子句類型標注任務。但考慮到不同文章結構存在差異,CRF無法從相鄰句子的概率轉移中學習到適用于所有論文的模型,因此,本文還使用隨機森林(random forest,RF)、隨機梯度下降分類器(stochastic gradient descent,SGD)、支持向量機和梯度提升分類器(gradient boosting classifier,GBC)作為補充分類器。這些模型是使用Python軟件包sklearn和crfsuite構建的。利用sklearn中的RandomizedSearchCV函數對5個機器學習模型的常見參數進行隨機搜索調優(yōu)。每個機器學習模型隨機搜索100次參數,并使用訓練集的全部語料進行3折交叉驗證。參數調優(yōu)結果顯示,CRF、SVM和GBC這3個模型的效果比較好,說明某個子句語義類型和其上個子句語義類型之間的關系并不像預期的那樣重要,這是因為提取了眾多的特征,其中包含了一些子句間轉移的規(guī)則詞等,在一定程度上可以彌補序列中相鄰子句語義類型轉移情況的作用。將這3個表現(xiàn)最好的模型進行集成,即對使用3個模型分別給出的標注結果進行投票作為最終的預測結果。

最終參與集成的3個機器學習模型的部分重要參數如下:CRF使用的訓練算法為lbfgs,不設置特征出現(xiàn)最小次數限制;SVM使用的核函數為線性(linear)核函數,正則化系數C=0.167,多分類問題策略為一對多(one vs rest);GBC使用deviance loss作為損失函數,基學習器個數為300,學習率為0.13,節(jié)點特征選擇算法為friedman_mse,節(jié)點特征數上限設為對數個特征(log2),最大深度為2。

3.2.3 實驗結果

為了與前人的實驗進行比較,本文選擇了Burns等[21]提出的特征選取方法和CRF模型作為對比模型,在本文實驗的訓練和測試集論文全文上進行實驗,實驗結果和集成模型的混淆矩陣如表1和表2所示。

表1 自動標注全文實驗結果

表2 集成模型自動標注全文混淆矩陣

集成模型在標注“目標”類型時效果最佳,大量的“目標”類型都以“To”開頭,因此模型可以通過子段邊界詞典中的詞匯特征判斷出目標類型?!笆聦崱焙汀胺椒ā鳖愋偷臉俗⑿Ч蚕鄬^好,這是因為數據集中這些類型子句的數量較多,所以更容易找到區(qū)分這些類型的特征。然而,此模型在對“假設”和“意義”類型進行標注時表現(xiàn)不佳,主要是由于這幾類子句的數量非常少,模型難以找到區(qū)分它們的特征。在區(qū)分論文全文中的子句類型時,由于本文的模型結合了章節(jié)等宏觀信息,同時利用了句法和語法層面的微觀信息,因此,絕大多數類型的標注效果都優(yōu)于對比算法。

Burns等[21]是為了通過“結果”章節(jié)實現(xiàn)對生物論文中實驗的分類而進行的子句語義類型標注實驗,因此,其僅使用了論文中的“結果”章節(jié)對自動標注結果進行評測。為了將本文提出的集成模型和Burns等[21]的對比模型進行進一步比較,從測試集中提取出每篇論文的“結果”章節(jié)進行評測。“結果”章節(jié)的實驗結果和集成模型的混淆矩陣如表3和表4所示。

表3 自動標注“結果”章節(jié)實驗結果

在結果章節(jié)中,集成模型的效果雖在大多數指標上仍然優(yōu)于對照模型,但整體提升效果沒有在全文中明顯。這是因為對照模型本身就是針對“結果”章節(jié)的子句標注問題而提出的,所以在“結果”章節(jié)的準確度會提高;而集成模型在不同章節(jié)的標注準確度存在波動,因此可能在某些章節(jié)上標注準確度高于全文準確度,另一些章節(jié)上標注準確度低于全文準確度的情況。

表4 集成模型自動標注“結果”章節(jié)混淆矩陣

分析全文自動標注結果和人工標注一致性實驗的混淆矩陣,絕大多數混淆都發(fā)生在“事實”類型和其他幾種類型之間?!笆聦崱鳖愋褪瞧叻N子句類型中定義最寬泛、外延最廣的一類,“事實”類型子句數量占子句總數量的比例也最大。因此,明確對“事實”類型子句的定義,將更有助于完善該子句語義類型模型,并提升自動標注準確率。

3.2.4 人工標注一致性實驗

為了對自動標注結果產生錯誤的原因做進一步解釋,同時探索這七種子句語義類型的定義可能產生的理解上的問題,本次實驗招募了4名志愿者,對測試集中的4篇論文額外進行了兩輪標注。要求每名志愿者閱讀Waard對7種子句類型的定義,并提供了de Waard的論文原文[7]作為自愿閱讀的參考資料。每名志愿者在學習子句類型定義后標注1~3篇不同的文章。志愿者均是至少獲得了信息管理與信息系統(tǒng)專業(yè)的學士學位,且具有一定的相關領域的英文論文閱讀經驗,是上述4個主題論文的主要讀者群體,因此,志愿者提供的標注結果比較可信。這2份標注的混淆矩陣如表5所示。

表5 人工標注混淆矩陣

2份標注中,僅有61.39%的子句標注結果相同。2份標注的分歧主要在如下3個方面:

(1)介紹論文行文結構的子句。這類子句的主要作用是方便讀者閱讀,本身含有的信息量不大。如“the[…]results are given in table 2”經常產生“事實”和“結果”間的混淆;“we divide this task into 2 parts”經常產生“事實”和“方法”間的混淆;“in section 3,we[…]”經常產生“事實”和“目標”之間的混淆。

(2)涉及別人實驗方法的子句。這類混淆集中在“方法”章節(jié)中。如“following the approach used by[…]”經常產生“事實”和“方法”之間的混淆。標注“方法”志愿者認為這句話的確描述了實驗方法的一部分;標注“事實”志愿者認為別人在已發(fā)表論文中使用的方法是學界周知的事實,所以符合“事實”的定義。

(3)有關實驗結果和實驗討論的子句。這類混淆集中在“結果”章節(jié)和“討論”章節(jié)中。例如,“we observed two major reasons for changes in[…]”經常產生“結果”和“意義”之間的混淆。志愿者難以把握這類句子中的內容多大比例是數據直接展示的,多大比例是經過作者推理或猜測才能得出的。同時,也存在因為不知道如何標注,于是直接標作“事實”的情況。

在機器學習分類任務中,人們常把人工分類的準確率(human-level)作為機器學習方法的“天花板”,機器學習模型分類的準確率往往難以突破人工分類的準確率。而本實驗中人工標注一致性并不能完全代表人工分類的準確率,其主要原因是人工標注實驗唯一分類標準是Waard對子句類型的定義,而這些定義在不同的具體情況下的確可以產生不同的理解。如果在訓練機器學習模型時,對定義進行了進一步的明確(如在標注訓練集時約定好上述幾種容易產生分歧的子句的標注方案),自動標注模型的準確度完全可以超過人工標注的一致性。

4 方法應用實例:主題聚類實驗

子句語義類型可以用于學術論文的信息抽取和文本挖掘相關的許多場景,下文將通過在100篇文獻的聚類實驗語料上的主題聚類實驗作為示例說明其價值。如果論文在經過語義類型自動標注并抽取出特定類型的子句后構建的特征向量,比使用全文或其他語言模型構建的特征向量在聚類實驗中的表現(xiàn)更好,那么說明經過子句語義類型自動標注模型處理后構建的特征向量更能反映論文的主題,即在抽取論文的內容信息上具有一定的效果。

本文使用全文本無結構數據、論文宏觀結構模型中“摘要”“簡介”“結論”章節(jié)、子句語義類型模型中“事實”類型子句和全文LDA主題6種方法對論文進行處理。主體聚類實驗具體步驟如下:

(1)對于使用論文宏觀結構模型子句語義類型模型的組別,分別抽取出相應部分的內容作為聚類語料。

(2)使用Python nltk中的分詞器進行分詞,并使用nltk中stopwords工具刪除停用詞。

(3)使用Snowball-Stemmer①https://snowballstem.org/提取詞語的詞干。

(4)使 用TF-ⅠDF(term frequency-inverse document frequency)模型確定詞語權重。詞語頻率閾值分別為0.2和0.8,即剔除出現(xiàn)在大于80%的論文中和小于20%的論文中的詞語。

(5)使用LDA模型提取文檔的主題分布特征,或使用TF-ⅠDF向量空間模型計算文檔的距離,使用層次聚類方法對文檔進行聚類,并對聚類結果進行評測和解釋。

本文使用sklearn中的Agglomerative Clustering層次聚類算法對文檔進行聚類。層次聚類算法首先將每篇文檔作為1個簇,每次合并距離最小的2個簇,直到剩余的簇數小于設定的終止簇數為止。與Kmeans等常用的原型聚類算法相比,層次聚類算法不需要設定任何初始狀態(tài),從而避免了因初始狀態(tài)不同,導致同樣的語料在多次實驗中得到不同聚類結果的情況發(fā)生。將層次聚類算法終止簇數設為4,文檔間距離度量算法使用曼哈頓距離,在合并2個簇時以2個簇中點間距離的最大值(即全鏈接算法)作為合并判斷的標準,使得算法傾向于對2個規(guī)模較小的類進行合并,以保證聚類結果中每個簇的大小盡量相同。

本文使用了純度、互信息和同質性3個聚類效果評價指標。由于“Web信息提取”“文本信息提取”“瀏覽日志分析”和“購買記錄分析”4個主題分屬“信息抽取”和“用戶分析”大類主題,同一大主題下的兩類主題存在內容相似度較高,因此,在純度和同質性上分別選擇了以2個大類為真實類別的2類純度、2類同質性以及以4個小類為真實類別的4類純度、4類同質性對聚類結果進行評價。聚類結果的評測和分析如表6所示。

表6 主題聚類實驗結果

表6展示了不同模型下聚類的評測結果。綜合來看,經過子句語義類型抽取的事實類子句在聚類結果的多種評測指標上都能得到最好或接近最好的結果,使用論文全文本和簡介章節(jié)在綜合效果上僅次于事實類子句,由于論文的全文和簡介部分中的事實類型子句占比較大,因此可以達到和事實類型子句相似地較好表現(xiàn)。

圖1展示了事實類子句層次聚類效果。其中,點的坐標對應抽取出的事實類子句形成的文檔TF-ⅠDF矩陣經主成分分析(principal component analysis,PCA)算法降至二維后的結果;點的形狀表示對應文檔實際所屬的主題;數字表示對應文檔在聚類結果中所屬的簇。從圖1中可知,聚類算法能夠較準確地區(qū)分“信息抽取”和“用戶分析”兩大類主題,但對每個大類主題內的兩小類主題分辨能力仍有待提高。

圖1 事實類子句聚類效果展示圖

5 總結與展望

本文通過引入系統(tǒng)功能語言學中的體裁分析理論,結合自然語言處理領域的句法分析、語法分析和關鍵詞抽取等方法,將論文的宏觀結構信息與子句語法特征相結合,構建了能夠自動標注子句語義類型的機器學習模型。與已有自動標注模型的對比分析,發(fā)現(xiàn)應用子句的章節(jié)特征,嘗試更多機器學習模型并使用集成學習可以改善子句語義類型自動標注的準確度,且當標注范圍從“結果”章節(jié)等特定章節(jié)擴展到論文全文時依舊有較好的效果。本文通過自動標注模型在論文主題聚類中的應用,證明了該模型在文本挖掘方面的應用價值。另外,本文的主要不足之處在于人工標注困難導致的數據量較小。論文語義模型的多樣性和缺乏統(tǒng)一、公開、經過標注的數據集是包括本文的研究在內的許多論文全文本語義模型研究的主要制約因素。

子句語義類型模型在保證不同學科論文普遍適用的前提下,實現(xiàn)了論文在子句粒度上的結構化,可以廣泛應用在文本挖掘任務中。本文只選取了主題聚類這一項應用作為示例,其他的應用場景還有:①在抽取式自動摘要任務中,可以利用本模型根據摘要的組成規(guī)律,分別選取合適的事實子句、方法子句、結果子句等拼合成一篇抽取式摘要,提升摘要的信息量和結構上的完整性;②在論文的個性化檢索任務中,可以利用本模型從論文的假設、方法、結論等方面進行語義層面的信息檢索,為用戶提供更精準的學術論文檢索和分析服務。這些對子句語義類型自動標注結果的應用將是下一步研究的重點。

猜你喜歡
子句章節(jié)語義
命題邏輯中一類擴展子句消去方法
命題邏輯可滿足性問題求解器的新型預處理子句消去方法
語言與語義
高中數學章節(jié)易錯點提前干預的策略研究
西夏語的副詞子句
西夏學(2018年2期)2018-05-15 11:24:42
素養(yǎng)之下,美在引言——《“推理與證明”章節(jié)引言》一節(jié)比賽課的實錄
“上”與“下”語義的不對稱性及其認知闡釋
命題邏輯的子句集中文字的分類
黃廖本《現(xiàn)代漢語》詞匯章節(jié)中的幾個問題
認知范疇模糊與語義模糊
沙坪坝区| 深泽县| 宁强县| 革吉县| 泗洪县| 巴里| 和龙市| 绥芬河市| 万州区| 通榆县| 青州市| 德令哈市| 若羌县| 德格县| 大冶市| 嘉兴市| 鄂伦春自治旗| 弋阳县| 余江县| 乌审旗| 佳木斯市| 尉犁县| 株洲市| 左权县| 浏阳市| 昭苏县| 三门县| 和平县| 南和县| 洪湖市| 中西区| 海盐县| 利川市| 开江县| 福贡县| 平顺县| 长兴县| 海门市| 门头沟区| 江城| 钟山县|