国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

2014—2020年間論辯挖掘研討會(huì)研究述評(píng)

2021-09-07 21:17:48徐健黃雨馨王唯一等
現(xiàn)代情報(bào) 2021年9期
關(guān)鍵詞:語(yǔ)料論點(diǎn)語(yǔ)料庫(kù)

徐健 黃雨馨 王唯一等

DOI:10.3969/j.issn.1008-0821.2021.09.017

[中圖分類號(hào)]G254 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2021)09-0167-10

當(dāng)前,論辯挖掘研究已引起人工智能、知識(shí)管理、邏輯學(xué)和語(yǔ)言學(xué)等學(xué)科研究者的普遍關(guān)注,是一個(gè)典型的多學(xué)科交叉領(lǐng)域,分析的文本包括新聞、政治演講、學(xué)術(shù)論文、法院判例等體裁。論辯挖掘建立在觀點(diǎn)挖掘的基礎(chǔ)上,對(duì)觀點(diǎn)的支撐性論據(jù)和論證過(guò)程進(jìn)行分析,可視作前者研究的延伸和擴(kuò)展。論辯挖掘最初起源于計(jì)算論辯(Computa-tional Argumentation)的概念,旨在將論辯理論(Argumentation Theory)與信息推理技術(shù)相結(jié)合,借助自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的方法自動(dòng)化地解析文本中的論辯結(jié)構(gòu),有助于實(shí)現(xiàn)對(duì)文本的深度理解和細(xì)粒度分析,提高信息智能化處理水平。隨著越來(lái)越多的論辯性文本,包括學(xué)術(shù)論文、議論性評(píng)論、法律條文與判例等的數(shù)字化發(fā)展,相關(guān)數(shù)據(jù)的可獲得性和可機(jī)讀性也越來(lái)越高,為論辯挖掘研究的產(chǎn)生、發(fā)展提供了數(shù)據(jù)支撐。與計(jì)算論辯更關(guān)注方法不同的是,論辯挖掘研究更倚重?cái)?shù)據(jù)和應(yīng)用場(chǎng)景,如何從中發(fā)掘出有效信息、輔助決策是論辯研究的重點(diǎn)。

當(dāng)前,人工智能和計(jì)算機(jī)語(yǔ)言學(xué)領(lǐng)域較多國(guó)際會(huì)議舉辦了多次論辯挖掘主題討論會(huì),例如貝蒂諾羅國(guó)際信息學(xué)中心舉辦的AT&NLP邊界與聯(lián)系研討會(huì)(BiCi ArgNLP)、蘇格蘭信息與計(jì)算機(jī)聯(lián)盟論辯挖掘研討會(huì)(SICSA Workshop on AM)等。本文主要對(duì)2014—2020年分別在巴爾的摩、丹佛、柏林、哥本哈根、布魯塞爾、佛羅倫薩、巴塞羅那舉辦的論辯挖掘研討會(huì)(ACL Workshop on AM)進(jìn)行系統(tǒng)閱讀整理,共計(jì)獲得文獻(xiàn)121篇。通過(guò)對(duì)文獻(xiàn)進(jìn)行系統(tǒng)的梳理,明確該領(lǐng)域核心概念內(nèi)涵,介紹相關(guān)理論、技術(shù)和方法,將相關(guān)應(yīng)用研究按照?qǐng)鼍斑M(jìn)行分類,總結(jié)各方面研究不足并對(duì)未來(lái)發(fā)展進(jìn)行展望,以期為認(rèn)知計(jì)算、知識(shí)組織等相關(guān)領(lǐng)域研究提供參考與借鑒。

1相關(guān)概念與理論基礎(chǔ)

1.1基本概念

Argumentation作為一種行為,是指用一定證據(jù)來(lái)支持或駁斥一個(gè)觀點(diǎn),以達(dá)到說(shuō)服受眾的目的。例如,在經(jīng)典的三段論案例中,通過(guò)“人會(huì)死”和“亞里士多德是人”兩個(gè)命題來(lái)論證“亞里士多德會(huì)死”這個(gè)論點(diǎn),其中蘊(yùn)含的論辯結(jié)構(gòu)由論辯部件和論辯關(guān)系組成。

1)論辯部件

論辯部件(Argument Component)是論辯結(jié)構(gòu)的基本組成單位,也有學(xué)者稱其為Argumentative Discourse Unit(ADU)、Argument Unit。論辯部件具有判斷性(Declarative)和可證偽性(Falsifi-ability)兩大特征,與邏輯學(xué)中命題(Statement或Proposition)概念相對(duì)應(yīng)。其中,判斷性是相對(duì)記敘性(Narrative)、描述性(Descriptive)而言的,可證偽性是指在邏輯上要存在一個(gè)或多個(gè)與該部件相沖突的命題或判斷的可能性。Walton D提出論辯結(jié)構(gòu)包括一系列前提、一個(gè)結(jié)論及其之間的支持與攻擊關(guān)系。此處,前提(Premise)和結(jié)論(Con-clusion)均可視為一種論辯部件,兩者在推理過(guò)程中承擔(dān)的角色不同,結(jié)論的正確性要建立在證據(jù)正確的基礎(chǔ)之上。需要注意的是,一個(gè)論辯部件可能同時(shí)具有前提和結(jié)論兩種角色,比如前一個(gè)論點(diǎn)的結(jié)論可作為后一個(gè)論點(diǎn)的前提。

前提是指對(duì)論點(diǎn)起支撐作用的證據(jù),也稱論據(jù)。對(duì)應(yīng)的英文詞匯有Evidence、Proof、Premise等?,F(xiàn)有研究主要關(guān)注證據(jù)的類型劃分問(wèn)題。例如,Aharoni E等將論據(jù)分為研究類、專家類和軼事類3個(gè)類型。其中,研究類是指通過(guò)定量分析論證,專家類是對(duì)個(gè)人或組織的觀點(diǎn)進(jìn)行引用,軼事類是用事例對(duì)論點(diǎn)進(jìn)行作證。Walker V R等將論據(jù)分為證詞、案例報(bào)告、法律條文等類型??梢钥闯?,現(xiàn)有研究對(duì)論據(jù)的劃分均與具體的場(chǎng)景有關(guān),缺少整體層面的劃分維度和框架,同時(shí)對(duì)不同類型論據(jù)的特征分析與可信度評(píng)估也應(yīng)在后續(xù)研究中不斷完善。

結(jié)論,是指某人對(duì)一件事情、物體靜態(tài)屬性和動(dòng)態(tài)發(fā)展趨勢(shì)的判斷,也叫論點(diǎn)、觀點(diǎn)、論斷、斷言或主張等。與論據(jù)相比,論點(diǎn)更強(qiáng)調(diào)判斷的主觀性,對(duì)應(yīng)的英文詞匯有Opinion、Argument、Per-spective、View、Viewpoint、Claim、Assertion。在論辯挖掘中,一般Claim(Declarative Sentence)表示論點(diǎn),用Argumentation表示論辯。需要注意的是,觀點(diǎn)具有多重含義,相關(guān)研究應(yīng)辨別其與情感、視角概念的邊界和關(guān)聯(lián)。

2)論辯關(guān)系

論辯關(guān)系就是指論辯部件間的論證關(guān)系,包括微觀和宏觀兩個(gè)層面。微觀層面論辯關(guān)系是指“Premise-Conclusion”推理和論證關(guān)系。論辨對(duì)應(yīng)英文單詞Justification、Validation、Verification、Rea-soning等。在拓?fù)浣Y(jié)構(gòu)方面,代表性模型有Moch-ales R等提出的鏈?zhǔn)秸撟C模型,F(xiàn)reeman J B提出的組合一收斂論證模型,Eemeren F V等提出的多重—并列復(fù)合論證。在論辯方法上,主要有三段論(Syllogism)和演繹—?dú)w納模型(Induction-Deduction),其中具體的Argument Schema包括例證、引證、推理等。目前,宏觀層面的論辯關(guān)系主要有“支持—攻擊”(Support-Attack)模型,前者是相互印證的支撐關(guān)系,而后者是相互對(duì)立關(guān)系。

1.2論辯挖掘相關(guān)理論

論辯挖掘研究的理論基礎(chǔ)多來(lái)自哲學(xué)、邏輯學(xué)領(lǐng)域。在計(jì)算機(jī)語(yǔ)言學(xué)的方法和技術(shù)涉足論辯挖掘任務(wù)前,論辯分析多采用專家手工繪制論證圖(Argument Diagram)的方式開(kāi)展。相關(guān)理論主要包括圖爾敏模型(Toulmin Model)、修辭結(jié)構(gòu)理論(Rhetorical Structure Theory)和論證塊模型(Argu-mentative Zoning,簡(jiǎn)稱AZ)。

圖爾敏模型(Toulmin Model)最早于1958年被提出,共包括主張(Claim)、數(shù)據(jù)(Data/Grounds)、擔(dān)保(Warrant)、佐證(Backing)、限定詞(Qualier)、反駁(Rebuttal)6個(gè)組成成分。在此基礎(chǔ)上,F(xiàn)reeman J B借鑒了美國(guó)哲學(xué)家波洛克(John L.Pollock)的觀點(diǎn),將反駁分為消解反駁(Undercutting Defeater)和直接反駁(Rebut-ting Defeater),可視為圖爾敏模型的改良版本。

修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,簡(jiǎn)稱RST)也叫作修辭關(guān)系。該理論于1988年提出,將文獻(xiàn)單元間關(guān)系界定為對(duì)比、例證、詳述等24種。在此基礎(chǔ)上,IMRC、IMRD、BIM-RCD等語(yǔ)步模型也被廣泛地應(yīng)用于文本功能的識(shí)別與組織。從概念上來(lái)說(shuō),論辯結(jié)構(gòu)是修辭結(jié)構(gòu)的一種類型。因此,也有部分學(xué)者研究如何在修辭樹(shù)的基礎(chǔ)上抽取論辯結(jié)構(gòu)。

論證塊模型(Argumentative Zoning,簡(jiǎn)稱AZ)最早由Teufel S于1999年在其博士論文中提出,并在科學(xué)論文上進(jìn)行了標(biāo)注。之后,Teufel S在上一版本的模型基礎(chǔ)上進(jìn)行改進(jìn),提出了15種句子功能類型對(duì)科學(xué)文獻(xiàn)中句子的修辭與論證功能進(jìn)行界定。AZ模型來(lái)源于對(duì)科技論文內(nèi)容的標(biāo)注,被認(rèn)為是論辯挖掘研究重要的理論基礎(chǔ)。

可以看出,圖爾敏模型和論證塊模型都是對(duì)句子或文本單元的功能進(jìn)行刻畫(huà),而修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,簡(jiǎn)稱RST)則更多關(guān)注文本功能單元之間的聯(lián)系。這些理論模型對(duì)論辯挖掘方法和應(yīng)用研究的開(kāi)展具有重要的啟發(fā)和指導(dǎo)意義。

2論辯性文本識(shí)別及其關(guān)系判定方法

目前,論辯挖掘在方法層面主要聚焦于論辯性文本及其間論辯關(guān)系的識(shí)別兩個(gè)方面。前者包括論辯句子識(shí)別與邊界的劃分,后者包括對(duì)論辯單元間微觀關(guān)系和宏觀關(guān)系的識(shí)別。

2.1論辯性文本識(shí)別

論辯性文本(Argumentative Text)是指在文本中具有推理和判斷功能的文本塊,其目的在于提高話語(yǔ)的可信性和說(shuō)服力,在學(xué)術(shù)論文、法律判定與條款、辯論稿等類型文本中廣泛存在。對(duì)論辯性文本進(jìn)行識(shí)別與分類是對(duì)論辯結(jié)構(gòu)進(jìn)一步分析和挖掘的基礎(chǔ)。

1)論辯性句子識(shí)別

論辯性句子識(shí)別工作起始于對(duì)語(yǔ)料的獲取與標(biāo)注工作,對(duì)于標(biāo)注過(guò)程和結(jié)果的分析是現(xiàn)有研究的一個(gè)熱點(diǎn)。Reed C等、Stab C等和Eckle-Kohler J等分別對(duì)法律判決和學(xué)生撰寫(xiě)議論文進(jìn)行論辯結(jié)構(gòu)標(biāo)注,Kappa指標(biāo)常被用于評(píng)估人員標(biāo)注結(jié)果的一致性,其值與標(biāo)注難度呈負(fù)相關(guān)關(guān)系。相關(guān)工作形成的語(yǔ)料庫(kù)為論辯性文本的自動(dòng)識(shí)別提供了數(shù)據(jù)基礎(chǔ)。

在非監(jiān)督學(xué)習(xí)方面,Petasis G等發(fā)現(xiàn)抽取式摘要技術(shù)在論辯性文本識(shí)別中有著正向影響。Levy R等提出一種基于檢索查詢的論斷句識(shí)別方法。Jo Y等提出了一個(gè)瀑布模型(Cascade Model),不僅對(duì)陳述句進(jìn)行識(shí)別,對(duì)疑問(wèn)句、祈使句中的隱性論點(diǎn)也做了識(shí)別,并對(duì)論點(diǎn)中的指代消解問(wèn)題做了研究。在監(jiān)督學(xué)習(xí)方面,Palau R M等、Palau R M等、Moens M F等在Arau-caria數(shù)據(jù)集上訓(xùn)練包括最大熵、樸素貝葉斯、支持向量機(jī)等分類器,各種詞匯、句法特征的識(shí)別效果也得到了全面的分析驗(yàn)證,相關(guān)研究通過(guò)句子二元分類已取得比較好的識(shí)別效果。近年來(lái),深度學(xué)習(xí)方法在論辯性文本識(shí)別中也得到了應(yīng)用。例如,Spliethover M等通過(guò)實(shí)驗(yàn)否定了注意力機(jī)制在論辯部件識(shí)別中的效果。

2)論辯部件邊界識(shí)別

Habernal Ⅰ等發(fā)現(xiàn)并非所有論辯部件都以句子形式呈現(xiàn),還存在一對(duì)多、多對(duì)一情況。李永澤等提出應(yīng)用句子關(guān)系分析和邊界識(shí)別的方法對(duì)論辯部件進(jìn)行準(zhǔn)確的抽取。研究多使用序列標(biāo)注的方式對(duì)句內(nèi)詞匯進(jìn)行是否為邊界詞的判斷,Park J等、Sardianos C等、Petasis G使用CRF(條件隨機(jī)場(chǎng))、LSTM-CRF方法進(jìn)行論辯部件邊界的識(shí)別。在非監(jiān)督學(xué)習(xí)方面,F(xiàn)errara A等提出了一種基于主題模型論辯部件邊界識(shí)別方法。在論辯部件分類方面,大多將識(shí)別的論辯部件分為Conclusion和Premise兩類。Oraby S等將論辯信息分為事實(shí)性(Factual)和情緒性(Emotional)兩種。Hidey C等在此兩類的基礎(chǔ)上,進(jìn)一步對(duì)結(jié)論和前提的語(yǔ)義類型進(jìn)行了標(biāo)注。

由上可知,論辯性文本識(shí)別通常作為一種句子二元分類問(wèn)題來(lái)處理的,現(xiàn)有研究主要關(guān)注在分類器特征的選擇上,缺乏對(duì)論辯性文本判斷標(biāo)準(zhǔn)的研究。識(shí)別效果的評(píng)估也依賴數(shù)據(jù)標(biāo)注質(zhì)量,缺少具體應(yīng)用場(chǎng)景中的評(píng)估。目前,學(xué)者們大多關(guān)注句子內(nèi)部論辯部件邊界識(shí)別(Argument Boundary Detec-tion)問(wèn)題。對(duì)跨多句論辯部件識(shí)別的研究相對(duì)較少,這也是未來(lái)應(yīng)重點(diǎn)突破的研究方向。

2.2論辯性文本間關(guān)系判別

論辯性文本間關(guān)系判別是論辯挖掘的重要任務(wù)。相關(guān)研究可分為微觀和宏觀層面關(guān)系的識(shí)別。其中,前者常見(jiàn)于獨(dú)白型文本或篇幅較短的評(píng)論信息中,后者多見(jiàn)于對(duì)白型文本或多文檔間關(guān)系的分析中。

1)論辯文本間的微觀關(guān)系

論辯文本間的微觀關(guān)系旨在識(shí)別論辯性功能部件(Argumentative Components)間的推理關(guān)系。Tre-visan B等總結(jié)了論辯性文本中表示推理關(guān)系的提示詞。Carstens L等通過(guò)句子間的支持和論證關(guān)系來(lái)識(shí)別論辯性句子,探索出一條論辯文本及其關(guān)系綜合識(shí)別的方法。Stab C等在對(duì)論辯部件分類的基礎(chǔ)上,采用SVM分類器來(lái)判定給定的“前提—結(jié)論”二元對(duì)是否為支持關(guān)系。LawrenceJ等提出一種基于主題模型的論據(jù)和論點(diǎn)間推理關(guān)系判斷方法。近年來(lái),深度學(xué)習(xí)方法在論辯性文本關(guān)系識(shí)別方面得到越來(lái)越多的應(yīng)用。例如,Ko-reeda Y等基于蒯嵌入技術(shù),通過(guò)帶有注意力模型的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)識(shí)別論據(jù)與斷言之間的支撐與攻擊關(guān)系。Deguchi M等將神經(jīng)網(wǎng)絡(luò)和文本秩技術(shù)結(jié)合,對(duì)論辯性功能部件間的關(guān)系進(jìn)行識(shí)別。

2)論辯文本間的宏觀關(guān)系

論辯性文本間宏觀關(guān)系包括論點(diǎn)間的語(yǔ)義關(guān)系和對(duì)比關(guān)系。語(yǔ)義關(guān)系主要可分為攻擊性(At-tack)與支持性(Support)關(guān)系兩類。Palau R M等提出一種基于上下文無(wú)關(guān)語(yǔ)法(Context-Free Grammar,CFG)法律文本中論點(diǎn)間關(guān)系判別方法。Bohui F等采用文本蘊(yùn)涵分析(Text Entailment Analysis)方法推斷論壇帖子間的關(guān)系。對(duì)比關(guān)系主要對(duì)觀點(diǎn)的可信性進(jìn)行比較,Potash P等從二元對(duì)的角度提出了論辯性文本說(shuō)服力比較算法。相關(guān)方法對(duì)論點(diǎn)的影響力預(yù)測(cè)和說(shuō)服力評(píng)價(jià)具有借鑒作用。

論辯文本間的關(guān)系是多元和復(fù)雜的?,F(xiàn)有研究模型在微觀和宏觀層面還存在較多不足。具體來(lái)講,微觀層面僅關(guān)注論點(diǎn)與論據(jù)間的推理關(guān)系,對(duì)論點(diǎn)一子論點(diǎn)間的包含關(guān)系研究較少。在宏觀層面,缺少相同、相似、對(duì)立、競(jìng)爭(zhēng)性關(guān)系的識(shí)別,這些類型關(guān)系的識(shí)別在觀點(diǎn)查重、查新和評(píng)估方面也有重要的價(jià)值。未來(lái)相關(guān)研究應(yīng)重點(diǎn)關(guān)注論辯部件的內(nèi)部組成結(jié)構(gòu),在更深層次和細(xì)粒度的層面研究論辯部件及其關(guān)系的結(jié)構(gòu)化表示問(wèn)題。相關(guān)研究有助于實(shí)現(xiàn)對(duì)論辯性信息的組織,實(shí)現(xiàn)論辯性文本的深度理解。

3論辯挖掘應(yīng)用研究

論辯挖掘應(yīng)用場(chǎng)景主要包括法律場(chǎng)景、在線辯論和學(xué)術(shù)場(chǎng)景等。各場(chǎng)景涉及的文本均具有論辯性的特征,但在體裁、文本長(zhǎng)度、修辭結(jié)構(gòu)方面有著各自的特點(diǎn)。

3.1法律場(chǎng)景

法律過(guò)程和法律文本具有規(guī)范性和嚴(yán)謹(jǐn)性的特點(diǎn),非常重視證據(jù)和推理過(guò)程。因此,法律場(chǎng)景是論辯挖掘應(yīng)用最早和最成熟的領(lǐng)域,相關(guān)文本涵蓋判決書(shū)、法律條文、案例報(bào)告等。主要分析法律場(chǎng)景下的事實(shí)推理和量刑論證問(wèn)題,以期輔助判案過(guò)程。目前,該方向?qū)W者已經(jīng)探索了英文、希臘文、日文、葡萄牙文、西班牙文等語(yǔ)言的法律文本的挖掘研究。該領(lǐng)域影響較大的語(yǔ)料庫(kù)有Araucari-aDB、ECHR(European Human Right Court)、疫苗注射論辯等。Palau R M等使用文本分類方法,從歐洲人權(quán)法院判決文中對(duì)論辯性文本進(jìn)行自動(dòng)抽取。Savelka J等標(biāo)注了法庭判決文本中對(duì)術(shù)語(yǔ)的解釋性語(yǔ)句,并構(gòu)建了此類句子的識(shí)別特征。Fierro C等標(biāo)注智利國(guó)民在2015年新憲法制定過(guò)程中生成的政治觀點(diǎn),對(duì)觀點(diǎn)中的核心概念進(jìn)行分類,并將這些觀點(diǎn)分為政治、事實(shí)和價(jià)值3類。Walker V R等把對(duì)美國(guó)退伍軍人傷殘索賠裁決文本中句子的語(yǔ)義分為證據(jù)、推理、事實(shí)3大類,并對(duì)其中證據(jù)類型做了進(jìn)一步劃分。YamadaH等以民事法庭判決為例,將其按照一定主題劃分,對(duì)論點(diǎn)層次結(jié)構(gòu)(Argument、Sub-argument)進(jìn)行標(biāo)注。

對(duì)法律文本中的論辯結(jié)構(gòu)進(jìn)行識(shí)別并以友好的方式進(jìn)行展示可以提高相關(guān)人員的閱讀效率。然而,不同國(guó)家和地區(qū)的司法體制并不相同,可分為大陸法系和英美法系,相關(guān)研究需要專業(yè)的法律背景知識(shí)。當(dāng)前,相關(guān)研究主要集中在英文、日語(yǔ)和西班牙語(yǔ)等語(yǔ)料的研究中,而漢語(yǔ)場(chǎng)景下的法律論辯挖掘研究甚少,可參考語(yǔ)料庫(kù)數(shù)目不多。在未來(lái)的研究中,可以借鑒國(guó)外相關(guān)研究,開(kāi)展面向中文法律語(yǔ)料的標(biāo)注與論辯挖掘分析研究。

3.2社交媒體場(chǎng)景

隨著Web技術(shù)的發(fā)展,用戶越來(lái)越傾向于在互聯(lián)網(wǎng)上發(fā)表自己對(duì)某事件的理解、看法和意見(jiàn),而不局限于被動(dòng)地接受信息。在該場(chǎng)景中,使用論辯挖掘方法具有增強(qiáng)論點(diǎn)說(shuō)服力、發(fā)現(xiàn)對(duì)方觀點(diǎn)漏洞、總結(jié)整體結(jié)論等功能。目前,該場(chǎng)景下已形成Idebate、Convinceme、Createdebate等與論辯挖掘有關(guān)的語(yǔ)料庫(kù)與平臺(tái),為相關(guān)研究的開(kāi)展提供了數(shù)據(jù)基礎(chǔ)。相關(guān)應(yīng)用集中于爭(zhēng)議性觀點(diǎn)識(shí)別、觀點(diǎn)影響力與可信性評(píng)估、觀點(diǎn)的檢索與呈現(xiàn)3方面。

在爭(zhēng)議性觀點(diǎn)識(shí)別方面,Cabrio E等從De-batepedia等網(wǎng)站上對(duì)有爭(zhēng)議性帖子進(jìn)行標(biāo)注。Aha-roni E等選擇了維基百科中有爭(zhēng)議的話題,對(duì)各方論點(diǎn)和論據(jù)進(jìn)行標(biāo)注。Mao F等抽取了在討論是否對(duì)爭(zhēng)議性百科詞條刪除討論中的祈使句。Peldszus A等對(duì)文本中相互對(duì)立的論斷進(jìn)行了標(biāo)注。Bilu Y等提出了一種基于規(guī)則的自動(dòng)生成對(duì)立性觀點(diǎn)的算法。Reisert P等提出一種基于圖爾敏模型和知識(shí)庫(kù)的自動(dòng)生成支持正反雙方辯論話語(yǔ)的模型。

在觀點(diǎn)影響力和可信性評(píng)估方面,學(xué)者多從語(yǔ)言和受眾兩個(gè)方面研究說(shuō)服機(jī)理。Mao F等提出觀點(diǎn)對(duì)網(wǎng)民影響可以從顯著性、來(lái)源、維持和偏差4個(gè)方面體現(xiàn)。Wei Z等對(duì)在線辯論語(yǔ)料中的駁論策略、立論策略、辯論質(zhì)量開(kāi)展了標(biāo)注。在此基礎(chǔ)上,有關(guān)學(xué)者對(duì)觀點(diǎn)的可信性和說(shuō)服力水平進(jìn)行了評(píng)估。Park J等對(duì)用戶評(píng)論中命題的被論證情況進(jìn)行了標(biāo)注。Ng L等對(duì)多種類的語(yǔ)料進(jìn)行了論辯質(zhì)量的標(biāo)注。Passon M等利用論辯挖掘技術(shù)對(duì)商品評(píng)論的有用性進(jìn)行評(píng)估。Gu Y等通過(guò)對(duì)評(píng)論的說(shuō)服力進(jìn)行自動(dòng)識(shí)別,發(fā)現(xiàn)隱性的主題特征有助于提高識(shí)別效果。Kotonya N等利用論辯挖掘方法對(duì)新聞的真實(shí)性進(jìn)行評(píng)估,進(jìn)而識(shí)別出虛假新聞。

在觀點(diǎn)檢索和呈現(xiàn)方面,Wachsmuth H等研究網(wǎng)絡(luò)觀點(diǎn)檢索問(wèn)題,包括獲取、查詢、評(píng)估、索引、排序和呈現(xiàn)等環(huán)節(jié)。Le D T等使用開(kāi)發(fā)了一個(gè)基于檢索的可與用戶討論有爭(zhēng)議話題的對(duì)話系統(tǒng)。觀點(diǎn)呈現(xiàn)主要以代表性觀點(diǎn)抽取和總結(jié)的方式開(kāi)展,Barker E等提出了一種以問(wèn)題為中心的觀點(diǎn)聚類方法,對(duì)新聞評(píng)論中的意見(jiàn)進(jìn)行總結(jié)。Chris R等使用語(yǔ)義文本相似性(Semantic Tex-tual Similarity)對(duì)論點(diǎn)進(jìn)行聚類進(jìn)而識(shí)別出在線辯論中的代表性論點(diǎn)。在多文檔層面,Carlebach M等研究對(duì)于新聞報(bào)道的多視角聚合方法。

由上可知,社交媒體場(chǎng)景下的論辯挖掘研究主要對(duì)在線辯論、貼吧、評(píng)論、維基百科、新聞社評(píng)等類型文本進(jìn)行分析。相關(guān)研究與觀點(diǎn)挖掘(O-pinion Mining)存在一定重合,兩類研究均以主觀性文本信息的度量與分析為目標(biāo),前者研究情感分類、情感詞典構(gòu)建及其極性強(qiáng)度計(jì)算方法;后者則更關(guān)注所持立場(chǎng)和觀點(diǎn)的原因。與法律和學(xué)術(shù)場(chǎng)景相比,該場(chǎng)景的語(yǔ)料存在規(guī)范性差、表達(dá)隨意的問(wèn)題。論辯挖掘的理論并不完全適用該場(chǎng)景的語(yǔ)料,需要對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估與篩選,在此基礎(chǔ)上開(kāi)展輿情分析等深層次的研究。

3.3學(xué)術(shù)場(chǎng)景

在學(xué)術(shù)場(chǎng)景中,合理的論辯結(jié)構(gòu)有助于說(shuō)服同領(lǐng)域的讀者。因此,論辯挖掘在學(xué)術(shù)領(lǐng)域有著廣泛的應(yīng)用前景。例如,人文社會(huì)科學(xué)研究通過(guò)論辯挖掘的方法可更全面地分析學(xué)術(shù)論著中蘊(yùn)含的論點(diǎn)和思想。自然科學(xué)則可以使用論辯挖掘的方式對(duì)知識(shí)的論證過(guò)程進(jìn)行評(píng)估,從而提高學(xué)術(shù)信息傳播與交流效率。目前,相關(guān)研究聚焦于學(xué)術(shù)論文論辯結(jié)構(gòu)標(biāo)注、學(xué)術(shù)觀點(diǎn)知識(shí)表示和學(xué)生撰寫(xiě)文章分析3個(gè)方面。

在學(xué)術(shù)論文論辯結(jié)構(gòu)標(biāo)注方面,Lawrence J等對(duì)比了人工標(biāo)注和論辯挖掘的方法在心理學(xué)著作論辯結(jié)構(gòu)識(shí)別效果的差異。Graves H等分析了生物醫(yī)學(xué)領(lǐng)域期刊論文標(biāo)題中論辯性觀點(diǎn)出現(xiàn)情況,研究發(fā)現(xiàn)時(shí)態(tài)動(dòng)詞有助于觀點(diǎn)識(shí)別。Faiz S Ⅰ等提出一種基于規(guī)則的關(guān)系抽取方法,并對(duì)生物學(xué)中反映實(shí)體間因果關(guān)系的句子進(jìn)行了識(shí)別。Mayer T等對(duì)醫(yī)學(xué)隨機(jī)對(duì)照類論文中的論據(jù)進(jìn)行了標(biāo)注和自動(dòng)識(shí)別。Accuosto P等對(duì)學(xué)術(shù)論文中的觀點(diǎn)及其論證進(jìn)行了分析,并據(jù)此預(yù)測(cè)會(huì)議論文的接受程度。Lauscher A等構(gòu)建了一種細(xì)粒度的學(xué)術(shù)論文論辯挖掘工具ArguminSci,提供命令行、Web等使用方式。

在學(xué)術(shù)觀點(diǎn)表示方面,Green N最早研究使用修辭關(guān)系和論辯理論研究論文中認(rèn)識(shí)重構(gòu)問(wèn)題。隨后,Green N探索了使用語(yǔ)義實(shí)體及其關(guān)聯(lián)的方式對(duì)生物學(xué)期刊論文中學(xué)術(shù)觀點(diǎn)的表示問(wèn)題。王曉光等提出了科學(xué)論文的論證本體SAO(Scien-tific Paper Argumentation),并以圖書(shū)情報(bào)和生物醫(yī)學(xué)領(lǐng)域論文論證區(qū)域進(jìn)行標(biāo)注實(shí)驗(yàn)。Blake C提出一種對(duì)醫(yī)學(xué)論文研究發(fā)現(xiàn)的論點(diǎn)框架,研究發(fā)現(xiàn),摘要中出現(xiàn)的論點(diǎn)僅占總數(shù)的7.8%,所以需要對(duì)全文中的論點(diǎn)進(jìn)行識(shí)別。

對(duì)學(xué)生撰寫(xiě)文章進(jìn)行論辯結(jié)構(gòu)與質(zhì)量評(píng)估也是當(dāng)前論辯挖掘研究中的研究熱點(diǎn)。Lugini L等將學(xué)生課堂討論轉(zhuǎn)為文字,提出一種語(yǔ)篇特征、主題模型和機(jī)器學(xué)習(xí)融合的方法以識(shí)別命題間的論辯關(guān)系。Stab C等對(duì)文章中反方觀點(diǎn)缺失情況進(jìn)行識(shí)別。在此基礎(chǔ)上,學(xué)者開(kāi)始對(duì)學(xué)生撰寫(xiě)文章質(zhì)量水平進(jìn)行評(píng)估。例如,Ong N等使用基于規(guī)則的方法對(duì)本科生論文中論辯要素進(jìn)行識(shí)別,發(fā)現(xiàn)其與專家文章評(píng)分的相關(guān)性。Song Y等和Kleban-ov B B等使用回歸分析的方法,利用論證結(jié)構(gòu)對(duì)文章質(zhì)量進(jìn)行預(yù)測(cè)。

隨著數(shù)字學(xué)術(shù)出版物的爆發(fā)式增長(zhǎng),研究者面臨著學(xué)術(shù)信息爆炸與知識(shí)匱乏的困境。當(dāng)前,信息檢索和文本處理技術(shù)已為用戶提供了信息篩選和呈現(xiàn)工具。然而,學(xué)術(shù)論文的最大貢獻(xiàn)在于其提出的創(chuàng)新學(xué)術(shù)觀點(diǎn),其與論辯結(jié)構(gòu)仍需學(xué)者閱讀和梳理文獻(xiàn)才能獲得,該工作不僅需要花費(fèi)時(shí)間和精力,還需要一定經(jīng)驗(yàn),這對(duì)于新進(jìn)入一個(gè)領(lǐng)域的學(xué)者而言更加困難。相較于另外兩類應(yīng)用情景,學(xué)術(shù)場(chǎng)景內(nèi)論辯性文本具有規(guī)范性強(qiáng)的特點(diǎn),但也存在篇幅長(zhǎng)和標(biāo)注門檻高的缺點(diǎn),使得目前該場(chǎng)景研究要少于另外兩類場(chǎng)景。此外,不同領(lǐng)域的學(xué)術(shù)研究有不同的研究范式,未來(lái)可對(duì)各領(lǐng)域在論辯方法和結(jié)構(gòu)上的特點(diǎn)開(kāi)展分析,為用戶提供更細(xì)致和專業(yè)的服務(wù)。

4當(dāng)前研究存在的不足與面臨的挑戰(zhàn)

論辯挖掘旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的論辯結(jié)構(gòu),識(shí)別出論辯部件并明確其間邏輯推理關(guān)系。相關(guān)研究對(duì)于實(shí)現(xiàn)論辯性文本信息的深度理解并進(jìn)一步開(kāi)展認(rèn)知計(jì)算具有非常重要的意義。目前,該領(lǐng)域研究文獻(xiàn)的數(shù)量逐年增多。然而,現(xiàn)有研究在整體上還存在一些不足之處,同時(shí)也面臨著一些挑戰(zhàn)。

4.1研究缺乏系統(tǒng)性和整體性

論辯挖掘研究是一個(gè)復(fù)雜、多樣的研究范疇,涉及多種應(yīng)用場(chǎng)景、處理環(huán)節(jié)、文本體裁。目前,相關(guān)研究缺乏系統(tǒng)性和整體性。主要體現(xiàn)在:①學(xué)科間合作和交叉不緊密。主要表現(xiàn)在邏輯學(xué)領(lǐng)域、人工智能領(lǐng)域相關(guān)研究團(tuán)隊(duì)缺乏深入的合作。究其原因,主要是邏輯學(xué)和人工智能分屬人文、理工門類,兩者重點(diǎn)關(guān)注的對(duì)象、問(wèn)題、解決思路和效果評(píng)估等研究范式方面存在差異,導(dǎo)致跨學(xué)科合作存在困難。隨著新興學(xué)科的不斷涌現(xiàn),各領(lǐng)域邊界被打破,學(xué)科間合作也會(huì)不斷深入;②不同場(chǎng)景下論辯性文本的語(yǔ)言特征、結(jié)構(gòu)特點(diǎn)的識(shí)別存在較大差異。目前,大多數(shù)研究?jī)H關(guān)注具體領(lǐng)域和單一環(huán)節(jié),對(duì)多任務(wù)、環(huán)節(jié)類聯(lián)合建模研究比較少,更缺少不同體裁、場(chǎng)景間差異化的對(duì)比與關(guān)聯(lián)分析;③相較于國(guó)外,國(guó)內(nèi)論辯研究整體上處于起步階段,導(dǎo)致以中文為語(yǔ)料的論辯挖掘還比較少。然而,作為一種廣泛使用的語(yǔ)言,中文在詞法、句法和修辭語(yǔ)步上與英語(yǔ)、德語(yǔ)等語(yǔ)言存在巨大差異,這需要引起國(guó)內(nèi)相關(guān)領(lǐng)域研究人員的重視。

4.2語(yǔ)料庫(kù)構(gòu)建規(guī)模與規(guī)范方面的不足

目前,各類論辯挖掘研究已經(jīng)構(gòu)建了多種類型、體裁的語(yǔ)料庫(kù)。這在某種程度上給論辯結(jié)構(gòu)的分析和抽取提供了寶貴的數(shù)據(jù)資源。然而,該領(lǐng)域語(yǔ)料庫(kù)構(gòu)建還存在如下不足:①除Debater等少數(shù)語(yǔ)料庫(kù)外,大部分語(yǔ)料庫(kù)存在規(guī)模較小的問(wèn)題,主要是由于數(shù)據(jù)獲取還存在一定壁壘。受制于數(shù)據(jù)規(guī)模,目前無(wú)論是論辯部件識(shí)別,還是微觀和宏觀層面論辯結(jié)構(gòu)的抽取,各類方法、模型的準(zhǔn)確性、召回率還存在一定提升空間。一些依賴大規(guī)模訓(xùn)練語(yǔ)料的深度學(xué)習(xí)模型效果還不如傳統(tǒng)的機(jī)器學(xué)習(xí)算法。此外,各方法的魯棒性均不強(qiáng),存在過(guò)適應(yīng)性的問(wèn)題。在大數(shù)據(jù)環(huán)境下,更多的論辯性數(shù)據(jù)將以非結(jié)構(gòu)化文本的形式呈現(xiàn)在互聯(lián)網(wǎng)上,這些語(yǔ)料可能包含大量不規(guī)范信息,這給語(yǔ)料庫(kù)的收集、處理和更新帶來(lái)挑戰(zhàn);②目前,對(duì)語(yǔ)料庫(kù)中數(shù)據(jù)的標(biāo)注工作主要通過(guò)人工的方式開(kāi)展,該過(guò)程比較消耗人力與時(shí)間。由于理論與觀察之間存在的差異,大部分研究者均針對(duì)各自語(yǔ)料的特點(diǎn)制定了具體的標(biāo)注規(guī)則。對(duì)不同標(biāo)注者,尤其是對(duì)缺乏邏輯學(xué)、法學(xué)背景的標(biāo)注人員間標(biāo)注結(jié)果進(jìn)行一致性評(píng)估時(shí),發(fā)現(xiàn)當(dāng)前研究人員對(duì)于論辯結(jié)構(gòu)的認(rèn)知存在較大差異。這說(shuō)明,當(dāng)前論辯挖掘領(lǐng)域語(yǔ)料標(biāo)注還缺少統(tǒng)一的規(guī)范。

4.3研究深度不足

論辯在人類交流過(guò)程中起著增強(qiáng)語(yǔ)言說(shuō)服力的重要作用。論辯性文本信息廣泛地出現(xiàn)在法律、政治和學(xué)術(shù)等各個(gè)場(chǎng)景中。對(duì)于論辯自身而言,其機(jī)理、結(jié)構(gòu)具有變化豐富、差別細(xì)微等特征。當(dāng)前,論辯挖掘主要是利用機(jī)器學(xué)習(xí)技術(shù)對(duì)論辯部件及其間關(guān)系進(jìn)行自動(dòng)化標(biāo)注,研究深度還存在不足。主要體現(xiàn)在:①論辯挖掘研究中,無(wú)論是論辯部件的識(shí)別還是論辯結(jié)構(gòu)的抽取,仍然是以句子或連續(xù)字符串為單位進(jìn)行處理。較少深入論辯部件內(nèi)部,就其組成要素和構(gòu)成結(jié)構(gòu)進(jìn)行建模。此外,論辯性文本中廣泛存在的指代、語(yǔ)態(tài)語(yǔ)氣、省略、間接、反諷、引用等修辭手法,也加大了論辯結(jié)構(gòu)抽取的難度;②各研究團(tuán)隊(duì)對(duì)前提、論斷也缺乏細(xì)粒度分類與表示,論辯單元間關(guān)系也主要以攻擊和支持等推理關(guān)系表示,這種方式雖然可以滿足單篇獨(dú)白型或?qū)Π仔臀谋局姓撧q結(jié)構(gòu)的抽取,但在多文檔或語(yǔ)料庫(kù)層面論辯結(jié)構(gòu)抽取上,仍然需要從語(yǔ)義對(duì)比關(guān)系入手研究,將論辯單元使用結(jié)構(gòu)化語(yǔ)義模型進(jìn)行表示,從語(yǔ)義、主題、功能等多個(gè)角度對(duì)論辯單元間關(guān)系進(jìn)行建模。

5未來(lái)研究展望

當(dāng)前,大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的蓬勃發(fā)展對(duì)論辯挖掘方法的革新、應(yīng)用均具有一定推動(dòng)作用,為相關(guān)研究提供更全面的數(shù)據(jù)資源、更強(qiáng)大的處理能力和分析工具。同時(shí),跨學(xué)科研究的興起也為論辯理論和文本挖掘技術(shù)的進(jìn)一步融合提供了保障。未來(lái)研究應(yīng)朝如下方向努力:

5.1推動(dòng)論辯挖掘應(yīng)用研究

論辯挖掘的主要目的是從非結(jié)構(gòu)化文本中抽取論辯結(jié)構(gòu),在此基礎(chǔ)上可以面向?qū)嶋H應(yīng)用場(chǎng)景提供更精準(zhǔn)的信息服務(wù)。未來(lái)可以開(kāi)展的應(yīng)用主要包括:①論辯性信息檢索,其本質(zhì)是一種特殊化的信息檢索任務(wù),包括對(duì)論據(jù)、論點(diǎn)和論證方法的查詢,相關(guān)技術(shù)涵蓋論辯信息的收集、索引、去重、排序和呈現(xiàn)過(guò)程,旨在滿足各種場(chǎng)景下的信息查詢需求;②文本說(shuō)服力分析和評(píng)估,是指對(duì)論點(diǎn)的文本特征與其論證合理性間關(guān)系進(jìn)行回歸建模分析,主要包括對(duì)論證策略、論據(jù)充實(shí)程度進(jìn)行評(píng)估。這兩類任務(wù)的本質(zhì)都是對(duì)論辯性文本語(yǔ)料的深入挖掘,旨在減輕有關(guān)論辯信息需求者閱讀負(fù)擔(dān)。

5.2提升語(yǔ)料庫(kù)構(gòu)建質(zhì)量

作為一種文本挖掘研究,語(yǔ)料庫(kù)的構(gòu)建在論辯挖掘研究中起著非常重要的基礎(chǔ)性資源作用?,F(xiàn)有的語(yǔ)料庫(kù)多以特定場(chǎng)景為依據(jù),缺乏通用性,其構(gòu)建規(guī)模和質(zhì)量也存在不足。未來(lái)語(yǔ)料庫(kù)構(gòu)建應(yīng)朝如下兩個(gè)方向努力:①保證全面性、規(guī)模性要求。其中,全面性是指各個(gè)領(lǐng)域和體裁的文本都應(yīng)當(dāng)進(jìn)行收集和分析,而規(guī)模性是指語(yǔ)料要有一定的覆蓋范圍,可隨語(yǔ)料發(fā)展進(jìn)行更新,借鑒眾包的方式開(kāi)展大范圍的標(biāo)注;②提升標(biāo)注質(zhì)量。研究者應(yīng)對(duì)標(biāo)注者標(biāo)注結(jié)果間的差異及其原因進(jìn)行歸納、分析和深入探討,形成統(tǒng)一的標(biāo)注規(guī)范。此外,應(yīng)改進(jìn)標(biāo)注過(guò)程,更多地采用專家標(biāo)注、增加標(biāo)注輪次以提升標(biāo)注質(zhì)量。按照實(shí)用性原則制定和優(yōu)化論辯挖掘語(yǔ)料庫(kù)評(píng)估指標(biāo),采用目標(biāo)導(dǎo)向的方式提升語(yǔ)料庫(kù)構(gòu)建質(zhì)量。

5.3從論辯理解向論辯生成過(guò)渡

隨著自然語(yǔ)言處理、深度學(xué)習(xí)等技術(shù)的進(jìn)一步發(fā)展,未來(lái)論辯挖掘研究應(yīng)從目前對(duì)文本論辯結(jié)構(gòu)的抽取轉(zhuǎn)向文本論辯結(jié)構(gòu)的自動(dòng)生成。也就是說(shuō),計(jì)算機(jī)對(duì)于論辯不僅應(yīng)有理解能力,還應(yīng)具有一定判斷、分析和表達(dá)能力。例如,面向一個(gè)有爭(zhēng)議的問(wèn)題,根據(jù)問(wèn)題描述和知識(shí)經(jīng)驗(yàn)生成對(duì)問(wèn)題的論斷,依托各類事實(shí)、數(shù)據(jù)等證據(jù),利用歸納、演繹等推理方式,自動(dòng)分析原因,形成對(duì)策,為決策提供充足的論據(jù)。當(dāng)前,人工智能還處于弱智能階段,還需深入理解和模擬人類認(rèn)知、思考和語(yǔ)言表達(dá)過(guò)程,才可能真正實(shí)現(xiàn)論辯內(nèi)容生成與自動(dòng)論辯。

猜你喜歡
語(yǔ)料論點(diǎn)語(yǔ)料庫(kù)
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
議論文分論點(diǎn)的提取
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
中共黨史論文論點(diǎn)摘編
怎樣確定議論文的中心論點(diǎn)
长丰县| 连山| 辉南县| 桑植县| 双城市| 饶阳县| 丹江口市| 张家口市| 岐山县| 东莞市| 凤台县| 称多县| 太谷县| 繁昌县| 中山市| 三穗县| 且末县| 吴桥县| 长春市| 东明县| 龙山县| 三穗县| 江安县| 黄梅县| 大连市| 陆丰市| 铜梁县| 广宁县| 南昌市| 白玉县| 高碑店市| 盐亭县| 盐城市| 简阳市| 岗巴县| 运城市| 利辛县| 津市市| 锦屏县| 龙州县| 梧州市|