国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于非平衡學習與交互式標注的引文情感動機標注系統(tǒng)

2020-07-27 16:11孫亦昕許露鄭翼斐朱妍唐媛董猛劉宇胡凱
軟件工程 2020年7期
關鍵詞:交互式

孫亦昕 許露 鄭翼斐 朱妍 唐媛 董猛 劉宇 胡凱

摘? 要:隨著現(xiàn)代文獻的數(shù)據(jù)量不斷增長,僅僅依靠論文引用次數(shù)的傳統(tǒng)方式無法很好的描述論文的真實影響力,基于引文內(nèi)容的情感動機的研究成為新的研究重點。雖然當前的研究中存在大量自然語言處理工具可以處理文獻文本,但并沒有專門針對文獻引文情感動機的處理工具。為解決引文動機樣本分布極度不均衡和引文動機標注數(shù)據(jù)生成效率低下的問題,本文提出構建一個基于非平衡學習和交互式標注的引文系統(tǒng)。經(jīng)過實驗證明,本文提出的系統(tǒng)可以較好提高引文情感動機標注效率。

關鍵詞:非平衡學習;引文情感動機;交互式;標注系統(tǒng)

中圖分類號:TP311.5? ? ?文獻標識碼:A

Abstract: With the increasing data volume of modern literature, the traditional method of paper citation cannot fully represent the real influence of the paper, so emotional motivation (Emotive) study based on citation content has become a new research focus. Although a large number of natural language processing tools exist in the current research to process literature texts, special tools to process literature citation emotional motivation have not been found yet. In order to solve the problems of extremely unbalanced sample distribution of citation motivation and low efficiency of citation motivation annotation data generation, this paper proposes building a citation system based on unbalanced learning and interactive annotation. Experiment results show that the system proposed in this paper can improve the tagging efficiency of citation emotive.

Keywords: unbalanced learning; citation motivation; interaction; tagging system

1? ?引言(Introduction)

引文情感動機分析作為重要的評價科學成果的方法越來越成為當前科學文獻研究的重要問題[1],相關的研究表明,引用行為不僅是對相關工作的認可,而且受很多非科學因素的影響,呈現(xiàn)出高度復雜性的特征[2]?,F(xiàn)有的關于引文情感動機的研究,傾向于自動化方法效果的提升等領域,卻忽視了當前這類研究中缺乏大量的標注數(shù)據(jù)的問題,這種矛盾在文獻數(shù)據(jù)爆炸性增長的當下顯得尤其突出,如何解決這樣的矛盾是本文的核心。若通過引入自動化分類的方法,用分類器代替人工從而實現(xiàn)高效分類(標注),則存在兩方面問題:首先,由于科學論文的文本具有較強的領域特點,正面或者無感情偏好的樣本規(guī)模往往大于負向的情感偏好,因而導致了樣本分布的不均衡[3-5],使得分類器的分類效果很差;其次,對于引文上下文的標注往往需要領域?qū)<业拇罅勘尘爸R,并不容易獲取[6],因此大規(guī)模的標注數(shù)據(jù)的生產(chǎn)與獲取仍存在困難。

針對以上問題,本文提出構建交互式標注系統(tǒng),區(qū)別于傳統(tǒng)的標注方式,將標注的過程融合交互過程。用戶在標注的過程中,系統(tǒng)不斷的對引文的標注內(nèi)容進行非平衡學習的算法模型訓練,用生成的模型將產(chǎn)生的數(shù)據(jù)進行分類標注,只將不容易確定的標注類型推送至專家,通過這樣的機制提升標注的效率,以達到高效而準確標注的目標。

2? ?研究背景(Research background)

引文情感動機識別屬于引文類別識別,后者的相關研究很早就成為引文分析的重要研究課題。早在1999年Teufel的博士論文就對引文類型識別研究的過程分成以下幾個步驟:引文類型定義、引文內(nèi)容抽取和引文類型標引[7]。引文類型定義是隨著引用動機的理論和實踐研究產(chǎn)生的,比如Small將引用動機分為駁斥、注釋、評論、應用和支持五類[8],Brooks通過調(diào)查將引用動機分為三大類:說服讀者、積極引用、為了交流、社會認可;消極引用;提醒讀者、操作性信息[9],并將引文的動機分成延伸、批評、比較、提高等[10]。雖然不同研究者對引文類型有不同的理解,但基本都遵循了三個共同的原則:被引次數(shù)不能夠從本質(zhì)上揭示引文之間的關聯(lián),需結合引文的內(nèi)容分析;被引文獻對施引文獻的作用和重要程度并不相同,不能同等看待被引文獻;引文的上下文文本是引文類型定義的基礎和關鍵[11]。引文類型識別從引用動機和引文內(nèi)容分析出發(fā),能夠在一定程度上揭示出施引文獻和被引文獻之間的語義關聯(lián)[2],可以進一步分析被引文獻對施引文獻的貢獻程度,是對傳統(tǒng)引文分析方法的語義增強和重要補充,具有重要的理論和實踐意義。

然而,目前引文分析仍然主要以被引次數(shù)為基礎,將所有的引文同等看待,施引文獻和被引文獻之間的關聯(lián)性也通常不加區(qū)分[12],無法很好的描述論文的真實影響力。這樣的現(xiàn)狀主要是由于,過去文獻的全文,也就是引文的上下文并不容易獲得,雖然在定義上學者們給出了較好的研究思路,但是基于引文情感動機的論文評價方法未被廣泛采納。

這一情況在新的環(huán)境下得到了扭轉(zhuǎn),隨著文獻的全文數(shù)據(jù)大量可得,文獻數(shù)量急劇增加等也讓引文情感動機的研究具有較好可行性背景[13]。自然語言處理與分析的工具為解決這類問題提供了基本思路,例如通過統(tǒng)計語言學模型[14]和主題模型[15],基本的文本特征可以被提取和表示。結合自然語言處理與機器學習的方法,部分情報學領域?qū)W者也結合這種思路對引文動機的研究進行了一系列的探索,如多標簽的引文文本分類方法[16],對方法的擴展如與影響力分析結合[17],與學科主題分析的結合[18],針對具體類型的引文內(nèi)容分析[19,20],基于現(xiàn)有引用內(nèi)容類型的標引框架[16]和標準數(shù)據(jù)集合的構建[21]等。然而這些研究都需要對引文進行標注,并在標注數(shù)據(jù)的基礎上進行研究,標注數(shù)據(jù)的缺乏仍然是一個嚴重問題,因此,我們提出了一套交互式標注的系統(tǒng),并通過非平衡學習的方式來提升標注的效率。

3? ?系統(tǒng)整體設計(Overall system designing)

系統(tǒng)采用B/S構架,前端提供用戶交互界面,用戶可以通過前端頁面交互的方式,對引文的內(nèi)容進行標注,同時在標注的過程中,用戶產(chǎn)生的標注數(shù)據(jù)不斷跟后臺的系統(tǒng)進行交互,后臺的非平衡學習模型通過對用戶生成的數(shù)據(jù)和現(xiàn)有的預訓練模型,不斷進行訓練和更新模型,同時將敏感的數(shù)據(jù)推送至交互前端,并自動對不敏感數(shù)據(jù)進行分類標注(1為正向或中性,0為負向)。

如圖1所示,其中tag列由用戶標注生成,標識情感極性;send列由服務器模型生成,標識是否發(fā)送給用戶端進行標注,引文內(nèi)容即包含引用文本的內(nèi)容,通過用戶的標注,情感極性首先通過用戶的認識和理解,將其內(nèi)容劃分為正向或者負向。以圖中的文本為例“Alex's work greatly improves the domain”這句話表達了作者對于該工作的極大肯定,因此,在此標注過程中,這句話被標注成“1”也就是正向情感。而第二句話“this work is controversial”表達了該研究比較有爭議,可能代表著負面評價,因此被標注為“0”負向的情感。第三句話中,“We analyzed the data with the tool”,是一個事實陳述類型的引文,情感極性為中性,被標注成“0”。在send列中,0代表不推送,1代表推送,這主要是由于0通常代表著正向的情感和中性的情感,算法對其不敏感,需要推送給專家進行人工分類。

4? ?數(shù)據(jù)和方法(Data and methods)

4.1? ?原始數(shù)據(jù)與中間數(shù)據(jù)

在文本中,原始數(shù)據(jù)的獲取主要通過自行編寫爬蟲對Nature Communication網(wǎng)站的開源文本數(shù)據(jù)爬取獲得,網(wǎng)站通常具有一定的格式,為爬蟲的爬取工作奠定了基礎。如圖2所示,網(wǎng)頁中的開源論文全文數(shù)據(jù)結構被展示出來。

已被存儲在MongoDB的數(shù)據(jù)庫中的內(nèi)容只是論文全文,由于全文并非每一句話都包含有引用,因此還需對全文進行引文內(nèi)容的抽取。引用內(nèi)容在施引文獻中會伴隨一定的引用標簽出現(xiàn),常見的引用標簽包括方括號+序號、圓括號+作者日期等,這些引用標簽是識別引文內(nèi)容的關鍵。識別到引用標簽后更重要的是確定引文內(nèi)容抽取的范圍,目前引文內(nèi)容抽取的范圍主要有兩種:一種是狹義范圍,僅指包含引文的句子,即引文句;另一種是廣義范圍,除包含引文句子外,還包括跟引文句子相關的其他上下文句子,即引文上下文。狹義范圍的抽取較為容易,準確率和效率較高;廣義范圍的抽取相對較難,但是能夠獲得更多引文相關的內(nèi)容,可為揭示語義關聯(lián)提供更多的信息。在本文中,我們僅采用了較為簡單的基于規(guī)則的提取法,例如方括號+序號的方式,對文獻文本進行分割提取,并且存儲在數(shù)據(jù)庫中。

4.2? ?非平衡分類方法

在引文標注過程中,如果全部采用人工標注的方式,不僅標注的過程勞神費力,更嚴重的問題是無法保證標注的準確性,尤其是在某些特殊的研究領域中,大量出現(xiàn)的術語通常屬于術語低頻詞匯,領域外的人員無法領悟其中的含義,容易產(chǎn)生誤解,因此,完全依賴人工必然存在巨大的問題。

但要在標注過程完全通過機器自動進行,同樣存在著巨大挑戰(zhàn)。有研究指出,負向的情感引用往往存在于特定的文章段落;例如評價性的引用通常在引文或者討論部分出現(xiàn),其他地方如數(shù)據(jù)和方法階段的引文則通常是基本的中性的引用。 這樣就導致了以下問題,一方面引文具有極性特殊的聚集性,另一方面它們本身的分布業(yè)績不均衡,往往正面的引用占有較多篇幅,而負面的引用只有很少內(nèi)容。綜上所述,簡單的采用機器分類的方法無法滿足高效推送引文標注的需求。因此,本文引入了非平衡學習的分類方法,如圖4所示。

在圖4(a)原始樣本分布中,兩個類型的分布并不均衡,非平衡學習則可以通過插值的方式,生成新的樣本,增加小類的樣本數(shù)量,圖4(b)顯示了經(jīng)過非平衡學習采樣策略小類的樣本生成新的樣本的過程。這樣的策略同樣可以用來增強引文標注的過程,增加小類樣本數(shù)量,比如負向情感引文的樣本數(shù)量。通過這種方式,使最終分類的效果取得提升,更好的識別出負向情感的引文文本,進而實現(xiàn)標注過程效率的提升。

5? ?系統(tǒng)實現(xiàn)(System implementation)

5.1? ?系統(tǒng)的實現(xiàn)界面

系統(tǒng)的前端界面主要采用了Vue框架,通過模塊化的方式,分別設計標注系統(tǒng)的多個可視化頁面,最后通過JavaScript函數(shù)和后端的Web Service接口調(diào)用的方式,實現(xiàn)前端數(shù)據(jù)向后端的傳輸。如圖5所示,圖中展示了頁面交互的詳細可視化元素,用戶主要通過勾選方式進行句子的情感極性標注,頁面中句子的內(nèi)容由后端的數(shù)據(jù)服務結構提供。

5.2? ?后端核心代碼

服務器端主要使用Python的機器學習框架Scikit-learn和Python的Web服務框架Flask構成數(shù)據(jù)標簽分類服務。其主要核心工作可以有兩部分組成,第一部分主要是通過預訓練的語義模型獲得文本的向量,第二部分則是通過非平衡學習的分類方法,采用上采樣的方式增加小眾樣本的比例,從而提升自動化分類的效率,同時在推送的過程中,采用閾值設定的方法,將分類準確度較明確的對象自動分類打上標簽,而將不確定的靠近分類臨界面的對象send設置為1,并推送給用戶進行交互性標注。

5.3? ?標注性能評估

本文性能評估主要從效率和精度的兩個方面展開。效率主要是指,在單個用戶操作的情況下,單位時間內(nèi)用戶標注數(shù)量加上機器標注數(shù)量的總和。采用本系統(tǒng),標注過程只需要標注三分之一的工作量就可以,就可以獲得具有較高精度的正常數(shù)據(jù)量的標注結果,具體數(shù)量見表格表1所示。

在獲得標注數(shù)據(jù)之后,通過對數(shù)據(jù)集合的精度考查,即主要是通過設置訓練集合和驗證集合,分別對比未采用非平衡學習和采用了非平衡學習的方式的分類Precision-Recall曲線圖,如圖6所示,左圖為未經(jīng)非平衡學習的分類效果,右圖為經(jīng)過非平衡學習后的分類效果。

6? ?結論(Conclusion)

傳統(tǒng)引文內(nèi)容分析方式通常從歸納類型動機角度出發(fā)展開研究。本文則主要從可行性與數(shù)據(jù)源頭的可得性角度出發(fā),發(fā)掘當前的引文動機分析存在標注數(shù)據(jù)不足的問題,由于純粹使用人工或者機器的方式都無法較好滿足標注的需要,因此本文提出了一種結合機器學習與人工交互的標注系統(tǒng),從原理和設計的角度對系統(tǒng)的構成進行了完整的描述,并通過實驗驗證了本文提出系統(tǒng)的有效性。雖然本文提出的系統(tǒng)對標注效果具有一定的提升,但是仍然存在一些可優(yōu)化之處,例如提高現(xiàn)有模型的分類精度。

參考文獻(References)

[1] 趙潔.知識場論與知識流動——兼論科學引文機理分析[J].情報探索,2020(03):11-15.

[2] 尹莉,郭璐,李旭芬.基于引用功能和引用極性的一個引用分類模型研究[J].情報雜志,2018,37(07):139-145.

[3] 王杰,李德玉,王素格.面向非平衡文本情感分類的TSF特征選擇方法[J].計算機科學,2016,43(10):206-210;224.

[4] 萬志超,胡峰,鄧維斌.面向不平衡文本情感分類的三支決策特征選擇方法[J].計算機應用,2019,39(11):3127-3133.

[5] 田鋒,王媛媛,吳凡,等.超平面距離的非平衡交互文本情感實例遷移方法[J].西安交通大學學報,2018,52(10):1-7.

[6] 田鋒,蘭田,Kuo-Ming C,等.領域?qū)嵗w移的交互文本非平衡情感分類方法[J].西安交通大學學報,2015,49(04):67-72.

[7] Teufel S, Siddharthan A, Tidhar D. An annotation scheme for?citation function[C].proceedings of the annual meeting of the special interest group on discourse and dialogue, F, 2009.

[8] Small H.Co-citation context analysis and the structure of paradigms[J]. Journal of Documentation, 1980, 36(3): 183-196.

[9] Brooks T A. Private Acts and Public Objects: An Investigation of Citer Motivations[J]. Journal of the Association for Information Science & Technology, 1985, 36(4): 223-229.

[10] Wang W, Villavicencio P, Watanabe T. Analysis of reference relationships among research papers, based on citation context[J]. International Journal on Artificial Intelligence Tools, 2012,? 21(02): 1240004.

[11] 祝清松,冷伏海.引文類型識別研究進展[J].圖書情報知識,2013(06):70-76.

[12] 蔣鴻標.引文數(shù)據(jù)質(zhì)量控制研究[J].圖書館建設,2014(09):81-86;91.

[13] 廖君華,劉自強,白如江,等.基于引文內(nèi)容分析的引用情感識別研究[J].圖書情報工作,2018,62(15):112-121.

[14] 黃春梅,王松磊.基于詞袋模型和TF-IDF的短文本分類研究[J].軟件工程,2020,23(03):1-3.

[15] 張小川,余林峰,桑瑞婷,等.融合CNN和LDA的短文本分類研究[J].軟件工程,2018,21(06):17-21.

[16] 陸偉,孟睿,劉興幫.面向引用關系的引文內(nèi)容標注框架研究[J].中國圖書館學報,2014,40(06):93-104.

[17] 章成志,丁睿祎,王玉琢.基于學術論文全文內(nèi)容的算法使用行為及其影響力研究[J].情報學報,2018,37(12):1175-1187.

[18] 徐庶睿,章成志,盧超.利用引文內(nèi)容進行主題級學科交叉類型分析[J].圖書情報工作,2017,61(23):15-24.

[19] 章成志,李卓,趙夢圓,等.基于引文內(nèi)容的中文圖書被引行為研究[J].中國圖書館學報,2019,45(03):96-109.

[20] 李卓,趙夢圓,柳嘉昊,等.基于引文內(nèi)容的圖書被引動機研究[J].圖書與情報,2019,(03):96-104.

[21] 張夢瑩,盧超,鄭茹佳,等.用于引文內(nèi)容分析的標準化數(shù)據(jù)集構建[J].圖書館論壇,2016,36(08):48-53.

猜你喜歡
交互式
交互式電子白板在課堂教學中應用之所見
交互式虛擬現(xiàn)實游戲之特質(zhì)
探析高中物理教學中運用交互式電子白板的實踐應用
ASP技術在交互式網(wǎng)頁設計中的應用
淺談交互式電子白板在中學英語課堂的有效應用
試論“交互式”課堂模式在初中英語閱讀教學中的運用
交互式電子白板在歷史教學中的應用研究
交互式電子白板在數(shù)學課堂中的運用研究
淺析多媒體教室“交互式”管理
交互式智能平板輔助課堂教學的實踐與思考