徐琳宏 丁堃 林原 楊陽
摘 要:[目的/意義]引文情感分析揭示施引文獻(xiàn)對(duì)被引文獻(xiàn)的褒義、貶義和中性的情感傾向性,解析文獻(xiàn)之間深層語義關(guān)系,能夠幫助更加準(zhǔn)確地評(píng)價(jià)被引文獻(xiàn)和作者。[方法/過程]以自然語言處理領(lǐng)域文獻(xiàn)的引文情感為數(shù)據(jù)集,利用引文中情感表達(dá)的引文標(biāo)識(shí)位置指引和情感詞匯等特征,采用支持向量機(jī)(SVM)構(gòu)建引文情感的自動(dòng)識(shí)別系統(tǒng),探索生成更大規(guī)模數(shù)據(jù)的方法。[結(jié)果/結(jié)論]實(shí)踐應(yīng)用證明,該系統(tǒng)特征的區(qū)分度較強(qiáng),準(zhǔn)確率達(dá)到93.4%,識(shí)別效果較好。引文情感的自動(dòng)識(shí)別系統(tǒng)實(shí)用價(jià)值較強(qiáng),拓寬了引文網(wǎng)絡(luò)分析的研究方法和內(nèi)容,能夠完善論文評(píng)價(jià)體系。
關(guān)鍵詞:機(jī)器學(xué)習(xí);引文情感分析;自動(dòng)識(shí)別系統(tǒng);支持向量機(jī);自然語言處理;情感分析
DOI:10.3969/j.issn.1008-0821.2020.01.004
〔中圖分類號(hào)〕TP312 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2020)01-0035-06
Citation Sentiment Identification Based on Machine Learning
——Natural Language Processing as an Example
Xu Linhong1,2 Ding Kun1 Lin Yuan1 Yang Yang1
(1.Institute of Science and Management of Science and Technology and WISE Laboratory,
Dalian University of Technology,Dalian 116024,China;
2.Research Center for Language Intelligence,Dalian University of Foreign Languages,Dalian 116044,China)
Abstract:[Purpose/Significance]Citation affective analysis reveals the positive,negative and neutral emotional tendencies of citation documents,which includes the deep semantic relationship between them and helps evaluate the cited documents and authors more accurately.[Method/Process]This paper took the citation sentiment of the literature in the field of natural language processing as the dataset and analysed the characteristics of citation mark location guidance and emotional vocabulary of emotional expression in citation and constructd an automatic recognition model of citation emotion by using support vector machine(SVM)to explore the method of generating larger-scale data.[Result/Conclusion]The practical application proved that the classification features were highly differentiated,F(xiàn)1 value was 5% higher than the original model,and the recognition effect was better.The characteristics of citation sentiment enriched citation network analysis and can improve the paper evaluation system.Automatic recognition model can improve the recognition effect of citation sentiment classification and has high practical value.
Key words:machine learning;citation sentiment analysis;automatic recognition system;support vector machine;natural language processing;sentiment analysis
學(xué)術(shù)論文作為科學(xué)研究活動(dòng)的主要產(chǎn)出形式,是我們度量科學(xué)貢獻(xiàn)的最有效的載體。因此,如何評(píng)價(jià)論文的影響力一直受到了科技界和社會(huì)各界的廣泛關(guān)注。在依據(jù)引用頻次衡量論文質(zhì)量的評(píng)價(jià)體系中,通常認(rèn)為被引文獻(xiàn)對(duì)施引文獻(xiàn)的影響程度相同,沒有考慮一篇論文中的引用次數(shù)、引用的傾向性和引用位置。這樣的計(jì)量方式比較簡單,掩蓋了論文之間的差異,缺乏對(duì)引用極性和強(qiáng)度的分析。因此,簡單的被引頻次不能準(zhǔn)確地衡量學(xué)術(shù)影響力的高低,需要更加全面地分析引文的內(nèi)容。引文情感分析是指分析論文中施引文獻(xiàn)對(duì)被引文獻(xiàn)褒義、貶義和中性的情感傾向性,它能通過抽取引文中包含的顯示和隱式的情感信息,解析文獻(xiàn)之間深層語義關(guān)系,分析作者對(duì)被引文獻(xiàn)的態(tài)度,從而更客觀地評(píng)價(jià)被引文獻(xiàn)的影響力。
雖然引文的情感能細(xì)致地區(qū)分引文的性質(zhì),與單純依靠頻次相比能更加準(zhǔn)確地評(píng)估論文的質(zhì)量,但是隨著出版物數(shù)量的不斷增加,人工區(qū)分每條引文情感需要耗費(fèi)巨大的人力資源,困難重重。為了解決人工標(biāo)注耗時(shí)費(fèi)力的問題,本文采用人工智能輔助的方式,選取合適的特征,依靠機(jī)器學(xué)習(xí)算法自動(dòng)實(shí)現(xiàn)引文的情感分類,這樣只需少量的引文情感樣本,就能建立起相對(duì)高效的自動(dòng)識(shí)別系統(tǒng)。接下來的內(nèi)容安排如下:第二節(jié)介紹了國內(nèi)外引文情感分析的研究進(jìn)展,第三節(jié)構(gòu)建引文情感的自動(dòng)識(shí)別模型,第四節(jié)報(bào)告了應(yīng)用的案例及效果,第五節(jié)給出了研究的結(jié)論和未來的改進(jìn)方向。
1 研究進(jìn)展
引文情感分析能夠在全文語義分析和理解的基礎(chǔ)上解決引用的同一化問題,矯正單純引用頻次分析帶來的偏差,是引文內(nèi)容分析的重要組成部分。相關(guān)的研究工作主要分為兩部分:一方面是引文情感分析在學(xué)科評(píng)價(jià)中的應(yīng)用;另一方面通過機(jī)器學(xué)習(xí)模型自動(dòng)識(shí)別引文中的情感,兩者互為補(bǔ)充。因此,下面分別從引文情感分析的應(yīng)用及自動(dòng)識(shí)別兩個(gè)方面介紹相關(guān)的研究工作。
引文情感分析是引文內(nèi)容分析的熱門研究領(lǐng)域,早在1982年,Small H[1]就將引文內(nèi)容定義為“Citation Context”,指的是文獻(xiàn)正文中在參考文獻(xiàn)標(biāo)簽周圍的文本內(nèi)容。2006年,Teufel S等通過設(shè)置文本窗口的方式調(diào)整引用內(nèi)容的大小[2]。Abujbara A等進(jìn)一步將引文分為顯式和隱式兩類,認(rèn)為包含特定引文標(biāo)記的句子稱為引文句或顯式引文上下文,其他形式為隱式引文上下文[3]。徐健等研究表明有96%的被引片段少于3句[4]。近幾年引文情感分析在很多方面都有廣泛的應(yīng)用,2011年,Small H利用共被引的引用內(nèi)容進(jìn)行了情感分析[5]。2014年,Sula C A分析情感傾向的表述規(guī)律,認(rèn)為引文功能的分類可以與情感傾向?qū)?yīng)[6]。2015年,Christian C等關(guān)注負(fù)向引用的作用,發(fā)現(xiàn)了負(fù)向引用與高質(zhì)量文獻(xiàn)之間的關(guān)系[7]。2017年,尹莉引入“極性”概念,將引用內(nèi)容分為正、負(fù)和零3類,并分析引用發(fā)生的語境,指出引用的位置與論文的一般結(jié)構(gòu)有關(guān)[8]。Yousif A等綜述了最近幾年英文引文情感分析方面的工作[9]。2018年,遲玉琢等嘗試創(chuàng)建一套引用內(nèi)容分析框架,并選擇32篇英文文獻(xiàn)樣本進(jìn)行了實(shí)證分析[10]。劉盛博等提出引文評(píng)價(jià)的3個(gè)指標(biāo),其中引文情感分為正面引用、負(fù)面引用和中立引用[11]。
除了上述分析引文情感特點(diǎn)的文獻(xiàn),近幾年也出現(xiàn)一些引文情感自動(dòng)識(shí)別的研究。2006年,Teufel S等[2]對(duì)引用內(nèi)容進(jìn)行情感分類,構(gòu)建引用功能的自動(dòng)識(shí)別系統(tǒng)。2011年,Awais A等選擇Ngram、否定窗口和依賴關(guān)系等特征利用SVM和樸素貝葉斯等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)引文情感自動(dòng)識(shí)別[12-13]。2013年,Bei Yu分析了人工引文情感分析與自動(dòng)引文情感識(shí)別的不同[14]。2014年,Wan X等分析引文的重要性,模型在SVM分類器中融入引用次數(shù)、引用位置、引文與被引文時(shí)間差、引用句平均長度、引用句平均密度、是否為自我引用等特征[15]。Jochim C等采用領(lǐng)域自適應(yīng)的方法,在產(chǎn)品評(píng)論數(shù)據(jù)集上訓(xùn)練,將模型遷移到引文極性分類[16]。2016年,Ma Z等選擇極性分布、作者單位、作者名和P-index 4個(gè)特征,利用SVM進(jìn)行引文極性分類,擴(kuò)展H指數(shù)和作者聲譽(yù)度研究[17]。Munkhdalai T等人采用包含多層Attention的雙向LSTM的方法分別對(duì)引文的功能和情感分類[18]。Hernández-Alvarez M等在自建的25篇論文中自動(dòng)分析引文的重要性[19]。中文方面,2012年,許德山[20]利用引文上下文信息進(jìn)行引用的觀點(diǎn)傾向性識(shí)別。2018年,遲玉琢等提出了引用內(nèi)容分析的框架包括引用功能、引用數(shù)據(jù)類型和引用強(qiáng)度等屬性[10]。廖君華等從PubMed中獲取全文,利用TF-IDF算法篩選出引用情感特征詞,展示引用情感的整體分布情況[21]。國外引文情感分析的研究開展的較早,而國內(nèi)相關(guān)研究開展的較晚,尤其是自動(dòng)識(shí)別方面,還處于起步階段。
2 引文情感自動(dòng)識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
引文情感自動(dòng)識(shí)別功能就是將少量的引文情感通過人工標(biāo)注,作為系統(tǒng)的原始語料,利用機(jī)器學(xué)習(xí)的算法,自動(dòng)產(chǎn)生更大規(guī)模的數(shù)據(jù),為引文情感分析提供語料支撐。這種方法解決人工標(biāo)注耗時(shí)費(fèi)力的問題,只需少量的引文情感樣本,就能建立起相對(duì)有效的模型,為引文情感分析向更多領(lǐng)域推廣提供了有利的技術(shù)支持。
2.1 數(shù)據(jù)準(zhǔn)備
無論是引文情感的分析還是自動(dòng)識(shí)別,都是以帶標(biāo)注的數(shù)據(jù)集為基礎(chǔ)的。標(biāo)注質(zhì)量越好,規(guī)模越大,數(shù)據(jù)分析的準(zhǔn)確性越高。但引文的情感信息與引文網(wǎng)絡(luò)的數(shù)據(jù)不同,前者不能通過網(wǎng)絡(luò)直接下載得到,需要先制定規(guī)范的標(biāo)注準(zhǔn)則,經(jīng)過多輪的人工標(biāo)注才能完成,耗時(shí)費(fèi)力。目前國內(nèi)外引文情感標(biāo)注的數(shù)據(jù)較少,本文選擇Awais的數(shù)據(jù)集作為引文情感分析的研究對(duì)象。Awais數(shù)據(jù)集中的引文來源于ACL Anthology NetWork(AAN)[22]。AAN論文集收錄了計(jì)算語言學(xué)領(lǐng)域歷年的多個(gè)國際頂級(jí)會(huì)議的論文,包括ACL、EMNLP和COLING等。該數(shù)據(jù)手工標(biāo)注了每個(gè)引用句的情感、重要性和引文上下文,共8 736條引文信息。
2.2 實(shí)體及特征抽取
引文情感包含對(duì)誰發(fā)出情感和情感類型兩部分,實(shí)體抽取就是識(shí)別引文情感的受體,即被引文獻(xiàn)。而特征抽取是選取有效的特性幫助系統(tǒng)甄別情感的類型,褒義、貶義還是中性。兩部分的信息抽取互相依賴,互為補(bǔ)充。
2.2.1 實(shí)體抽取
實(shí)體抽取就是找出一段引文中的被引文獻(xiàn),在一段引文中被引文獻(xiàn)通常具有一定的習(xí)慣寫法和特點(diǎn),稱為引文標(biāo)識(shí)。引文標(biāo)識(shí)有多種表現(xiàn)形式,有的使用作者名,有的使用作者名和發(fā)表年份,還有的使用參考文獻(xiàn)列表中的數(shù)字等。在ANN的數(shù)據(jù)集中,一般采用作者名和發(fā)表年份的方式,例如“McKeown(2000)”或者“(Jing and McKeown,2000)”等。本文的引用標(biāo)識(shí)采用以上多種形式的復(fù)合,即任意一種存在都被識(shí)別為引用標(biāo)識(shí),識(shí)別出的引文標(biāo)識(shí)統(tǒng)一用“〈CIT〉”標(biāo)簽替換和表示。確定引文標(biāo)識(shí)的位置,對(duì)后續(xù)系統(tǒng)的情感識(shí)別作用較大,可以使學(xué)習(xí)算法特別關(guān)注引文標(biāo)識(shí)前后的單詞,增加這些單詞的權(quán)重。
2.2.2 特征抽取
1)引文Ngram值和引文依賴關(guān)系
引文的Ngram值是指將整個(gè)引文段落中的詞匯按Ngram進(jìn)行劃分,切分出多個(gè)單詞片段,計(jì)算每個(gè)片段在語料中Ngram值。引文依賴關(guān)系是利用斯坦福依存分析器[23],分析引文語句中的依存關(guān)系,最后采用關(guān)系—詞對(duì)的方式標(biāo)識(shí),再計(jì)算各關(guān)系—詞對(duì)在語料中出現(xiàn)的Tf*idf值。這兩個(gè)特征都是沿用Awais文本情感分類模型[13]中提供的方法。
2)引文標(biāo)識(shí)位置指示
引文標(biāo)識(shí)位置指示的特征就是加大引文標(biāo)識(shí)(用“〈CIT〉”表示)周圍詞匯的權(quán)重,因?yàn)橐囊话闶且痪浠蛘邘拙湓捊M成的段落,與引文標(biāo)識(shí)越近的詞匯則和被引文獻(xiàn)越相關(guān),也就越可能是施引文獻(xiàn)表達(dá)對(duì)被引文獻(xiàn)情感的詞匯。需要指出的是引文標(biāo)識(shí)周圍的詞匯并不是指在原始引文中“〈CIT〉”前后的單詞,而是選擇在依存分析樹中與引文標(biāo)識(shí)直接相鄰的節(jié)點(diǎn)。
3)引文情感詞匯
情感詞匯通常是表達(dá)情感的重要方式,是機(jī)器識(shí)別情感類型的重要依據(jù)。引文的情感傾向性雖然有科技論文本身獨(dú)有的特點(diǎn),但很多也是通過情感詞匯體現(xiàn)的。引文情感詞匯特征就是提取原始引文中包含的情感詞匯,在依存分析樹中找到該情感詞匯修飾的目標(biāo)詞,最后將包含情感詞匯的關(guān)系—詞對(duì)作為特征值。
抽取引文中的情感詞匯需要用到專業(yè)的情感詞典。英文方面的情感詞典比較多,主要的情感詞典有普林斯頓大學(xué)的SentiWordNet情感詞典[24]、GI(The General Inquirer)詞典[25]、LIWC(Linguistic Inquiry and Word Count)詞典[26]、MPQA詞典[27]和伊利諾伊大學(xué)的Bing Liu提供的情感詞典[28]。這些詞典基本都給出了每個(gè)詞條的詞性和褒貶含義等,只是數(shù)量上有所差別。本文使用的情感詞匯表是Srijan Kumar[29]從引文數(shù)據(jù)中抽取的,貶義詞匯4924個(gè),褒義詞匯2 789個(gè),標(biāo)注的詞匯情感傾向性比較適合科技論文的引文情感分析。
2.3 自動(dòng)識(shí)別模型
將提取出的實(shí)體和特征與機(jī)器學(xué)習(xí)算法融合,通過人工標(biāo)注的少量引文情感信息,使用機(jī)器學(xué)習(xí)的方法,訓(xùn)練模型,從而完成大規(guī)模引文情感傾向性的自動(dòng)識(shí)別系統(tǒng)。為了能夠完成引文情感的自動(dòng)標(biāo)注,本文構(gòu)建了如圖1所示的整體功能框架圖。
第一步將原始的引文信息經(jīng)過分詞、去噪等處理后,采用正則表達(dá)式匹配的方式標(biāo)識(shí)出引文中被引文獻(xiàn)的位置。第二步提取分類特征,將一部分?jǐn)?shù)據(jù)作為訓(xùn)練集融入SVM和卷積神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法中,開始模型訓(xùn)練。第三步將測(cè)試集中的數(shù)據(jù)裝填到模型中,進(jìn)行自動(dòng)識(shí)別,最后評(píng)估算法及特征的有效性。訓(xùn)練出的模型是否有效,主要依賴于選取的特征和機(jī)器學(xué)習(xí)算法,本文采用的分類模型是支持向量機(jī)(Support Vector Machine,SVM)[30],它是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)有監(jiān)督的學(xué)習(xí)算法,通常在特征空間上找到最佳的分離超平面使得訓(xùn)練集上正負(fù)樣本間隔最大。
支持向量機(jī)是一種基于統(tǒng)計(jì)的學(xué)習(xí)方法,它是由Vapnik V[31]于1995年首次提出的。該方法是進(jìn)行二元分類的廣義線性分類器,它的主要思想是建立一個(gè)超平面作為決策曲面,使得正例和反例之間的間隔邊緣被最大化,其理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論。對(duì)于二維數(shù)據(jù)來說,支持向量就是分布在兩條分割線上的點(diǎn)。當(dāng)有少數(shù)樣本點(diǎn)存在于最大間隔之間,則成為噪音數(shù)據(jù),需引入懲罰參數(shù)。
對(duì)于線性可分的分類問題,求最優(yōu)分類超平面的問題即求:
其中,{x1,x2,…,xn}∈X為數(shù)據(jù)集,yi∈Y∈{-1,1}為xi的類標(biāo)記。對(duì)于線性不可分的問題,SVM通過核函數(shù)映射的方法解決,將二維數(shù)據(jù)映射到高維空間,常用的核函數(shù)包括多項(xiàng)式核(Polynomial Kernel)、高斯徑向基函數(shù)核(RBF Kernel)、線性核(Linear Kernel)和Sigmoid核(Sigmoid Kernel)。通過核函數(shù),可以將非線性可分的數(shù)據(jù)轉(zhuǎn)換為線性可分?jǐn)?shù)據(jù),它的選擇一般和具體的應(yīng)用相關(guān),在不同的領(lǐng)域應(yīng)用核函數(shù)可能也不相同,一般來說高斯徑向基函數(shù)核應(yīng)用的范圍更廣。
SVM不僅可以用于二分類,也可以用于多分類問題,如本文的引文極性分類,就是一個(gè)典型的三分類問題。它用于多分類是主要有兩種實(shí)現(xiàn)方法:一是直接修改目標(biāo)函數(shù),一次性實(shí)現(xiàn)多分類。這種方法計(jì)算復(fù)雜度比較高,只適合小樣本的數(shù)據(jù)集。二是組合多個(gè)二分類器來實(shí)現(xiàn)多分類器的構(gòu)造,采用這種方法的比較多。SVM方法具有完善的理論基礎(chǔ),在少量樣本時(shí)能夠獲得較好的分類效果,分類速度較快,且沒有分類重疊和不可分類現(xiàn)象。本文的引文情感分類是一個(gè)典型的三分類問題,從類別上看,中性類別數(shù)據(jù)較多,褒義和貶義數(shù)據(jù)較少,有明顯的不平衡特性。同時(shí),引文情感數(shù)據(jù)需要人工標(biāo)注獲得,一般數(shù)據(jù)規(guī)模較少,綜合以上實(shí)際問題,SVM模型更適合該類型的分類工作。
3 案例及效果分析
目前,本文將引文情感自動(dòng)識(shí)別系統(tǒng)應(yīng)用于自然語言處理領(lǐng)域,選擇該領(lǐng)域是因?yàn)樗扰c目前的大數(shù)據(jù)等許多研究熱點(diǎn)密切相關(guān),同時(shí)也是人工智能方向一個(gè)重要的分支,具有較高的應(yīng)用價(jià)值和廣泛的應(yīng)用前景。
3.1 數(shù)據(jù)預(yù)處理
本文選擇Awais的數(shù)據(jù)集作為引文情感分析的研究對(duì)象,該數(shù)據(jù)手工標(biāo)注了計(jì)算語言學(xué)方向194篇頂級(jí)會(huì)議論文的被引信息,包括每個(gè)引用句的情感和引文上下文等,共8 736條引文信息。原始數(shù)據(jù)如圖2所示。
由圖2可見,數(shù)據(jù)集中給出了施引文獻(xiàn)、被引文獻(xiàn)、情感極性和引文原文,在此基礎(chǔ)上想完成引文情感的自動(dòng)分類還需要進(jìn)一步做數(shù)據(jù)的預(yù)處理。本文主要的數(shù)據(jù)預(yù)處理工作有解析論文信息、識(shí)別引文標(biāo)識(shí)、獲取引文中詞匯的依賴關(guān)系、詞性標(biāo)注和識(shí)別情感詞匯及極性。Awais的數(shù)據(jù)集只給出了被引文獻(xiàn)的ID,如果想在引文中解析出被引文獻(xiàn)的位置,需要提取被引文獻(xiàn)的作者和年份等信息。因此,我們首先從網(wǎng)上下載了包含被引文獻(xiàn)信息的XML文件,使用XML解析器解析出文獻(xiàn)的編號(hào)、所有作者和年份。然后通過正則表示的方式分級(jí)匹配被引文獻(xiàn)標(biāo)識(shí),優(yōu)先查找是否有作者名和年份都匹配的標(biāo)識(shí),如果不存在則繼續(xù)查找存在僅作者名匹配的標(biāo)識(shí)。需要說明的是作者名的使用包括3種情況,先用第一作者和第二作者名匹配,然后再用第一作者名單獨(dú)匹配,最后再用其他作者名順序匹配,這樣可以最大限度地找到所有的被引文獻(xiàn)標(biāo)識(shí)。詞法和句法分析方面,本文采用斯坦福的語法分析器[23]完成引文中的依賴關(guān)系和詞性標(biāo)注,并將依賴關(guān)系樹中距離引文標(biāo)識(shí)結(jié)點(diǎn)較近的依賴關(guān)系權(quán)重。取引文中詞性標(biāo)注后的形容詞、名詞、動(dòng)詞和副詞與情感詞匯表中的詞匯匹配,獲取情感極性信息。
3.2 參數(shù)設(shè)置及結(jié)果分析
我們使用WEKA軟件包中的LibSvm分類,參數(shù)Cost設(shè)置為1 000,采取10倍交叉驗(yàn)證的方式,即將數(shù)據(jù)集分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),進(jìn)行試驗(yàn)。最后,評(píng)估方法選擇分類中準(zhǔn)確率和召回率的綜合指標(biāo)F1值,評(píng)估褒義、貶義和中性的分類質(zhì)量。
特征是一個(gè)分類模型重要的知識(shí)來源,特征的好壞直接影響系統(tǒng)的分類效果。在引文情感分類的系統(tǒng)中,本文分別選取了引文Ngram值(Ngram),引文依賴關(guān)系(Dependency),引文標(biāo)識(shí)位置指示(Identification),引文情感詞匯(SentimentWords)4個(gè)特征。為了全面客觀地衡量識(shí)別結(jié)果,我們采用綜合準(zhǔn)確率和召回率的F1值作為評(píng)估指標(biāo)。融合4個(gè)特征的系統(tǒng)情感分類的F1值達(dá)到81%,比Awais系統(tǒng)的F1值提高了5%,其中中性引用的識(shí)別準(zhǔn)確度高達(dá)97%。
同時(shí),為了驗(yàn)證這4個(gè)特性各自的作用,我們還采用依次逐步添加的方法,添加引文標(biāo)識(shí)位置指示后,總體的F1值增加了5%,尤其是褒義的F1值提高了13%,提升幅度較大。說明與引文標(biāo)識(shí)臨近的詞匯比距離較遠(yuǎn)的詞匯更可能體現(xiàn)引文的情感,應(yīng)加大關(guān)注的權(quán)重。從總的實(shí)驗(yàn)結(jié)果來看,這套自動(dòng)識(shí)別引文情感的系統(tǒng),其區(qū)分度較強(qiáng),分類性能較好,能夠滿足特定領(lǐng)域引文情感自動(dòng)分析的功能,基本可以達(dá)到實(shí)際使用的標(biāo)準(zhǔn)。
4 結(jié) 語
引文情感分析在諸多研究領(lǐng)域有廣泛的應(yīng)用,尤其在對(duì)科技論文的評(píng)價(jià)和檢索方面,具有較高的應(yīng)用價(jià)值和廣闊的前景。為了探索大規(guī)模引用情感數(shù)據(jù)的生成方法,本文在分析引文情感特征的基礎(chǔ)上,嘗試構(gòu)建一個(gè)引文情感自動(dòng)識(shí)別的模型,為更準(zhǔn)確地揭示引文情感的特點(diǎn)和作用提供數(shù)據(jù)支撐。采用SVM等機(jī)器學(xué)習(xí)方法,在自動(dòng)鑒別引文的情感傾向性中取得了較好的效果,F(xiàn)1值達(dá)到81%,準(zhǔn)確率達(dá)到93.4%,能夠滿足引文情感分析的基本需求。
引文情感分析從引文內(nèi)容分析的角度,嘗試解決引文的同一化問題,是對(duì)傳統(tǒng)引文分析和現(xiàn)有的科技論文評(píng)價(jià)方法的擴(kuò)展。從目前文獻(xiàn)的規(guī)模和增長速度看,單靠人工完成難以處理,因此本文設(shè)計(jì)了自動(dòng)識(shí)別引文情感的系統(tǒng)。但系統(tǒng)還需要嘗試應(yīng)用在更多研究領(lǐng)域,進(jìn)一步提高系統(tǒng)的準(zhǔn)確率和魯棒性。下一步計(jì)劃利用更多的自然語言處理的技術(shù)手段和機(jī)器學(xué)習(xí)算法,通過深入交叉研究更好地處理文獻(xiàn)數(shù)據(jù),提高引文情感分析的效果,為情感分析的指標(biāo)用于學(xué)術(shù)論文評(píng)價(jià)打下堅(jiān)實(shí)的基礎(chǔ),最終將引文情感分析實(shí)際應(yīng)用于特定領(lǐng)域的科技管理和科技評(píng)價(jià)工作中。
參考文獻(xiàn)
[1]Small H.Citation Context Analysis[J].Progress in Conununication Sciences,1982,(3):287-310.
[2]Teufel S,Siddharthan A,Athar D.Automatic Classification of Citation Function[C]//Proceedings of the 2006 Conference on EmPirical Methods in Natural Language Processing.Sydney:Association for Computational Linguistics,2006:103-110.
[3]Abujbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2013:596-606.
[4]徐健,李綱,毛進(jìn),等.文獻(xiàn)被引片段特征分析與識(shí)別研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(11):37-4.
[5]Small H.Interpreting Maps of Science Using Citation Context Sentiments:A Preliminary Investigation[J].Scientometrics,2011,87 (2):373-388.
[6]Sula C A,Miller M.Citations,Contexts,and Humanistic Discourse:Toward Automatic Extraction and Classification[J].Literary and Linguistic Computing,2014,29(3):452-464.
[7]Christian C,Nicola Lacetera,Alexander Oettl.The Incidence and Role of Negative Citations in Science[J].PNAS,2015,112(45):13823-13826.
[8]尹莉.“極性”概念在引文分析中應(yīng)用的一個(gè)實(shí)證研究[J].情報(bào)雜志,2017,36 (8):124-143.
[9]Yousif A,Niu Z,Tarus J K,et al.A Survey on Sentiment Analysis of Scientific Citations[J].Artificial Intelligence Review,2017:1-34.
[10]遲玉琢,王延飛.面向科學(xué)數(shù)據(jù)管理的科學(xué)數(shù)據(jù)引用內(nèi)容分析框架[J].情報(bào)學(xué)報(bào),2018,(1):43-51.