国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于引文內(nèi)容的圖書被引動機(jī)研究

2019-09-24 01:43:41李卓趙夢圓柳嘉昊周清清章成志
圖書與情報 2019年3期

李卓 趙夢圓 柳嘉昊 周清清 章成志

摘? ?要:文章針對目前圖書影響力評價研究的不全面性,從引文內(nèi)容的角度對圖書在其施引文獻(xiàn)中的被引用動機(jī)情況進(jìn)行探究分析。首先,基于現(xiàn)有研究歸納出三種圖書被引動機(jī)分類標(biāo)準(zhǔn)——使用、比較和背景引用;其次,以五個學(xué)科領(lǐng)域中文圖書為例,獲取其在施引文獻(xiàn)中的引文內(nèi)容信息,并標(biāo)注引文的動機(jī)標(biāo)簽;最后,探究圖書的被引動機(jī)分布及其與引用位置、引用長度的關(guān)系。實(shí)證分析結(jié)果顯示,圖書被引動機(jī)中"使用"占比較大。同時,引用動機(jī)與引用位置存在顯著相關(guān)性,而與引用長度無明顯相關(guān)性。此外,不同學(xué)科領(lǐng)域圖書在施引文獻(xiàn)中的引用動機(jī)存在差異。

關(guān)鍵詞:引文內(nèi)容;引用動機(jī);圖書被引行為;學(xué)科差異

中圖分類號:G250.7;G252? ?文獻(xiàn)標(biāo)識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019046

Citing Motivation of Book Based on Citation Content

Abstract In view of the incompleteness of the current research on the evaluation of book influence, this paper explores and analyses the motivation of books being cited in the citation literature from the perspective of citation content. Firstly, based on the existing research, three classification criteria of citation motivation are summarized: use, comparison and background citation. Then, the citation content information of Chinese books in the citation literature of five disciplines was obtained, and the motivation label of the citation was marked. Finally, the distribution of book cited motivation and its relationship with citation location and length was analyzed. Empirical analysis shows that the proportion of "use" in book-citing motivation is relatively large. At the same time, there is a significant correlation between citation motivation and citation location, but no significant correlation with citation length. In addition, there are differences in the motives of citation of books in different disciplines.

Key words citation content; citation motivation; book citation behavior; subject difference

1? ?引言

引文內(nèi)容是指文獻(xiàn)正文中引用參考文獻(xiàn)的句子,也可包括其上下文,即引文句的前后[1],依據(jù)引文內(nèi)容可以獲取引文在施引文獻(xiàn)中被引用的頻率、位置、主題、動機(jī)等重要信息[2]。近年來,從引文內(nèi)容的角度分析學(xué)術(shù)論文的影響力評價已經(jīng)取得一定的成果,如趙青[3]和王嵐[4]基于引文內(nèi)容從引用性質(zhì)和引用深度進(jìn)行引文分析,以區(qū)分每條引文的作用,從而提高目前引文數(shù)據(jù)評價的準(zhǔn)確性;劉盛博和丁堃[1]提出了引用性質(zhì)和引文質(zhì)量的評價方法,進(jìn)而應(yīng)用于評價科研人員和期刊評價。

而同樣作為學(xué)術(shù)交流重要資源的圖書,目前仍主要以被引次數(shù)、專家評論等進(jìn)行影響力評價[5],也有部分學(xué)者從引文分析的角度進(jìn)行研究,如阮選敏等[6]探討了與書名、學(xué)科、出版社、作者等相關(guān)的10個對圖書被引的影響因素,采用非參數(shù)檢驗(yàn)及回歸分析等方法對學(xué)術(shù)圖書進(jìn)行分析,結(jié)果表明10個因素對圖書被引的擬合優(yōu)度較低,說明更重要的影響因素有待于進(jìn)一步發(fā)掘。

因此本文嘗試從引文內(nèi)容的角度對圖書被引的影響進(jìn)行更加深入的分析。White[7]指出引文內(nèi)容主要有引文分類、引文內(nèi)容分析和引用動機(jī)識別三個方面的應(yīng)用。通常引用動機(jī)識別比較復(fù)雜,相關(guān)研究對引用動機(jī)的分類標(biāo)準(zhǔn)和實(shí)現(xiàn)方法各有不同。目前,被引次數(shù)、h指數(shù)等方法忽略施引作者的引用動機(jī),由此進(jìn)行影響力評價是不全面的[8]。

為此,本文以中文圖書為研究對象,基于圖書在施引文獻(xiàn)中的引文內(nèi)容,對圖書的被引動機(jī)分布情況進(jìn)行了統(tǒng)計,同時探究了圖書被引動機(jī)與圖書被引位置、被引長度之間的關(guān)系,并從學(xué)科領(lǐng)域的角度分析圖書被引動機(jī)的差異性。具體而言,從亞馬遜中文網(wǎng)站中選取來自5個學(xué)科領(lǐng)域的399本圖書作為研究對象;然后人工采集圖書在施引文獻(xiàn)中的引文內(nèi)容及其上下文信息,構(gòu)建了含有2288條引文內(nèi)容的語料庫;接著通過人工標(biāo)注的方法確定引用動機(jī)、引用位置、引用長度等信息;最后對圖書的被引動機(jī)進(jìn)行深入地探究。本文的研究意義在于:一方面,選取中文圖書作為研究對象進(jìn)行引文內(nèi)容層面的分析,與現(xiàn)有較多以學(xué)術(shù)論文為對象的研究形成對比,可以擴(kuò)展引文分析研究的全面性;另一方面,從引文內(nèi)容的角度對圖書被引動機(jī)進(jìn)行研究,為圖書影響力評價提供新視角。

2? ?相關(guān)研究工作概述

引用動機(jī)是指施引作者對參考文獻(xiàn)的引用目的或意圖[9],其蘊(yùn)藏著豐富的信息,既能結(jié)合引文內(nèi)容的其他特征分析引文的特性,發(fā)現(xiàn)學(xué)科領(lǐng)域之間的引用規(guī)律,還可以為學(xué)術(shù)作品評價提供參考。部分學(xué)者將作者對參考文獻(xiàn)的引用目的稱為引文動機(jī)、引文目的、引用功能,為了敘述的需要,本文將之統(tǒng)稱為引用動機(jī)。在對引用動機(jī)的相關(guān)研究中,1975年Moravcsik和Murugesan[10]對于引用動機(jī)的研究具有一定的代表性,為其后學(xué)者奠定了研究基礎(chǔ)。他們從四個不同維度對引用進(jìn)行分類——概念性或操作性引用、陳述性或敷衍性引用、擴(kuò)展的或繼承性引用、質(zhì)疑的或否定性引用,并對30篇文獻(xiàn)的706次引用進(jìn)行標(biāo)注分析,發(fā)現(xiàn)概念性引用多于操作性引用,同時約40%的引用是敷衍性引用,不同的引用對引文評價有不同的影響。本文從引用動機(jī)的研究方法和引用動機(jī)分類兩個方面概述相關(guān)研究。

2.1? ? 引用動機(jī)研究方法研究概述

關(guān)于引用動機(jī)的研究方式主要有兩種[11]:首先是直接通過文章作者獲取真實(shí)引用動機(jī),如訪談、調(diào)查問卷等;其次是基于引文內(nèi)容來識別作者的引用動機(jī),如人工標(biāo)注、自動標(biāo)注等。早期由于引文文本研究的樣本量較少以及技術(shù)的限制[9],大多數(shù)學(xué)者依靠訪談、調(diào)查問卷、人工標(biāo)注的方式獲取引用動機(jī)。近年來,計算機(jī)的技術(shù)快速發(fā)展讓學(xué)者更加傾向利用計算機(jī)自動標(biāo)注數(shù)據(jù),且處理速度快,可處理樣本容量大,效率較高。本文針對目前研究人員獲取引用動機(jī)的具體研究方法,將其歸納為以下三種。

(1)訪談或調(diào)查問卷獲取引用動機(jī)。該方法可直接通過文章作者獲取其對參考文獻(xiàn)的引用動機(jī),如2009年,馬鳳和武夷山[12]進(jìn)行兩項問卷調(diào)查工作:第1項是調(diào)查307位中國科技期刊研究界的科研人員對已給定的17種引用動機(jī)的重要程度評定情況;第2項是調(diào)查80位文獻(xiàn)作者引用最新所發(fā)表論文的參考文獻(xiàn)的引用動機(jī)情況,最終表明,兩個結(jié)果從整體上來看較為一致,且引用是由多種因素引發(fā)的結(jié)果。2015年,邱均平等[13]也向科研人員發(fā)放調(diào)查問卷獲取作者的引用動機(jī),共收到157份有效問卷,通過分析問卷結(jié)果來研究引用動機(jī)之間的相互影響關(guān)系。訪談或調(diào)查問卷都可以直接反映文章作者對參考文獻(xiàn)的引用動機(jī),但實(shí)驗(yàn)數(shù)據(jù)少,操作復(fù)雜,容易忽略其他引文內(nèi)容信息,如引文在施引文獻(xiàn)中被引用的位置、次數(shù)、內(nèi)容長度等信息。

(2)人工標(biāo)注引用動機(jī)。早期的研究多是探究性的,且計算機(jī)技術(shù)以及電子數(shù)據(jù)庫不完善等因素,采用的語料規(guī)模較小,學(xué)者通過引文內(nèi)容信息人工標(biāo)注文章作者的引用動機(jī)。在Moravcsik和Murugesan[10]關(guān)于引用動機(jī)的研究中,通過人工標(biāo)注的方式,對不同引用進(jìn)行動機(jī)分類,進(jìn)而分析引用動機(jī)分布情況。人工標(biāo)注一般都是專業(yè)的標(biāo)注人員根據(jù)預(yù)先的動機(jī)分類標(biāo)準(zhǔn)對引用進(jìn)行動機(jī)標(biāo)注[9],而且部分計算機(jī)標(biāo)注的方法需要依靠人工標(biāo)注的結(jié)果去實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)標(biāo)注任務(wù),但人工標(biāo)注主觀性太強(qiáng),且需要大量的人力和時間,樣本容量也比較小。

(3)計算機(jī)標(biāo)注引用動機(jī)。由于訪談或調(diào)查問卷以及人工標(biāo)注的操作都比較復(fù)雜,無法大規(guī)模獲取實(shí)驗(yàn)數(shù)據(jù),目前越來越多的學(xué)者利用計算機(jī)進(jìn)行引用動機(jī)的標(biāo)注。2006年,Teufel等[14]驗(yàn)證了計算機(jī)標(biāo)注的可靠性,首先由3名標(biāo)注人員利用統(tǒng)一標(biāo)準(zhǔn)對計算機(jī)語言學(xué)的26篇文章的548次引用進(jìn)行人工標(biāo)注,通過Kappa值的計算(K=0.72),測量3人標(biāo)注的一致性;然后采用人工標(biāo)注和機(jī)器學(xué)習(xí)的方法,分別對來自計算機(jī)語言學(xué)的116篇文章的2829次引用進(jìn)行動機(jī)標(biāo)注,通過計算兩種標(biāo)注方式結(jié)果的Kappa值(K=0.57)和Macro-F(Macro-F=0.57)用于度量機(jī)器標(biāo)注的準(zhǔn)確性。2013年,Abu-Jbara等[15]通過引文內(nèi)容識別以及引用動機(jī)和引文極性自動標(biāo)注的分析,驗(yàn)證計算機(jī)標(biāo)注方法具有較高的準(zhǔn)確率,并發(fā)現(xiàn)基于引文上下文的標(biāo)注相對于只依據(jù)引文內(nèi)容提高了計算機(jī)標(biāo)注的準(zhǔn)確性。2015年,Hernández-Alvarez 和Gomez[16]從ACL Anthology隨機(jī)選取85篇文章構(gòu)成引文語料庫,通過對部分文章作者關(guān)于引用動機(jī)調(diào)查的結(jié)果和相應(yīng)的計算機(jī)標(biāo)注進(jìn)行比較,說明了計算機(jī)標(biāo)注結(jié)果有較高的準(zhǔn)確性。然而目前基于數(shù)據(jù)開放程度以及引用內(nèi)容自動抽取不完善等問題,還很難從大規(guī)模文獻(xiàn)語料中高正確率和召回率地對引用動機(jī)進(jìn)行自動分類[2]。隨著自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)日益成熟,今后的動機(jī)分類研究將更注重自動分類以及從大規(guī)模文本獲取更豐富的知識,以幫助引文分析研究更加細(xì)致和深入。

從現(xiàn)有研究可以看出,計算機(jī)標(biāo)注是目前學(xué)者獲取引用動機(jī)的主要方法,相比其他方法,可以更快處理大規(guī)模數(shù)據(jù)。但是本文由于無法對引文數(shù)據(jù)進(jìn)行大規(guī)模獲取,同時考慮到對圖書的被引動機(jī)作初步探究,不同學(xué)科之間的被引動機(jī)可能存在差異性,為保證數(shù)據(jù)標(biāo)注結(jié)果的可靠性和準(zhǔn)確性,本文采用人工標(biāo)注的方法從引文內(nèi)容獲取引用動機(jī)。

2.2? ? 引用動機(jī)分類相關(guān)研究工作概述

關(guān)于引用動機(jī)的分類目前還沒有統(tǒng)一的標(biāo)準(zhǔn),不同的學(xué)者持有各自的觀點(diǎn)。2006年,Teufel等[14]將引用動機(jī)分為4類——明確表明缺點(diǎn)、與其他文章對比或比較、贊同或使用其他文章、中性的,在此基礎(chǔ)上細(xì)分12個標(biāo)準(zhǔn)進(jìn)行動機(jī)分類研究,之后又將這12個標(biāo)準(zhǔn)歸到三大類別——負(fù)面、中性、正面;然后,由3名標(biāo)注人員對計算機(jī)語言學(xué)的26篇文章的548次引用分別按照12個類別和3個類別進(jìn)行動機(jī)標(biāo)注,并計算兩種標(biāo)注方式結(jié)果的Kappa值分別為:0.72(n=12,N=548,k=3)、0.75(n=3,N=548,k=3),相比而言,標(biāo)注人員按照3分類標(biāo)準(zhǔn)的標(biāo)注結(jié)果一致性較高。2013年,Abu-Jbara等[15]對自然語言處理領(lǐng)域30篇學(xué)術(shù)論文在施引文獻(xiàn)中的3500條引文內(nèi)容及其上下文進(jìn)行動機(jī)標(biāo)注,他們將引用動機(jī)劃分為6種類型——批評、比較、實(shí)驗(yàn)、證明、依據(jù)、中性。2013年,朱大明[17]基于引文原理和影響引用動機(jī)的各種因素,將參考文獻(xiàn)的引用動機(jī)分為學(xué)術(shù)性動機(jī)和非學(xué)術(shù)性動機(jī),同時將學(xué)術(shù)性動機(jī)劃分成10種小類。2015年,邱均平等[13]將引用動機(jī)分為內(nèi)在引用動機(jī)(包括知識主張、價值感知)和外在引用動機(jī)(包括信息源便利性、引用輸出、引用重要性),他們對收到的157份有效問卷進(jìn)行引用動機(jī)間影響關(guān)系的探究。2015年,Hernández-Alvarez 和Gomez[16]將引用動機(jī)分為6種類型——依據(jù)或彌補(bǔ)、使用、贊同或討論、比較、不足或有待改正、模糊,從而對來自計算機(jī)語言處理領(lǐng)域的85篇文章的引用進(jìn)行動機(jī)標(biāo)注。2015,Valenzuela等[18]對自然語言處理領(lǐng)域?qū)W術(shù)論文的465次引用進(jìn)行動機(jī)標(biāo)注,他們將引用動機(jī)分為使用、擴(kuò)展、相關(guān)工作、比較,并認(rèn)為如果以拓展或使用為目的的引用,對于文章來說是重要的;如果是作為背景引用或以比較結(jié)果為目的,則被視為不重要的引用。2018年,尹莉等[8]從SCIE數(shù)據(jù)庫和CSCD數(shù)據(jù)庫中選出計算機(jī)語言學(xué)研究的98篇學(xué)術(shù)論文的約2540條引文記錄,并進(jìn)行動機(jī)標(biāo)注,他們將引用動機(jī)分為4大類和8小類,即使用(包括被依據(jù)的、供應(yīng)、有用的)、比較(包括對照)、批評(包括弱點(diǎn)、回避)和背景(包括獲得、證實(shí))。2018年,Jurgens等[19]選擇自然語言處理領(lǐng)域的52篇文章的1969次引用進(jìn)行動機(jī)標(biāo)注,他們將引用動機(jī)分為6種類別——背景、使用、比較或?qū)Ρ?、動機(jī)、擴(kuò)展、未來展望。

從上述的研究可以看出,不同的學(xué)者對引用動機(jī)的分類標(biāo)準(zhǔn)存在差異。一方面,這與學(xué)者的研究目的和研究方法不同存在一定的關(guān)聯(lián);另一方面,不同的學(xué)者對引用動機(jī)概念的界定有所差別,有些學(xué)者區(qū)分引用過程中的贊成和批評意見,而有的學(xué)者則認(rèn)為都是闡述前人的工作,不必加以區(qū)分[9,20]。另外綜合近幾年的研究來看,為了保證分類效率和準(zhǔn)確性,學(xué)者對動機(jī)類別劃分的數(shù)量較少,且類別特征多數(shù)包含“使用”“比較”和“背景引用”等[8,16,18,19]。本文主要對圖書的被引動機(jī)作初探性的研究,其引用動機(jī)的定義主要反映施引作者的引用目的,強(qiáng)調(diào)施引作者引用圖書對文章產(chǎn)生的作用,且為客觀存在的動機(jī),而不考慮情感極性等其他因素,因此本文綜合以上研究將圖書的被引動機(jī)劃分為“使用”“比較”和“背景引用”三類。

3? ?研究方法

本文通過獲取圖書在施引文獻(xiàn)中的引文內(nèi)容,分析其被引動機(jī)的分布情況,并研究引用動機(jī)與引用位置、引用長度的相關(guān)性。本文研究框架包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等三個部分(見圖1)。

3.1? ? 數(shù)據(jù)采集和處理

本文研究的圖書元數(shù)據(jù)信息和圖書施引文獻(xiàn)的元數(shù)據(jù)信息分別來源于亞馬遜中文網(wǎng)站(https://www.amazon.cn/)和百度學(xué)術(shù)(http://xueshu.baidu.com/),在2016年11月完成數(shù)據(jù)采集工作。目前主流的中文全文數(shù)據(jù)庫如知網(wǎng)、萬方、維普等均存在部分文獻(xiàn)未收錄的情況,為了盡可能地找到圖書的所有施引文獻(xiàn)信息,本研究以百度學(xué)術(shù)作為檢索入口,以中文圖書的元數(shù)據(jù)信息作為檢索關(guān)鍵詞,獲取圖書的施引文獻(xiàn)信息。相比于以單一的中文全文數(shù)據(jù)庫作為檢索入口,百度學(xué)術(shù)更可能覆蓋所有施引文獻(xiàn)的信息。本文在選取圖書的學(xué)科領(lǐng)域時,首先以亞馬遜官方網(wǎng)站提供的中文圖書商品分類1的一級類目為基礎(chǔ),同時考慮到一級類目與學(xué)科分類類目的匹配程度以及自然學(xué)科和人文社會學(xué)科的差異,我們最終以計算機(jī)、法律、文學(xué)、醫(yī)學(xué)、體育五個學(xué)科領(lǐng)域?yàn)槔?,通過學(xué)術(shù)論文全文數(shù)據(jù)庫獲取圖書引文內(nèi)容數(shù)據(jù)集,通過以下兩個數(shù)據(jù)獲取的步驟,構(gòu)建圖書的引文內(nèi)容語料庫。

(1)根據(jù)圖書在亞馬遜中文網(wǎng)站上的評論數(shù)必須大于或等于1、圖書在百度學(xué)術(shù)上被引次數(shù)大于或等于1、并且圖書必須包含目錄信息的原則,得到計算機(jī)、法律、文學(xué)、醫(yī)學(xué)、體育五個學(xué)科領(lǐng)域的圖書6006種。

(2)為了保證引文內(nèi)容的準(zhǔn)確性,我們采用人工標(biāo)注的方法獲取這些圖書被引的引文內(nèi)容及其上下文(即引文內(nèi)容的前兩句和后兩句)。但鑒于人工標(biāo)注方法的工作量大且成本較高,因此,我們僅從6006種圖書中選擇500種作為實(shí)驗(yàn)對象。由于6006種圖書的被引分布存在差異,如被引次數(shù)在[0-5]區(qū)間的較多,而被引大于15次的相對較少,為使獲得的引文內(nèi)容數(shù)據(jù)更具有代表性,我們根據(jù)圖書被引分布,按比例(即6006種圖書在各被引區(qū)間的分布比例)抽取各個被引區(qū)間的圖書共計500種。

在獲取施引文獻(xiàn)全文信息后,主要完成引文語料庫的構(gòu)建。由于引文上下文中包含施引者對該文獻(xiàn)的描述與評價,蘊(yùn)含了施引者的引用動機(jī)[21],所以本文采集的引文內(nèi)容不僅包含帶有標(biāo)注序號的引文句,還有引文的前兩句和后兩句內(nèi)容。采集人員在摘取引文內(nèi)容的同時,根據(jù)引文內(nèi)容所在章節(jié)段落的標(biāo)題以及全文信息判斷引用位置,本文將引用位置劃分為引言、相關(guān)工作、方法、數(shù)據(jù)、實(shí)驗(yàn)、結(jié)果、討論七個類別;引用長度即為引文句的字?jǐn)?shù),可在引文內(nèi)容采集完成后進(jìn)行計算[22]。

數(shù)據(jù)處理過程主要針對以下情況進(jìn)行數(shù)據(jù)過濾:(1)合并處理。部分文獻(xiàn)作者相同,內(nèi)容無異,僅標(biāo)題有個別字的差異;部分文獻(xiàn)被翻譯成英文文獻(xiàn),且被發(fā)表在不同的期刊中,對于這些情況我們僅將其當(dāng)成一篇文章處理,其引用不重復(fù)累計;(2)糾錯處理。由于期刊的頁面排版等因素,部分文獻(xiàn)的引用出現(xiàn)在錯版的文章中,因此這些引用無效,需要剔除掉;(3)刪除處理。部分文獻(xiàn)在引用過程中沒有標(biāo)注參考文獻(xiàn)編號;部分文獻(xiàn)無法在國內(nèi)的主流數(shù)據(jù)庫檢索到,也無法在搜索引擎中獲得全文,因此這些文獻(xiàn)也無法獲取引文內(nèi)容信息。經(jīng)過數(shù)據(jù)清洗,我們最終得到399本圖書的引文句及其上下文(構(gòu)建的圖書引文內(nèi)容語料庫具體情況見表1)。

3.2? ? 數(shù)據(jù)標(biāo)注

由于本研究圍繞圖書被引動機(jī)展開,與已有關(guān)于學(xué)術(shù)論文的被引動機(jī)研究存在差異,其分類標(biāo)準(zhǔn)自然也不能一概而論,本文結(jié)合已有的研究,將圖書的被引動機(jī)分為三種類別——“使用”“比較”和“背景引用”,相比而言,這三類之間的區(qū)分度也較強(qiáng)。為了使每種分類標(biāo)準(zhǔn)的定義區(qū)分更加明確,同時讓標(biāo)注人員在標(biāo)注過程中更容易判別,本文對每個類別進(jìn)行了詳細(xì)的描述。朱大明[17]基于引文原理和影響引用動機(jī)的各種因素,將參考文獻(xiàn)的引用動機(jī)分為學(xué)術(shù)性動機(jī)和非學(xué)術(shù)性動機(jī),同時將學(xué)術(shù)性動機(jī)劃分成10小類,其描述相比而言較為詳細(xì)和全面,鑒于本文涉及的圖書被引動機(jī)主要反映施引作者的引用目的,即科研人員學(xué)術(shù)型動機(jī),為此本文參考了朱大明的詳細(xì)分類情況,并對其描述進(jìn)行了調(diào)整和補(bǔ)充,在此基礎(chǔ)之上使其成為三種類別的具體描述,最終得到本文所采用的動機(jī)分類標(biāo)準(zhǔn)(見表2)。在實(shí)際標(biāo)注過程中,該描述基本能覆蓋所有已采集的語料。

為了減少標(biāo)注過程的誤差,本文標(biāo)注任務(wù)由三位標(biāo)注人員獨(dú)立完成。在正式標(biāo)注之前,三位標(biāo)注者預(yù)標(biāo)注30條數(shù)據(jù),驗(yàn)證標(biāo)注方法的可行性和可靠性。在標(biāo)注過程中,標(biāo)注者結(jié)合引文的上下文內(nèi)容判斷引文的動機(jī),并嚴(yán)格按照人工采集數(shù)據(jù)信息表的標(biāo)準(zhǔn)和描述進(jìn)行歸類,為驗(yàn)證人工標(biāo)注結(jié)果的一致性,本文利用Kappa 系數(shù)作為一致性評價指標(biāo),對三位標(biāo)注者標(biāo)注結(jié)果的一致性進(jìn)行評估。Kappa系數(shù)定義如下[23]:

其中P(A)表示標(biāo)注結(jié)果一致性的實(shí)際觀測值,P(E)表示標(biāo)注結(jié)果一致性的期望值。

本文將三位標(biāo)注者的結(jié)果分別兩兩計算Kappa值,得到各個領(lǐng)域兩者一致性最高的結(jié)果(見表3)。根據(jù)Carletta[23]給出的一致性參考指標(biāo)(K≥0.8為十分可靠,K≥0.69較為可靠),每個領(lǐng)域最高的一致性結(jié)果均大于0.69,說明標(biāo)注結(jié)果較為可靠。在此基礎(chǔ)上,為了統(tǒng)一標(biāo)注的結(jié)果,本文選取至少兩位標(biāo)注者相同的標(biāo)注結(jié)果作為參考,另外對于三者的標(biāo)注結(jié)果均不相同的情況,則將其按照分類標(biāo)準(zhǔn)重新討論確定,最終確定一份統(tǒng)一的動機(jī)標(biāo)注結(jié)果。

3.3? ? 數(shù)據(jù)分析

數(shù)據(jù)分析部分首先分析圖書被引動機(jī)的整體分布,考慮到動機(jī)的分類研究是基于引文內(nèi)容的語義信息,而引用位置和引用長度并不依賴文本的語義信息[9],因此本文從圖書被引位置和被引長度兩個角度,對圖書被引動機(jī)的相關(guān)性進(jìn)行探究。另外本文還分析了各個領(lǐng)域圖書被引動機(jī)的比例分布,并通過JS(Jensen-Shannon)[24]散度計算不同領(lǐng)域圖書在被引動機(jī)分布上的相似性。

為了探究不同領(lǐng)域之間圖書被引動機(jī)的相似性,本文試用JS(Jensen-Shannon)距離作為引用動機(jī)相似性的度量標(biāo)準(zhǔn),JS距離是基于KL距離的不對稱性而進(jìn)行改進(jìn)的計量指標(biāo),其公式定義如下[25]:

其中,p和q為兩個學(xué)科領(lǐng)域圖書被引動機(jī)分布,pi和qi分別是其學(xué)科領(lǐng)域?qū)?yīng)的第i種引用動機(jī)下的概率分布,引用動機(jī)的類別數(shù)為n。由于兩個學(xué)科領(lǐng)域的相似性具有對稱性,JS散度能很自然地衡量不同領(lǐng)域所構(gòu)成的隨機(jī)分布之間的距離,比其他測量距離的方法更好[24]。JS 距離越小,表明概率相似度越大,其對應(yīng)的領(lǐng)域之間圖書被引動機(jī)的相似性越大。通過對比不同領(lǐng)域之間的相似度,可以更好的分析基于引文內(nèi)容的圖書被引動機(jī)行為,同時也可以反映不同領(lǐng)域在圖書引用動機(jī)上的差異性。

4? ?結(jié)果分析

本文圍繞圖書的被引動機(jī)展開了以下分析:首先基于圖書在施引文獻(xiàn)中的引文內(nèi)容,對圖書的被引動機(jī)整體分布情況進(jìn)行了統(tǒng)計,接著探究了圖書被引動機(jī)與圖書被引位置、被引長度之間的關(guān)系,最后從學(xué)科領(lǐng)域的角度分析圖書被引動機(jī)的差異性。

4.1? ? 圖書的被引動機(jī)分布

本文將已標(biāo)注的引用動機(jī)進(jìn)行統(tǒng)計得到圖書的被引動機(jī)分布圖的結(jié)果(見圖2)。從圖中的總體情況來看,“使用”動機(jī)占比較大,平均達(dá)到71.06%,說明作者在引用圖書時,更傾向于通過引用來佐證自己的觀點(diǎn),使文章有理有據(jù)。“背景引用”通常用于闡明作者寫作意圖和論文的新穎性,在本研究中,該動機(jī)所占比重約為25%。相比而言,“比較”動機(jī)占比較小,低于5%。而對于以學(xué)術(shù)論文為研究對象的引用動機(jī)研究,Valenzuela等[18]對來自ACL文章中465次引用的數(shù)據(jù)集進(jìn)行動機(jī)標(biāo)注,結(jié)果顯示以“相關(guān)工作”和“比較”為引用動機(jī)的占比達(dá)到85.4%,而“使用”和“拓展”動機(jī)僅為14.6%;Jurgens等[19]對ACL文章中1969次引用進(jìn)行動機(jī)標(biāo)注,結(jié)果表明50%左右的引用為“背景引用”[19],這與圖書被引動機(jī)的分布存在著差異。筆者認(rèn)為,圖書與學(xué)術(shù)論文在動機(jī)分布產(chǎn)生差異的原因,一方面可能是不同作者的動機(jī)分類標(biāo)準(zhǔn)不統(tǒng)一;另一方面可能是研究對象的不同,學(xué)術(shù)論文側(cè)重于研究成果公示,時效性強(qiáng),可以在一定程度上反映出該領(lǐng)域的研究熱點(diǎn)和進(jìn)展[26],因此作者引用學(xué)術(shù)論文時,“背景引用”占比較大,而圖書對知識的闡述更加系統(tǒng)和完整[26],因此作者更加側(cè)重引用圖書作為理論的支撐,與本研究中圖書被引動機(jī)“使用”占比較大的結(jié)果相印證。

4.2? ? 基于引用長度的動機(jī)分析

本文將引用內(nèi)容的長度升序排列,發(fā)現(xiàn)絕大部分引用長度在220字以內(nèi),僅有2.14%的引用長度分布在220至600字之間。通過對引用長度小于220字的引用進(jìn)行引用動機(jī)與長度的關(guān)聯(lián)分析,得到引用長度的動機(jī)分布圖(見圖3),其中橫坐標(biāo)為引用長度區(qū)間,如10代表引用長度小于10的區(qū)間,20代表引用長度大于或等于10并小于20的區(qū)間,以此類推。從圖中可以看出,在每一段區(qū)間內(nèi)“使用”占比在65%-80%之間,“背景引用”占比在15%-30%之間,與圖2中三種動機(jī)總體分布較為相符,且每段區(qū)間的比例分布起伏相對平穩(wěn),沒有出現(xiàn)某種動機(jī)出現(xiàn)在固定長度之間或者相對聚集的情況,說明學(xué)者在引用圖書時,不會因?yàn)橐脛訖C(jī)的不同而控制引文的長度。

4.3? ? 基于引用位置的動機(jī)分析

在對引用位置進(jìn)行標(biāo)注過程中,我們發(fā)現(xiàn)文學(xué)和法律領(lǐng)域的文章,難以通過全文主題和其所在章節(jié)在全文中的作用來推斷引用位置,且不同作者之間的寫作架構(gòu)存在差異,人工對引用位置的判斷難度較大。相比而言,體育、醫(yī)學(xué)、計算機(jī)三個領(lǐng)域文獻(xiàn)結(jié)構(gòu)較為直觀,章節(jié)標(biāo)題有助于標(biāo)注者判斷引用位置。因此,我們僅獲得了體育、醫(yī)學(xué)、計算機(jī)領(lǐng)域圖書在施引文獻(xiàn)中的引用位置。

我們將不同引用位置的動機(jī)分布比例進(jìn)行比較,得到引用位置的動機(jī)分布圖(見圖4)。由圖可見,“背景引用”在引言部分和數(shù)據(jù)部分占比較大,都超過了50%,而方法部分和實(shí)驗(yàn)部分的“背景引用”占比較少,分別為13.4%和9.1%;相比而言,“比較”在引言、相關(guān)工作和討論部分占比較大,占比4.5%左右;在方法和實(shí)驗(yàn)部分,“使用”的占比較大。筆者認(rèn)為,該數(shù)據(jù)結(jié)果可能與文章中不同位置體現(xiàn)的作用存在關(guān)聯(lián)性,一般而言,引言和相關(guān)工作部分主要介紹寫作范圍和目標(biāo)[18],因此作者更傾向“背景引用”;數(shù)據(jù)、方法和實(shí)驗(yàn)部分描述了這項研究是如何進(jìn)行的;結(jié)果部分展示研究的相關(guān)報告;討論部分解釋了結(jié)果的含義,并為未來的工作提供了指導(dǎo)方針[18],因此“比較”引用動機(jī)占比也較多。與Jurgens等人的研究進(jìn)行對比,發(fā)現(xiàn)圖書與學(xué)術(shù)論文在不同位置的被引動機(jī)分布情況存在異同。Jurgens等人同樣表明在引言部分“背景引用”的占比較大,方法和結(jié)果部分的“使用”比重較大,“比較”在討論和相關(guān)工作部分占比相對較多[19]。不同的是學(xué)術(shù)論文的相關(guān)工作部分以“背景引用”動機(jī)為主,討論部分主要為“比較”動機(jī)。總的來說,對于不同位置的動機(jī)分布存在著明顯的差異,位置和動機(jī)間有著一定的關(guān)聯(lián)性。

4.4? ? 不同學(xué)科領(lǐng)域的圖書被引動機(jī)分布

從不同學(xué)科領(lǐng)域角度來看,學(xué)者在對圖書的引用過程中,動機(jī)傾向不同。體育領(lǐng)域的“背景引用”占比43.19%,遠(yuǎn)遠(yuǎn)高于其他領(lǐng)域;法律領(lǐng)域相比其他領(lǐng)域,“比較”占比較大,達(dá)到10.58%;計算機(jī)和文學(xué)領(lǐng)域的“使用”占比分別為78.87%、79.97%(見表4)。其可能原因是,不同領(lǐng)域的作者寫作結(jié)構(gòu)方式不同,導(dǎo)致作者的引用動機(jī)傾向也不同。在文學(xué)領(lǐng)域,作者更傾向于直接引用作品文字,或者復(fù)述作品內(nèi)容,作為自己闡述的論據(jù),因此“使用”動機(jī)占比較大;在法律領(lǐng)域,作者在對問題或案例進(jìn)行剖析時,更善于運(yùn)用比較法進(jìn)行論證,因此“比較”的動機(jī)占比較大;在體育領(lǐng)域,由于理論和實(shí)踐發(fā)展較快,現(xiàn)代體育科學(xué)的綜合性較強(qiáng),背景引用的語句相對較多。總體而言,在對圖書的引用過程中,不同的引用動機(jī)占比不同,同時在不同領(lǐng)域之間存在差異。

為了進(jìn)一步論證不同學(xué)科領(lǐng)域之間圖書被引動機(jī)的差異程度,我們對不同學(xué)科領(lǐng)域的圖書被引動機(jī)分布進(jìn)行JS散度計算,得到不同學(xué)科領(lǐng)域圖書被引動機(jī)分布相似性比較結(jié)果(見表5)。比較可以發(fā)現(xiàn),“計算機(jī)”與“文學(xué)”之間的JS值較小,僅為0.0001,醫(yī)學(xué)和法律之間的JS值也只有0.0058,說明這些領(lǐng)域的圖書被施引文獻(xiàn)引用時,引用動機(jī)表現(xiàn)較為相似,而從學(xué)科交叉的角度來看,以上學(xué)科領(lǐng)域分別來自于自然學(xué)科和人文社會科學(xué),兩者之間的交叉性較小,說明施引作者的引用目的并不會因?yàn)閷W(xué)科交叉性的不同而存在較大差異。相比而言,體育和法律之間的JS值達(dá)0.0498,說明兩者之間的引用動機(jī)相似度較小。從縱向分布來看,體育與其他領(lǐng)域之間JS值均大于0.02,相似性普遍較小。

5? ?結(jié)論與研究展望

本文對引用動機(jī)的研究方法和分類標(biāo)準(zhǔn)進(jìn)行梳理,歸納出三個動機(jī)分類標(biāo)準(zhǔn):背景引用、比較、使用。考慮目前以中文為數(shù)據(jù)來源的研究較少,本文選取中文圖書的施引文獻(xiàn)作為研究對象,并從引文內(nèi)容的角度出發(fā),對圖書的被引動機(jī)進(jìn)行研究?;趯?shí)驗(yàn)數(shù)據(jù)的實(shí)證分析結(jié)果顯示,在引用動機(jī)分布中,相比而言“比較”占比較少,“使用”占比較多,不同領(lǐng)域的學(xué)者在對圖書的引用中,動機(jī)傾向不同,其中“計算機(jī)”與“文學(xué)”之間的JS值較小,說明動機(jī)分布較為相似。本文還基于引用位置和引用長度兩個方面,對引用動機(jī)進(jìn)行相關(guān)性研究,結(jié)果表明,不同的引用長度的動機(jī)分布較為均勻,說明學(xué)者對圖書的引用動機(jī)不會受引用長度的影響,而不同的引用動機(jī)與引文位置在全文中表現(xiàn)的作用有較大的關(guān)聯(lián)性。

本文在對圖書的被引動機(jī)研究中,仍有許多不足之處。首先在數(shù)據(jù)的獲取上,部分的施引文獻(xiàn)由于未有參考文獻(xiàn)標(biāo)號,導(dǎo)致無法獲取具體的引用句,因此在數(shù)據(jù)的全面性上存在缺陷。此外,在對引用動機(jī)的分析過程中,每個領(lǐng)域的數(shù)據(jù)量不均衡,因此在對比中,仍具有一定的片面性。

未來的研究中,可以考慮對數(shù)據(jù)進(jìn)行擴(kuò)充,使各領(lǐng)域之間的數(shù)據(jù)均衡。在標(biāo)注的過程中,可以記錄判斷的線索詞以及標(biāo)注的可信度,并結(jié)合線索詞,設(shè)計機(jī)器學(xué)習(xí)的分類規(guī)則,從而構(gòu)建更加精準(zhǔn)的分類體系。同時,還可以考慮從引用情感和引用功能等語義角度與引用動機(jī)對比分析,更加深入地研究圖書的被引行為,從而為不同學(xué)科領(lǐng)域的圖書評價和科研人員提供更有價值的參考。

參考文獻(xiàn):

[1]? 劉盛博,丁堃.基于引用內(nèi)容的引文評價分析[C].第九屆中國科技政策與管理學(xué)術(shù)年會論文集,2013:1-7.

[2]? 劉瀏,王東波.引用內(nèi)容分析研究綜述[J].情報學(xué)報,2017,36(6):637-643.

[3]? 趙青.文學(xué)學(xué)科引用性質(zhì)與引用深度調(diào)查分析[J].情報雜志, 2010,29(10):46-50.

[4]? 王嵐.中文人文社會科學(xué)引用性質(zhì)與引用深度研究[D].南京:南京大學(xué),2009.

[5]? 章成志,童甜甜,周清清.整合不同評論平臺的圖書綜合影響力評價研究[J].情報學(xué)報,2018,37(9):861-873.

[6]? 阮選敏,呂冬晴,張培,等.我國人文社會科學(xué)學(xué)術(shù)圖書被引影響因素研究[J].圖書館論壇,2019,39(5):33-45.

[7]? White H D.Citation analysis and discourse analysis revisited[J].Applied Linguistics,2004,25(1):89-116.

[8]? 尹莉,郭璐,李旭芬.基于引用功能和引用極性的一個引用分類模型研究[J].情報雜志,2018,37(7):139-145.

[9]? 王文娟,馬建霞,陳春,等.引文文本分類與實(shí)現(xiàn)方法研究綜述[J].圖書情報工作,2016,60(6):118-127.

[10]? Moravcsik M J,Murugesan P.Some Results on the Function and Quality of Citations[J].Social Studies of Science,1975,5(1):86-92.

[11]? 劉君玉.引文分析的評價[J].情報理論與實(shí)踐,1998,21(2):87-89.

[12]? 馬鳳,武夷山.關(guān)于論文引用動機(jī)的問卷調(diào)查研究——以中國期刊研究界和情報學(xué)界為例[J].情報雜志,2009,28(6):9-14.

[13]? 邱均平,陳曉宇,何文靜.科研人員論文引用動機(jī)及相互影響關(guān)系研究[J].圖書情報工作,2015,59(9):36-44.

[14]? Teufel S,Siddharthan A,Tidhar D.Automatic classification of citation function[C].In:Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP2006),Sydney,Australia,2006:103-110.

[15]? Abu-Jbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C].In:Proceedings of Human Language Technologies:The Conference of the North American Chapter of the Association for Computational Linguistics 2013 (HLT-NAACL2013),Denver,Colorado,USA,2013:596-606.

[16]? Hernández-Alvarez M,Gomez J M.Citation Impact Categorization:for Scientific Literature[C].In:Proceedings of 2015 IEEE International Conference on Computational Science & Engineering (CSE2015),Porto,Portugal,2015:307-313.

[17]? 朱大明.參考文獻(xiàn)的引用動機(jī)[J].科技導(dǎo)報,2013,31(22):84.

[18]? Valenzuela M,Ha V,Etzioni O.Identifying meaningful citations[C].In:Proceedings of 2015 in AAAI Workshop:Scholarly Big Data,Austin,Texas,USA,2015:21-26.

[19]? Jurgens D,Kumar S,Hoover S,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018(6):391-406.

[20]? 楊思洛.引文分析存在的問題及其原因探究[J].中國圖書館學(xué)報,2011,37(3):108-117.

[21]? 徐健,李綱,毛進(jìn),等.文獻(xiàn)被引片段特征分析與識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(11):37-45.

[22]? 章成志,李卓,趙夢圓,等.基于引文內(nèi)容的圖書被引行為研究[J].中國圖書館學(xué)報,2019,45(3):96-109.

[23]? Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(21):249-254.

[24]? 唐曉波,祝黎,謝力.基于主題的微博二級好友推薦模型研究[J].圖書情報工作,2014,58(9):105-113.

[25]? Kullback S,Leibler R A.On information and sufficiency[J].The Annals of Mathematical Statistics,1951,22(1):79-86.

[26]? 馮晴,陳惠蘭.國內(nèi)數(shù)字圖書館領(lǐng)域?qū)W術(shù)圖書出版研究[J].圖書館雜志,2013,32(4):53-57,81.

桂林市| 松桃| 珠海市| 东阿县| 长岭县| 松溪县| 抚松县| 满洲里市| 太白县| 长治市| 任丘市| 信阳市| 千阳县| 麟游县| 和平区| 扶余县| 富阳市| 云梦县| 玛纳斯县| 苍山县| 云和县| 抚宁县| 乌兰县| 龙川县| 获嘉县| 绥滨县| 焉耆| 天津市| 尚义县| 洛隆县| 抚远县| 井冈山市| 商南县| 阜平县| 济阳县| 水富县| 唐海县| 玉环县| 胶州市| 大田县| 中江县|