陸鳳琳 袁 潤,2
(1.江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013;2.江蘇大學(xué)圖書館 鎮(zhèn)江 212013)
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)等科學(xué)技術(shù)的迅速發(fā)展,大數(shù)據(jù)時代來臨,文獻數(shù)量增長迅猛,以中國知網(wǎng)為例,截止2020年,中外文文獻量已逾3億篇[1]。海量的文獻信息為科學(xué)研究和社會實踐提供了依據(jù),但同時也為文獻檢索帶來了挑戰(zhàn)。
題名、關(guān)鍵詞、摘要是學(xué)術(shù)文獻傳播的重要形式,能夠準確揭示論文主題,也是文獻檢索的重要依據(jù),俗稱文獻檢索的“三把斧”[2]。題名應(yīng)該是以最恰當(dāng)、最簡明的詞語反映論文最重要的特定內(nèi)容的邏輯組合[3],準確的題名既能充分反映論文的研究范圍和研究深度,也能高度概括并準確揭示論文的核心內(nèi)容和重要論點[4]。關(guān)鍵詞是為了著錄和標(biāo)引的需要從論文中選取出來用以表示文獻主題的單詞或術(shù)語[3],它較為規(guī)范,遵循專業(yè)性原則,能全面、準確地反映了論文主題[5]。摘要是科技文獻不可或缺的一個重要部分,它是以提供文獻內(nèi)容梗概為目的,不加評論和補充解釋,簡單明確地表述文獻重要內(nèi)容的短文[6],是文獻主題的高度濃縮[7]。題名、關(guān)鍵詞和摘要應(yīng)該為文獻檢索與文獻傳播服務(wù),三者既存在共性,也存在一定的差異性。摘要作為論文內(nèi)容的高度濃縮,相較于題名、關(guān)鍵詞,能夠更全面地揭示文獻內(nèi)容。題名、關(guān)鍵詞應(yīng)以精煉的短語或術(shù)語反映論文主題,使讀者對論文內(nèi)容有一個大概了解[8]。摘要、題名、關(guān)鍵詞因其作用不同,各具特點,在表達上應(yīng)各有側(cè)重。
但實際上,科技論文存在關(guān)鍵詞直接選自題名,導(dǎo)致題名與關(guān)鍵詞過于一致,不能充分展示文獻特色[2]的問題。更有甚者,為了追求“新”“奇”“特”,吸引讀者眼球,存在題名或關(guān)鍵詞與文獻內(nèi)容無關(guān),或者與摘要差異過大等問題。這些問題不僅會影響文獻檢索的結(jié)果,也會影響文獻傳播的效果。因此,探索題名、關(guān)鍵詞、摘要的差異性具有較強的現(xiàn)實意義。
本文通過實驗研究,提出了“差異度”定量測度指標(biāo),計算了13種學(xué)術(shù)期刊近10年以來刊載論文的題名、關(guān)鍵詞、摘要的差異度,探索了差異度的分布特征,可為學(xué)術(shù)論文的撰寫、編輯和檢索提供參考。
本研究主要通過定量測度指標(biāo),研究期刊論文題名、關(guān)鍵詞與摘要的差異。其中,題名、關(guān)鍵詞與摘要的差異性定量測度的指標(biāo)建立在文本相似度計算方法的基礎(chǔ)上,因此,本文的重點集中在題名、關(guān)鍵詞與摘要的差異性問題及文本相似度計算方法研究上。
目前,已有學(xué)者關(guān)注到題名與關(guān)鍵詞之間的差異問題并開展了相關(guān)研究,如徐鴻飛等[9]、張紫玄等[10]分別對醫(yī)學(xué)領(lǐng)域、農(nóng)產(chǎn)品品牌評價領(lǐng)域的論文題名與關(guān)鍵詞的差異性進行比較分析;陳紅琳等[8]、王婧等[11]分別提出定量測度題名和關(guān)鍵詞差異性的指標(biāo),并基于各自的指標(biāo)對圖情類期刊論文、十余年期刊論文的一期ESI數(shù)據(jù)的題名與關(guān)鍵詞的差異進行分析;Hunt C Aetal[12]以頂級旅游期刊為例,對文獻題名和關(guān)鍵詞之間的差異進行可視化分析,但并未得出具體結(jié)論;Yuret T[13]提出并研究了題名與關(guān)鍵詞對檢索結(jié)果影響的差異。如上所述,題名與關(guān)鍵詞之間差異問題的研究數(shù)量較多,但這些研究存在主觀性較強[9]、數(shù)據(jù)局限[8]的問題,題名與關(guān)鍵詞差異性問題仍有很大的研究空間。除了題名與關(guān)鍵詞間的差異,摘要與題名、關(guān)鍵詞的差異鮮有學(xué)者關(guān)注,即使有學(xué)者關(guān)注該問題,如T Kim[14]研究了題名、摘要作為關(guān)鍵詞時的表達差異,但也未得出一定的結(jié)論。
相似度算法與差異度定量測度指標(biāo)息息相關(guān),陳紅琳等[8]、王婧等[11]提出的定量測度題名和關(guān)鍵詞差異性的指標(biāo)以文本相似度為基礎(chǔ)。本研究提出的差異度定量測度也建立在文本相似度的基礎(chǔ)上,因此,有必要對文本相似度算法進行綜述。文本相似度計算是指通過一定的策略比較兩個或多個實體(包括詞語、短文本、文檔)之間的相似程度,得到一個具體量化的相似度數(shù)值[15]。文本相似度計算方法有基于字符串的方法、基于語料庫的方法、基于知識庫的方法和混合方法四類[16]?;谧址姆椒ㄖ苯俞槍υ嘉谋?,作用于字符串序列或字符組合,以兩個文本的字符匹配程度或距離作為相似度衡量標(biāo)準[15];基于語料庫的方法為基于詞袋模型、神經(jīng)網(wǎng)絡(luò)和搜索引擎等方法從語料庫中獲取信息計算文本相似度,考慮了語義的重要性;基于知識庫的方法是指利用具有規(guī)范組織體系的知識庫計算文本相似度,大多利用頁面鏈接或?qū)哟谓Y(jié)構(gòu),能較好地反映出詞條的語義關(guān)系;混合方法指的是綜合運用兩種或兩種以上上述方法計算文本相似度,一定程度上提高了文本相似度計算效果。上述四種文本相似度算法已較為成熟,被廣泛應(yīng)用于信息檢索、自然語言處理等領(lǐng)域[15],能夠滿足本研究對題名、關(guān)鍵詞與摘要的差異度計算需求。
“主題”這一概念的外延較為寬泛。題名、關(guān)鍵詞、摘要皆可以視為論文的“主題”,三者既有區(qū)別,也有關(guān)聯(lián),兩兩比較,既有相似性,也存在差異,它們結(jié)合起來應(yīng)能最大限度地表達“主題”。為了定量研究,本文定義學(xué)術(shù)期刊論文的題名、關(guān)鍵詞、摘要的差異度為題名與摘要的差異度(d1)、關(guān)鍵詞與摘要的差異度(d2)、關(guān)鍵詞與題名的差異度(d3)三者的幾何平均值,如公式(1)所示。
差異即差別、不相同,差異度是量化不同對象存在差別的程度,是比較的結(jié)果。一般而言,學(xué)術(shù)論文的題名、關(guān)鍵詞、摘要應(yīng)從不同的角度,以不同的形式揭示文獻主題,將其兩兩比較,必定存在一定的差異。差異度越大,說明彼此越不相似,三者組合所蘊含的信息量就越大;反之,差異度越小,說明三者越趨于一致,三者組合所蘊含的信息量就越小。
由于同一對象的差異度與相似度的值域互為補集,因此可以用相似度表達差異度。題名、關(guān)鍵詞、摘要的比較屬于文本比較。文本比較有多種方法,本文研究對象是學(xué)術(shù)期刊論文的題錄信息,從語言表達一致性角度來看,可以采用“字面”相似性算法計算題名、關(guān)鍵詞、摘要三者之間兩兩比較的相似度。所謂字面相似性,其本質(zhì)就是字符串的比較,較為常用的算法有“字符匹配”、杰卡德相似度和余弦相似度。杰卡德相似度體現(xiàn)集合思想,以兩個集合的交集與并集中包含的元素個數(shù)之比表示兩個集合間的相似度。余弦相似度體現(xiàn)向量思想,通過計算兩個向量的夾角余弦值來表示兩者的相似度。
字符匹配算法是將比較對象視為由1~m個漢字或詞組組成的字符串,用ni表示第i個詞組的字長,用ni’表示與第i個詞組匹配的漢字個數(shù),差異度的定義如公式(2)所示[11]。
杰卡德相似度算法是利用分詞技術(shù)將題名、關(guān)鍵詞和摘要拆分成詞組集合,若待比較的兩個集合記為A和B,則其差異度的定義如公式(3)所示。
余弦相似度算法也是利用分詞技術(shù)將題名、關(guān)鍵詞和摘要拆分成詞組向量,若待比較的兩個向量記為A和B,則其差異度的定義如公式(4)所示。
三種算法的計算結(jié)果差別較大。字符匹配算法結(jié)果偏小,杰卡德相似度算法結(jié)果偏大,其結(jié)果分布皆不均勻。余弦相似度算法的結(jié)果適中,且基本呈現(xiàn)正態(tài)分布。本文對此開展了探索性實驗研究。
本文采用字符匹配、杰卡德相似度、余弦相似度三種不同算法,分別計算了學(xué)術(shù)期刊論文的題名、關(guān)鍵詞、摘要三者之間兩兩比較的差異度。字符匹配算法精確到單個漢字,其它兩種算法精確到詞組,這些詞組由jiebaR分詞所得。
本文在RStudio平臺(x86-64-pc-linux-gnu,R version 3.6.3)上開展實驗研究,實驗過程分為數(shù)據(jù)采集、導(dǎo)入、預(yù)處理、計算、分析等步驟。
步驟1:下載期刊題錄數(shù)據(jù)。從CNKI平臺選擇并下載了13個學(xué)科的13種期刊近10年以來的題錄數(shù)據(jù),文獻導(dǎo)出格式選擇“自定義”,“全選”所有字段,導(dǎo)出到Excel保存。
步驟2:在RStudio環(huán)境下讀取題錄數(shù)據(jù)。當(dāng)Excel文件較多時,可以先用list.files()函數(shù)讀取文件名,再循環(huán)讀取數(shù)據(jù),結(jié)果保存為數(shù)據(jù)框。
步驟3:數(shù)據(jù)預(yù)處理。刪除無題名、無作者、無關(guān)鍵詞、無摘要等字段的記錄,剔除英文文獻,去除重復(fù)記錄等預(yù)處理,保留題名(TI)、作者(AU)、關(guān)鍵詞(KW)、摘要(SU)、出版年(PY)、刊名(JN)等字段信息,最后得到25 566條記錄。用xtabs(~JN+PY, data=mydata)函數(shù)創(chuàng)建二維列聯(lián)表,結(jié)果如表1所示。
表1 13個學(xué)科的期刊發(fā)文數(shù)(《學(xué)位授予和人才培養(yǎng)學(xué)科目錄》[17])
步驟4:計算每條題錄的題名長度、關(guān)鍵詞個數(shù)和摘要長度。用stringr包中的str-split()函數(shù),拆分字符串,統(tǒng)計其長度,結(jié)果以新的變量TL、KN、SL保存,按照刊名分類統(tǒng)計,其平均值如表2所示。
表2 13種期刊題名、關(guān)鍵詞與摘要的長度統(tǒng)計指標(biāo)
步驟5:字符匹配算法的差異度計算。該算法無需分詞處理,比較對象皆視為字符串。題名與摘要比較時,先將題名拆分成“字”,若這些“字”在摘要中全部出現(xiàn),則其差異度為0,若這些“字”在摘要中全部不出現(xiàn),則其差異度為1,若僅有部分出現(xiàn),則其差異度為未匹配的“字”的個數(shù)與題名長度的比值;關(guān)鍵詞與題名、摘要比較時,需要分別將每個關(guān)鍵詞與題名、摘要比較,然后計算其平均值。
步驟6:杰卡德相似度算法的差異度計算。該算法需要用jiebaR分詞處理。題名和關(guān)鍵詞較短,采用分詞引擎的缺省算法,摘要相對較長,采用關(guān)鍵詞算法,即將摘要轉(zhuǎn)變成10個關(guān)鍵詞,分詞引擎函數(shù)為worker(type="keywords",topn=10)。為了提高計算精度,本文考慮了詞頻因素,將題名、關(guān)鍵詞和摘要統(tǒng)一轉(zhuǎn)變成“詞組+詞頻”格式,如表3所示。如此,可以通過自編函數(shù)計算題名、關(guān)鍵詞和摘要兩兩比較的差異度。
表3 “詞組+詞頻”格式
步驟7:余弦相似度算法的差異度計算。與步驟6類似,用公式4計算題名、關(guān)鍵詞和摘要兩兩比較的差異度。
步驟8:結(jié)果分析。按照期刊分類統(tǒng)計的三種算法的計算結(jié)果均值如表4所示。字符匹配算法的差異度偏小,杰卡德相似度算法的差異度偏大,余弦相似度算法的差異度適中。
表4 三種算法的結(jié)果比較
通過上述計算得到了關(guān)于題名、關(guān)鍵詞和摘要的四組數(shù)據(jù)。題名長度、關(guān)鍵詞個數(shù)、摘要長度反映了學(xué)術(shù)論文的基本特征,即學(xué)術(shù)論文題名一般用20個左右漢字表示,選用3~5個關(guān)鍵詞,摘要長度一般為300個漢字左右。本文重點是探索三者之間的差異情況,其兩兩比較可以形成三種組合(TS, KS, KT),每種組合又分三種算法來計算其差異度。
以題名-摘要差異度(TS)為橫坐標(biāo),關(guān)鍵詞-摘要差異度為縱坐標(biāo),將三種算法結(jié)果繪制成散點圖,如圖1所示。圖1(a)是字符匹配算法差異度分布,圖1(b)是余弦相似度算法差異度分布,圖1(c)是杰卡德相似度算法差異度分布。從圖1可見,基于字符匹配算法差異度偏小,杰卡德相似度算法差異度偏大,余弦相似度算法差異度值較為適中。
圖1 三種算法結(jié)果分布
三種算法(chm, jac, cos)分別計算題名(T)、關(guān)鍵詞(K)、摘要(S)的兩兩比較結(jié)果共有9種組合,其結(jié)果分布如圖2所示。
圖2 三種算法的結(jié)果分布
字符匹配算法存在大量的0差異度情況,分布基本無規(guī)律,杰卡德相似度算法的結(jié)果呈現(xiàn)偏態(tài)分布,只有余弦相似度算法的結(jié)果呈現(xiàn)正態(tài)分布。所以,以余弦相似度算法分別計算題名-摘要的差異度(cosTS)、關(guān)鍵詞-摘要的差異度(cosKS)和關(guān)鍵詞-題名的差異度(cosKT),再計算三者的幾何平均值,并以此作為題名、關(guān)鍵詞和摘要的差異度(cosDD)。
根據(jù)三種算法的結(jié)果分布情況,本文采用余弦相似度算法計算了13種期刊10年以來的題錄數(shù)據(jù),得到題名、關(guān)鍵詞、摘要在揭示學(xué)術(shù)期刊論文主題上差異度的平均值如表5所示。實驗結(jié)果表明,題名、關(guān)鍵詞、摘要三者兩兩比較的差異度的幾何平均值具有較好的分布特征和區(qū)分度,可以作為題名、關(guān)鍵詞、摘要的差異度指標(biāo)。
表5 題名、關(guān)鍵詞、摘要的差異度(2010-2019)
為進一步分析差異度分布特征,根據(jù)公式(1)分別計算了25 566篇學(xué)術(shù)期刊論文的題名、關(guān)鍵詞、摘要的差異度,再根據(jù)題錄數(shù)據(jù)的刊名(JN)和出版年分面,繪制的差異度分布密度圖,如圖3所示。由圖3可見,同一期刊在不同年度的差異度分布(按列)以及同一年度不同期刊的差異度分布(按行)皆有所變化,且并無顯著特征,表明題名、關(guān)鍵詞、摘要在揭示論文主題上的差異度具有隨機性,這與現(xiàn)實情況較為吻合。
圖3 差異度分布密度圖
由表2可得,13種期刊的論文題名長度均值約在16-25間,摘要長度均值約在146-656間,關(guān)鍵詞個數(shù)均值約在3-5間?!吨袊鴮W(xué)術(shù)期刊(光盤版)檢索與評價數(shù)據(jù)規(guī)范》對題名、摘要長度及關(guān)鍵詞個數(shù)做出了規(guī)定,其對題名的規(guī)定為中文題名字數(shù)不超過25字;對摘要的規(guī)定為字數(shù)在300-600之間;對關(guān)鍵詞的規(guī)定是個數(shù)在3-8之間。表2中的數(shù)據(jù)統(tǒng)計結(jié)果顯示,13種期刊的論文題名、關(guān)鍵詞長度均值均符合相關(guān)規(guī)范,雖然個別期刊存在摘要長度均值不規(guī)范的情況,但大部分期刊的摘要長度均值仍是符合要求的。這說明,目前大部分期刊論文的題名、摘要、關(guān)鍵詞的長度是符合規(guī)范的。
本文基于字符匹配算法、杰卡德相似度及余弦相似度算法對25 566篇論文的題名、關(guān)鍵詞與摘要的差異度進行了計算,得出余弦相似度算法差異度值較為適中,因此以基于余弦相似度算法算出的差異度作為題名、關(guān)鍵詞和摘要的差異度。如圖2所示,題名-摘要的差異度(cosTS)、關(guān)鍵詞-摘要的差異度(cosKS)均呈現(xiàn)中間多、兩頭少的狀態(tài),差異度頻數(shù)最多的值在0.5左右,這說明大部分論文題名與摘要、關(guān)鍵詞與摘要存在一定的差異;且這兩者差異度為0或為1的情況幾乎不存在,這說明這些論文的題名、關(guān)鍵詞既不完全來自于摘要,與摘要間又不存在太過顯著的差異,這得益于近年來多數(shù)期刊嚴格要求論文作者在投稿時提供完整的題錄信息的做法,CNKI平臺因關(guān)鍵詞缺失而需從論文摘要中抽取關(guān)鍵詞的情況較少,維普、萬方等其他平臺也是如此。而關(guān)鍵詞-題名的差異度(cosKT)呈現(xiàn)中間多、兩頭多的趨勢,這說明大部分論文題名與關(guān)鍵詞間存在一定的差異,但部分論文存在關(guān)鍵詞全部來自題名或題名、關(guān)鍵詞完全不符的情況。經(jīng)分析發(fā)現(xiàn),關(guān)鍵詞完全來自題名的論文多屬于理學(xué)、工學(xué)、農(nóng)學(xué)及醫(yī)學(xué)這些自然學(xué)科,如表6所示。這可能是由學(xué)科特點決定的,自然學(xué)科中的術(shù)語大多形成了一定的標(biāo)準,這些術(shù)語在題名與關(guān)鍵詞中的表達一致。但論文關(guān)鍵詞全部來自題名,也意味著自然學(xué)科的作者缺乏一定的學(xué)術(shù)論文寫作素養(yǎng),將題名與關(guān)鍵詞混為一談,忽視了兩者的區(qū)別。而關(guān)鍵詞與題名完全不符的論文則多屬于人文社科,如經(jīng)濟學(xué)、藝術(shù)學(xué)及法學(xué)等。關(guān)鍵詞與題名完全不符,可能是由于人文社科的相關(guān)術(shù)語尚未形成統(tǒng)一標(biāo)準,同樣的術(shù)語在關(guān)鍵詞與題名中的表達不一致,如表6中屬于經(jīng)濟學(xué)的論文題名中的通脹與關(guān)鍵詞中的通貨膨脹,雖含義一致,但一個是簡寫一個是全稱,這種情況應(yīng)盡量避免。
表6 題名與關(guān)鍵詞間的特殊情況
如圖3所示,不同期刊在不同年份的論文差異度雖有變化,但無顯著規(guī)律。這說明期刊論文的差異度具有隨機性。這與現(xiàn)實情況較為吻合,題名、關(guān)鍵詞、摘要的差異度可能受多種因素影響,如學(xué)科總詞匯、作者行文習(xí)慣等,并無明顯規(guī)律。
結(jié)合表5、圖3可得,各期刊論文的差異度分布規(guī)律較一致,都呈現(xiàn)“中間多,兩頭少”的趨勢,各期刊的論文差異度平均值均在0.4-0.6之間,位于該差異度范圍內(nèi)的論文數(shù)最大,而差異度過低或過高的論文數(shù)都較少。這說明13個學(xué)科的期刊論文的題名、關(guān)鍵詞與摘要間既不完全相似,也不存在太大的差異,互補性與差異性并存,因此應(yīng)避免孤立對待期刊論文的題名、摘要和關(guān)鍵詞,將三者結(jié)合起來,才能夠獲取更多的信息。
本文在定義差異度的基礎(chǔ)上,采用基于余弦相似度算法計算的題名與摘要的差異度、關(guān)鍵詞與摘要的差異度、關(guān)鍵詞與題名的差異度三者的幾何平均值表征題名、關(guān)鍵詞、摘要差異性,并采用實驗研究與數(shù)據(jù)分析方法,以CNKI平臺收錄的13種期刊近10年來的全部論文為例,對題名、關(guān)鍵詞及摘要間的差異性進行了探索性的研究。數(shù)據(jù)分析結(jié)果為余弦相似度算法計算的差異度大致呈現(xiàn)正態(tài)分布,但存在部分論文的關(guān)鍵詞全部來自題名或題名與關(guān)鍵詞完全不符的情況,不同期刊在不同年度的差異度分布無顯著差別。本文的研究無論是對論文題錄標(biāo)引、論文檢索,還是差異度計算方法都有一定的參考價值。