主題詞法和自然語言法探測文獻主題新穎性對比分析

2019-06-13 08:02

中華醫(yī)學圖書情報雜志 2019年1期

文本新穎性探測是指按時間順序在給定的一些相關(guān)文獻集中，比較新到相關(guān)文本與已有文本之間內(nèi)容的冗余度，確定新到文本內(nèi)容是否新穎[1]。對于科技文獻質(zhì)量的創(chuàng)新性、新穎性的分析評價，目前沒有統(tǒng)一的標準，可以通過以下方法進行。一是基于文獻計量學的引文分析法。該方法利用科學文獻間的引用關(guān)系反映科技成果的學術(shù)價值以及學術(shù)地位，說明科學知識和情報內(nèi)容的繼承和利用，評價推薦出新穎性文獻[2]，其最大缺點是時間的滯后性。二是基于向量空間模型的相似度計算方法。應(yīng)用最廣泛的是向量夾角余弦值。Salton[3]提出TFIDF算法進行權(quán)重賦值，該方法體現(xiàn)的主要思想是當一個詞語在特定文獻中出現(xiàn)的頻率越高，說明它在區(qū)分文獻內(nèi)容屬性方面的能力越強；一個詞語在特定文獻中出現(xiàn)的范圍越廣，說明它在區(qū)分文獻內(nèi)容屬性方面的能力越低。當前文本和以前文本之間的相似度越大，則新穎性越小[1]。三是基于關(guān)鍵詞詞頻分析的方法。關(guān)鍵詞是作者根據(jù)文章的主要內(nèi)容、理論、方法、觀點，通過概括、總結(jié)提煉出來用于揭示文章主題信息的自然語言，關(guān)鍵詞數(shù)量通常少于自然語言詞和醫(yī)學主題詞。不同作者因地域、時代的差異，對于事物、觀點的稱謂不盡相同。關(guān)鍵詞具有一定主觀性，無法做到表述一致，對文獻新穎性分析存在不同程度的影響。因此，在文獻新穎性分析之前，應(yīng)對關(guān)鍵詞進行規(guī)范化預(yù)處理，降低同義詞、近義詞、上下位詞對分析結(jié)果產(chǎn)生的影響。四是基于創(chuàng)新型生物醫(yī)學文獻學術(shù)評價系統(tǒng)F1000的評價方法。F1000是生物醫(yī)學領(lǐng)域同行評議的數(shù)據(jù)庫，F(xiàn)1000專家對世界頂級的生物、醫(yī)學雜志最新發(fā)表的文章從創(chuàng)新性、重要性、合理性、方法學等方面進行同行評定，選取最有價值文獻給予推薦，幫助生物學及醫(yī)學領(lǐng)域的研究人員掌握本學科領(lǐng)域的最新研究進展。同行評議是專家根據(jù)個人的態(tài)度對文獻本身學術(shù)成就給予的評價，主觀性大。五是突發(fā)詞監(jiān)測算法。根據(jù)詞頻變化率統(tǒng)計出低頻但具有情報意義的突發(fā)詞，探測新興研究熱點和研究趨勢，適用于某研究領(lǐng)域前沿趨勢的探測[4]。

近年來，國內(nèi)多位學者進行了文獻主題新穎性探測的相關(guān)研究。如徐爽[4]通過突發(fā)詞監(jiān)測算法研究了全身炎癥反應(yīng)綜合征治療藥物，根據(jù)詞頻變化率統(tǒng)計出低頻但具有情報意義的突發(fā)詞，探測該領(lǐng)域新興研究熱點；楊建林[5]運用基于關(guān)鍵詞對逆文檔頻率的方法進行主題新穎性的度量；陳斯斯[6]應(yīng)用詞重疊法和基于共詞的逆文檔頻率量化法對比分析探測評估醫(yī)學文獻主題新穎性，得出詞重疊法更優(yōu)的結(jié)論。

有研究通過自然語言詞對方法(以下簡稱“自然語言法”)計算了文檔主題新穎度，探討了文檔主題新穎度與F1000推薦文獻、引用情況分屬于科技論文評價的不同維度、不同范疇，不可一概而論[7]。本文在此基礎(chǔ)上提出了基于醫(yī)學主題詞詞對法的文獻主題新穎性探測方法(以下簡稱“主題詞法”)，運用兩種方法對同一文獻集進行文檔主題新穎度的計算并進行比較分析，探討兩種方法計算文檔主題新穎度結(jié)果的一致性和差異性，以及兩種方法的優(yōu)缺點和與F1000推薦文獻的關(guān)系。

1 研究方法與工具

1.1 研究方法

醫(yī)學主題詞詞對逆文檔頻率原則(Inverse Document Frequency of Mesh Pair，MPIDF)，即一對共現(xiàn)的醫(yī)學主題詞詞對在量化某文檔的主題新穎度時的價值隨著在該文檔之前發(fā)表的、包含該對共現(xiàn)醫(yī)學主題詞詞對的文檔數(shù)量的增加而降低[5]。

醫(yī)學主題詞時間逆文檔頻率是指若t為文檔D中的一個已標引的主題詞，在文檔D之前發(fā)表的所有文檔中包含已標引主題詞t的文檔數(shù)為N，則稱N+1為以文檔D為參照的主題詞t的文檔頻率，記為MT-IDF(D，t),稱N+1的倒數(shù)為以文檔D為參照的主題詞t的時間逆文檔頻率，記為MTIDF(D，t)。

醫(yī)學主題詞詞對時間逆文檔頻率是指若t1、t2為文檔D中共同出現(xiàn)的兩個已標引的醫(yī)學主題詞，在文檔D之前發(fā)表的所有文檔中同時包含已標引醫(yī)學主題詞t1、t2的文檔數(shù)為N，則稱N+1為以文檔D為參照的醫(yī)學主題詞詞對t1、t2的文檔頻率，記為MPT-IDF(D，t1，t2),稱N+1的倒數(shù)為以文檔D為參照的醫(yī)學主題詞詞對t1、t2的時間逆文檔頻率，記為MPTIDF(D，t1，t2)，得到MPTIDF(D，t1，t2)≥(MPTIDF(D，t1)，MPTIDF(D， t2))。

主題詞法文檔主題新穎度是指文檔D中所有以自身為參照的醫(yī)學主題詞詞對的時間逆文檔頻率的平均值稱為文檔D的主題新穎度，記為NOV(D,M)。計算公式為：

式中，ti、tj為文檔D中已標引的第i和第j個醫(yī)學主題詞，顯然NOV(D,M)∈(0，1)。

1.2 研究工具

1.2.1 F1000

F1000是近年來生物醫(yī)學領(lǐng)域同行評議的文獻評價數(shù)據(jù)庫，每年對全球文章總數(shù)不足2‰的優(yōu)秀精品醫(yī)學論文進行推薦和點評，給出F1000得分，依據(jù)學術(shù)貢獻和科學價值挑選出優(yōu)秀論文推薦給全世界的生物學和醫(yī)學研究者[8]，幫助生物學及醫(yī)學領(lǐng)域的研究人員掌握本學科領(lǐng)域的最新研究進展。研究人員發(fā)表的論文被F1000收錄并獲得推薦，是對該論文和研究人員的高度認可。

1.2.2 MeSH

《醫(yī)學主題詞表》(Medical Subject Headings，MeSH)由美國國立醫(yī)學圖書館編制而成，主要目的是提供一個分層組織的術(shù)語，用于MEDLINE/PubMed和其他NLM數(shù)據(jù)庫中生物醫(yī)學文獻信息的索引和編目以及檢索利用[9-10]。MeSH由主題詞(Descriptors，亦稱“敘詞”)、副主題詞(Qualifiers，亦稱“限定詞”)和增補概念構(gòu)成[9]。副主題詞指主題詞所論述的重點課題的自然范疇或通常發(fā)生的某一方面，對主題概念起限定作用[9]；副主題詞與主題詞進行邏輯組配，專指性更高，可以提高查全率和查準率，是實現(xiàn)智能化檢索的重要途徑。

本文選取自然語言法相同文獻集，在同篇共現(xiàn)基礎(chǔ)上計算主題詞法文檔主題新穎度，提取PubMed中已標引的MeSH詞匯代表文章的主要內(nèi)容。該文獻集內(nèi)含401篇文獻(其中F1000推薦文獻33篇)，具有MeSH標引的文獻346篇(其中F1000推薦文獻30篇)，從中提取MeSH標引詞匯7 021條記錄，組合成詞對后共計約8萬條記錄。根據(jù)主題詞法文檔主題新穎度公式計算出每篇文章的新穎度值，結(jié)合自然語言法新穎度結(jié)果進行對比分析。

2 實驗結(jié)果和結(jié)論

2.1 文檔主題新穎度分區(qū)

文檔主題新穎度值及分區(qū)情況統(tǒng)計見表1和表2。

表1 兩種方法計算的文檔主題新穎度值(部分)

注：* 代表F1000推薦文獻

表2 主題詞法和自然語言法文檔主題新穎度值分區(qū)

對主題詞法和自然語言法獲得的文檔主題新穎度值進行Spearman相關(guān)性比較顯示，兩種方法在計算文檔主題新穎度之間呈正相關(guān)，相關(guān)系數(shù)為0.593，P=0.000，可見主題詞法和自然語言法在計算文檔主題新穎度方面有相對等效的價值。

主題詞法計算新穎度的范圍為PubMed中已有MeSH標引的346篇文獻，未標引的55篇文獻主要是因下載文獻過新而尚未進行標引。主題詞法計算出的新穎度最高值為1，共有8篇，說明其在區(qū)分最高級別、最卓越文獻方面不是特別理想；該方法計算出的最低值為0.439。新穎度值相差0.1分為一個區(qū)間，計算結(jié)果可分為7個區(qū)間，平均新穎度值為0.8423，大于平均新穎度值的文獻有212篇，占統(tǒng)計文獻總數(shù)的61.27%。

2.2 F1000推薦文獻文檔主題新穎度分區(qū)情況

兩種方法計算的F1000推薦文獻文檔主題新穎度分區(qū)見表3。用主題詞法計算該文獻集中MeSH標引的364篇文獻中，F(xiàn)1000推薦文獻30篇；用自然語言法計算該文獻集全部的401篇文獻中，F(xiàn)1000推薦文獻33篇。

表3 主題詞法和自然語言法計算的F1000推薦文獻文檔主題新穎度分區(qū)

用主題詞法計算的F1000推薦文獻中的新穎度最高值為1，最低值為0.448，計算結(jié)果共分為7個區(qū)間。該方法計算出的平均新穎度值為0.7592，大于平均新穎度值的文獻有18篇，占統(tǒng)計文獻總數(shù)的60%，與自然語言法占比等同，說明在識別高質(zhì)量文章情況下，兩種方法計算結(jié)果基本一致。

2.3 兩種方法計算結(jié)果分布的一致性比較

兩種方法計算結(jié)果分布的一致性是指主題詞法和自然語言法計算出的文檔主題新穎度值均分布在某區(qū)間的文獻數(shù)占統(tǒng)計文獻的比例。Meet/min方法是目前被公認的一種簡單有效的評估協(xié)同程度的方法[11]，運用Meet/min方法將兩種方法計算出的新穎度值分區(qū)在同一區(qū)間內(nèi)的共同文獻數(shù)量可定義一致率的概念，公式如下。結(jié)果見表4和圖1。

表4 主題詞法與自然語言法計算的新穎度值一致率

從表4可以看出，隨著新穎度值的增加，分布在同一區(qū)間內(nèi)的文獻篇數(shù)也在增加。新穎度值在0.5～0.8之間的一致率呈下降趨勢，可能由于統(tǒng)計文獻的樣本數(shù)量較少所致；新穎度值在0.7～1之間的一致率呈上升趨勢，說明新穎度值越高，主題詞法和自然語言法在計算文檔主題新穎度方面越能獲得相同的預(yù)測效果。

圖1是對346篇主題詞法新穎度值和401篇自然語言法新穎度值做成的散點圖，橫坐標為文獻序列號，縱坐標為新穎度值，其中346篇文獻中每個序列號分別對應(yīng)圖中兩個顏色的點以及它們分布的位置，所對應(yīng)的兩個點的距離就是兩種算法新穎度值的差距。

從圖1可以看出，新穎度值越高，兩種顏色點的分布越密集，主題詞法和自然語言法計算出的文檔主題新穎度值分區(qū)越一致。

2.4 兩種方法計算結(jié)果分布差異性比較

兩種方法計算結(jié)果分布差異性是指同一篇文獻經(jīng)主題詞法和自然語言法兩種方法計算后得到的新穎度值之間的差值。結(jié)果見表5和圖2。

圖1主題詞法和自然語言法新穎度一致性的分布散點圖

表5 主題詞法和自然語言法計算的新穎度值差異

從表5可以看出，同一篇文獻經(jīng)主題詞法和自然語言法兩種方法計算得到的新穎度值之差在0～0.1的最多，為257篇，占統(tǒng)計文獻總數(shù)的74.28%；差值在0.1～0.2的文獻為71篇，占統(tǒng)計文獻總數(shù)的20.52%；差值在0.2～0.3的文獻為12篇，占統(tǒng)計文獻總數(shù)的3.47%；差值在0.3～0.4的文獻為4篇，占統(tǒng)計文獻總數(shù)的1.16%；差值在0.4～0.5的文獻和在0.5～0.6的文獻均為1篇，分別占統(tǒng)計文獻總數(shù)的0.29%。

說明絕大多數(shù)文獻經(jīng)兩種方法計算得到的新穎度差值在0.1以下。

圖2 主題詞法和自然語言法新穎度差異

圖2是根據(jù)用兩種方法對346篇進行計算得到的每篇文獻新穎度差值做成的一個柱狀圖，橫坐標代表文獻序列號，縱坐標代表兩種方法計算的新穎度差值。從圖2可以看出，同一篇文獻經(jīng)主題詞法和自然語言法計算出的新穎度值之差在0～0.1之間分布最多，差值在0.1～0.2之間的文獻數(shù)量次之，說明兩種方法在計算文檔主題新穎度值方面差異不大，在探測文檔主題新穎度方面具有等同的效果。

2.5 F1000推薦文獻新穎度與其他指標比較

兩種方法計算的F1000推薦文獻文檔主題新穎度值與其他指標的比較見表6。

表6 主題詞法和自然語言法計算的F1000推薦文獻文檔主題新穎度情況及其他指標比較(部分)

上述表格各列數(shù)據(jù)經(jīng)過統(tǒng)計學方法判斷均沒有統(tǒng)計學意義，自然語言法新穎度值、IF值及F1000得分都不存在相關(guān)性，主題詞法新穎度值和F1000得分弱相關(guān)，說明相比自然語言法而言，主題詞法計算新穎度值與同行評議結(jié)果趨于一致。

圖3表示兩種方法計算的文檔主題新穎度值與F1000得分的關(guān)系，橫坐標表示F1000得分，縱坐標表示新穎度值，中間的橫線代表兩種方法計算的新穎度中值，兩者距離越相近，說明兩種方法計算出的新穎度值越靠近。從圖3可以看出，隨著F1000得分的增高，兩種方法計算的新穎度越相關(guān)。兩種方法計算得到的新穎度值的高低與文獻所在期刊的IF值并無明顯相關(guān)性。

3 討論

3.1 兩種方法優(yōu)缺點對比分析

從計算層次來看，兩種方法均是從文本層出發(fā)進行的主題新穎性探測，不同之處在于主題詞法是在同篇共現(xiàn)基礎(chǔ)上進行的計算，能將整個文獻集內(nèi)經(jīng)過MeSH標引的文獻進行計算獲得新穎度值；自然語言法是在同篇同句共現(xiàn)基礎(chǔ)上進行計算，將提取的自然語言詞匯經(jīng)公式計算后獲得的新穎度值[7]。

從計算范圍來看，主題詞法計算了文獻集內(nèi)經(jīng)MeSH標引的346篇文獻，自然語言法計算了文獻集內(nèi)的全部文獻401篇，計算范圍比主題詞法廣泛。

相比較而言，主題詞法具有不可替代的自身優(yōu)勢，它將自然語言轉(zhuǎn)換成規(guī)范化名詞術(shù)語，在揭示文章主要內(nèi)容、表達主旨含義上更加科學、準確，在計算新穎度值上更加準確，與同行評議結(jié)果符合度更高；自然語言法通過MetaMap提取自然語言詞匯，在進行計算時可以不受時間的限制而將整個文獻集內(nèi)的全部文獻進行計算得到不同的新穎度值，在一定程度上代表主旨含義，在揭示新興主題概念方面具有更高的價值[7]。

圖3 兩種方法新穎度值與F1000得分關(guān)系

雖然MeSH每年都在更新，但仍然滯后于科學技術(shù)的發(fā)展。新的科技詞匯要在出現(xiàn)一段時間后才會經(jīng)過專家學者推薦核準為正式的主題詞用于文章標引，這在體現(xiàn)最新科技研究成果方面會受到制約。同時最新發(fā)表文獻因尚未進行MeSH標引，在進行計算時有一定限制，早年發(fā)表的文獻也存在缺失標引或者未標引的情況。而自然語言法因受MetaMap自由度影響，隨其詞匯源不斷更新，MetaMap提取新興科技詞匯的效果好則結(jié)果好，反之亦然[7]。

本文兩種文檔主題新穎度的計算方法，對評價量化文獻主題新穎性提出了全新指標，兩者在一定程度上有著等效價值，隨著計算的文檔主題新穎度值的增高，兩種方法計算出的新穎度值越相近。

3.2 論文不同層面評價指標分析

本文兩種方法計算的文檔主題新穎度是從文本層面出發(fā)而進行的客觀量化分析評價，分別從文中提取詞對進行計算，通過發(fā)現(xiàn)對比之前文獻集中尚未出現(xiàn)的詞對情況來證明文獻的新穎程度，對文獻集中每一篇文章給出評價，相對更加客觀。同行評議指標F1000評分相對簡單，僅將各位專家評分累積求和即可獲得F1000得分。F1000是基于同行評議的論文評價，難以保證評價的絕對客觀性，同時也存在運用范圍不夠廣泛、全面的情況。

本文發(fā)現(xiàn)F1000得分與主題詞法新穎度值存在弱相關(guān)，表明該方法通過提取代表主旨含義的醫(yī)學主題詞詞對進行計算后得到的新穎度值與專家同行評議在一定程度上一致，也就是從論文評價的不同層面給出相對一致的結(jié)論。這也與劉春麗發(fā)現(xiàn)不同類型計量指標對同一組論文影響力的評估具有一致性的結(jié)論相符[12]。

3.3 文獻提取和計算過程中的不足

PubMed數(shù)據(jù)庫中記錄的錯誤對于結(jié)果有一定的影響，如自然語言法提取文獻已經(jīng)限定PT為非Review，而主題詞法在提取已標引MeSH詞匯時有Review的出現(xiàn)，PubMed數(shù)據(jù)庫在錄入方面存在不一致情況，會對結(jié)果產(chǎn)生一定影響。

主題詞法在進行計算時，選取只保留“主題詞”“主題詞/副主題詞”一致即可，把加權(quán)符號去除，不考慮加權(quán)標引。因考慮到文獻集內(nèi)不同文章進行加權(quán)標引一致情況較少，所以只要文章出現(xiàn)同樣的標引詞即認為一致，可能會對計算結(jié)果產(chǎn)生影響。

4 結(jié)語

主題詞法和自然語言法可從文本層面計算文檔主題新穎度，兩者各有優(yōu)勢，自然語言法在計算范圍和最新發(fā)表的文獻推薦方面要略優(yōu)于主題詞法，主題詞法在揭示文章主旨含義方面優(yōu)于自然語言法。

根據(jù)相關(guān)性比較，主題詞法和自然語言法在計算文檔主題新穎度方面具有相對等效的價值。新穎度值越高，兩種方法計算出的文檔新穎度值分區(qū)越一致。

主題詞法文檔主題新穎度與F1000得分呈弱相關(guān)，說明主題詞法的文檔主題新穎度準確性更接近于專家同行評議。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡