科學(xué)文獻(xiàn)中參考文獻(xiàn)影響力評(píng)估方法研究

2018-10-18 02:17顧進(jìn)廣張銘暉

小型微型計(jì)算機(jī)系統(tǒng) 2018年10期

關(guān)鍵詞：相似性參考文獻(xiàn)影響力

張瑜，顧進(jìn)廣，4，張銘暉，張俊

1(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，武漢 430065)

2(智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室，武漢 430065)

3(深圳證券信息有限公司，廣東深圳 518028)

4(國(guó)家新聞廣電出版總局富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室，北京 100038)

1 引言

對(duì)于科研人員而言，在日常研究工作中閱讀大量的文獻(xiàn)是必不可少的.當(dāng)閱讀一些具有影響力的文獻(xiàn)時(shí)，研究人員可能需要通過這些文獻(xiàn)的研究動(dòng)機(jī)來(lái)深入理解這些文獻(xiàn).當(dāng)研究人員想要選擇新的研究方向時(shí)，他們需要查閱相關(guān)文獻(xiàn)以及這些文獻(xiàn)的參考文獻(xiàn).由于并非所有的參考文獻(xiàn)都是非常重要的，有必要過濾出所需要的重要參考文獻(xiàn).通常，研究人員會(huì)選擇尋找一些更具價(jià)值的參考文獻(xiàn)，這些參考文獻(xiàn)是引用文獻(xiàn)學(xué)術(shù)思想的主要來(lái)源.但是，一篇文獻(xiàn)中有許多參考文獻(xiàn)，研究人員如何高效地在這些參考文獻(xiàn)中找到最重要的參考文獻(xiàn)呢？

當(dāng)前，關(guān)于引用文獻(xiàn)影響力評(píng)估的研究可以分為兩類：(1)非監(jiān)督方法.主要包括圖模型，如由Dietz等[1]提出的引文影響模型(CIM).其它一些模型可以用來(lái)計(jì)算主題分布概率，如局部因子圖模型[2]，傳承主題模型(ITM)[3]，引文追蹤話題(CTT)模型[4]，成對(duì)約束玻爾茲曼器(PRBMs)[5]及概率生成圖模型[6].(2)監(jiān)督方法.Bethard等[7]通過使用一些特征來(lái)計(jì)算學(xué)習(xí)權(quán)重相似度來(lái)進(jìn)行引文推薦，可以利用訓(xùn)練集學(xué)習(xí)啟發(fā)性指導(dǎo)來(lái)評(píng)估影響力.這些方法旨在從不同的角度解決鏈路強(qiáng)度問題，使用監(jiān)督方法的引文影響力評(píng)估方法采用啟發(fā)式線索，可以避免陷入局部術(shù)語(yǔ)細(xì)節(jié).此外，還有社交網(wǎng)絡(luò)中影響力最大化研究方法[8，9]，也可用于引用文獻(xiàn)影響力評(píng)估.本文將考慮融合這幾個(gè)方面的優(yōu)點(diǎn)，以使用主題信息和文獻(xiàn)自身的靜態(tài)特征來(lái)評(píng)估引文影響力.

可將參考文獻(xiàn)重要性評(píng)估問題設(shè)計(jì)成一個(gè)集成參考文獻(xiàn)各種重要因素的文獻(xiàn)數(shù)據(jù)集上的分類器.本文引入主題相似性將關(guān)鍵詞相似性作為重要考慮因素，將引用計(jì)數(shù)作為文獻(xiàn)的人氣指數(shù)，期刊的影響力也可以用來(lái)評(píng)估不同期刊中的文獻(xiàn)影響力.本文設(shè)計(jì)了一個(gè)文獻(xiàn)分類器，使用帶標(biāo)簽的邏輯回歸模型評(píng)估這些特征的重要性權(quán)重，以反映參考文獻(xiàn)對(duì)引用文獻(xiàn)的影響程度；建立邏輯回歸模型作為影響力評(píng)估模型；使用具有不同特征值的新文獻(xiàn)實(shí)例模型來(lái)評(píng)估參考文獻(xiàn)的重要程度.這對(duì)于研究人員以更高效的方式來(lái)獲得有影響力的文獻(xiàn)是非常有幫助的.

2 相關(guān)工作

現(xiàn)有的研究工作中有不少關(guān)于影響力評(píng)估的研究，如圖模型和監(jiān)督方法.潛在狄利克雷分配(LDA)模型[10]是一種生成概率模型，將引文集成到主題建模中[11].基于LDA的擴(kuò)展變形可以用來(lái)提取文獻(xiàn)的潛在主題，以建立引文和文獻(xiàn)之間的關(guān)系模型.Tang等[4]提出了一種基于估計(jì)主題模型計(jì)算引文關(guān)系影響力的方法，通過考慮源文獻(xiàn)和目標(biāo)文獻(xiàn)的主題分布以及主題-類別混合來(lái)計(jì)算引文的影響力.Dietz等[1]提出的引文影響模型(CIM)描述了引文行為的生成過程，被引用文獻(xiàn)對(duì)引用文獻(xiàn)的影響可以通過引文的統(tǒng)計(jì)信息進(jìn)行評(píng)估.Qi等[3]提出了一種迭代的主題進(jìn)化學(xué)習(xí)框架，利用LDA和引文網(wǎng)絡(luò)，研究了一個(gè)新的繼承主題模型.Hall等[12]將無(wú)監(jiān)督主題建模應(yīng)用于ACL文集，以分析主題的變化過程，并檢查每個(gè)主題隨時(shí)間變化的強(qiáng)度，展示了主體思想的變化過程.生成模型可用于對(duì)隨機(jī)生成進(jìn)行建模，這適用于文獻(xiàn)的生成過程，并且可以僅使用文檔里的詞而不考慮每個(gè)詞的含義來(lái)評(píng)估主題級(jí)別的影響.

Bethard等[7]提出的引用推薦檢索模型是一種基于監(jiān)督的引文關(guān)系分析方法，其特征包括相似術(shù)語(yǔ)、他引關(guān)系、相似主題和引用習(xí)慣，它們的權(quán)重可以通過SVM-MAP進(jìn)行計(jì)算.這種方法利用文獻(xiàn)自身的信息，反映了文獻(xiàn)的研究動(dòng)機(jī)，可以在引文影響評(píng)價(jià)中充分利用這些特征.

上述方法都是關(guān)于參考鏈接的評(píng)估，但其目的各不相同，如文獻(xiàn)搜索，引文推薦和引文關(guān)系分類等.本文探索采用啟發(fā)式方法來(lái)輔助引文影響評(píng)估.文獻(xiàn)中存在一些重要的特征，例如文獻(xiàn)之間的內(nèi)容相似性，作者之間的共同作者關(guān)系，參考鏈接，引用計(jì)數(shù)，會(huì)議影響力，共同引用關(guān)系等，雖然這些特征不能被視為共同特征，但它們包含了影響文獻(xiàn)引用動(dòng)機(jī)的重要因素，可以有效地使用這些特征來(lái)檢測(cè)文獻(xiàn)之間的隱含關(guān)系.為此，本文設(shè)計(jì)了一個(gè)分類器來(lái)捕捉有影響力的參考文獻(xiàn)，以幫助研究人員有效地獲得有影響力的重要文獻(xiàn).

3 參考文獻(xiàn)影響力評(píng)估特征選擇

3.1 引文統(tǒng)計(jì)

科學(xué)文獻(xiàn)形成了一個(gè)通過引文關(guān)系連接的文獻(xiàn)研究網(wǎng)絡(luò)[13].學(xué)術(shù)網(wǎng)絡(luò)中的引文統(tǒng)計(jì)特征包括引文數(shù)、引文PageRank.常見符號(hào)D是整個(gè)語(yǔ)料庫(kù)，l和r是文獻(xiàn)，M是文獻(xiàn)的數(shù)量.引文數(shù)是文獻(xiàn)被引用的次數(shù)，用于表達(dá)文獻(xiàn)的重要程度[7].文獻(xiàn)1的引文數(shù)可以用公式(1)表示.

Citing(1)={1′∈D：1′cites1}

favg-citation-count(1)=log(|citing(1)|/yeardiff)

(1)

其中，yearcur表示當(dāng)前年份，yearpub表示出版年份.引文數(shù)是從Libra copra下載的.使用平均引文數(shù)來(lái)反映每篇參考文獻(xiàn)的長(zhǎng)期影響.引文數(shù)特征由對(duì)數(shù)值歸一化，以便保持在引文數(shù)縮放范圍.

3.2 文獻(xiàn)的相似性

為了更好地捕捉文獻(xiàn)的主題，將主題的相似性作為擴(kuò)展特征.文獻(xiàn)1的主題向量用公式(2)表示.

topics(1)={probt1,probt2，…，probtK}

(2)

其中，probti是文獻(xiàn)1的主題ti的推斷概率；K是主題的數(shù)量.

借用文獻(xiàn)之間Jensen-Shannon (JS) 差異作為文獻(xiàn)相似性度量，它為每對(duì)分布的KL發(fā)散度之和的平均值，如公式(3)所示.

(3)

(4)

這種主題相似性度量是一種語(yǔ)義上的相似性，并沒有考慮每個(gè)主題的術(shù)語(yǔ)特征.考慮引入文獻(xiàn)的標(biāo)題和摘要來(lái)度量文獻(xiàn)的相似性.如公式(5)和公式(6)所示.

Title-similarity(r,l)=cosine(TF(r),TF(l))

(5)

Abstract-similarity(r,l)=cosine(TF-IDF(r),

TF-IDF(l))

(6)

利用相關(guān)性向量來(lái)計(jì)算關(guān)鍵詞相似性，如公式(7)所示.

Keywords-Similarity(r,l)=

consine(Relevance(r),Relevance(l)

(7)

其中，Relevance(r)和Relevance(l)為文獻(xiàn)r和l的相關(guān)性向量.

3.3 作者引文行為

文獻(xiàn)作者的影響對(duì)參考文獻(xiàn)的選擇也是十分重要的.通過計(jì)算文獻(xiàn)作者引用參考文獻(xiàn)的總次數(shù)表示作者引文偏好的權(quán)重，用公式(8)表示.

(8)

其中，author_cited(l,ai)是作者ai被文獻(xiàn)1引用的總次數(shù)，它是從語(yǔ)料庫(kù)中統(tǒng)計(jì)出來(lái)的，U是文獻(xiàn)1中的作者數(shù)量.

3.4 期刊影響力

在高級(jí)期刊中發(fā)表的文獻(xiàn)比低級(jí)期刊更具影響力，可利用的期刊信息有出版物、引文和作者，用一種簡(jiǎn)單的方法來(lái)計(jì)算期刊的影響力，如公式(9)所示.

fconference(r)=log(Npubs+Ncites+Nauthors)

(9)

其中，Npubs是出版物的數(shù)量，Ncites是引文的數(shù)量，Nauthors是作者的數(shù)量，本文使用對(duì)數(shù)來(lái)表示三個(gè)值的權(quán)重.

4 影響評(píng)估模型

對(duì)參考文獻(xiàn)影響進(jìn)行評(píng)估的目的是為當(dāng)前的研究選擇出最有影響力的參考文獻(xiàn)，這就好比使用一個(gè)過濾器來(lái)濾出非常重要的參考文獻(xiàn).過濾模型大致可分為兩種類型：生成模型(如Na?ve Bayes)和判別模型(如支持型向量機(jī)和邏輯回歸(LR)).大量的分類測(cè)試表明，判別模型要優(yōu)于生成模型.因此，本文使用邏輯回歸模型(LR 模型)作為影響評(píng)估模型.

4.1 模型描述

使用邏輯回歸模型可以訓(xùn)練每個(gè)特征的權(quán)重，并且可以根據(jù)這些特征來(lái)計(jì)算每篇參考文獻(xiàn)屬于非常重要類型的概率.可以用公式(14)來(lái)預(yù)測(cè)影響概率.

(10)

對(duì)參考文獻(xiàn)是否為非常重要類型的分類通常有一個(gè)臨界值，將該值用θ表示.如果影響概率大于θ，則評(píng)估的參考文獻(xiàn)屬于“重要”類型，否則屬于“非常重要”的類型.通常情況下，θ可取值0.5，θ的最佳取值也可以根據(jù)文獻(xiàn)數(shù)據(jù)集來(lái)確定.

接下來(lái)的問題是如何訓(xùn)練特征的權(quán)重.在訓(xùn)練影響過濾模型時(shí)，本文借助了梯度下降法[14]，采用學(xué)習(xí)等級(jí)來(lái)控制在梯度方向上的跨度，其值通常取rate=0.02.

算法1.邏輯回歸模型訓(xùn)練算法

begin

if(p>θ)

predict yj=important

else predict yj=very-important

if(yj=very-important)

end

用邏輯回歸模型訓(xùn)練特征的權(quán)重后，可以利用概率度量作為影響評(píng)分.如果參考文獻(xiàn)影響評(píng)分大于θ，則預(yù)測(cè)表明它為“重要”，否則為“非常重要”，然后，將預(yù)測(cè)的標(biāo)簽與原本的標(biāo)簽進(jìn)行比較，可以得到“非常重要”類型數(shù)和“重要”類型數(shù)，以及非常重要類型錯(cuò)誤分類數(shù)和重要類型錯(cuò)誤分類數(shù)的靜態(tài)特征，以此來(lái)評(píng)估模型的性能.

4.2 模型評(píng)估

為評(píng)估使用的影響評(píng)估模型，考慮到非常重要類型錯(cuò)誤分類率(vimr)和重要類型錯(cuò)誤分類率(imr)，其中具有較低vimr和imr的分類器優(yōu)于較高的.將影響評(píng)分與臨界值θ進(jìn)行比較可以確定分類類型，所以精度對(duì)本文的方法而言并不是一個(gè)好的指標(biāo).接收者操作特性(ROC)曲線分析可用于評(píng)估非常重要和重要的錯(cuò)誤分類概率之間的平衡.(vimr，imr)的點(diǎn)集決定了ROC空間中的曲線.將ROC曲線下方面積記為AUC.為了得到vimr和imr之間可能的臨界值，我們使用1-AUC 來(lái)測(cè)算隨機(jī)“重要”類型消息得分比隨機(jī)“非常重要”類型消息得分還低的錯(cuò)誤概率.綜上，本文的評(píng)估指標(biāo)是vimr，imr，1-AUC以及ROC曲線上方面積的百分比.其中具有較低vimr，imr和1-AUC 的分類器要優(yōu)于高的.

5 實(shí)驗(yàn)結(jié)果與分析

我們收集了關(guān)于計(jì)算機(jī)科學(xué)的兩個(gè)學(xué)術(shù)語(yǔ)料庫(kù).一個(gè)是Arnetminer(現(xiàn)為AMiner)的文獻(xiàn)，其中包含629814篇文獻(xiàn)和超過632752個(gè)引用關(guān)系，刪除了沒有參考文獻(xiàn)的文獻(xiàn).另一個(gè)是Libra上2011年5月之前的會(huì)議信息，其中分別包含177381個(gè)出版物，2770個(gè)會(huì)議和614587作者.使用兩個(gè)學(xué)術(shù)語(yǔ)料庫(kù)之間有交集且作者和會(huì)議信息完整的文獻(xiàn)作為文獻(xiàn)數(shù)據(jù)集.在預(yù)處理階段，選擇參考文獻(xiàn)數(shù)量超過6篇的文獻(xiàn)作為訓(xùn)練數(shù)據(jù)集，并把它們以結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)起來(lái).為了訓(xùn)練LR模型，從1000篇文獻(xiàn)中標(biāo)記出6360篇參考文獻(xiàn)作為訓(xùn)練集.將訓(xùn)練集中每篇參考文獻(xiàn)的重要度進(jìn)行數(shù)字化，用標(biāo)簽1和0分別標(biāo)記“非常重要”和“重要”.利用訓(xùn)練后的LR模型，可以計(jì)算出參考文獻(xiàn)的影響評(píng)分.

表1 基于LR模型的基線特征權(quán)重和等級(jí)Table 1 Baseline features weights and Rank according to LR model

表2 屬性編號(hào)、屬性名、特征權(quán)重和等級(jí)Table 2 Attributes number，name，features weights and Rank according to LR model

為了在添加上述特征后還能對(duì)結(jié)果進(jìn)行合理的比較，使用標(biāo)題和摘要相似性作為基線特征來(lái)訓(xùn)練LR模型，其中訓(xùn)練的權(quán)重如表1所示.

在LR模型中使用梯度下降法訓(xùn)練每個(gè)屬性權(quán)重的方法已在4.1節(jié)中描述.表2給出了特征的絕對(duì)權(quán)重和等級(jí).對(duì)于邏輯回歸模型，由標(biāo)記集訓(xùn)練的權(quán)重反映了每個(gè)特征的影響程度，絕對(duì)權(quán)重越高，特征的影響等級(jí)越高.

從表2可知，摘要相似性的權(quán)重最高.研究人員在選擇參考文獻(xiàn)時(shí)，他們會(huì)先通過閱讀文獻(xiàn)摘要作為第一步篩選.使用這些權(quán)重，在(vim%，im%)集上對(duì)接收者操作特性(ROC)曲線進(jìn)行比較.由于臨界值不是固定的，根據(jù)臨界值θ的變化繪制了ROC曲線，如圖1所示.

圖1 使用帶有基線特征(標(biāo)題相似性和摘要相似性)和第3節(jié)中所有特征的邏輯回歸模型繪制的ROC曲線Fig.1 ROC of logistic regression model using baseline features (title similarity and abstract similarity) and all the features mentioned in Section 3

如圖1所示，具有所有特征的1-AUC (曲線上方的面積)小于僅具有基線特征的1-AUC.加入其他特征來(lái)促進(jìn)分類器的辨別能力，這些特征對(duì)于參考文獻(xiàn)影響評(píng)估是十分有用的.研究人員在選擇參考文獻(xiàn)時(shí)往往會(huì)忽略一些重要信息，可以在分析參考文獻(xiàn)時(shí)充分使用這些特征，以得到更準(zhǔn)確的結(jié)果.

6 結(jié) 語(yǔ)

在本文的研究中，使用辨別模型來(lái)訓(xùn)練一個(gè)分類器以區(qū)分有影響的參考文獻(xiàn)，使用大量特征來(lái)評(píng)估參考文獻(xiàn)的重要性.在特征集中通過梯度下降法訓(xùn)練LR模型后，得到每個(gè)特征的適當(dāng)權(quán)重，然后使用該模型計(jì)算影響類型概率，以便在得分與臨界值相比較時(shí)對(duì)參考文獻(xiàn)進(jìn)行評(píng)估.如實(shí)驗(yàn)結(jié)果所示，該模型的性能優(yōu)于僅使用標(biāo)題和摘要相似性的基準(zhǔn)模型，這將是過濾參考文獻(xiàn)的更好方法.

此外，本文方法尚有一些不足之處.我們的數(shù)據(jù)集不能得到作者、文獻(xiàn)和期刊/會(huì)議的精確計(jì)數(shù)，因?yàn)樗鼈冊(cè)诓粩嘧兓?在LR模型中，只使用非常重要和重要這兩個(gè)標(biāo)記，但是參考文獻(xiàn)的評(píng)估可以有各種不同的粒度.如果能找到參考文獻(xiàn)的鑒別劃分策略，就能得到一個(gè)更合理的評(píng)價(jià).另外，使用的語(yǔ)料庫(kù)主要是計(jì)算機(jī)科學(xué)方面，如果條件允許，可以在更大的文獻(xiàn)引用數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試，以測(cè)試這些特征是否符合這里觀察到的模式或能否揭示科學(xué)引文的新趨勢(shì).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡