張 瑜,顧進(jìn)廣,4,張銘暉,張 俊
1(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065)
2(智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430065)
3(深圳證券信息有限公司,廣東 深圳 518028)
4(國(guó)家新聞廣電出版總局富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100038)
對(duì)于科研人員而言,在日常研究工作中閱讀大量的文獻(xiàn)是必不可少的.當(dāng)閱讀一些具有影響力的文獻(xiàn)時(shí),研究人員可能需要通過這些文獻(xiàn)的研究動(dòng)機(jī)來(lái)深入理解這些文獻(xiàn).當(dāng)研究人員想要選擇新的研究方向時(shí),他們需要查閱相關(guān)文獻(xiàn)以及這些文獻(xiàn)的參考文獻(xiàn).由于并非所有的參考文獻(xiàn)都是非常重要的,有必要過濾出所需要的重要參考文獻(xiàn).通常,研究人員會(huì)選擇尋找一些更具價(jià)值的參考文獻(xiàn),這些參考文獻(xiàn)是引用文獻(xiàn)學(xué)術(shù)思想的主要來(lái)源.但是,一篇文獻(xiàn)中有許多參考文獻(xiàn),研究人員如何高效地在這些參考文獻(xiàn)中找到最重要的參考文獻(xiàn)呢?
當(dāng)前,關(guān)于引用文獻(xiàn)影響力評(píng)估的研究可以分為兩類:(1)非監(jiān)督方法.主要包括圖模型,如由Dietz等[1]提出的引文影響模型(CIM).其它一些模型可以用來(lái)計(jì)算主題分布概率,如局部因子圖模型[2],傳承主題模型(ITM)[3],引文追蹤話題(CTT)模型[4],成對(duì)約束玻爾茲曼器(PRBMs)[5]及概率生成圖模型[6].(2)監(jiān)督方法.Bethard等[7]通過使用一些特征來(lái)計(jì)算學(xué)習(xí)權(quán)重相似度來(lái)進(jìn)行引文推薦,可以利用訓(xùn)練集學(xué)習(xí)啟發(fā)性指導(dǎo)來(lái)評(píng)估影響力.這些方法旨在從不同的角度解決鏈路強(qiáng)度問題,使用監(jiān)督方法的引文影響力評(píng)估方法采用啟發(fā)式線索,可以避免陷入局部術(shù)語(yǔ)細(xì)節(jié).此外,還有社交網(wǎng)絡(luò)中影響力最大化研究方法[8,9],也可用于引用文獻(xiàn)影響力評(píng)估.本文將考慮融合這幾個(gè)方面的優(yōu)點(diǎn),以使用主題信息和文獻(xiàn)自身的靜態(tài)特征來(lái)評(píng)估引文影響力.
可將參考文獻(xiàn)重要性評(píng)估問題設(shè)計(jì)成一個(gè)集成參考文獻(xiàn)各種重要因素的文獻(xiàn)數(shù)據(jù)集上的分類器.本文引入主題相似性將關(guān)鍵詞相似性作為重要考慮因素,將引用計(jì)數(shù)作為文獻(xiàn)的人氣指數(shù),期刊的影響力也可以用來(lái)評(píng)估不同期刊中的文獻(xiàn)影響力.本文設(shè)計(jì)了一個(gè)文獻(xiàn)分類器,使用帶標(biāo)簽的邏輯回歸模型評(píng)估這些特征的重要性權(quán)重,以反映參考文獻(xiàn)對(duì)引用文獻(xiàn)的影響程度;建立邏輯回歸模型作為影響力評(píng)估模型;使用具有不同特征值的新文獻(xiàn)實(shí)例模型來(lái)評(píng)估參考文獻(xiàn)的重要程度.這對(duì)于研究人員以更高效的方式來(lái)獲得有影響力的文獻(xiàn)是非常有幫助的.
現(xiàn)有的研究工作中有不少關(guān)于影響力評(píng)估的研究,如圖模型和監(jiān)督方法.潛在狄利克雷分配(LDA)模型[10]是一種生成概率模型,將引文集成到主題建模中[11].基于LDA的擴(kuò)展變形可以用來(lái)提取文獻(xiàn)的潛在主題,以建立引文和文獻(xiàn)之間的關(guān)系模型.Tang等[4]提出了一種基于估計(jì)主題模型計(jì)算引文關(guān)系影響力的方法,通過考慮源文獻(xiàn)和目標(biāo)文獻(xiàn)的主題分布以及主題-類別混合來(lái)計(jì)算引文的影響力.Dietz等[1]提出的引文影響模型(CIM)描述了引文行為的生成過程,被引用文獻(xiàn)對(duì)引用文獻(xiàn)的影響可以通過引文的統(tǒng)計(jì)信息進(jìn)行評(píng)估.Qi等[3]提出了一種迭代的主題進(jìn)化學(xué)習(xí)框架,利用LDA和引文網(wǎng)絡(luò),研究了一個(gè)新的繼承主題模型.Hall等[12]將無(wú)監(jiān)督主題建模應(yīng)用于ACL文集,以分析主題的變化過程,并檢查每個(gè)主題隨時(shí)間變化的強(qiáng)度,展示了主體思想的變化過程.生成模型可用于對(duì)隨機(jī)生成進(jìn)行建模,這適用于文獻(xiàn)的生成過程,并且可以僅使用文檔里的詞而不考慮每個(gè)詞的含義來(lái)評(píng)估主題級(jí)別的影響.
Bethard等[7]提出的引用推薦檢索模型是一種基于監(jiān)督的引文關(guān)系分析方法,其特征包括相似術(shù)語(yǔ)、他引關(guān)系、相似主題和引用習(xí)慣,它們的權(quán)重可以通過SVM-MAP進(jìn)行計(jì)算.這種方法利用文獻(xiàn)自身的信息,反映了文獻(xiàn)的研究動(dòng)機(jī),可以在引文影響評(píng)價(jià)中充分利用這些特征.
上述方法都是關(guān)于參考鏈接的評(píng)估,但其目的各不相同,如文獻(xiàn)搜索,引文推薦和引文關(guān)系分類等.本文探索采用啟發(fā)式方法來(lái)輔助引文影響評(píng)估.文獻(xiàn)中存在一些重要的特征,例如文獻(xiàn)之間的內(nèi)容相似性,作者之間的共同作者關(guān)系,參考鏈接,引用計(jì)數(shù),會(huì)議影響力,共同引用關(guān)系等,雖然這些特征不能被視為共同特征,但它們包含了影響文獻(xiàn)引用動(dòng)機(jī)的重要因素,可以有效地使用這些特征來(lái)檢測(cè)文獻(xiàn)之間的隱含關(guān)系.為此,本文設(shè)計(jì)了一個(gè)分類器來(lái)捕捉有影響力的參考文獻(xiàn),以幫助研究人員有效地獲得有影響力的重要文獻(xiàn).
科學(xué)文獻(xiàn)形成了一個(gè)通過引文關(guān)系連接的文獻(xiàn)研究網(wǎng)絡(luò)[13].學(xué)術(shù)網(wǎng)絡(luò)中的引文統(tǒng)計(jì)特征包括引文數(shù)、引文PageRank.常見符號(hào)D是整個(gè)語(yǔ)料庫(kù),l和r是文獻(xiàn),M是文獻(xiàn)的數(shù)量.引文數(shù)是文獻(xiàn)被引用的次數(shù),用于表達(dá)文獻(xiàn)的重要程度[7].文獻(xiàn)1的引文數(shù)可以用公式(1)表示.
Citing(1)={1′∈D:1′cites1}
favg-citation-count(1)=log(|citing(1)|/yeardiff)
(1)
其中,yearcur表示當(dāng)前年份,yearpub表示出版年份.引文數(shù)是從Libra copra下載的.使用平均引文數(shù)來(lái)反映每篇參考文獻(xiàn)的長(zhǎng)期影響.引文數(shù)特征由對(duì)數(shù)值歸一化,以便保持在引文數(shù)縮放范圍.
為了更好地捕捉文獻(xiàn)的主題,將主題的相似性作為擴(kuò)展特征.文獻(xiàn)1的主題向量用公式(2)表示.
topics(1)={probt1,probt2,…,probtK}
(2)
其中,probti是文獻(xiàn)1的主題ti的推斷概率;K是主題的數(shù)量.
借用文獻(xiàn)之間Jensen-Shannon (JS) 差異作為文獻(xiàn)相似性度量,它為每對(duì)分布的KL發(fā)散度之和的平均值,如公式(3)所示.
(3)
(4)
這種主題相似性度量是一種語(yǔ)義上的相似性,并沒有考慮每個(gè)主題的術(shù)語(yǔ)特征.考慮引入文獻(xiàn)的標(biāo)題和摘要來(lái)度量文獻(xiàn)的相似性.如公式(5)和公式(6)所示.
Title-similarity(r,l)=cosine(TF(r),TF(l))
(5)
Abstract-similarity(r,l)=cosine(TF-IDF(r),
TF-IDF(l))
(6)
利用相關(guān)性向量來(lái)計(jì)算關(guān)鍵詞相似性,如公式(7)所示.
Keywords-Similarity(r,l)=
consine(Relevance(r),Relevance(l)
(7)
其中,Relevance(r)和Relevance(l)為文獻(xiàn)r和l的相關(guān)性向量.
文獻(xiàn)作者的影響對(duì)參考文獻(xiàn)的選擇也是十分重要的.通過計(jì)算文獻(xiàn)作者引用參考文獻(xiàn)的總次數(shù)表示作者引文偏好的權(quán)重,用公式(8)表示.
(8)
其中,author_cited(l,ai)是作者ai被文獻(xiàn)1引用的總次數(shù),它是從語(yǔ)料庫(kù)中統(tǒng)計(jì)出來(lái)的,U是文獻(xiàn)1中的作者數(shù)量.
在高級(jí)期刊中發(fā)表的文獻(xiàn)比低級(jí)期刊更具影響力,可利用的期刊信息有出版物、引文和作者,用一種簡(jiǎn)單的方法來(lái)計(jì)算期刊的影響力,如公式(9)所示.
fconference(r)=log(Npubs+Ncites+Nauthors)
(9)
其中,Npubs是出版物的數(shù)量,Ncites是引文的數(shù)量,Nauthors是作者的數(shù)量,本文使用對(duì)數(shù)來(lái)表示三個(gè)值的權(quán)重.
對(duì)參考文獻(xiàn)影響進(jìn)行評(píng)估的目的是為當(dāng)前的研究選擇出最有影響力的參考文獻(xiàn),這就好比使用一個(gè)過濾器來(lái)濾出非常重要的參考文獻(xiàn).過濾模型大致可分為兩種類型:生成模型(如Na?ve Bayes)和判別模型(如支持型向量機(jī)和邏輯回歸(LR)).大量的分類測(cè)試表明,判別模型要優(yōu)于生成模型.因此,本文使用邏輯回歸模型(LR 模型)作為影響評(píng)估模型.
使用邏輯回歸模型可以訓(xùn)練每個(gè)特征的權(quán)重,并且可以根據(jù)這些特征來(lái)計(jì)算每篇參考文獻(xiàn)屬于非常重要類型的概率.可以用公式(14)來(lái)預(yù)測(cè)影響概率.
(10)
對(duì)參考文獻(xiàn)是否為非常重要類型的分類通常有一個(gè)臨界值,將該值用θ表示.如果影響概率大于θ,則評(píng)估的參考文獻(xiàn)屬于“重要”類型,否則屬于“非常重要”的類型.通常情況下,θ可取值0.5,θ的最佳取值也可以根據(jù)文獻(xiàn)數(shù)據(jù)集來(lái)確定.
接下來(lái)的問題是如何訓(xùn)練特征的權(quán)重.在訓(xùn)練影響過濾模型時(shí),本文借助了梯度下降法[14],采用學(xué)習(xí)等級(jí)來(lái)控制在梯度方向上的跨度,其值通常取rate=0.02.
算法1.邏輯回歸模型訓(xùn)練算法
begin
if(p>θ)
predict yj=important
else predict yj=very-important
if(yj=very-important)
end
用邏輯回歸模型訓(xùn)練特征的權(quán)重后,可以利用概率度量作為影響評(píng)分.如果參考文獻(xiàn)影響評(píng)分大于θ,則預(yù)測(cè)表明它為“重要”,否則為“非常重要”,然后,將預(yù)測(cè)的標(biāo)簽與原本的標(biāo)簽進(jìn)行比較,可以得到“非常重要”類型數(shù)和“重要”類型數(shù),以及非常重要類型錯(cuò)誤分類數(shù)和重要類型錯(cuò)誤分類數(shù)的靜態(tài)特征,以此來(lái)評(píng)估模型的性能.
為評(píng)估使用的影響評(píng)估模型,考慮到非常重要類型錯(cuò)誤分類率(vimr)和重要類型錯(cuò)誤分類率(imr),其中具有較低vimr和imr的分類器優(yōu)于較高的.將影響評(píng)分與臨界值θ進(jìn)行比較可以確定分類類型,所以精度對(duì)本文的方法而言并不是一個(gè)好的指標(biāo).接收者操作特性(ROC)曲線分析可用于評(píng)估非常重要和重要的錯(cuò)誤分類概率之間的平衡.(vimr,imr)的點(diǎn)集決定了ROC空間中的曲線.將ROC曲線下方面積記為AUC.為了得到vimr和imr之間可能的臨界值,我們使用1-AUC 來(lái)測(cè)算隨機(jī)“重要”類型消息得分比隨機(jī)“非常重要”類型消息得分還低的錯(cuò)誤概率.綜上,本文的評(píng)估指標(biāo)是vimr,imr,1-AUC以及ROC曲線上方面積的百分比.其中具有較低vimr,imr和1-AUC 的分類器要優(yōu)于高的.
我們收集了關(guān)于計(jì)算機(jī)科學(xué)的兩個(gè)學(xué)術(shù)語(yǔ)料庫(kù).一個(gè)是Arnetminer(現(xiàn)為AMiner)的文獻(xiàn),其中包含629814篇文獻(xiàn)和超過632752個(gè)引用關(guān)系,刪除了沒有參考文獻(xiàn)的文獻(xiàn).另一個(gè)是Libra上2011年5月之前的會(huì)議信息,其中分別包含177381個(gè)出版物,2770個(gè)會(huì)議和614587作者.使用兩個(gè)學(xué)術(shù)語(yǔ)料庫(kù)之間有交集且作者和會(huì)議信息完整的文獻(xiàn)作為文獻(xiàn)數(shù)據(jù)集.在預(yù)處理階段,選擇參考文獻(xiàn)數(shù)量超過6篇的文獻(xiàn)作為訓(xùn)練數(shù)據(jù)集,并把它們以結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)起來(lái).為了訓(xùn)練LR模型,從1000篇文獻(xiàn)中標(biāo)記出6360篇參考文獻(xiàn)作為訓(xùn)練集.將訓(xùn)練集中每篇參考文獻(xiàn)的重要度進(jìn)行數(shù)字化,用標(biāo)簽1和0分別標(biāo)記“非常重要”和“重要”.利用訓(xùn)練后的LR模型,可以計(jì)算出參考文獻(xiàn)的影響評(píng)分.
表1 基于LR模型的基線特征權(quán)重和等級(jí)Table 1 Baseline features weights and Rank according to LR model
表2 屬性編號(hào)、屬性名、特征權(quán)重和等級(jí)Table 2 Attributes number,name,features weights and Rank according to LR model
為了在添加上述特征后還能對(duì)結(jié)果進(jìn)行合理的比較,使用標(biāo)題和摘要相似性作為基線特征來(lái)訓(xùn)練LR模型,其中訓(xùn)練的權(quán)重如表1所示.
在LR模型中使用梯度下降法訓(xùn)練每個(gè)屬性權(quán)重的方法已在4.1節(jié)中描述.表2給出了特征的絕對(duì)權(quán)重和等級(jí).對(duì)于邏輯回歸模型,由標(biāo)記集訓(xùn)練的權(quán)重反映了每個(gè)特征的影響程度,絕對(duì)權(quán)重越高,特征的影響等級(jí)越高.
從表2可知,摘要相似性的權(quán)重最高.研究人員在選擇參考文獻(xiàn)時(shí),他們會(huì)先通過閱讀文獻(xiàn)摘要作為第一步篩選.使用這些權(quán)重,在(vim%,im%)集上對(duì)接收者操作特性(ROC)曲線進(jìn)行比較.由于臨界值不是固定的,根據(jù)臨界值θ的變化繪制了ROC曲線,如圖1所示.
圖1 使用帶有基線特征(標(biāo)題相似性和摘要相似性)和第3節(jié)中所有特征的邏輯回歸模型繪制的ROC曲線Fig.1 ROC of logistic regression model using baseline features (title similarity and abstract similarity) and all the features mentioned in Section 3
如圖1所示,具有所有特征的1-AUC (曲線上方的面積)小于僅具有基線特征的1-AUC.加入其他特征來(lái)促進(jìn)分類器的辨別能力,這些特征對(duì)于參考文獻(xiàn)影響評(píng)估是十分有用的.研究人員在選擇參考文獻(xiàn)時(shí)往往會(huì)忽略一些重要信息,可以在分析參考文獻(xiàn)時(shí)充分使用這些特征,以得到更準(zhǔn)確的結(jié)果.
在本文的研究中,使用辨別模型來(lái)訓(xùn)練一個(gè)分類器以區(qū)分有影響的參考文獻(xiàn),使用大量特征來(lái)評(píng)估參考文獻(xiàn)的重要性.在特征集中通過梯度下降法訓(xùn)練LR模型后,得到每個(gè)特征的適當(dāng)權(quán)重,然后使用該模型計(jì)算影響類型概率,以便在得分與臨界值相比較時(shí)對(duì)參考文獻(xiàn)進(jìn)行評(píng)估.如實(shí)驗(yàn)結(jié)果所示,該模型的性能優(yōu)于僅使用標(biāo)題和摘要相似性的基準(zhǔn)模型,這將是過濾參考文獻(xiàn)的更好方法.
此外,本文方法尚有一些不足之處.我們的數(shù)據(jù)集不能得到作者、文獻(xiàn)和期刊/會(huì)議的精確計(jì)數(shù),因?yàn)樗鼈冊(cè)诓粩嘧兓?在LR模型中,只使用非常重要和重要這兩個(gè)標(biāo)記,但是參考文獻(xiàn)的評(píng)估可以有各種不同的粒度.如果能找到參考文獻(xiàn)的鑒別劃分策略,就能得到一個(gè)更合理的評(píng)價(jià).另外,使用的語(yǔ)料庫(kù)主要是計(jì)算機(jī)科學(xué)方面,如果條件允許,可以在更大的文獻(xiàn)引用數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試,以測(cè)試這些特征是否符合這里觀察到的模式或能否揭示科學(xué)引文的新趨勢(shì).