国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學(xué)文獻(xiàn)中參考文獻(xiàn)影響力評(píng)估方法研究

2018-10-18 02:17顧進(jìn)廣張銘暉
關(guān)鍵詞:相似性參考文獻(xiàn)影響力

張 瑜,顧進(jìn)廣,4,張銘暉,張 俊

1(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065)

2(智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430065)

3(深圳證券信息有限公司,廣東 深圳 518028)

4(國(guó)家新聞廣電出版總局富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100038)

1 引 言

對(duì)于科研人員而言,在日常研究工作中閱讀大量的文獻(xiàn)是必不可少的.當(dāng)閱讀一些具有影響力的文獻(xiàn)時(shí),研究人員可能需要通過這些文獻(xiàn)的研究動(dòng)機(jī)來(lái)深入理解這些文獻(xiàn).當(dāng)研究人員想要選擇新的研究方向時(shí),他們需要查閱相關(guān)文獻(xiàn)以及這些文獻(xiàn)的參考文獻(xiàn).由于并非所有的參考文獻(xiàn)都是非常重要的,有必要過濾出所需要的重要參考文獻(xiàn).通常,研究人員會(huì)選擇尋找一些更具價(jià)值的參考文獻(xiàn),這些參考文獻(xiàn)是引用文獻(xiàn)學(xué)術(shù)思想的主要來(lái)源.但是,一篇文獻(xiàn)中有許多參考文獻(xiàn),研究人員如何高效地在這些參考文獻(xiàn)中找到最重要的參考文獻(xiàn)呢?

當(dāng)前,關(guān)于引用文獻(xiàn)影響力評(píng)估的研究可以分為兩類:(1)非監(jiān)督方法.主要包括圖模型,如由Dietz等[1]提出的引文影響模型(CIM).其它一些模型可以用來(lái)計(jì)算主題分布概率,如局部因子圖模型[2],傳承主題模型(ITM)[3],引文追蹤話題(CTT)模型[4],成對(duì)約束玻爾茲曼器(PRBMs)[5]及概率生成圖模型[6].(2)監(jiān)督方法.Bethard等[7]通過使用一些特征來(lái)計(jì)算學(xué)習(xí)權(quán)重相似度來(lái)進(jìn)行引文推薦,可以利用訓(xùn)練集學(xué)習(xí)啟發(fā)性指導(dǎo)來(lái)評(píng)估影響力.這些方法旨在從不同的角度解決鏈路強(qiáng)度問題,使用監(jiān)督方法的引文影響力評(píng)估方法采用啟發(fā)式線索,可以避免陷入局部術(shù)語(yǔ)細(xì)節(jié).此外,還有社交網(wǎng)絡(luò)中影響力最大化研究方法[8,9],也可用于引用文獻(xiàn)影響力評(píng)估.本文將考慮融合這幾個(gè)方面的優(yōu)點(diǎn),以使用主題信息和文獻(xiàn)自身的靜態(tài)特征來(lái)評(píng)估引文影響力.

可將參考文獻(xiàn)重要性評(píng)估問題設(shè)計(jì)成一個(gè)集成參考文獻(xiàn)各種重要因素的文獻(xiàn)數(shù)據(jù)集上的分類器.本文引入主題相似性將關(guān)鍵詞相似性作為重要考慮因素,將引用計(jì)數(shù)作為文獻(xiàn)的人氣指數(shù),期刊的影響力也可以用來(lái)評(píng)估不同期刊中的文獻(xiàn)影響力.本文設(shè)計(jì)了一個(gè)文獻(xiàn)分類器,使用帶標(biāo)簽的邏輯回歸模型評(píng)估這些特征的重要性權(quán)重,以反映參考文獻(xiàn)對(duì)引用文獻(xiàn)的影響程度;建立邏輯回歸模型作為影響力評(píng)估模型;使用具有不同特征值的新文獻(xiàn)實(shí)例模型來(lái)評(píng)估參考文獻(xiàn)的重要程度.這對(duì)于研究人員以更高效的方式來(lái)獲得有影響力的文獻(xiàn)是非常有幫助的.

2 相關(guān)工作

現(xiàn)有的研究工作中有不少關(guān)于影響力評(píng)估的研究,如圖模型和監(jiān)督方法.潛在狄利克雷分配(LDA)模型[10]是一種生成概率模型,將引文集成到主題建模中[11].基于LDA的擴(kuò)展變形可以用來(lái)提取文獻(xiàn)的潛在主題,以建立引文和文獻(xiàn)之間的關(guān)系模型.Tang等[4]提出了一種基于估計(jì)主題模型計(jì)算引文關(guān)系影響力的方法,通過考慮源文獻(xiàn)和目標(biāo)文獻(xiàn)的主題分布以及主題-類別混合來(lái)計(jì)算引文的影響力.Dietz等[1]提出的引文影響模型(CIM)描述了引文行為的生成過程,被引用文獻(xiàn)對(duì)引用文獻(xiàn)的影響可以通過引文的統(tǒng)計(jì)信息進(jìn)行評(píng)估.Qi等[3]提出了一種迭代的主題進(jìn)化學(xué)習(xí)框架,利用LDA和引文網(wǎng)絡(luò),研究了一個(gè)新的繼承主題模型.Hall等[12]將無(wú)監(jiān)督主題建模應(yīng)用于ACL文集,以分析主題的變化過程,并檢查每個(gè)主題隨時(shí)間變化的強(qiáng)度,展示了主體思想的變化過程.生成模型可用于對(duì)隨機(jī)生成進(jìn)行建模,這適用于文獻(xiàn)的生成過程,并且可以僅使用文檔里的詞而不考慮每個(gè)詞的含義來(lái)評(píng)估主題級(jí)別的影響.

Bethard等[7]提出的引用推薦檢索模型是一種基于監(jiān)督的引文關(guān)系分析方法,其特征包括相似術(shù)語(yǔ)、他引關(guān)系、相似主題和引用習(xí)慣,它們的權(quán)重可以通過SVM-MAP進(jìn)行計(jì)算.這種方法利用文獻(xiàn)自身的信息,反映了文獻(xiàn)的研究動(dòng)機(jī),可以在引文影響評(píng)價(jià)中充分利用這些特征.

上述方法都是關(guān)于參考鏈接的評(píng)估,但其目的各不相同,如文獻(xiàn)搜索,引文推薦和引文關(guān)系分類等.本文探索采用啟發(fā)式方法來(lái)輔助引文影響評(píng)估.文獻(xiàn)中存在一些重要的特征,例如文獻(xiàn)之間的內(nèi)容相似性,作者之間的共同作者關(guān)系,參考鏈接,引用計(jì)數(shù),會(huì)議影響力,共同引用關(guān)系等,雖然這些特征不能被視為共同特征,但它們包含了影響文獻(xiàn)引用動(dòng)機(jī)的重要因素,可以有效地使用這些特征來(lái)檢測(cè)文獻(xiàn)之間的隱含關(guān)系.為此,本文設(shè)計(jì)了一個(gè)分類器來(lái)捕捉有影響力的參考文獻(xiàn),以幫助研究人員有效地獲得有影響力的重要文獻(xiàn).

3 參考文獻(xiàn)影響力評(píng)估特征選擇

3.1 引文統(tǒng)計(jì)

科學(xué)文獻(xiàn)形成了一個(gè)通過引文關(guān)系連接的文獻(xiàn)研究網(wǎng)絡(luò)[13].學(xué)術(shù)網(wǎng)絡(luò)中的引文統(tǒng)計(jì)特征包括引文數(shù)、引文PageRank.常見符號(hào)D是整個(gè)語(yǔ)料庫(kù),l和r是文獻(xiàn),M是文獻(xiàn)的數(shù)量.引文數(shù)是文獻(xiàn)被引用的次數(shù),用于表達(dá)文獻(xiàn)的重要程度[7].文獻(xiàn)1的引文數(shù)可以用公式(1)表示.

Citing(1)={1′∈D:1′cites1}

favg-citation-count(1)=log(|citing(1)|/yeardiff)

(1)

其中,yearcur表示當(dāng)前年份,yearpub表示出版年份.引文數(shù)是從Libra copra下載的.使用平均引文數(shù)來(lái)反映每篇參考文獻(xiàn)的長(zhǎng)期影響.引文數(shù)特征由對(duì)數(shù)值歸一化,以便保持在引文數(shù)縮放范圍.

3.2 文獻(xiàn)的相似性

為了更好地捕捉文獻(xiàn)的主題,將主題的相似性作為擴(kuò)展特征.文獻(xiàn)1的主題向量用公式(2)表示.

topics(1)={probt1,probt2,…,probtK}

(2)

其中,probti是文獻(xiàn)1的主題ti的推斷概率;K是主題的數(shù)量.

借用文獻(xiàn)之間Jensen-Shannon (JS) 差異作為文獻(xiàn)相似性度量,它為每對(duì)分布的KL發(fā)散度之和的平均值,如公式(3)所示.

(3)

(4)

這種主題相似性度量是一種語(yǔ)義上的相似性,并沒有考慮每個(gè)主題的術(shù)語(yǔ)特征.考慮引入文獻(xiàn)的標(biāo)題和摘要來(lái)度量文獻(xiàn)的相似性.如公式(5)和公式(6)所示.

Title-similarity(r,l)=cosine(TF(r),TF(l))

(5)

Abstract-similarity(r,l)=cosine(TF-IDF(r),

TF-IDF(l))

(6)

利用相關(guān)性向量來(lái)計(jì)算關(guān)鍵詞相似性,如公式(7)所示.

Keywords-Similarity(r,l)=

consine(Relevance(r),Relevance(l)

(7)

其中,Relevance(r)和Relevance(l)為文獻(xiàn)r和l的相關(guān)性向量.

3.3 作者引文行為

文獻(xiàn)作者的影響對(duì)參考文獻(xiàn)的選擇也是十分重要的.通過計(jì)算文獻(xiàn)作者引用參考文獻(xiàn)的總次數(shù)表示作者引文偏好的權(quán)重,用公式(8)表示.

(8)

其中,author_cited(l,ai)是作者ai被文獻(xiàn)1引用的總次數(shù),它是從語(yǔ)料庫(kù)中統(tǒng)計(jì)出來(lái)的,U是文獻(xiàn)1中的作者數(shù)量.

3.4 期刊影響力

在高級(jí)期刊中發(fā)表的文獻(xiàn)比低級(jí)期刊更具影響力,可利用的期刊信息有出版物、引文和作者,用一種簡(jiǎn)單的方法來(lái)計(jì)算期刊的影響力,如公式(9)所示.

fconference(r)=log(Npubs+Ncites+Nauthors)

(9)

其中,Npubs是出版物的數(shù)量,Ncites是引文的數(shù)量,Nauthors是作者的數(shù)量,本文使用對(duì)數(shù)來(lái)表示三個(gè)值的權(quán)重.

4 影響評(píng)估模型

對(duì)參考文獻(xiàn)影響進(jìn)行評(píng)估的目的是為當(dāng)前的研究選擇出最有影響力的參考文獻(xiàn),這就好比使用一個(gè)過濾器來(lái)濾出非常重要的參考文獻(xiàn).過濾模型大致可分為兩種類型:生成模型(如Na?ve Bayes)和判別模型(如支持型向量機(jī)和邏輯回歸(LR)).大量的分類測(cè)試表明,判別模型要優(yōu)于生成模型.因此,本文使用邏輯回歸模型(LR 模型)作為影響評(píng)估模型.

4.1 模型描述

使用邏輯回歸模型可以訓(xùn)練每個(gè)特征的權(quán)重,并且可以根據(jù)這些特征來(lái)計(jì)算每篇參考文獻(xiàn)屬于非常重要類型的概率.可以用公式(14)來(lái)預(yù)測(cè)影響概率.

(10)

對(duì)參考文獻(xiàn)是否為非常重要類型的分類通常有一個(gè)臨界值,將該值用θ表示.如果影響概率大于θ,則評(píng)估的參考文獻(xiàn)屬于“重要”類型,否則屬于“非常重要”的類型.通常情況下,θ可取值0.5,θ的最佳取值也可以根據(jù)文獻(xiàn)數(shù)據(jù)集來(lái)確定.

接下來(lái)的問題是如何訓(xùn)練特征的權(quán)重.在訓(xùn)練影響過濾模型時(shí),本文借助了梯度下降法[14],采用學(xué)習(xí)等級(jí)來(lái)控制在梯度方向上的跨度,其值通常取rate=0.02.

算法1.邏輯回歸模型訓(xùn)練算法

begin

if(p>θ)

predict yj=important

else predict yj=very-important

if(yj=very-important)

end

用邏輯回歸模型訓(xùn)練特征的權(quán)重后,可以利用概率度量作為影響評(píng)分.如果參考文獻(xiàn)影響評(píng)分大于θ,則預(yù)測(cè)表明它為“重要”,否則為“非常重要”,然后,將預(yù)測(cè)的標(biāo)簽與原本的標(biāo)簽進(jìn)行比較,可以得到“非常重要”類型數(shù)和“重要”類型數(shù),以及非常重要類型錯(cuò)誤分類數(shù)和重要類型錯(cuò)誤分類數(shù)的靜態(tài)特征,以此來(lái)評(píng)估模型的性能.

4.2 模型評(píng)估

為評(píng)估使用的影響評(píng)估模型,考慮到非常重要類型錯(cuò)誤分類率(vimr)和重要類型錯(cuò)誤分類率(imr),其中具有較低vimr和imr的分類器優(yōu)于較高的.將影響評(píng)分與臨界值θ進(jìn)行比較可以確定分類類型,所以精度對(duì)本文的方法而言并不是一個(gè)好的指標(biāo).接收者操作特性(ROC)曲線分析可用于評(píng)估非常重要和重要的錯(cuò)誤分類概率之間的平衡.(vimr,imr)的點(diǎn)集決定了ROC空間中的曲線.將ROC曲線下方面積記為AUC.為了得到vimr和imr之間可能的臨界值,我們使用1-AUC 來(lái)測(cè)算隨機(jī)“重要”類型消息得分比隨機(jī)“非常重要”類型消息得分還低的錯(cuò)誤概率.綜上,本文的評(píng)估指標(biāo)是vimr,imr,1-AUC以及ROC曲線上方面積的百分比.其中具有較低vimr,imr和1-AUC 的分類器要優(yōu)于高的.

5 實(shí)驗(yàn)結(jié)果與分析

我們收集了關(guān)于計(jì)算機(jī)科學(xué)的兩個(gè)學(xué)術(shù)語(yǔ)料庫(kù).一個(gè)是Arnetminer(現(xiàn)為AMiner)的文獻(xiàn),其中包含629814篇文獻(xiàn)和超過632752個(gè)引用關(guān)系,刪除了沒有參考文獻(xiàn)的文獻(xiàn).另一個(gè)是Libra上2011年5月之前的會(huì)議信息,其中分別包含177381個(gè)出版物,2770個(gè)會(huì)議和614587作者.使用兩個(gè)學(xué)術(shù)語(yǔ)料庫(kù)之間有交集且作者和會(huì)議信息完整的文獻(xiàn)作為文獻(xiàn)數(shù)據(jù)集.在預(yù)處理階段,選擇參考文獻(xiàn)數(shù)量超過6篇的文獻(xiàn)作為訓(xùn)練數(shù)據(jù)集,并把它們以結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)起來(lái).為了訓(xùn)練LR模型,從1000篇文獻(xiàn)中標(biāo)記出6360篇參考文獻(xiàn)作為訓(xùn)練集.將訓(xùn)練集中每篇參考文獻(xiàn)的重要度進(jìn)行數(shù)字化,用標(biāo)簽1和0分別標(biāo)記“非常重要”和“重要”.利用訓(xùn)練后的LR模型,可以計(jì)算出參考文獻(xiàn)的影響評(píng)分.

表1 基于LR模型的基線特征權(quán)重和等級(jí)Table 1 Baseline features weights and Rank according to LR model

表2 屬性編號(hào)、屬性名、特征權(quán)重和等級(jí)Table 2 Attributes number,name,features weights and Rank according to LR model

為了在添加上述特征后還能對(duì)結(jié)果進(jìn)行合理的比較,使用標(biāo)題和摘要相似性作為基線特征來(lái)訓(xùn)練LR模型,其中訓(xùn)練的權(quán)重如表1所示.

在LR模型中使用梯度下降法訓(xùn)練每個(gè)屬性權(quán)重的方法已在4.1節(jié)中描述.表2給出了特征的絕對(duì)權(quán)重和等級(jí).對(duì)于邏輯回歸模型,由標(biāo)記集訓(xùn)練的權(quán)重反映了每個(gè)特征的影響程度,絕對(duì)權(quán)重越高,特征的影響等級(jí)越高.

從表2可知,摘要相似性的權(quán)重最高.研究人員在選擇參考文獻(xiàn)時(shí),他們會(huì)先通過閱讀文獻(xiàn)摘要作為第一步篩選.使用這些權(quán)重,在(vim%,im%)集上對(duì)接收者操作特性(ROC)曲線進(jìn)行比較.由于臨界值不是固定的,根據(jù)臨界值θ的變化繪制了ROC曲線,如圖1所示.

圖1 使用帶有基線特征(標(biāo)題相似性和摘要相似性)和第3節(jié)中所有特征的邏輯回歸模型繪制的ROC曲線Fig.1 ROC of logistic regression model using baseline features (title similarity and abstract similarity) and all the features mentioned in Section 3

如圖1所示,具有所有特征的1-AUC (曲線上方的面積)小于僅具有基線特征的1-AUC.加入其他特征來(lái)促進(jìn)分類器的辨別能力,這些特征對(duì)于參考文獻(xiàn)影響評(píng)估是十分有用的.研究人員在選擇參考文獻(xiàn)時(shí)往往會(huì)忽略一些重要信息,可以在分析參考文獻(xiàn)時(shí)充分使用這些特征,以得到更準(zhǔn)確的結(jié)果.

6 結(jié) 語(yǔ)

在本文的研究中,使用辨別模型來(lái)訓(xùn)練一個(gè)分類器以區(qū)分有影響的參考文獻(xiàn),使用大量特征來(lái)評(píng)估參考文獻(xiàn)的重要性.在特征集中通過梯度下降法訓(xùn)練LR模型后,得到每個(gè)特征的適當(dāng)權(quán)重,然后使用該模型計(jì)算影響類型概率,以便在得分與臨界值相比較時(shí)對(duì)參考文獻(xiàn)進(jìn)行評(píng)估.如實(shí)驗(yàn)結(jié)果所示,該模型的性能優(yōu)于僅使用標(biāo)題和摘要相似性的基準(zhǔn)模型,這將是過濾參考文獻(xiàn)的更好方法.

此外,本文方法尚有一些不足之處.我們的數(shù)據(jù)集不能得到作者、文獻(xiàn)和期刊/會(huì)議的精確計(jì)數(shù),因?yàn)樗鼈冊(cè)诓粩嘧兓?在LR模型中,只使用非常重要和重要這兩個(gè)標(biāo)記,但是參考文獻(xiàn)的評(píng)估可以有各種不同的粒度.如果能找到參考文獻(xiàn)的鑒別劃分策略,就能得到一個(gè)更合理的評(píng)價(jià).另外,使用的語(yǔ)料庫(kù)主要是計(jì)算機(jī)科學(xué)方面,如果條件允許,可以在更大的文獻(xiàn)引用數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試,以測(cè)試這些特征是否符合這里觀察到的模式或能否揭示科學(xué)引文的新趨勢(shì).

猜你喜歡
相似性參考文獻(xiàn)影響力
淺析當(dāng)代中西方繪畫的相似性
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
天才影響力
12個(gè)毫無(wú)違和感的奇妙動(dòng)物組合
黃艷:最深遠(yuǎn)的影響力
基于隱喻相似性研究[血]的慣用句
Study on the physiological function and application of γ—aminobutyric acid and its receptors
3.15消協(xié)三十年十大影響力事件
傳媒不可估量的影響力
The Review of the Studies of Trilingual Education in inghai
泰宁县| 东乡| 青铜峡市| 甘洛县| 成安县| 庄河市| 同江市| 北辰区| 永平县| 桐乡市| 年辖:市辖区| 黄大仙区| 陆丰市| 黔东| 福安市| 昂仁县| 绥中县| 舞钢市| 永康市| 穆棱市| 通州市| 桓台县| 揭西县| 新宁县| 滁州市| 白城市| 民和| 宾川县| 偃师市| 巍山| 阳东县| 内丘县| 犍为县| 福州市| 鹤庆县| 仙桃市| 和田市| 宁武县| 安图县| 顺昌县| 饶河县|