,,, ,
文獻(xiàn)是科研工作者獲取科學(xué)假設(shè)與跟蹤領(lǐng)域進(jìn)展的重要途徑,從大量文獻(xiàn)集中識(shí)別出前沿?zé)狳c(diǎn)對(duì)科學(xué)研究具有重要的理論和實(shí)踐意義。科技情報(bào)工作的基礎(chǔ)就是要抓住前沿?zé)狳c(diǎn),掌握前沿發(fā)展的動(dòng)態(tài),密切跟蹤研究進(jìn)展,但前沿?zé)狳c(diǎn)的定義并沒(méi)有科研人員一致公認(rèn)的標(biāo)準(zhǔn)[1]。領(lǐng)域熱點(diǎn)存在兩個(gè)最主要的特征:一是相關(guān)領(lǐng)域近年的文獻(xiàn)集呈現(xiàn)出的熱點(diǎn)主題,二是圍繞熱點(diǎn)主題使未來(lái)短期內(nèi)能形成大量新的研究?jī)?nèi)容。目前各個(gè)學(xué)科領(lǐng)域的科研人員提出了很多熱點(diǎn)主題的識(shí)別方法,以便領(lǐng)域?qū)<铱偨Y(jié)未來(lái)短期內(nèi)的研究方向,但研究?jī)?nèi)容的預(yù)測(cè)及對(duì)預(yù)測(cè)結(jié)果的評(píng)價(jià)仍是一個(gè)開(kāi)放的問(wèn)題。
要從已有文獻(xiàn)中獲得新的研究?jī)?nèi)容,首先需要從文獻(xiàn)集中發(fā)現(xiàn)隱含的聯(lián)系以形成科學(xué)假設(shè)。越來(lái)越多的文獻(xiàn)挖掘研究嘗試從文獻(xiàn)集構(gòu)建關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),以便進(jìn)一步深入地挖掘新的關(guān)聯(lián)知識(shí)[2],而網(wǎng)絡(luò)的拓?fù)涮卣鲿?huì)在一定程度上影響網(wǎng)絡(luò)的演化發(fā)展[3]。因此,本文主要基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)模型,從關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的特征變化預(yù)測(cè)領(lǐng)域熱點(diǎn),并通過(guò)1種評(píng)價(jià)預(yù)測(cè)結(jié)果的方法驗(yàn)證其可預(yù)測(cè)性。
基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)(Literature-based Discovery, LBD)通過(guò)潛在的關(guān)聯(lián)挖掘推斷出新的科學(xué)假設(shè)。如果有兩類文獻(xiàn)集As和Cs,其中As討論了概念A(yù)和概念B之間的關(guān)系,而Cs討論了概念C和概念B之間的關(guān)系,但是沒(méi)有任何文獻(xiàn)討論概念A(yù)和概念C的關(guān)系,那么A與C之間通過(guò)B存在某種關(guān)系,這就可能是一個(gè)新的科學(xué)發(fā)現(xiàn)[4-5]。根據(jù)文獻(xiàn)知識(shí)發(fā)現(xiàn)理論模型,如果基于近期文獻(xiàn)集,從概念A(yù)能夠推斷出較多的新假設(shè),那么概念A(yù)很可能是近期文獻(xiàn)集呈現(xiàn)出的某個(gè)熱點(diǎn)主題,能衍生出大量新的研究?jī)?nèi)容。
利用圖對(duì)關(guān)聯(lián)知識(shí)建模,是目前相關(guān)領(lǐng)域最常用的方法。通常一個(gè)簡(jiǎn)單的無(wú)向無(wú)權(quán)網(wǎng)絡(luò),可記為G=(V ,E),其中集合 V 稱為節(jié)點(diǎn)集,V={V1,V2,…,Vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對(duì)應(yīng)一個(gè)節(jié)點(diǎn)的二元組:ex=(Vi,Vj),E是V×V的一個(gè)子集。本文將文獻(xiàn)集中的內(nèi)容相關(guān)性轉(zhuǎn)化為基于關(guān)聯(lián)信息存在的圖結(jié)構(gòu)數(shù)據(jù)模型,即根據(jù)文獻(xiàn)中的概念實(shí)體及其關(guān)聯(lián)信息,對(duì)文獻(xiàn)中所蘊(yùn)含的知識(shí)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)化,構(gòu)建文獻(xiàn)關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)。在關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)G=(V, E) 中,節(jié)點(diǎn)集V 是各種從生物醫(yī)學(xué)文獻(xiàn)中提取而來(lái)的實(shí)體的集合,如基因、蛋白質(zhì)、化合物或疾病等,邊集E 是實(shí)體之間的關(guān)聯(lián)集合。關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)把文獻(xiàn)集中的知識(shí)以網(wǎng)絡(luò)形式表示出來(lái),這既表示出知識(shí)之間的聯(lián)系,也過(guò)濾了冗余知識(shí),為發(fā)現(xiàn)對(duì)象間的隱含關(guān)系提供了方便。本文基于句子共現(xiàn)提取實(shí)體關(guān)聯(lián)[6],用以進(jìn)行測(cè)試分析,基本過(guò)程如下。
識(shí)別出句子的實(shí)體NP(Noun Phrase)及其位置。如果在同一個(gè)句子中得到的實(shí)體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián)(NP1,NP2),(NP1,NP3),(NP2,NP3)。如文獻(xiàn)標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice. 提取得到實(shí)體及其位置的列表為:[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]
進(jìn)一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222 ),(β1-syntrophin modulation , mdx mouse),( miR-222, mdx mouse)
將兩個(gè)實(shí)體首次共現(xiàn)的時(shí)間(年份),作為關(guān)系的T屬性。
給定關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)G=(V,E),對(duì)于任意節(jié)點(diǎn)v∈V,定義其節(jié)點(diǎn)度的增長(zhǎng)率為:
其中dT為T時(shí)節(jié)點(diǎn)的度,即T時(shí)節(jié)點(diǎn)的所有關(guān)聯(lián)數(shù)量,且T1 綜合來(lái)看,筆者更傾向于第一種浪形的劃分。因?yàn)閺臅r(shí)間和大周期結(jié)構(gòu)的角度來(lái)看,時(shí)間不支持走一輪完整的12345浪了。 文獻(xiàn)知識(shí)發(fā)現(xiàn)的實(shí)施主要包括3個(gè)重要部分,分別是概念實(shí)體A、B和C的識(shí)別、關(guān)聯(lián)的抽取以及間接關(guān)聯(lián)的相關(guān)度計(jì)算,用戶輸入概念A(yù),計(jì)算A-B-C之間的關(guān)聯(lián)強(qiáng)度獲得按關(guān)聯(lián)強(qiáng)度由大到小的有序列表[7]。對(duì)于一個(gè)文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)來(lái)說(shuō),返回的候選結(jié)果的數(shù)量比較大時(shí),排在前面的結(jié)果通常是用戶最關(guān)心的。因此,給定每一個(gè)A-B-C間接關(guān)聯(lián),計(jì)算其(A-B-C)的一個(gè)分值SAC,利用SAC對(duì)所有候選結(jié)果集從大到小排序之后,在有序的結(jié)果列表中,確保排序靠前的多是全局關(guān)聯(lián)強(qiáng)度較好的結(jié)果,即只關(guān)注于分值最高的前L條關(guān)系鏈(A-B-C)的準(zhǔn)確度P(Precision),P越大效果越好。 1.3.1 準(zhǔn)確率P的計(jì)算 給定測(cè)試文獻(xiàn)數(shù)據(jù)集,將文獻(xiàn)數(shù)據(jù)集按時(shí)間分成訓(xùn)練集Ttrain和測(cè)試集Ttest,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測(cè)試網(wǎng)絡(luò)G2=(N2,E2)。從N1中隨機(jī)選擇m個(gè)詞作為種子詞項(xiàng)集A,其中A取訓(xùn)練網(wǎng)絡(luò)與測(cè)試網(wǎng)絡(luò)中共同擁有的詞項(xiàng),即A∈N1∩N2。 在訓(xùn)練網(wǎng)絡(luò)G1中,以種子集A中的節(jié)點(diǎn)為起點(diǎn)提取其間接節(jié)點(diǎn),得到間接節(jié)點(diǎn)集C,計(jì)算所有關(guān)系鏈(A-Btrain-C)的一個(gè)分值SAC,對(duì)結(jié)果集C按SAC值從大到小排序,取有序結(jié)果集CSorted中前L個(gè)詞項(xiàng),得到CSorted_TopL={c1,c2,…cL}。 在測(cè)試網(wǎng)絡(luò)G2中,以種子節(jié)點(diǎn)集A中的節(jié)點(diǎn)為起點(diǎn)提取其直接關(guān)聯(lián)節(jié)點(diǎn),得到關(guān)聯(lián)節(jié)點(diǎn)集Btest。 計(jì)算有序結(jié)果集CSorted前L個(gè)詞項(xiàng)集CSorted_TopL的準(zhǔn)確率P: 其中CSorted_TopL∩Btest指CSorted_TopL和Btest的交集,即共同擁有的詞項(xiàng),|CSorted_TopL∩Btest|為交集的節(jié)點(diǎn)數(shù)量,|Btest|指Btest集的節(jié)點(diǎn)數(shù)量。 為了驗(yàn)證熱點(diǎn)的可預(yù)測(cè)性,在Ttrain時(shí)期的訓(xùn)練集篩選近3年關(guān)聯(lián)增長(zhǎng)率最大的前N個(gè)詞項(xiàng)作為熱點(diǎn)詞項(xiàng)集Ahot,同時(shí)隨機(jī)選取N個(gè)詞項(xiàng)作為隨機(jī)詞項(xiàng)集Arandom,分別作為種子詞項(xiàng)集,基于Ttest時(shí)期的測(cè)試集,計(jì)算與比較兩種情況下的準(zhǔn)確率Phot與Prandom。如果Phot顯著大于Prandom,說(shuō)明Ahot詞項(xiàng)一定程度上表達(dá)了短期內(nèi)的熱點(diǎn)主題,如圖1所示。 圖1 利用熱點(diǎn)詞項(xiàng)與隨機(jī)詞項(xiàng)預(yù)測(cè)新關(guān)聯(lián)的 1.3.3 A-B-C間接關(guān)聯(lián)SAC的計(jì)算 目前已有多種指標(biāo)用于評(píng)價(jià)A-B-C三者之間的關(guān)聯(lián)性[8]。本文選擇常用的絕對(duì)詞頻(Absolute Word Frequency,AWF)來(lái)計(jì)算A-B-C之間的潛在關(guān)聯(lián)性SAC,以輔助計(jì)算與比較準(zhǔn)確率Phot與Prandom,具體如下。 SAC=min(w(A,B),w(B,C)) 其中,w(A,B)與w(B,C)分別為A與B、B與C的共現(xiàn)次數(shù)。 以關(guān)鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結(jié)果,取標(biāo)題數(shù)據(jù),將數(shù)據(jù)集按時(shí)間分成訓(xùn)練集和測(cè)試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測(cè)試網(wǎng)絡(luò)G2=(N2,E2)。以2012年為分開(kāi)點(diǎn),2013-2015年的文獻(xiàn)數(shù)據(jù)作為Ttest測(cè)試集,2010-2012年作為訓(xùn)練集Ttrain。從訓(xùn)練集中隨機(jī)選取50個(gè)關(guān)鍵詞作為種子詞項(xiàng)Arandom,同時(shí)給定T2=2012,T1=2010,從訓(xùn)練集中選取50個(gè)近3年增長(zhǎng)率最大的節(jié)點(diǎn)作為熱點(diǎn)節(jié)點(diǎn)Ahot。 取 L=0.1,0.2,0.3,…,1,即取有序結(jié)果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項(xiàng)時(shí),計(jì)算熱點(diǎn)詞項(xiàng)與隨機(jī)詞項(xiàng)的準(zhǔn)確率P的結(jié)果如圖2所示。 圖2 L=0.1,0.2,… ,1.0時(shí)熱點(diǎn)詞項(xiàng)與隨機(jī) 進(jìn)一步取靠前的區(qū)間,取 L=0.01,0.02,0.03,…,0.1,即取有序結(jié)果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項(xiàng)時(shí),計(jì)算準(zhǔn)確率P的結(jié)果如圖3所示。 圖3 L=0.01,0.02,…,0.1時(shí)熱點(diǎn)詞項(xiàng)與隨機(jī)詞項(xiàng)的準(zhǔn)確率P的比較 綜合圖2、圖3的測(cè)試結(jié)果可以發(fā)現(xiàn),基于文獻(xiàn)知識(shí)發(fā)現(xiàn)模型,對(duì)結(jié)果集進(jìn)行關(guān)聯(lián)置優(yōu)排序,利用熱點(diǎn)詞項(xiàng)計(jì)算得到的準(zhǔn)確率Phot顯著高于由隨機(jī)詞項(xiàng)獲得的準(zhǔn)確率Prandom。這一方面說(shuō)通過(guò)篩選節(jié)點(diǎn)度增長(zhǎng)率大的詞項(xiàng),可以獲得更多的新關(guān)聯(lián),即度增長(zhǎng)率大的節(jié)點(diǎn)在短期內(nèi)能衍生出較多的新研究?jī)?nèi)容;另一方面說(shuō)明,能夠在未來(lái)短期內(nèi)形成的大量新關(guān)聯(lián)都與節(jié)點(diǎn)度快速增長(zhǎng)的詞項(xiàng)密切相關(guān)。因此,節(jié)點(diǎn)度快速增長(zhǎng)的詞項(xiàng)在一定程度上能夠表達(dá)相關(guān)領(lǐng)域近期的熱點(diǎn)主題,即文獻(xiàn)知識(shí)網(wǎng)絡(luò)的節(jié)點(diǎn)度變化對(duì)領(lǐng)域熱點(diǎn)具有一定的預(yù)測(cè)作用。 面對(duì)大數(shù)據(jù)時(shí)代知識(shí)獲取的需求與挑戰(zhàn),基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)研究對(duì)完成從文獻(xiàn)到知識(shí)的轉(zhuǎn)化具有重要作用,已成為醫(yī)學(xué)情報(bào)分析與輔助科研的一種重要理論與方法。基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)是一個(gè)啟發(fā)式的過(guò)程,如何保證在已有的文獻(xiàn)集中,篩選出更多更有效的潛在關(guān)聯(lián),仍是該領(lǐng)域研究的熱點(diǎn)問(wèn)題之一。 本文基于文獻(xiàn)知識(shí)發(fā)現(xiàn)模型,探討了文獻(xiàn)知識(shí)網(wǎng)絡(luò)中節(jié)點(diǎn)度變化對(duì)近期熱點(diǎn)的預(yù)測(cè)性,測(cè)試實(shí)驗(yàn)顯示度增長(zhǎng)率大的節(jié)點(diǎn)在未來(lái)形成新關(guān)聯(lián)的準(zhǔn)確率顯著大于一般節(jié)點(diǎn),表明節(jié)點(diǎn)度變化對(duì)領(lǐng)域熱點(diǎn)具有一定預(yù)測(cè)性。在實(shí)際科研過(guò)程中,不同時(shí)期、不同領(lǐng)域都存在相應(yīng)的熱點(diǎn)內(nèi)容,準(zhǔn)確地識(shí)別領(lǐng)域前沿?zé)狳c(diǎn)是進(jìn)行情報(bào)跟蹤的基礎(chǔ)。如果在文獻(xiàn)知識(shí)發(fā)現(xiàn)具體實(shí)施過(guò)程中的種子概念實(shí)體取自于熱點(diǎn)主題,可以顯著提升知識(shí)發(fā)現(xiàn)準(zhǔn)確率和篩選效率,輔助科研人員獲得更多的科學(xué)假設(shè)。1.3 評(píng)價(jià)方法
2 數(shù)據(jù)實(shí)驗(yàn)
2.1 數(shù)據(jù)準(zhǔn)備
2.2 結(jié)果與討論
3 總結(jié)