李莎莎,梁冬陽(yáng),余 杰,紀(jì) 斌,馬 俊,譚郁松,吳慶波
(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,長(zhǎng)沙 410073)
(?通信作者電子郵箱jibin@nudt.edu.cn)
科研院校是科學(xué)研究和技術(shù)開(kāi)發(fā)的基地。研究團(tuán)隊(duì)是院校中最基本的科研單元。同一個(gè)研究團(tuán)隊(duì),研究人員的研究?jī)?nèi)容一般是相同、相近或者互為補(bǔ)充的?,F(xiàn)實(shí)世界中,挖掘出合作緊密的研究團(tuán)隊(duì)對(duì)國(guó)家和軍隊(duì)的科技戰(zhàn)略規(guī)劃和人才評(píng)價(jià)體系建設(shè)都具有較大的意義。
具體而言,研究團(tuán)隊(duì)是指由研究者組成的集合,這個(gè)集合內(nèi)部研究者之間存在很強(qiáng)的關(guān)系,而這個(gè)集合的研究者與其他集合的研究者之間的關(guān)系則相對(duì)較少。現(xiàn)有的研究工作大多把研究團(tuán)隊(duì)挖掘形式化為基于論文合作網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)問(wèn)題。社區(qū)發(fā)現(xiàn)算法大體上分為重疊社區(qū)發(fā)現(xiàn)算法和不相交的社區(qū)發(fā)現(xiàn)算法[1-2]。重疊社區(qū)發(fā)現(xiàn)算法允許發(fā)現(xiàn)的社區(qū)之間存在相同節(jié)點(diǎn);而不相交社區(qū)發(fā)現(xiàn)算法則不允許這種節(jié)點(diǎn)存在。常見(jiàn)的重疊社區(qū)發(fā)現(xiàn)算法有:標(biāo)記傳播算法[3]、主成分分析[4-5]等。不相交的社區(qū)發(fā)現(xiàn)算法有:魯汶算法[6]、GN(Girvan-Newman)算法[7]、基因算法[8]、基于模塊度的算法[9-11]等。利用上述社區(qū)發(fā)現(xiàn)算法,可以從學(xué)術(shù)論文中挖掘有緊密研究聯(lián)系的研究者社區(qū),然而這種學(xué)術(shù)合作的社區(qū)往往基于研究興趣的聚合,研究團(tuán)隊(duì)中的研究者在研究興趣點(diǎn)上的同質(zhì)性較高,但組織連接較低,難以合作完成大規(guī)模的項(xiàng)目。相對(duì)的,大規(guī)模項(xiàng)目往往依賴于那些隸屬同一組織并且有不同研究興趣點(diǎn),而興趣點(diǎn)之間又相互關(guān)聯(lián)的研究團(tuán)隊(duì)。
針對(duì)上述問(wèn)題,本文利用學(xué)位論文中隱藏的師門(mén)和同門(mén)關(guān)系,提出了一種基于師門(mén)關(guān)系的研究團(tuán)隊(duì)發(fā)現(xiàn)算法,該算法在保證發(fā)現(xiàn)研究團(tuán)隊(duì)合理性的同時(shí),提升了魯汶算法的運(yùn)行效率。該算法基于從學(xué)位論文致謝部分抽取出的教師和學(xué)生信息,構(gòu)建師生之間的指導(dǎo)合作關(guān)系網(wǎng)絡(luò)。構(gòu)建過(guò)程中,將魯汶算法中需要加入的老師節(jié)點(diǎn)的鄰居節(jié)點(diǎn),改為加入同門(mén)其他學(xué)生的指導(dǎo)老師節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該算法既保證了挖掘的研究團(tuán)隊(duì)的質(zhì)量,又較大地提高了算法的運(yùn)行效率。
目前,精準(zhǔn)的社區(qū)定義是不存在的,現(xiàn)階段被廣泛接受和使用的定義是由Newman 在文獻(xiàn)[12]中提出來(lái)的:同一個(gè)社區(qū)內(nèi)的節(jié)點(diǎn)之間的鏈接很緊密,而社區(qū)之間的鏈接比較稀疏。其數(shù)學(xué)描述為:假設(shè)G=G(V,E),社區(qū)發(fā)現(xiàn)就是指在圖G中確定nc(大于1)個(gè)社區(qū),C={C1,C2,…,Cnc}使得各社區(qū)的頂點(diǎn)集合構(gòu)成V的一個(gè)覆蓋。
師門(mén)在本文中指的是同一研究團(tuán)隊(duì)指導(dǎo)老師的集合,同門(mén)指的是同一研究團(tuán)隊(duì)學(xué)生的集合。
BiLSTM-CRF[13]模型結(jié)合雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)與條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)實(shí)現(xiàn)命名實(shí)體識(shí)別。如圖1所示,該模型自上向下分別是Embedding 層、雙向LSTM 層和CRF 層。Embedding 層是句子中字符的向量表示,通過(guò)預(yù)訓(xùn)練語(yǔ)言模型獲得,字符向量作為雙向LSTM 層的輸入。雙向LSTM 層通過(guò)一個(gè)正向LSTM 和一個(gè)反向LSTM,分別計(jì)算每個(gè)字的上文與下文信息,然后將前向和后向LSTM 的隱狀態(tài)輸出進(jìn)行拼接,形成字符的編碼表示;最后,CRF 層以雙向LSTM 獲取的字符編碼作為輸入,對(duì)句子中的字符進(jìn)行序列標(biāo)注進(jìn)而獲取命名實(shí)體。
圖1 BiLSTM-CRF模型Fig.1 BiLSTM-CRF model
模塊度是Newman[12]提出來(lái)用于描述社區(qū)劃分質(zhì)量的一個(gè)度量,并在實(shí)際應(yīng)用中驗(yàn)證了它的有效性。它的計(jì)算方法如式(1)所示:其中:m 為圖中邊的總數(shù)量;ki表示所有指向節(jié)點(diǎn)i 的權(quán)重之和,kj同理;表示節(jié)點(diǎn)i,j之間的權(quán)重,沒(méi)有設(shè)置權(quán)重則默認(rèn)為1;Ci為節(jié)點(diǎn)i所在的社區(qū)編號(hào),函數(shù)δ(Ci,Cj)中,當(dāng)節(jié)點(diǎn)i和j處于同一個(gè)社區(qū)時(shí)取1,否則取0。
在基于模塊度的社區(qū)發(fā)現(xiàn)算法中,最直接的方法就是列舉出所有的社區(qū)劃分情況,然后計(jì)算每一種情況的模塊度來(lái)選取最好的社區(qū)劃分。但是當(dāng)數(shù)據(jù)規(guī)模較大時(shí),這種方式所需要的計(jì)算量太大,因此需要優(yōu)化模塊度的計(jì)算來(lái)降低計(jì)算量?;谀K度的社區(qū)發(fā)現(xiàn)算法的主要優(yōu)化策略有:基于貪心策略、基于層次聚類和融合多策略的方法等。魯汶算法就是一種融合多策略的社區(qū)發(fā)現(xiàn)算法。Fortunato等[14]認(rèn)為魯汶算法是當(dāng)前最好的模塊度優(yōu)化算法,而且很多大型的復(fù)雜網(wǎng)絡(luò)劃分軟件都使用了魯汶算法。
魯汶算法的計(jì)算過(guò)程是首先將所有的節(jié)點(diǎn)當(dāng)成一個(gè)獨(dú)立的社區(qū),然后針對(duì)每個(gè)節(jié)點(diǎn)遍歷它的所有鄰居節(jié)點(diǎn),計(jì)算加入每個(gè)鄰居節(jié)點(diǎn)后的模塊度收益,選擇收益最大的鄰居節(jié)點(diǎn)加入該節(jié)點(diǎn),重復(fù)這一計(jì)算過(guò)程,直到社區(qū)趨于穩(wěn)定。
本章將從學(xué)位論文致謝部分師門(mén)信息的抽取形式化為命名實(shí)體識(shí)別任務(wù),使用BiLSTM-CRF 模型抽取師門(mén)和同門(mén)命名實(shí)體,構(gòu)建師生之間的指導(dǎo)合作關(guān)系網(wǎng)絡(luò),并基于師門(mén)關(guān)系改進(jìn)魯汶算法,提高算法運(yùn)行效率。
在學(xué)位論文中,封面上的老師信息大多只包含導(dǎo)師和一個(gè)協(xié)作導(dǎo)師,但是大部分學(xué)生都是由隸屬于一個(gè)研究團(tuán)隊(duì)的多個(gè)導(dǎo)師一起指導(dǎo)出來(lái)的,學(xué)位論文的致謝部分比較完整地包含了這種師生信息。學(xué)位論文作者在致謝部分對(duì)學(xué)習(xí)期間的指導(dǎo)老師、同學(xué)表達(dá)感謝,本文需要抽取的是師門(mén)和同門(mén)信息,這些信息一般都會(huì)有較為明顯的標(biāo)簽,如圖2 所示。其中淺黃色標(biāo)簽表示標(biāo)注的老師信息,深紅色標(biāo)簽表示標(biāo)注的學(xué)生的信息。雖然標(biāo)簽特征比較明顯,但因?yàn)橹轮x書(shū)寫(xiě)不規(guī)范,使得基于規(guī)則的方法難以準(zhǔn)確地抽取師生信息。本文使用BiLSTM-CRF模型抽取師生信息。
圖2 人工標(biāo)注師門(mén)關(guān)系Fig.2 Manual labeling of teacher-student relationship
本文使用500 份人工標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,100份人工標(biāo)注的測(cè)試數(shù)據(jù)驗(yàn)證模型的性能,實(shí)驗(yàn)結(jié)果如表1 所示。從表中可以看出師門(mén)和同門(mén)信息抽取性能雖然不是很理想,但基本可以滿足后續(xù)研究要求。
表1 師門(mén)和同門(mén)關(guān)系抽取實(shí)驗(yàn)結(jié)果 單位:%Tab.1 Results of teacher relationship and classmate relationship extraction unit:%
本文通過(guò)規(guī)則抽取了封面上的導(dǎo)師信息,使用BiLSTMCRF模型抽取了致謝部分的師門(mén)和同門(mén)信息。師門(mén)中的指導(dǎo)老師和封面導(dǎo)師同時(shí)指導(dǎo)同一個(gè)學(xué)生,他們之間有著指導(dǎo)學(xué)生的合作關(guān)系。本文把每一個(gè)學(xué)生的指導(dǎo)老師和封面導(dǎo)師之間都用邊互相鏈接,構(gòu)建師生之間指導(dǎo)合作關(guān)系網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中部分老師有著相同的名字,本文假設(shè)各個(gè)學(xué)院之間沒(méi)有交叉合作的研究團(tuán)隊(duì)以及同一個(gè)學(xué)院中相同姓名的老師是同一個(gè)人,本文依據(jù)上述假設(shè)執(zhí)行重復(fù)人名去重操作。
由上文可知,魯汶算法是一種性能優(yōu)異社區(qū)發(fā)現(xiàn)算法,但是仍有較大的改進(jìn)空間。例如de Meo 等[15]通過(guò)改善魯汶算法的結(jié)束條件,大幅提高了算法的運(yùn)行速度。
魯汶算法的計(jì)算是遍歷節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn),選擇最大的模塊度收益,加入該節(jié)點(diǎn)所在社區(qū)。而在獲取到師門(mén)和同門(mén)關(guān)系之后,不需要再遍歷所有的鄰居節(jié)點(diǎn),可以通過(guò)老師節(jié)點(diǎn)得到所指導(dǎo)學(xué)生的同門(mén)學(xué)生,通過(guò)遍歷同門(mén)學(xué)生指導(dǎo)老師節(jié)點(diǎn)即可。本文假設(shè)在院校中同一個(gè)研究團(tuán)隊(duì)的老師,會(huì)一起合作共同指導(dǎo)學(xué)生或者同門(mén)的其他學(xué)生,因此若老師沒(méi)有共同指導(dǎo)的學(xué)生本文則假設(shè)兩個(gè)老師不屬于同一個(gè)研究團(tuán)隊(duì)?;谏鲜黾僭O(shè),本文改進(jìn)魯汶算法,改進(jìn)后的魯汶算法犧牲了一部分精度,但是運(yùn)行效率得到了較大的提升,同時(shí)挖掘出的研究團(tuán)隊(duì)也更加合理,其算法偽代碼如下所示。
算法1 基于師門(mén)關(guān)系的魯汶算法。
由于基于師門(mén)關(guān)系的魯汶算法是針對(duì)特定場(chǎng)景對(duì)魯汶算法的改進(jìn),本文通過(guò)兩組實(shí)驗(yàn)對(duì)算法的性能和運(yùn)行效率進(jìn)行驗(yàn)證:實(shí)驗(yàn)1 通過(guò)將魯汶算法和標(biāo)簽傳播算法、聚集系數(shù)算法在公開(kāi)的真實(shí)網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行性能對(duì)比實(shí)驗(yàn),驗(yàn)證魯汶算法的性能;實(shí)驗(yàn)2 通過(guò)比較原始魯汶算法和基于師門(mén)關(guān)系的魯汶算法在不同規(guī)模的學(xué)位論文數(shù)據(jù)集上的性能和運(yùn)行效率,證明了基于師門(mén)關(guān)系的魯汶算法具有較好的性能和運(yùn)行效率。
本文實(shí)驗(yàn)環(huán)境如下所示:硬件環(huán)境為Inter Core i7-5930K CPU,64 GB 內(nèi)存,2 塊GeForce GTX TITAN X 圖形顯卡。操作系統(tǒng)為Ubuntu Kylin 16.04。編程語(yǔ)言為Python 2.7.12。
實(shí)驗(yàn)1在American College football、Zachary karate club[16]、Dolphin social network[17]三個(gè)真實(shí)網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行,它們分別是美國(guó)大學(xué)生足球聯(lián)賽、美國(guó)大學(xué)空手道俱樂(lè)部和海豚社會(huì)關(guān)系數(shù)據(jù)集,其數(shù)據(jù)規(guī)模如表2所示。
表2 真實(shí)網(wǎng)絡(luò)數(shù)據(jù)集規(guī)模Tab.2 Real network dataset scales
社區(qū)發(fā)現(xiàn)的質(zhì)量需要評(píng)價(jià)指標(biāo)來(lái)衡量,下面主要介紹標(biāo)準(zhǔn)化互信息(Normalized Mutual Information,NMI)和蘭德指數(shù)(Adjusted Rand Index,ARI)兩種評(píng)價(jià)指標(biāo)。
NMI 是用來(lái)比較兩個(gè)社區(qū)劃分結(jié)果的相似程度,可以用來(lái)比較社區(qū)發(fā)現(xiàn)算法的社區(qū)劃分結(jié)果與真實(shí)社區(qū)的相似程度,以此來(lái)判斷社區(qū)發(fā)現(xiàn)算法的有效性。其計(jì)算方法如式(2)所示,其中:N 表示節(jié)點(diǎn)的數(shù)量;Ca(Cb)表示在A(B)劃分中總的社區(qū)數(shù)量;Ci(C·j)表示在矩陣C 中第i 行(第j 列)所有元素的求和;Cij表示在A 的劃分中屬于i 社區(qū),而在B 劃分中屬于j社區(qū)的節(jié)點(diǎn)數(shù)量。NMI 的值域是0 到1,越高代表劃分得越準(zhǔn)。
ARI 是用來(lái)衡量社區(qū)劃分結(jié)果的另一個(gè)重要指標(biāo),該指標(biāo)不考慮使用的聚類方法,把方法當(dāng)作一個(gè)黑盒,只注重結(jié)果。計(jì)算公式如式(3)所示,其中a11、a00、a10、a01表示節(jié)點(diǎn)對(duì)的數(shù)量。假設(shè)A 和B 是兩個(gè)節(jié)點(diǎn),則a11中的第一個(gè)數(shù)字1 表示A、B 兩個(gè)節(jié)點(diǎn)在真實(shí)的社區(qū)劃分中屬于同一個(gè)社區(qū),反之則第一個(gè)數(shù)字為0;a11中的第二個(gè)數(shù)字1表示A、B兩個(gè)節(jié)點(diǎn)在社區(qū)發(fā)現(xiàn)算法中劃分在同一個(gè)社區(qū),反之則第二個(gè)數(shù)字為0。所以a11、a00、a10、a01代表滿足上述條件的節(jié)點(diǎn)對(duì)的數(shù)量。
為驗(yàn)證原始魯汶算法在社區(qū)發(fā)現(xiàn)中的性能,執(zhí)行實(shí)驗(yàn)1。實(shí)驗(yàn)結(jié)果如表3所示。
表3 社區(qū)發(fā)現(xiàn)算法性能對(duì)比實(shí)驗(yàn)Tab.3 Community detection algorithm performance comparison experiment
從表3 中可以得知,在三個(gè)數(shù)據(jù)集上,原始魯汶算法性能均為最優(yōu),無(wú)論是只有2 個(gè)社區(qū)的Zachary 數(shù)據(jù)集和Dolphin數(shù)據(jù)集,還是有12 個(gè)社區(qū)的Football 數(shù)據(jù)集,都得到了最佳的結(jié)果,這也證明了原始魯汶算法的魯棒性和容錯(cuò)性比較強(qiáng)。
為了驗(yàn)證改進(jìn)后的基于師門(mén)關(guān)系的魯汶算法在社區(qū)發(fā)現(xiàn)中的運(yùn)行效率,本文使用國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院學(xué)位論文、國(guó)防科技大學(xué)學(xué)位論文和軍內(nèi)院校學(xué)位論文三個(gè)不同規(guī)模的數(shù)據(jù)集對(duì)比原始魯汶算法和基于師門(mén)關(guān)系的魯汶算法的運(yùn)行效率(實(shí)驗(yàn)2),實(shí)驗(yàn)結(jié)果如表4 所示,從表中可以看出數(shù)據(jù)規(guī)模越大,改進(jìn)后的魯汶算法的效率提升得越明顯。
表4 社區(qū)發(fā)現(xiàn)算法效率對(duì)比實(shí)驗(yàn)Tab.4 Community detection algorithm efficiency comparison experiment
本文以國(guó)防科技大學(xué)學(xué)位論文數(shù)據(jù)集為例,以原始魯汶算法為參照標(biāo)準(zhǔn),驗(yàn)證基于師門(mén)關(guān)系的魯汶算法在學(xué)位論文數(shù)據(jù)集上挖掘研究團(tuán)隊(duì)的性能,最終得到國(guó)防科技大學(xué)的研究團(tuán)隊(duì)信息如圖3所示。
圖3 國(guó)防科技大學(xué)研究團(tuán)隊(duì)信息Fig.3 Research teams in National University of Defense Technology
由圖3 可知,使用原始魯汶算法挖掘國(guó)防科技大學(xué)研究團(tuán)隊(duì)總數(shù)為409,而基于師門(mén)關(guān)系的魯汶算法挖掘得到的總數(shù)為441?;趲熼T(mén)關(guān)系的魯汶算法挖掘出的研究團(tuán)隊(duì)人數(shù)均在20以下,而原始魯汶算法得到的結(jié)果中有多個(gè)超過(guò)20人的研究團(tuán)隊(duì),從團(tuán)隊(duì)規(guī)模的角度評(píng)估,基于師門(mén)關(guān)系的魯汶算法更為合理。在團(tuán)隊(duì)人數(shù)的整體分布中,兩個(gè)算法基本上呈現(xiàn)大致相同??偟膩?lái)說(shuō),基于師門(mén)關(guān)系的魯汶算法劃分的研究團(tuán)隊(duì)更為細(xì)致合理,合作關(guān)系更為緊密,而且劃分出的研究團(tuán)隊(duì)整體分布與原始魯汶算法挖掘的研究團(tuán)隊(duì)類似,也可以說(shuō)明基于師門(mén)關(guān)系的魯汶算法的性能與魯汶算法類似。
目前,科研團(tuán)隊(duì)的挖掘大部分都是基于論文合作網(wǎng)絡(luò)進(jìn)行挖掘,這種挖掘方式有以下幾個(gè)不足:一是跨學(xué)科、跨領(lǐng)域、跨學(xué)校的論文合作越來(lái)越多,合作作者的研究方向千差萬(wàn)別,甚至完全不相關(guān)的研究方向也可能是合作作者;二是在合作作者中要分辨出老師和學(xué)生也具有一定的難度,學(xué)生對(duì)于一個(gè)研究團(tuán)隊(duì)來(lái)說(shuō),流動(dòng)性太大,畢業(yè)后就不再屬于研究團(tuán)隊(duì)成員,導(dǎo)致研究團(tuán)隊(duì)不夠穩(wěn)定;三是部分論文存在合作作者可能并沒(méi)有實(shí)際參與論文工作的情況。這些對(duì)于挖掘緊密合作的研究團(tuán)隊(duì)都會(huì)產(chǎn)生一定的影響。
而基于師門(mén)關(guān)系挖掘研究團(tuán)隊(duì)相對(duì)來(lái)說(shuō)更容易得到合作緊密的研究團(tuán)隊(duì)。首先,同一個(gè)師門(mén)的老師需要共同完成科研任務(wù),所以老師的研究方向基本上是一致或者相關(guān)的,此外也更容易對(duì)老師和學(xué)生進(jìn)行區(qū)分。對(duì)于基于論文合作網(wǎng)絡(luò)與基于師門(mén)關(guān)系的研究團(tuán)隊(duì)挖掘方法對(duì)比如表5 所示,主要從合作緊密程度、團(tuán)隊(duì)規(guī)模、團(tuán)隊(duì)內(nèi)部聯(lián)系和團(tuán)隊(duì)穩(wěn)定性4 個(gè)方面進(jìn)行了對(duì)比。從表中可以看出,基于師門(mén)關(guān)系的研究團(tuán)隊(duì)挖掘算法在上述四個(gè)方面性能更為優(yōu)異。
表5 研究團(tuán)隊(duì)挖掘方法對(duì)比Tab.5 Research team mining method comparison
研究團(tuán)隊(duì)的精確挖掘?qū)?guó)家和軍隊(duì)的科技戰(zhàn)略規(guī)劃和人才評(píng)價(jià)體系建設(shè)都具有較大的意義。本文針對(duì)現(xiàn)有研究團(tuán)隊(duì)挖掘算法存在的問(wèn)題,基于學(xué)位論文相關(guān)內(nèi)容,提出了一種基于師門(mén)關(guān)系的研究團(tuán)隊(duì)挖掘算法。實(shí)驗(yàn)表明,相較于其他算法,該算法在運(yùn)行效率、研究團(tuán)隊(duì)挖掘質(zhì)量等方面有較明顯提升。
本文提出的算法在實(shí)際應(yīng)用中有一定的局限性,即無(wú)法進(jìn)行深入信息挖掘進(jìn)而發(fā)現(xiàn)研究團(tuán)隊(duì)的核心。將來(lái)的工作從研究團(tuán)隊(duì)實(shí)力分析入手,通過(guò)分析研究團(tuán)隊(duì)的實(shí)力來(lái)反映當(dāng)前整個(gè)研究領(lǐng)域的現(xiàn)狀,增強(qiáng)對(duì)研究領(lǐng)域的把握,幫助科研工作者更好地研究創(chuàng)新。