李愛濤 崔煥慶
摘要:為提高導(dǎo)師一學(xué)生關(guān)系挖掘精度,改善傳統(tǒng)判別算法準(zhǔn)確率,提出一種基于神經(jīng)網(wǎng)絡(luò)的導(dǎo)師一學(xué)生關(guān)系判定算法。通過神經(jīng)網(wǎng)絡(luò)中BP算法對導(dǎo)師一學(xué)生關(guān)系所依賴參數(shù)進(jìn)行權(quán)重計算,加入判別函數(shù)計算相應(yīng)論文作者分?jǐn)?shù),再根據(jù)關(guān)系判別函數(shù)判斷兩者關(guān)系。對2 000組數(shù)據(jù)的實驗結(jié)果表明,基于神經(jīng)網(wǎng)絡(luò)與論文的導(dǎo)師一學(xué)生關(guān)系挖掘算法能夠準(zhǔn)確挖掘出導(dǎo)師一學(xué)生之間的關(guān)系,比傳統(tǒng)啟發(fā)式規(guī)則的準(zhǔn)確率高出8%左右。
關(guān)鍵詞:師生關(guān)系挖掘;神經(jīng)網(wǎng)絡(luò);BP算法;知識圖譜
DOI: 10. 11907/rjdk.191876
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A
文章編號:1672-7800(2020)001-0095-04
0 引言
隨著社交媒體的普及[1],人們的日常生活已與網(wǎng)絡(luò)信息空間成功連接[2],每個人都在某些領(lǐng)域與其他人存在明確的關(guān)系并相互聯(lián)系、相互影響。近年來,對這些關(guān)系的挖掘逐漸成為一大熱門[3]。不同類型的社會關(guān)系實質(zhì)上潛移默化地影響著人們生活的不同方面。例如,碩士研究生在讀期間的研究領(lǐng)域很大程度上受其導(dǎo)師影響。
如圖1所示,利用導(dǎo)師一學(xué)生關(guān)系構(gòu)建相應(yīng)社會網(wǎng)絡(luò)關(guān)系[4]。學(xué)生的研究方向受導(dǎo)師影響很大,不同學(xué)術(shù)水平的導(dǎo)師對學(xué)生的影響差異也非常大[5],而導(dǎo)師和學(xué)生之間的關(guān)系就隱藏于學(xué)術(shù)大數(shù)據(jù)中[6]。出版物包含豐富的作者信息,包括論文題目、出版年份、出版單位等??梢酝ㄟ^識別出版物中隱藏的這些信息,挖掘研究人員的學(xué)術(shù)合作關(guān)系[7]。因此,從出版物網(wǎng)絡(luò)中確定導(dǎo)師一學(xué)生關(guān)系非常重要。
1 相關(guān)工作
在挖掘?qū)熞粚W(xué)生合作關(guān)系與其他合作者關(guān)系的過程中面臨著一些挑戰(zhàn)。
(1)時間重要性。在導(dǎo)師一學(xué)生關(guān)系中,影響因素最大的就是時間。導(dǎo)師首次發(fā)表文獻(xiàn)的時間一般遠(yuǎn)遠(yuǎn)早于學(xué)生首次發(fā)表文獻(xiàn)的時間。再者,當(dāng)一名研究生入學(xué)加入導(dǎo)師所在的科研團(tuán)隊時,他們之間會建立一種導(dǎo)師一學(xué)生關(guān)系,但學(xué)生畢業(yè)后,該種聯(lián)系又會變得逐漸松散。
(2)關(guān)系兼具。在數(shù)據(jù)中存在學(xué)生畢業(yè)后留校擔(dān)任導(dǎo)師的情況,此時他/她與自己的導(dǎo)師既是合作關(guān)系,又存在導(dǎo)師一學(xué)生關(guān)系,本文將這種情況統(tǒng)一定為合作者關(guān)系。
(3)信息隱晦。在導(dǎo)師一學(xué)生、合作者關(guān)系出版刊物[8]中,只有期刊名稱、論文題目、作者姓名、出版年份和署名單位等信息,沒有明顯標(biāo)識其合作關(guān)系相關(guān)信息。
在大數(shù)據(jù)時代,基于深度學(xué)習(xí)的挖掘越來越受到學(xué)術(shù)界和工業(yè)界的關(guān)注[9-10]。文獻(xiàn)[11]提出了關(guān)系學(xué)習(xí),它采用基于網(wǎng)絡(luò)連通性的集體推理進(jìn)行預(yù)測,提取基于網(wǎng)絡(luò)信息的潛在社會維度,并利用它們作為判別性學(xué)習(xí)特征,用來解決數(shù)據(jù)實例之間的相互依賴性;文獻(xiàn)[12]提出了一種聚類算法,利用異構(gòu)實體自身的屬性值和異構(gòu)信息網(wǎng)絡(luò)¨副的結(jié)構(gòu)(路徑)信息進(jìn)行關(guān)系挖掘;文獻(xiàn)[14]提出了一種新穎的協(xié)同過濾方法,用于預(yù)測網(wǎng)絡(luò)(或圖形)中具有拓?fù)浜凸?jié)點特征的未觀察到的鏈路。這種方法通過引入伯努利分布模型作為數(shù)據(jù)采樣掩模,改進(jìn)基于壓縮感知的矩陣完成方法,作出更好的鏈接預(yù)測。文獻(xiàn)[15]提出了一種部分標(biāo)記成對因子圖模型[16]和半監(jiān)督框架,通過跨異構(gòu)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行社會關(guān)系類型的分類;文獻(xiàn)[17]提出了一個時間約束的概率因子圖模型,將研究出版物網(wǎng)絡(luò)作為輸入,使用聯(lián)合可能性目標(biāo)函數(shù)對導(dǎo)師一學(xué)生關(guān)系挖掘問題進(jìn)行建模,設(shè)計了一種有效的學(xué)習(xí)算法以優(yōu)化目標(biāo)函數(shù),提高了準(zhǔn)確率。
基于以上背景,本文提出一種新的導(dǎo)師一學(xué)生關(guān)系挖掘算法。算法主要思想是對影響導(dǎo)師一學(xué)生的關(guān)鍵參數(shù)進(jìn)行提取,利用BP(Back Propagation,誤差逆?zhèn)鞑ィ┥窠?jīng)網(wǎng)絡(luò)確定影響因素的權(quán)重值,再通過權(quán)重值計算每位作者的量化結(jié)果,最后對可能存在導(dǎo)師一學(xué)生關(guān)系的兩位作者的量化值進(jìn)行二次計算后判定其合作關(guān)系。
2 定義及算法實現(xiàn)
為了達(dá)到預(yù)期效果,需要先對數(shù)據(jù)進(jìn)行清理和屬性提取,共提取如下信息:論文題目、刊物名稱、論文作者名單及出版日期。
BP算法通過迭代處理訓(xùn)練集。對比經(jīng)過神經(jīng)網(wǎng)絡(luò)計算后輸人層預(yù)測值與真實值之間的誤差,通過反向法(從輸出層到隱藏層再到輸入層)實現(xiàn)誤差最小化,從而實現(xiàn)權(quán)重更新,其中隱含層節(jié)點數(shù)是一個非常重要的參數(shù),它的設(shè)置對BP神經(jīng)網(wǎng)絡(luò)的性能影響很大[18]。
首先對各項數(shù)據(jù)進(jìn)行編號,并作歸一化處理。采用min-max方法將數(shù)據(jù)歸一到[0,1],如式(1)。
隨機選取100組訓(xùn)練集進(jìn)行參數(shù)訓(xùn)練,將其轉(zhuǎn)換成機器可識別的矩陣形式從輸入層輸入,然后逐層傳遞到隱藏層和輸出層的神經(jīng)元中。本文隱藏層使用ReLu激勵函數(shù)[19],輸出層使用Sigmoid激勵函數(shù)。原因在于ReLu激勵函數(shù)的梯度值大多數(shù)情況下是常數(shù),有助于解決深層網(wǎng)絡(luò)的收斂問題,相比Sigmoid和Tanh更符合生物神經(jīng)元的特征;Sigmoid全程可導(dǎo),且表達(dá)區(qū)間是[0,1]。ReLu與Sig-moid函數(shù)如下:
通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的結(jié)果只是各神經(jīng)網(wǎng)絡(luò)神經(jīng)元之間的關(guān)系[20],需要對各神經(jīng)元之間的權(quán)重通過相關(guān)顯著性系數(shù)、相關(guān)指數(shù)和絕對影響系數(shù)加以處理,函數(shù)分別如式(4)-式(6)所示。
相關(guān)顯著系數(shù):
上述3個相關(guān)系數(shù)中絕對影響系數(shù)S即為所求權(quán)重。運用上式得出各指標(biāo)權(quán)重。對數(shù)據(jù)進(jìn)行分析可知,作者首次發(fā)表論文的時間在導(dǎo)師一學(xué)生關(guān)系中影響因子最大。通過訓(xùn)練后,它獲得最大權(quán)重0.42,作者發(fā)表論文數(shù)量與合作數(shù)量影響較小,因此它們獲得的權(quán)重分別為0.35和0.22。
權(quán)重賦值完成后,通過個人得分函數(shù)進(jìn)行個人分?jǐn)?shù)計算:
3 實驗及結(jié)果分析
從百度文庫中抓取2 000組測試數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗。實驗所用計算機CPU為Intel⑩Core TMi7-6500U.內(nèi)存為4GB,操作系統(tǒng)為Windows 10,算法采用Python和Java語言編寫,實驗環(huán)境為TensorFlow CPU版本、IntelliJIDEA 2018社區(qū)版。
通過實驗,當(dāng)兩位作者之間的關(guān)系得分在70-99時,認(rèn)為他們之間為導(dǎo)師一學(xué)生關(guān)系且作者1是作者2的導(dǎo)師,反之若兩位作者之間的得分為-30--1,認(rèn)為作者2是作者1的導(dǎo)師,論文采用精確率衡量實驗結(jié)果,定義如下:
其中,TP表示把正類預(yù)測為正類、FP表示表示把負(fù)類預(yù)測為正類。
實驗結(jié)果如表2所示。
4 結(jié)語
本文提出了一種基于影響因子判斷導(dǎo)師一學(xué)生關(guān)系與其他合作關(guān)系的算法。算法利用人工神經(jīng)網(wǎng)絡(luò)確定不同影響因子對各種合作關(guān)系影響的權(quán)重,進(jìn)而計算每位作者的個人得分和兩位作者之間的關(guān)系得分。實驗表明,該預(yù)測算法能夠較準(zhǔn)確地判斷出兩位作者的關(guān)系是導(dǎo)師一學(xué)生關(guān)系或是合作關(guān)系。該算法操作簡單,易于執(zhí)行,為導(dǎo)師學(xué)生關(guān)系挖掘提供了一種新思路。未來在挖掘出論文中存在的導(dǎo)師一學(xué)生關(guān)系后,建立現(xiàn)存關(guān)系知識圖譜,再進(jìn)行下一步的導(dǎo)師推薦研究。
參考文獻(xiàn):
[1]
ZHAO Z,LI C,ZHANG Y,et al.Identifying and analyzing popularphrases multi-dimensionally in social media data [J] InternationalJournal of Data Warehousing and Mining, 2015, 11(3):98-1 12.
[2]趙妹,劉曉曼,段震,等.社交關(guān)系挖掘研究綜述[J].計算機學(xué)報,2017,40(3):535-555.
[3]王夢雪.數(shù)據(jù)挖掘綜述[J].軟件導(dǎo)刊,2013,12( 10):135-137.
[4]張洋,謝齊.基于社會網(wǎng)絡(luò)分析的機構(gòu)科研合作關(guān)系研究[J].圖書情報知識,2014(2):84-94.
[5]
LIU J,TANC T,KONG X, et al.Understanding the advisor-adviseerelationship via scholarly data analysis[J].Scientometrics, 2018,1 16(1):161-180.
[6]馬建威,徐浩,陳洪輝.信息推薦系統(tǒng)中的朋友關(guān)系預(yù)測算法設(shè)計[J].國防科技大學(xué)學(xué)報,2013,35(1):163-168.
[7] 康文杰,鄭倩冰,陳侃.基于社會網(wǎng)絡(luò)分析的學(xué)術(shù)合作關(guān)系研究[J].計算機技術(shù)與發(fā)展,2014,24(5):1-5.
[8] 趙彩虹,楊艷.基于DBLP的作者協(xié)作關(guān)系挖掘[J].黑龍江大學(xué)自然科學(xué)學(xué)報,2010,27(4):491-494.
[9]ZHANC Q, YANG L T,CHEN Z,et al.A survey on deep learningfor big data[J].Information Fusion. 2018, 42: 146-157.
[10]ZHANG Q, YANG L T,CHEN Z, et al. PPHOPCM: privacy-pre-serving high-order possibilistic c-means algorithm for big data clus-tering with cloud computing [Jl. IEEE Transactions on Big Data,2017( 99):l-lO.
[11]TANC L,LIU H. Relational learning via latent social dimensions[C]. ACM SIGKDD International Conference on Knowledge Discov-erv& Data Mining, 2009: 817-826.
[12]楊丹,申德榮,聶鐵錚.異構(gòu)信息空間中實體關(guān)聯(lián)關(guān)系挖掘算法CFRQ4A[J].計算機研究與發(fā)展,2014( 4):895-904.
[13] SUN Y,HAN J.Mining heterogeneous information networks[ J]. ACMSIGKDD Explorations Newsletter, 2013, 14(2):20-28.
[14]WANG X, HE D, CHEN D, et al. Clustering-based collaborative fil-tering for link prediction[C].Twenty-ninth AAAI Conference on Ar-tificial Intelligence, 2015: 332-338.
[15] TANG W,ZHUANC H,TANC J. Learning to infer social ties in largenet,vorks [C]. Machine Learning and Knowledge Discovery in Data-bases-European Conference, 2011: 381-397.
[16]ZHUANG H. TANC J, TANG W, et al. Actively learning to infer so-cial ties [J]. Data Mining and Knowledge Discovery, 2012, 25(2):270-297.
[17]WANG C. HAN J,JIA Y, et al. Mining advisor-advisee relation-ships from research publication net,vorks[C].Washington: Proceed-ings of the 16th ACM SICKDD International Conference on Knowl-edge Discovery and Data Mining, 2010: 203-212.
[18]王嶸冰,徐紅艷,李波,等.BP神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點數(shù)確定方法研究[J].計算機技術(shù)與發(fā)展,2018,28(4):31-35.
[19] 蔣昂波,王維維.ReLU激活函數(shù)優(yōu)化研究[J].傳感器與微系統(tǒng),2018, 37( 2):50-52.
[20] 孫會君,王新華.應(yīng)用人工神經(jīng)網(wǎng)絡(luò)確定評價指標(biāo)的權(quán)重[Jl.山東科技大學(xué)學(xué)報:自然科學(xué)版,2001,20(3):84-86.
(責(zé)任編輯:孫娟)
基金項目:國家重點研發(fā)計劃項目(2017YFC0804406,2018YFC1406200);山東省研究生導(dǎo)師指導(dǎo)能力提升項目(SDYY17040)
作者簡介:李愛濤(1994-),男,山東科技大學(xué)計算機科學(xué)與工程學(xué)院碩士研究生,研究方向為云計算與大數(shù)據(jù)處理;崔煥慶(1979-),男,博士,山東科技大學(xué)計算機科學(xué)與工程學(xué)院副教授,研究方向為云計算、位置服務(wù)。本文通訊作者:崔煥慶。