仇國華 趙華
摘 要:作者重名消歧是一個重要又復(fù)雜的研究課題,在科技文獻(xiàn)檢索工作中,作者重名問題勢必會降低文獻(xiàn)檢索的效率和準(zhǔn)確性,影響工作進(jìn)度。提出一種改進(jìn)粒子群算法優(yōu)化的BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)算法,以解決作者重名消歧問題。首先引入Beta分布的動態(tài)慣性權(quán)重,提高算法全局搜索能力;其次利用改進(jìn)粒子群算法優(yōu)化的權(quán)值和閾值,作為BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行模型訓(xùn)練,以加快模型訓(xùn)練速度;最后通過特征評價函數(shù)過濾式選取排序較優(yōu)的M維特征子集作為輸入層特征向量訓(xùn)練模型,得到最終預(yù)測結(jié)果,從而精確區(qū)分重名的作者。實驗研究表明,該模型對重名作者身份的預(yù)測準(zhǔn)確率可達(dá)89.01%,證明了該算法的有效性。
關(guān)鍵詞:重名消歧;PSO算法;BP神經(jīng)網(wǎng)絡(luò);動態(tài)慣性權(quán)重;特征評價函數(shù)
DOI:10. 11907/rjdk. 192641
中圖分類號:TP301 ? 文獻(xiàn)標(biāo)識碼:A ??????????????? 文章編號:1672-7800(2020)003-0111-05
A Method of Distinguishing Distinguished Names of Authors
QIU Guo-hua, ZHAO Hua
(College of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: The authors name and disambiguation is an important and complicated research topic. In the retrieval of scientific literature, the authors name problem will inevitably reduce the efficiency and accuracy of literature retrieval and affect the progress of the work. In this paper, a back propagation(BP) neural network algorithm with improved particle swarm optimization is proposed to solve the problem of authors name disambiguation. Firstly, the dynamic inertia weight of Beta distribution is introduced to improve the global search ability of the algorithm. Secondly, the weight and threshold of the improved particle swarm optimization algorithm are used as the initial weight and threshold of BP neural network to train the model to speed up the training of the model. The feature evaluation function is used to filter and select the M-dimensional feature subsets with better ranking as the input layer feature vector training model to obtain the final prediction result, so as to accurately distinguish the authors of the duplicate names. The experimental results show that the prediction accuracy of the model can be improved to 89.01%, which proves the effectiveness of the algorithm.
Key Words:duplicate disambiguation; PSO algorithm; BP neural network; dynamic inertia weight; feature evaluation function
0 引言
隨著信息技術(shù)的發(fā)展以及網(wǎng)絡(luò)的普及,人們越來越依賴在線文獻(xiàn)系統(tǒng)搜索查閱文獻(xiàn),當(dāng)遇到同名作者時,系統(tǒng)往往并不能對同名作者進(jìn)行消岐。因此,如何利用自動化分析技術(shù)對同名作者進(jìn)行消岐成為近年的研究熱點。存在重名消歧問題的領(lǐng)域十分廣泛,很多科學(xué)家在不同領(lǐng)域?qū)χ孛鐔栴}都進(jìn)行了較深入的研究,如百科全書、維基百科、參考文獻(xiàn)、網(wǎng)頁電子郵件等??茖W(xué)家在對重名消歧問題進(jìn)行研究時,提出了許多有效的方法,但是都面臨準(zhǔn)確性不高的問題。機(jī)器學(xué)習(xí)是解決同名消歧問題常用的方法,隨著機(jī)器學(xué)習(xí)算法的不斷發(fā)展,傳統(tǒng)的機(jī)器學(xué)習(xí)算法在準(zhǔn)確性方面遭遇到前所未有的困難。
郭舒[1]選擇論文中的標(biāo)題、合作者和出版物名稱作為特征合集,進(jìn)行文本聚類實現(xiàn)作者身份消歧;劉巍等[2]通過采集作者姓名、所在機(jī)構(gòu)以及任職時間等數(shù)據(jù)信息,根據(jù)論文中提取的作者署名、機(jī)構(gòu)名稱、發(fā)表年限等信息進(jìn)行匹配,但是沒有處理作者重名情況;候海東等[3]將字符串模糊匹配算法與作者間合著關(guān)系結(jié)合,對論文作者識別方法進(jìn)行改進(jìn);翟曉瑞等[4]將論文的文本信息轉(zhuǎn)換為稀疏特征矩陣,通過對比待消岐論文之間的稀疏特征分布實現(xiàn)作者的姓名消岐;陽怡林等[5]將論文中的多個特征提取出來并進(jìn)行特征融合,通過基于均方誤差鄰接矩陣聚類方法得到不同的劃分;寧博等[6]通過加入百科知識庫,豐富論文作者實體信息,最后通過層次聚類進(jìn)行論文作者消岐。
以上解決方案存在數(shù)據(jù)稀疏、收斂速度慢、泛化能力弱等缺陷。為了彌補(bǔ)算法的不足,本文提出一種基于改進(jìn)粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的方法,對論文作者重名情況進(jìn)行消岐。
1 基本算法
1.1 粒子群算法原理
PSO算法也稱粒子群算法[7-8],是群體智能領(lǐng)域的一個重要研究方向。相對于其他優(yōu)化算法,PSO算法可在有限的迭代次數(shù)內(nèi)找到較為可靠的最優(yōu)解,收斂速度和收斂精度已被多次對比驗證,展現(xiàn)了強(qiáng)大的優(yōu)化性能,廣泛應(yīng)用于優(yōu)化問題。它受群體覓食行為啟發(fā),通過計算模擬群體之間的行為形成一種理論。這種方法通過粒子的個體搜索最優(yōu)解,每個粒子都受自身“最佳”位置和群體中“最佳”位置的影響,有時會隨機(jī)移動。在粒子群優(yōu)化算法中,每個點都有在某個鄰域中獲得最佳性能和最佳決策向量的位置記憶,通過相關(guān)方程使用這些信息更新粒子位置。
粒子根據(jù)式(1)和式(2)更新速度和位置:
其中,[c1]、[c2]為學(xué)習(xí)因子,也稱加速常數(shù),[w]為非負(fù)慣性因子,[r1]、[r2]為[0,1]范圍內(nèi)的均勻隨機(jī)數(shù),[w]稱為慣性權(quán)重,作用是記憶搜索慣性即搜索速度。在種群搜索的不同時期,[w]值的變化會產(chǎn)生不同效果。在種群搜索早期,較大的[w]值可以加快收斂速度,在種群搜索后期,較小的[w]值可以使搜索結(jié)果更精確。慣性權(quán)重因子為隨迭代次數(shù)變化的一個函數(shù),一般常用的慣性權(quán)重因子函數(shù)如式(3)所示。
[wstart]為初始慣性權(quán)重值,[wend]為最終慣性權(quán)重值,[k]為當(dāng)前迭代次數(shù),[Tmax]為總迭代次數(shù)。
1.2 BP神經(jīng)網(wǎng)絡(luò)模型原理
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)[9-10]模型是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,它通過誤差的反向傳播來更新網(wǎng)絡(luò)中的權(quán)值和閾值。經(jīng)典的BP神經(jīng)網(wǎng)絡(luò)為三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分別由輸入層、隱藏層和輸出層組成。通過由輸入層、隱藏層和輸出層建立的拓?fù)浣Y(jié)構(gòu)和目標(biāo)函數(shù)所組成的誤差函數(shù)進(jìn)行反向傳播學(xué)習(xí),更新輸入-輸出模式映射關(guān)系,找到最為可靠的權(quán)值和閾值。經(jīng)典三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1中,[x1],[x2],…,[xn]作為整個BP神經(jīng)網(wǎng)絡(luò)的輸入,是進(jìn)入BP神經(jīng)網(wǎng)絡(luò)的原始數(shù)據(jù),[y1],[y2],…,[ym]是整個BP神經(jīng)網(wǎng)絡(luò)的輸出,也稱為網(wǎng)絡(luò)的預(yù)測,[wij]代表BP神經(jīng)網(wǎng)絡(luò)的權(quán)值,通過BP神經(jīng)網(wǎng)絡(luò),將輸入[x1],[x2],…,[xn]映射到輸出[y1],[y2],…,[ym]上,類似于非線性函數(shù)中的自變量映射到因變量,較好得出輸入和輸出之間的映射關(guān)系。
BP神經(jīng)網(wǎng)絡(luò)中,首先數(shù)據(jù)輸入到網(wǎng)絡(luò)中,通過正向傳導(dǎo)計算到輸出層,輸出層與目標(biāo)函數(shù)進(jìn)行對比,通過式(4)的損失函數(shù)得到誤差值,誤差通過反向傳播實現(xiàn)網(wǎng)絡(luò)中的權(quán)值更新。
[Etotal]為誤差值,[outki]為輸出層第i個輸出節(jié)點,[yi]為目標(biāo)函數(shù)值。通過這兩個過程的交替進(jìn)行,在權(quán)向量空間執(zhí)行誤差函數(shù)梯度下降策略,利用鏈?zhǔn)角髮?dǎo)法則動態(tài)迭代搜索一組權(quán)向量,使網(wǎng)絡(luò)誤差函數(shù)達(dá)到最小值,見式(5)。
[wij]為第i層第j個權(quán)重變量,[netki]是權(quán)重和輸入節(jié)點的線性乘積,[outki]由[netki]經(jīng)過sigmoid函數(shù)轉(zhuǎn)換得到。
2 算法改進(jìn)
2.1 基于Beta分布慣性權(quán)重的PSO算法
為了更好地平衡算法的全局搜索與局部搜索能力,引入基于公式(3)的beat分布慣性權(quán)重,采用隨機(jī)策略動態(tài)調(diào)整慣性權(quán)重大小。
Beta分布[11-13]是一個作為伯努利分布和二項式分布的共軛先驗分布密度函數(shù),是一組定義在(0,1)區(qū)間的連續(xù)概率分布。
Βeta分布的概率密度函數(shù)如下:
兩個參數(shù)[α,β>0],?隨機(jī)變量X服從參數(shù)為[α,β]的Βeta分布,通常寫作
為了提高粒子全局搜索能力,避免陷入局部最優(yōu)解,采用w慣性權(quán)重值迭代前期突變概率小、迭代后期突變概率高的策略。因此在迭代過程中beta分布函數(shù)改成如式(8)所示分布:
[k]為當(dāng)前迭代次數(shù),[Tmax]為總迭代次數(shù)。一般慣性權(quán)重迭代曲線與服從Beta分布的慣性權(quán)重迭代曲線如圖2所示。
2.2 基于改進(jìn)PSO的BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)是較為成熟的神經(jīng)網(wǎng)絡(luò)模型,通過對輸入樣本數(shù)據(jù)的訓(xùn)練,自主學(xué)習(xí)出各參數(shù)之間的隱藏關(guān)系。傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)模型本質(zhì)是學(xué)習(xí)更新權(quán)值和閾值,利用最小二乘法構(gòu)建損失函數(shù),通過最小化誤差的平方和簡便地求得未知數(shù)據(jù),并使這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和最小。最小二乘法采用梯度搜索技術(shù)[14-16],難免存在收斂速度慢等問題。因此可以先以損失函數(shù)作為PSO適應(yīng)度函數(shù),利用改進(jìn)后的PSO算法訓(xùn)練一組較為接近真值的初始權(quán)值和閾值,之后再利用這組權(quán)值閾值訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型得到最終結(jié)果。
3 過濾式論文特征選取
本文通過萬方數(shù)據(jù)知識服務(wù)平臺的論文原始數(shù)據(jù)信息作為研究樣本。原始數(shù)據(jù)信息以論文為單位,包含了論文編號、中文名、英文名、單位等總計71個論文屬性信息。表1展示了萬方數(shù)據(jù)知識服務(wù)平臺所涵蓋的71個論文屬性字段。
自定義特征覆蓋率和單特征置信度作為兩個論文特征屬性。特征覆蓋率為含有此特征的論文數(shù)占論文總數(shù)的百分比,單特征置信度為僅通過此特征可正確識別作者身份的百分比。選取檢索論文作者姓名為“王偉”論文的216篇,依據(jù)公式(9)選取出可用特征:
[Vcoverange]為特征覆蓋率,[Vfitness]為單特征置信度。篩選出[Vvalue]大于0.22的所有可用特征如圖4所示。
根據(jù)特征評價函數(shù)公式(10),從以上特征中選取最終[Feature]值大于0.75的特征組成可用特征向量:
經(jīng)過過濾篩選的可用特征向量為
4 實驗
4.1 基于Beta分布的PSO算法實驗
標(biāo)準(zhǔn)PSO算法記為SPSO,基于Beta分布的PSO算法記為BPSO。為了驗證本文提出的BPSO算法的收斂性能,實驗選取表2中的4個標(biāo)準(zhǔn)優(yōu)化測試函數(shù)。SPSO的慣性權(quán)重由式(3)迭代產(chǎn)生,BPSO的慣性權(quán)重由式(8)迭代產(chǎn)生。慣性因子w取值區(qū)間為[0.2,0.8],初值為0.8,式(8)中的[α]為20,[β]為80,[Tmax]為1000,個體學(xué)習(xí)因子c1和社會學(xué)習(xí)c2值均為2,初始化粒子數(shù)為20,測試函數(shù)的維度為20,算法所得結(jié)果均為50次運行結(jié)果的平均值,最后測試結(jié)果如圖5所示。
圖5中有4個分圖,分別對應(yīng)表2中的4個基準(zhǔn)測試函數(shù),其中橫坐標(biāo)代表迭代次數(shù),最大次數(shù)為1000,縱坐標(biāo)代表適應(yīng)度值。通過圖5可知,BPSO的收斂性能較SPSO算法有大幅提升,4個測試函數(shù)的最后結(jié)果BPSO的適應(yīng)度值均小于SPSO。在F2中,當(dāng)橫坐標(biāo)的迭代次數(shù)為16和62時,SPSO有一段迭代進(jìn)化中適應(yīng)度值低于或等于BPSO,原因是在進(jìn)化前期BPSO中的慣性權(quán)重概率變小,導(dǎo)致粒子進(jìn)化步數(shù)變小,在區(qū)間中搜索更為精確但是收斂速度也變慢了。
4.2 基于改進(jìn)PSO算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)實驗
為了驗證本文提出算法的準(zhǔn)確性,選擇萬方平臺提供的論文數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,依據(jù)表3得出所有屬性的相似性值。
相似性值1/0即相同為1,不同為0。由于地區(qū)和郵編具有地區(qū)包含遞推特性,所以不能采用1/0規(guī)則,需根據(jù)公式(11)確定相似性值。同樣的研究方向也具有遞推特性,需根據(jù)公式(12)確定相似性值。
[P1]為地區(qū)屬性大的值,[P2]為地區(qū)屬性小的值,默認(rèn)地區(qū)屬性省>市>區(qū)>街道,[P1-P2]的值非1即0,當(dāng)[P2]值在[P1]管轄范圍內(nèi),則[P1-P2]=1,反之,即為0。[P1P2]代表地區(qū)屬性數(shù)量級比值。同樣,[S1]為研究領(lǐng)域(學(xué)科屬性)屬性大的值,[S2]為研究領(lǐng)域(學(xué)科屬性)屬性小的值。學(xué)科屬性關(guān)系由中圖分類號得知。
為了驗證本文提出的改進(jìn)粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法(BPSO-BP)性能,將BPSO-BP算法與文獻(xiàn)[1]中基于特征合集的文本聚類算法(F-CLUSTER)、文獻(xiàn)[3]中字符串模糊匹配算法(ES)、文獻(xiàn)[4]中稀疏特征分布算法(SFD)以及文獻(xiàn)[5]中基于均方誤差鄰接矩陣聚類算法(SEAM)進(jìn)行比較。
抽取論文姓名為李偉的論文329篇,基于表3和公式(11)、公式(12)組成如下輸入矩陣,對BPSO-BP模型識別準(zhǔn)確率進(jìn)行驗證。
幾種模型的最終識別準(zhǔn)確率如圖6所示。
圖6中,橫坐標(biāo)為5種算法,縱坐標(biāo)為準(zhǔn)確率。由圖6可知,本文提出的基于改進(jìn)PSO算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的論文作者重名消歧方法,相對于以上4種識別算法,在準(zhǔn)確率上有所提升,達(dá)到89.01%,驗證了本算法的有效性和可靠性。
5 結(jié)語
傳統(tǒng)的論文作者重名消歧算法有一定的局限性,因此本文提出了基于改進(jìn)PSO算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的論文作者重名消歧方法。通過引入Beta分布的動態(tài)慣性權(quán)重,提高了粒子空間搜索的隨機(jī)性,優(yōu)化了PSO算法的全局搜索和局部搜索能力,在擁有更大搜索空間基礎(chǔ)上,提高了算法的收斂速度與精度。在傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型基礎(chǔ)上結(jié)合PSO算法,為BP神經(jīng)網(wǎng)絡(luò)賦予最優(yōu)的權(quán)值和閾值,減少反向傳播的次數(shù),提高訓(xùn)練模型的精度。利用BP神經(jīng)網(wǎng)絡(luò)強(qiáng)大的復(fù)雜非線性映射能力,對論文作者重名情況進(jìn)行精準(zhǔn)識別判定。
通過實驗數(shù)據(jù)可以看出,本文提出的改進(jìn)PSO算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的論文作者重名消歧方法,全局搜索能力強(qiáng),收斂速度快,精度高,能夠很好地對論文重名作者進(jìn)行消岐,同時具有一定的自學(xué)習(xí)能力和泛化能力,識別準(zhǔn)確率達(dá)到89.01%。但本算法仍有一定的優(yōu)化空間,后續(xù)工作會重點關(guān)注其它特征的影響與各特征之間的隱性關(guān)系。
參考文獻(xiàn):
[1]郭舒. 文獻(xiàn)數(shù)據(jù)庫中作者名消岐算法研究[J]. 現(xiàn)代圖書情報技術(shù),2013,29(7):69-74.
[2]劉巍,祝忠明,張旺強(qiáng),等. 機(jī)構(gòu)知識庫中作者標(biāo)識與作品認(rèn)領(lǐng)機(jī)制的研究與實現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù),2014,30(3):8-13.
[3]候海東,洪騰龍,徐建良. SCI論文作者自動識別方法研究[J]. 軟件導(dǎo)刊,2018,17(8):57-60.
[4]翟曉瑞,韓紅旗,張運良,等. 基于稀疏分布式特征的英文著者姓名消岐研究[J]. 計算機(jī)應(yīng)用研究,2018,36(12):1-7.
[5]陽怡林,周杰,李弼程. 基于聚類集成的人名消歧算法[J]. 計算機(jī)應(yīng)用研究,2016,33(9):2716-2720.
[6]寧博,張菲菲. 基于異構(gòu)知識庫的命名實體消歧[J]. 西安郵電大學(xué)學(xué)報,2014,19(4):70-76.
[7]劉生建,羅林,楊艷. 一種快速自適應(yīng)粒子群算法[J]. 軟件導(dǎo)刊,2017,16(9):42-45.
[8]劉秀梅. 動態(tài)系統(tǒng)中粒子群優(yōu)化算法綜述[J]. 軟件導(dǎo)刊,2016,15(10):43-46.
[9]陳智軍,李洋瑩. 神經(jīng)網(wǎng)絡(luò)BP算法改進(jìn)及其性能分析[J]. 軟件導(dǎo)刊,2017,16(10):39-41.
[10]胡伍生,迪達(dá)爾,王昭斌. 神經(jīng)網(wǎng)絡(luò)BP改進(jìn)算法及其性能分析[J]. 現(xiàn)代測繪,2016,39(6):1-4.
[11]AMPARO GIL,JAVIER SEGURA,NICO M. Temme. On the computation and inversion of the cumulative noncentral beta distribution function[J]. Applied Mathematics and Computation,2019(1):361-369.
[12]魯春林,方東輝,陳望學(xué),等. 基于遺傳算法Beta分布參數(shù)的極大似然估計[J]. 吉首大學(xué)學(xué)報(自然科學(xué)版),2016,37(5):13-15.
[13]ELMER JONATHAN,JONES BOBBY L,NAGIN DANIEL S. Using the beta distribution in group-based trajectory models[J]. BMC medical research methodology,2018,18(1):952-961.
[14]韓飛,楊春生,劉清. 一種改進(jìn)的基于梯度搜索的粒子群優(yōu)化算法[J]. 南京大學(xué)學(xué)報(自然科學(xué)版),2013,49(2):196-201.
[15]劉杰,張娟娟. 基于共軛梯度搜索的病態(tài)問題處理方法[J]. 大地測量與地球動力學(xué),2019,39(8):863-868.
[16]曹牧寒,李長紅,曹凱,等. 基于梯度自適應(yīng)極值搜索算法的趨光控制研究[J]. 計算機(jī)測量與控制,2019,27(6):95-99,103.
(責(zé)任編輯:杜能鋼)
收稿日期:2019-11-21
基金項目:教育部人文社會科學(xué)研究青年基金項目(16YJCZH154)
作者簡介:趙華(1980-),女,山東科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院副教授、碩士生導(dǎo)師,研究方向為話題檢測與跟蹤、網(wǎng)絡(luò)輿情挖掘科技文獻(xiàn)服務(wù)、情感分析;仇國華(1994-),女,山東科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院碩士研究生,研究方向為云計算與大數(shù)據(jù)處理。本文通訊作者:趙華。