科學(xué)合作網(wǎng)絡(luò)姓名消歧問(wèn)題研究＊

2020-10-09 01:12王曼玲宗曉麗韓紅旗

甘肅科技 2020年16期

張龍，付媛，王曼玲，宗曉麗，韓紅旗

(1.甘肅省科學(xué)技術(shù)情報(bào)研究所，甘肅蘭州 730000；2.中國(guó)科學(xué)技術(shù)信息研究所，北京海淀100038；3.西北師范大學(xué)，甘肅蘭州 730070；4.甘肅政法學(xué)院，甘肅蘭州 730070)

1 概述

目前，使用搜索引擎查詢自己所需要的信息已經(jīng)成為現(xiàn)代人工作和生活必不可少的一部分，而從海量數(shù)據(jù)中高效快速地返回用戶感興趣的內(nèi)容成為信息檢索的重要挑戰(zhàn)，同時(shí)用戶對(duì)搜索引擎的查準(zhǔn)率和查全率也提出了更高的要求。搜索人物姓名相關(guān)信息是用戶搜索的重要方式之一，也是用戶在互聯(lián)網(wǎng)搜索的主要目的之一，據(jù)統(tǒng)計(jì)在搜索引擎查詢中對(duì)人名的搜索和查詢請(qǐng)求約占5%～10%，是信息查找的關(guān)鍵點(diǎn)。然而，據(jù)美國(guó)人口調(diào)查報(bào)告顯示，有10億人卻僅僅用了90000個(gè)不同的名字。在我國(guó)，重名現(xiàn)象也非常嚴(yán)重，全國(guó)公民身份信息系統(tǒng)中姓名為“張偉”的就有299025人。重名現(xiàn)象的普遍性導(dǎo)致了互聯(lián)網(wǎng)文本中姓名歧義現(xiàn)象嚴(yán)重，搜索結(jié)果并未對(duì)有歧義的人名進(jìn)行有效的信息組織，用戶需要花費(fèi)大量時(shí)間從重名人物中篩選出自己感興趣的人物信息。如何挖掘到包含有相同姓名文本之間的聯(lián)系，有效地解決姓名歧義問(wèn)題，并提供可視化展示，是大數(shù)據(jù)時(shí)代人工智能領(lǐng)域里自然語(yǔ)言處理所面臨的重要挑戰(zhàn)。為此，姓名消歧成為了近年來(lái)國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)之一[1]。當(dāng)前科研文獻(xiàn)數(shù)據(jù)量急速增長(zhǎng)，如何有效地消除文獻(xiàn)著者中文姓名歧義尤為重要。

2 姓名消歧方案設(shè)計(jì)

2.1 消歧方案基本流程

文獻(xiàn)著者姓名消歧是將同名作者發(fā)表的文獻(xiàn)對(duì)應(yīng)到相應(yīng)人物實(shí)體的過(guò)程，該過(guò)程也是一篇文獻(xiàn)被若干個(gè)同名作者認(rèn)領(lǐng)的過(guò)程，最終目的是每個(gè)作者認(rèn)領(lǐng)各自的作品，對(duì)于無(wú)人認(rèn)領(lǐng)的作品，在數(shù)據(jù)庫(kù)中新增該同名作者。從文獻(xiàn)特征消歧順序和語(yǔ)義指紋的認(rèn)領(lǐng)決策兩個(gè)方面進(jìn)行優(yōu)化，設(shè)計(jì)了以下基于語(yǔ)義指紋的姓名消歧方案，基本流程如圖1所示。

圖1 姓名消歧方案基本流程

2.2 語(yǔ)義指紋生成方案設(shè)計(jì)

以文本特征為基礎(chǔ)，將高維的對(duì)象轉(zhuǎn)換為二進(jìn)制碼，相似對(duì)象擁有相似的指紋信息，其中Charikar提出的SimHash算法被認(rèn)為是生成指紋最好的算法[2]。SimHash算法把文本特征轉(zhuǎn)化為二進(jìn)制指紋值，指紋距離的大小除了能表示原始內(nèi)容是否相等的信息外，還能通過(guò)指紋距離大小判斷原始文本的相似度，進(jìn)行文本相似度計(jì)算，降維得到的64位指紋的相似度能夠同原始文本特征的相似度保持一致，體現(xiàn)了語(yǔ)義指紋的語(yǔ)義性。語(yǔ)義指紋生成流程如圖2所示，輸入PDF格式的文獻(xiàn)文本，輸出二進(jìn)制指紋值，指紋生成過(guò)程主要包括6個(gè)步驟：格式轉(zhuǎn)換、中文分詞、求Hash值、Hash值加權(quán)、結(jié)果合并、降維，SimHash算法原理如圖3所示。

中文分詞：對(duì)文獻(xiàn)全文文本進(jìn)行分詞，去除停用詞，作為文本特征，得到有效的特征向量，并根據(jù)TF-IDF確定特征詞的權(quán)重，詞語(yǔ)的權(quán)重代表詞的重要程度，權(quán)重越大代表詞越重要。

求Hash值：對(duì)每一個(gè)特征，利用Hash函數(shù)計(jì)算特征向量的Hash值，得到二進(jìn)制數(shù)表示的32位或64位簽名，將字符串轉(zhuǎn)化為二進(jìn)制數(shù)。

Hash值加權(quán)：對(duì)特征向量的Hash值加權(quán)，如果64位二進(jìn)制哈希值的某一位數(shù)為1，則這一位Hash值加權(quán)為正權(quán)值，如果64位二進(jìn)制哈希值的某一位數(shù)為0，則這一位Hash值加權(quán)為負(fù)權(quán)值，得到每個(gè)特征向量的Hash值加權(quán)。

合并：將各個(gè)特征向量的Hash值加權(quán)結(jié)果進(jìn)行累加，得到一個(gè)序列串。

降維：對(duì)特征向量的Hash值加權(quán)累加結(jié)果的序列串進(jìn)行降維，每一位如果大于0，則置為1，否則變?yōu)?，從而得到該文本的SimHash指紋值。

圖2 語(yǔ)義指紋生成方案設(shè)計(jì)

圖3 SimHash算法原理

2.3 指紋比較方案設(shè)計(jì)

選擇合著者特征、作者機(jī)構(gòu)特征和文本語(yǔ)義指紋特征，融合設(shè)計(jì)了指紋比較器。在綜合特征姓名消歧指紋比較器中，語(yǔ)義指紋相似性通過(guò)海明距離度量，即兩個(gè)指紋值相差的位數(shù)[3]；文獻(xiàn)合著者和作者機(jī)構(gòu)通過(guò)字符串匹配；新論文的指紋fi與庫(kù)中已分類的作者指紋fx作對(duì)比，并合成一個(gè)H（i，x）三元組，前兩個(gè)分量分別為合著者相似度、作者單位相似度，分量的值在0與1之間，0表示合著者或者作者單位不同，1表示有相同的合著者，作者單位相同，第三個(gè)分量為文本語(yǔ)義指紋距離。指紋比較器如圖4所示，工作步驟如下：

1）當(dāng)兩篇同名作者的文獻(xiàn)有相同姓名的合著者時(shí)，這兩篇文獻(xiàn)確定為同一個(gè)作者，將該論文分配給該作者；

2）當(dāng)兩篇同名作者的文獻(xiàn)無(wú)相同的合著者但作者單位具有較大的相似性時(shí)，比較兩篇文獻(xiàn)的指紋距離，當(dāng)指紋距離小于δ3時(shí)，這兩篇文獻(xiàn)確定為同一個(gè)作者，將該論文分配給該作者；

3）當(dāng)兩篇文獻(xiàn)既無(wú)相同的合著者，也不屬于同一個(gè)作者單位時(shí)，則通過(guò)兩篇文獻(xiàn)的指紋相似度來(lái)判斷，當(dāng)指紋距離小于δ1時(shí)，這兩篇文獻(xiàn)確定為同一個(gè)作者，將該論文分配給該作者，當(dāng)指紋距離在(δ1，δ2)之間，則無(wú)法確定為同一個(gè)作者，需要進(jìn)行下一步的認(rèn)領(lǐng)決策。

圖4 指紋比較方案設(shè)計(jì)

2.4 認(rèn)領(lǐng)決策方案設(shè)計(jì)

一篇新的論文指紋與同名作者的N篇文獻(xiàn)的指紋作對(duì)比后得到了N個(gè)指紋距離，認(rèn)領(lǐng)決策器開始工作，圖5為一篇新論文找一個(gè)作者認(rèn)領(lǐng)的過(guò)程。

1）當(dāng)比較結(jié)果指紋距離小于δ1時(shí)，兩篇文獻(xiàn)確定為同一個(gè)作者，將該論文分配給該作者；

2）比較結(jié)果指紋距離輸出值 H(x)在（δ1，δ2）（δ1，δ2為設(shè)定的閾值，本研究實(shí)驗(yàn)中 δ1=18，δ2=25）的個(gè)數(shù)為 n，若 n/N＞24%，則決策器輸出為Yes，則該論文被該作者認(rèn)領(lǐng)；

3）否則，決策器輸出為No。

圖5 認(rèn)領(lǐng)決策方案設(shè)計(jì)

2.5 作品指派方案設(shè)計(jì)

一篇新的文獻(xiàn)在每一個(gè)作者認(rèn)領(lǐng)后，可能存在如下結(jié)果，如圖6所示：

1）當(dāng)只有一位作者認(rèn)領(lǐng)時(shí)，將該論文指派為該作者的作品；

2）當(dāng)存在兩位或兩位以上作者認(rèn)領(lǐng)該文獻(xiàn)時(shí)，由爭(zhēng)議仲裁器仲裁，仲裁后將該論文指派給其中的一位作者；

3）當(dāng)無(wú)人認(rèn)領(lǐng)該文獻(xiàn)時(shí)，該文獻(xiàn)是一位新的同名作者的作品，將其指派給新的作者。

當(dāng)一篇文獻(xiàn)同時(shí)被幾位作者認(rèn)領(lǐng)，出現(xiàn)爭(zhēng)議時(shí)，爭(zhēng)議仲裁器工作過(guò)程如下：

當(dāng)存在多個(gè)認(rèn)領(lǐng)作者時(shí)，仲裁器才起作用，不失一般性，假設(shè)作者a1和a2競(jìng)爭(zhēng)，考察兩個(gè)作者的決策器中各比較器的輸出值，各個(gè)指紋距離和的平均值[4]。若∑H(a1)/Na1<∑H(a2)/Na2，則將該論文指派給作者a1，否則指派給a2。

圖6 作品指派方案設(shè)計(jì)

3 消歧實(shí)驗(yàn)數(shù)據(jù)構(gòu)建

文獻(xiàn)數(shù)據(jù)庫(kù)中海量的文獻(xiàn)數(shù)據(jù)，并不適合直接用來(lái)測(cè)試消歧方法，需要選取有代表性的部分文獻(xiàn)數(shù)據(jù)，構(gòu)建文獻(xiàn)測(cè)試數(shù)據(jù)樣本集，來(lái)評(píng)價(jià)姓名消歧方法的有效性，本研究的文獻(xiàn)數(shù)據(jù)來(lái)源于萬(wàn)方數(shù)據(jù)。文獻(xiàn)中一般包含標(biāo)題、作者、合著者、作者機(jī)構(gòu)、期刊、日期、摘要、關(guān)鍵詞、作者郵箱、全文等特征，但并非所有特征都適應(yīng)于姓名消歧，需要篩選出具有較強(qiáng)消歧能力的特征[5]。為了驗(yàn)證姓名消歧方法的有效性，需構(gòu)建一個(gè)包含待消歧作者姓名的文獻(xiàn)數(shù)據(jù)集，應(yīng)該具有以下特征：

1）首先選取重名較多的常用作者名的文獻(xiàn)，同時(shí)也要包含使用頻率較少的作者名的文獻(xiàn)；

2）不同作者發(fā)表的文獻(xiàn)數(shù)不同，既包含發(fā)表文獻(xiàn)數(shù)量多的作者，也包含發(fā)表文獻(xiàn)數(shù)量較少的作者；

3）需要涵蓋全面的合著類型文獻(xiàn)，既要包含合著文獻(xiàn)，也要包含作者獨(dú)著文獻(xiàn)；

4）需要涵蓋不同的作者單位類型，有的作者所屬單位只有一個(gè)，有的作者在多個(gè)單位就職，發(fā)表的多篇文獻(xiàn)中的所屬單位可能有多個(gè)；

5）作者發(fā)表文獻(xiàn)領(lǐng)域的分布，有的作者所發(fā)表的文獻(xiàn)屬于一個(gè)研究領(lǐng)域，而有的作者發(fā)表的文獻(xiàn)涉及多個(gè)領(lǐng)域。

綜合上述條件，構(gòu)建了具有代表性的文獻(xiàn)數(shù)據(jù)集。在萬(wàn)方數(shù)據(jù)中選取作者名為“李建軍”、“李軍”、“王琳”等7個(gè)名字，下載全文PDF格式數(shù)據(jù)845條。每個(gè)作者名代表了一類型的作者，如“李建軍”代表的是重名作者較多的一類，本數(shù)據(jù)集中共包含該姓名的實(shí)際作者數(shù)為14，且包括了合著者文獻(xiàn)和作者獨(dú)著文獻(xiàn)。“王偉”也是重名作者較多的一類，本數(shù)據(jù)集中共包含該姓名的實(shí)際作者數(shù)為9人，其中同屬于大連理工大學(xué)的就有3人，其中的一個(gè)作者“王偉”同時(shí)在同濟(jì)大學(xué)土木工程防災(zāi)國(guó)家重點(diǎn)實(shí)驗(yàn)室、上海巖石工程勘察設(shè)計(jì)研究院以及上海市閔行區(qū)建設(shè)工程安全質(zhì)量監(jiān)督站兼職，是一個(gè)作者屬于多個(gè)機(jī)構(gòu)的類型。“吳雁林”代表個(gè)性化的辨識(shí)度較高的重名較少作者名，本測(cè)試集中僅包含該姓名的實(shí)際作者數(shù)為3，三人文獻(xiàn)數(shù)比較均衡?！皬垙?qiáng)”代表了少數(shù)作者包含較多文獻(xiàn)，其余重名作者所占文獻(xiàn)數(shù)較少的類型，本測(cè)試集中屬于該姓名的實(shí)際作者數(shù)為10人，北京理工大學(xué)的張強(qiáng)老師的文獻(xiàn)所占比例高達(dá)1/4，屬于文獻(xiàn)占比不均衡的一類。本研究構(gòu)建的文獻(xiàn)數(shù)據(jù)樣本共標(biāo)注了7個(gè)不同名字，分屬于68個(gè)不同的作者，見(jiàn)表1。

表1 文獻(xiàn)數(shù)據(jù)測(cè)試樣本集

文獻(xiàn)數(shù)據(jù)測(cè)試樣本集分為六個(gè)類型：重名較多型、生僻名型、文獻(xiàn)占比不均型、文獻(xiàn)占比均衡型、同一機(jī)構(gòu)型、文獻(xiàn)稀疏型。文獻(xiàn)占比不均型指少數(shù)作者所占文獻(xiàn)占大多數(shù)，其余作者占少數(shù)文獻(xiàn)，在文獻(xiàn)數(shù)據(jù)庫(kù)中大多數(shù)重名都屬于這種情況。文獻(xiàn)占比均衡型指屬于每個(gè)作者的文獻(xiàn)數(shù)占比均勻。同一機(jī)構(gòu)型指重名的不同作者屬于同一機(jī)構(gòu)。有的作者包含多種類型，如“張強(qiáng)”同時(shí)屬于重名較多型和文獻(xiàn)占比不均型。如圖7為各個(gè)類型所占比例。

圖7 數(shù)據(jù)類型比例

4 姓名消歧實(shí)驗(yàn)及結(jié)論

實(shí)驗(yàn)數(shù)據(jù)源為之前構(gòu)建的文獻(xiàn)數(shù)據(jù)集的測(cè)試數(shù)據(jù)，本實(shí)驗(yàn)在Windows7操作系統(tǒng)下開發(fā)，各模塊采用Java編程語(yǔ)言編寫，編譯環(huán)境為eclipse，JDK1.8，利用MySQL數(shù)據(jù)庫(kù)存儲(chǔ)，并使用了較權(quán)威的漢語(yǔ)分詞系統(tǒng)NLPIR進(jìn)行分詞，所有文獻(xiàn)以PDF格式存儲(chǔ)。采用準(zhǔn)確率、召回率和F值對(duì)基于語(yǔ)義指紋的綜合特征姓名消歧方法進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果見(jiàn)表2，綜合特征和單特征消歧對(duì)比如圖8所示。

表2 基于語(yǔ)義指紋的綜合特征姓名消歧實(shí)驗(yàn)結(jié)果

圖8 綜合特征和單特征姓名消歧對(duì)比

由圖8可知，基于語(yǔ)義指紋的綜合特征姓名消歧方法在整體效果上明顯好于獨(dú)立特征的姓名消歧方法，主要表現(xiàn)在綜合特征消歧的較高召回率上。雖然合著者特征和作者單位特征在可以達(dá)到較高的準(zhǔn)確率，但是召回率卻很低，整體消歧效果并不好。

指紋單特征姓名消歧的準(zhǔn)確率較低而召回率較高，前者是將屬于一個(gè)作者的多篇文獻(xiàn)分為多個(gè)作者，而后者是將幾個(gè)不同作者的文獻(xiàn)歸為一個(gè)作者，所以幾個(gè)特征可以進(jìn)行優(yōu)勢(shì)互補(bǔ)?；谡Z(yǔ)義指紋的文獻(xiàn)著者姓名消歧方法使整體效果有所提升和改善，但準(zhǔn)確率比合著者單特征和作者單位單特征消歧低。綜合特征姓名消歧，避免了只從合著者、作者單位、語(yǔ)義指紋，單方面的局限性，造成的消歧結(jié)果出現(xiàn)較低的召回率或者較低的準(zhǔn)確率，同時(shí)融合了獨(dú)立特征的消歧結(jié)果，有效地提高了姓名消歧的召回率，也確保了相對(duì)較高的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡