国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學(xué)合作網(wǎng)絡(luò)姓名消歧問(wèn)題研究*

2020-10-09 01:12王曼玲宗曉麗韓紅旗
甘肅科技 2020年16期
關(guān)鍵詞:方案設(shè)計(jì)姓名指紋

張 龍 ,付 媛 ,王曼玲 ,宗曉麗 ,韓紅旗

(1.甘肅省科學(xué)技術(shù)情報(bào)研究所,甘肅 蘭州 730000;2.中國(guó)科學(xué)技術(shù)信息研究所,北京 海淀100038;3.西北師范大學(xué),甘肅 蘭州 730070;4.甘肅政法學(xué)院,甘肅 蘭州 730070)

1 概述

目前,使用搜索引擎查詢自己所需要的信息已經(jīng)成為現(xiàn)代人工作和生活必不可少的一部分,而從海量數(shù)據(jù)中高效快速地返回用戶感興趣的內(nèi)容成為信息檢索的重要挑戰(zhàn),同時(shí)用戶對(duì)搜索引擎的查準(zhǔn)率和查全率也提出了更高的要求。搜索人物姓名相關(guān)信息是用戶搜索的重要方式之一,也是用戶在互聯(lián)網(wǎng)搜索的主要目的之一,據(jù)統(tǒng)計(jì)在搜索引擎查詢中對(duì)人名的搜索和查詢請(qǐng)求約占5%~10%,是信息查找的關(guān)鍵點(diǎn)。然而,據(jù)美國(guó)人口調(diào)查報(bào)告顯示,有10億人卻僅僅用了90000個(gè)不同的名字。在我國(guó),重名現(xiàn)象也非常嚴(yán)重,全國(guó)公民身份信息系統(tǒng)中姓名為“張偉”的就有299025人。重名現(xiàn)象的普遍性導(dǎo)致了互聯(lián)網(wǎng)文本中姓名歧義現(xiàn)象嚴(yán)重,搜索結(jié)果并未對(duì)有歧義的人名進(jìn)行有效的信息組織,用戶需要花費(fèi)大量時(shí)間從重名人物中篩選出自己感興趣的人物信息。如何挖掘到包含有相同姓名文本之間的聯(lián)系,有效地解決姓名歧義問(wèn)題,并提供可視化展示,是大數(shù)據(jù)時(shí)代人工智能領(lǐng)域里自然語(yǔ)言處理所面臨的重要挑戰(zhàn)。為此,姓名消歧成為了近年來(lái)國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)之一[1]。當(dāng)前科研文獻(xiàn)數(shù)據(jù)量急速增長(zhǎng),如何有效地消除文獻(xiàn)著者中文姓名歧義尤為重要。

2 姓名消歧方案設(shè)計(jì)

2.1 消歧方案基本流程

文獻(xiàn)著者姓名消歧是將同名作者發(fā)表的文獻(xiàn)對(duì)應(yīng)到相應(yīng)人物實(shí)體的過(guò)程,該過(guò)程也是一篇文獻(xiàn)被若干個(gè)同名作者認(rèn)領(lǐng)的過(guò)程,最終目的是每個(gè)作者認(rèn)領(lǐng)各自的作品,對(duì)于無(wú)人認(rèn)領(lǐng)的作品,在數(shù)據(jù)庫(kù)中新增該同名作者。從文獻(xiàn)特征消歧順序和語(yǔ)義指紋的認(rèn)領(lǐng)決策兩個(gè)方面進(jìn)行優(yōu)化,設(shè)計(jì)了以下基于語(yǔ)義指紋的姓名消歧方案,基本流程如圖1所示。

圖1 姓名消歧方案基本流程

2.2 語(yǔ)義指紋生成方案設(shè)計(jì)

以文本特征為基礎(chǔ),將高維的對(duì)象轉(zhuǎn)換為二進(jìn)制碼,相似對(duì)象擁有相似的指紋信息,其中Charikar提出的SimHash算法被認(rèn)為是生成指紋最好的算法[2]。SimHash算法把文本特征轉(zhuǎn)化為二進(jìn)制指紋值,指紋距離的大小除了能表示原始內(nèi)容是否相等的信息外,還能通過(guò)指紋距離大小判斷原始文本的相似度,進(jìn)行文本相似度計(jì)算,降維得到的64位指紋的相似度能夠同原始文本特征的相似度保持一致,體現(xiàn)了語(yǔ)義指紋的語(yǔ)義性。語(yǔ)義指紋生成流程如圖2所示,輸入PDF格式的文獻(xiàn)文本,輸出二進(jìn)制指紋值,指紋生成過(guò)程主要包括6個(gè)步驟:格式轉(zhuǎn)換、中文分詞、求Hash值、Hash值加權(quán)、結(jié)果合并、降維,SimHash算法原理如圖3所示。

中文分詞:對(duì)文獻(xiàn)全文文本進(jìn)行分詞,去除停用詞,作為文本特征,得到有效的特征向量,并根據(jù)TF-IDF確定特征詞的權(quán)重,詞語(yǔ)的權(quán)重代表詞的重要程度,權(quán)重越大代表詞越重要。

求Hash值:對(duì)每一個(gè)特征,利用Hash函數(shù)計(jì)算特征向量的Hash值,得到二進(jìn)制數(shù)表示的32位或64位簽名,將字符串轉(zhuǎn)化為二進(jìn)制數(shù)。

Hash值加權(quán):對(duì)特征向量的Hash值加權(quán),如果64位二進(jìn)制哈希值的某一位數(shù)為1,則這一位Hash值加權(quán)為正權(quán)值,如果64位二進(jìn)制哈希值的某一位數(shù)為0,則這一位Hash值加權(quán)為負(fù)權(quán)值,得到每個(gè)特征向量的Hash值加權(quán)。

合并:將各個(gè)特征向量的Hash值加權(quán)結(jié)果進(jìn)行累加,得到一個(gè)序列串。

降維:對(duì)特征向量的Hash值加權(quán)累加結(jié)果的序列串進(jìn)行降維,每一位如果大于0,則置為1,否則變?yōu)?,從而得到該文本的SimHash指紋值。

圖2 語(yǔ)義指紋生成方案設(shè)計(jì)

圖3 SimHash算法原理

2.3 指紋比較方案設(shè)計(jì)

選擇合著者特征、作者機(jī)構(gòu)特征和文本語(yǔ)義指紋特征,融合設(shè)計(jì)了指紋比較器。在綜合特征姓名消歧指紋比較器中,語(yǔ)義指紋相似性通過(guò)海明距離度量,即兩個(gè)指紋值相差的位數(shù)[3];文獻(xiàn)合著者和作者機(jī)構(gòu)通過(guò)字符串匹配;新論文的指紋fi與庫(kù)中已分類的作者指紋fx作對(duì)比,并合成一個(gè)H(i,x)三元組,前兩個(gè)分量分別為合著者相似度、作者單位相似度,分量的值在0與1之間,0表示合著者或者作者單位不同,1表示有相同的合著者,作者單位相同,第三個(gè)分量為文本語(yǔ)義指紋距離。指紋比較器如圖4所示,工作步驟如下:

1)當(dāng)兩篇同名作者的文獻(xiàn)有相同姓名的合著者時(shí),這兩篇文獻(xiàn)確定為同一個(gè)作者,將該論文分配給該作者;

2)當(dāng)兩篇同名作者的文獻(xiàn)無(wú)相同的合著者但作者單位具有較大的相似性時(shí),比較兩篇文獻(xiàn)的指紋距離,當(dāng)指紋距離小于δ3時(shí),這兩篇文獻(xiàn)確定為同一個(gè)作者,將該論文分配給該作者;

3)當(dāng)兩篇文獻(xiàn)既無(wú)相同的合著者,也不屬于同一個(gè)作者單位時(shí),則通過(guò)兩篇文獻(xiàn)的指紋相似度來(lái)判斷,當(dāng)指紋距離小于δ1時(shí),這兩篇文獻(xiàn)確定為同一個(gè)作者,將該論文分配給該作者,當(dāng)指紋距離在(δ1,δ2)之間,則無(wú)法確定為同一個(gè)作者,需要進(jìn)行下一步的認(rèn)領(lǐng)決策。

圖4 指紋比較方案設(shè)計(jì)

2.4 認(rèn)領(lǐng)決策方案設(shè)計(jì)

一篇新的論文指紋與同名作者的N篇文獻(xiàn)的指紋作對(duì)比后得到了N個(gè)指紋距離,認(rèn)領(lǐng)決策器開始工作,圖5為一篇新論文找一個(gè)作者認(rèn)領(lǐng)的過(guò)程。

1)當(dāng)比較結(jié)果指紋距離小于δ1時(shí),兩篇文獻(xiàn)確定為同一個(gè)作者,將該論文分配給該作者;

2)比較結(jié)果指紋距離輸出值 H(x)在(δ1,δ2)(δ1,δ2為設(shè)定的閾值,本研究實(shí)驗(yàn)中 δ1=18,δ2=25)的個(gè)數(shù)為 n,若 n/N>24%,則決策器輸出為Yes,則該論文被該作者認(rèn)領(lǐng);

3)否則,決策器輸出為No。

圖5 認(rèn)領(lǐng)決策方案設(shè)計(jì)

2.5 作品指派方案設(shè)計(jì)

一篇新的文獻(xiàn)在每一個(gè)作者認(rèn)領(lǐng)后,可能存在如下結(jié)果,如圖6所示:

1)當(dāng)只有一位作者認(rèn)領(lǐng)時(shí),將該論文指派為該作者的作品;

2)當(dāng)存在兩位或兩位以上作者認(rèn)領(lǐng)該文獻(xiàn)時(shí),由爭(zhēng)議仲裁器仲裁,仲裁后將該論文指派給其中的一位作者;

3)當(dāng)無(wú)人認(rèn)領(lǐng)該文獻(xiàn)時(shí),該文獻(xiàn)是一位新的同名作者的作品,將其指派給新的作者。

當(dāng)一篇文獻(xiàn)同時(shí)被幾位作者認(rèn)領(lǐng),出現(xiàn)爭(zhēng)議時(shí),爭(zhēng)議仲裁器工作過(guò)程如下:

當(dāng)存在多個(gè)認(rèn)領(lǐng)作者時(shí),仲裁器才起作用,不失一般性,假設(shè)作者a1和a2競(jìng)爭(zhēng),考察兩個(gè)作者的決策器中各比較器的輸出值,各個(gè)指紋距離和的平均值[4]。若∑H(a1)/Na1<∑H(a2)/Na2,則將該論文指派給作者a1,否則指派給a2。

圖6 作品指派方案設(shè)計(jì)

3 消歧實(shí)驗(yàn)數(shù)據(jù)構(gòu)建

文獻(xiàn)數(shù)據(jù)庫(kù)中海量的文獻(xiàn)數(shù)據(jù),并不適合直接用來(lái)測(cè)試消歧方法,需要選取有代表性的部分文獻(xiàn)數(shù)據(jù),構(gòu)建文獻(xiàn)測(cè)試數(shù)據(jù)樣本集,來(lái)評(píng)價(jià)姓名消歧方法的有效性,本研究的文獻(xiàn)數(shù)據(jù)來(lái)源于萬(wàn)方數(shù)據(jù)。文獻(xiàn)中一般包含標(biāo)題、作者、合著者、作者機(jī)構(gòu)、期刊、日期、摘要、關(guān)鍵詞、作者郵箱、全文等特征,但并非所有特征都適應(yīng)于姓名消歧,需要篩選出具有較強(qiáng)消歧能力的特征[5]。為了驗(yàn)證姓名消歧方法的有效性,需構(gòu)建一個(gè)包含待消歧作者姓名的文獻(xiàn)數(shù)據(jù)集,應(yīng)該具有以下特征:

1)首先選取重名較多的常用作者名的文獻(xiàn),同時(shí)也要包含使用頻率較少的作者名的文獻(xiàn);

2)不同作者發(fā)表的文獻(xiàn)數(shù)不同,既包含發(fā)表文獻(xiàn)數(shù)量多的作者,也包含發(fā)表文獻(xiàn)數(shù)量較少的作者;

3)需要涵蓋全面的合著類型文獻(xiàn),既要包含合著文獻(xiàn),也要包含作者獨(dú)著文獻(xiàn);

4)需要涵蓋不同的作者單位類型,有的作者所屬單位只有一個(gè),有的作者在多個(gè)單位就職,發(fā)表的多篇文獻(xiàn)中的所屬單位可能有多個(gè);

5)作者發(fā)表文獻(xiàn)領(lǐng)域的分布,有的作者所發(fā)表的文獻(xiàn)屬于一個(gè)研究領(lǐng)域,而有的作者發(fā)表的文獻(xiàn)涉及多個(gè)領(lǐng)域。

綜合上述條件,構(gòu)建了具有代表性的文獻(xiàn)數(shù)據(jù)集。在萬(wàn)方數(shù)據(jù)中選取作者名為“李建軍”、“李軍”、“王琳”等7個(gè)名字,下載全文PDF格式數(shù)據(jù)845條。每個(gè)作者名代表了一類型的作者,如“李建軍”代表的是重名作者較多的一類,本數(shù)據(jù)集中共包含該姓名的實(shí)際作者數(shù)為14,且包括了合著者文獻(xiàn)和作者獨(dú)著文獻(xiàn)。“王偉”也是重名作者較多的一類,本數(shù)據(jù)集中共包含該姓名的實(shí)際作者數(shù)為9人,其中同屬于大連理工大學(xué)的就有3人,其中的一個(gè)作者“王偉”同時(shí)在同濟(jì)大學(xué)土木工程防災(zāi)國(guó)家重點(diǎn)實(shí)驗(yàn)室、上海巖石工程勘察設(shè)計(jì)研究院以及上海市閔行區(qū)建設(shè)工程安全質(zhì)量監(jiān)督站兼職,是一個(gè)作者屬于多個(gè)機(jī)構(gòu)的類型。“吳雁林”代表個(gè)性化的辨識(shí)度較高的重名較少作者名,本測(cè)試集中僅包含該姓名的實(shí)際作者數(shù)為3,三人文獻(xiàn)數(shù)比較均衡?!皬垙?qiáng)”代表了少數(shù)作者包含較多文獻(xiàn),其余重名作者所占文獻(xiàn)數(shù)較少的類型,本測(cè)試集中屬于該姓名的實(shí)際作者數(shù)為10人,北京理工大學(xué)的張強(qiáng)老師的文獻(xiàn)所占比例高達(dá)1/4,屬于文獻(xiàn)占比不均衡的一類。本研究構(gòu)建的文獻(xiàn)數(shù)據(jù)樣本共標(biāo)注了7個(gè)不同名字,分屬于68個(gè)不同的作者,見(jiàn)表1。

表1 文獻(xiàn)數(shù)據(jù)測(cè)試樣本集

文獻(xiàn)數(shù)據(jù)測(cè)試樣本集分為六個(gè)類型:重名較多型、生僻名型、文獻(xiàn)占比不均型、文獻(xiàn)占比均衡型、同一機(jī)構(gòu)型、文獻(xiàn)稀疏型。文獻(xiàn)占比不均型指少數(shù)作者所占文獻(xiàn)占大多數(shù),其余作者占少數(shù)文獻(xiàn),在文獻(xiàn)數(shù)據(jù)庫(kù)中大多數(shù)重名都屬于這種情況。文獻(xiàn)占比均衡型指屬于每個(gè)作者的文獻(xiàn)數(shù)占比均勻。同一機(jī)構(gòu)型指重名的不同作者屬于同一機(jī)構(gòu)。有的作者包含多種類型,如“張強(qiáng)”同時(shí)屬于重名較多型和文獻(xiàn)占比不均型。如圖7為各個(gè)類型所占比例。

圖7 數(shù)據(jù)類型比例

4 姓名消歧實(shí)驗(yàn)及結(jié)論

實(shí)驗(yàn)數(shù)據(jù)源為之前構(gòu)建的文獻(xiàn)數(shù)據(jù)集的測(cè)試數(shù)據(jù),本實(shí)驗(yàn)在Windows7操作系統(tǒng)下開發(fā),各模塊采用Java編程語(yǔ)言編寫,編譯環(huán)境為eclipse,JDK1.8,利用MySQL數(shù)據(jù)庫(kù)存儲(chǔ),并使用了較權(quán)威的漢語(yǔ)分詞系統(tǒng)NLPIR進(jìn)行分詞,所有文獻(xiàn)以PDF格式存儲(chǔ)。采用準(zhǔn)確率、召回率和F值對(duì)基于語(yǔ)義指紋的綜合特征姓名消歧方法進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果見(jiàn)表2,綜合特征和單特征消歧對(duì)比如圖8所示。

表2 基于語(yǔ)義指紋的綜合特征姓名消歧實(shí)驗(yàn)結(jié)果

圖8 綜合特征和單特征姓名消歧對(duì)比

由圖8可知,基于語(yǔ)義指紋的綜合特征姓名消歧方法在整體效果上明顯好于獨(dú)立特征的姓名消歧方法,主要表現(xiàn)在綜合特征消歧的較高召回率上。雖然合著者特征和作者單位特征在可以達(dá)到較高的準(zhǔn)確率,但是召回率卻很低,整體消歧效果并不好。

指紋單特征姓名消歧的準(zhǔn)確率較低而召回率較高,前者是將屬于一個(gè)作者的多篇文獻(xiàn)分為多個(gè)作者,而后者是將幾個(gè)不同作者的文獻(xiàn)歸為一個(gè)作者,所以幾個(gè)特征可以進(jìn)行優(yōu)勢(shì)互補(bǔ)?;谡Z(yǔ)義指紋的文獻(xiàn)著者姓名消歧方法使整體效果有所提升和改善,但準(zhǔn)確率比合著者單特征和作者單位單特征消歧低。綜合特征姓名消歧,避免了只從合著者、作者單位、語(yǔ)義指紋,單方面的局限性,造成的消歧結(jié)果出現(xiàn)較低的召回率或者較低的準(zhǔn)確率,同時(shí)融合了獨(dú)立特征的消歧結(jié)果,有效地提高了姓名消歧的召回率,也確保了相對(duì)較高的準(zhǔn)確率。

猜你喜歡
方案設(shè)計(jì)姓名指紋
100MW光伏車間自動(dòng)化改造方案設(shè)計(jì)
一種適用于高軌空間的GNSS矢量跟蹤方案設(shè)計(jì)
方案設(shè)計(jì)在建筑設(shè)計(jì)中的重要性與應(yīng)用
像偵探一樣提取指紋
梁潮印箋·姓名章戢孴
為什么每個(gè)人的指紋都不一樣
梁潮篆痕·姓名類集
姓名的『姓』字為什么是『女』旁?
方案設(shè)計(jì)我做主
基于自適應(yīng)稀疏變換的指紋圖像壓縮