国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于對抗學習的查新檢索式自動生成

2024-08-13 00:00:00曾立英王亭亭劉耀王曉燕
鄭州大學學報(理學版) 2024年6期

摘要: 科技查新是科研人員獲取前沿信息的重要途徑,但伴隨著信息量的劇增,傳統(tǒng)查新檢索式的構(gòu)建方法存在效率低、關(guān)鍵詞提取不全面、一詞多義等問題,因此提出了融合基于Transformer的雙向編碼器表達與SequenceGAN的查新檢索式自動構(gòu)建模型BSGAN。通過BiLSTM-CRF構(gòu)建領(lǐng)域詞表及概念同義詞詞表,解決了查新檢索式構(gòu)建過程中關(guān)鍵詞不夠全面的問題;采用基于Transformer的雙向編碼器表達模型中多頭注意力機制,解決了檢索式中一詞多義問題;使用BSGAN檢索式自動構(gòu)建模型,實現(xiàn)了查新檢索式的自動生成與邏輯構(gòu)建,解決了傳統(tǒng)方法中專家手工構(gòu)建檢索式效率低的問題。最后,通過萬方中文數(shù)據(jù)庫中的檢索結(jié)果來評價檢索式,實驗結(jié)果表明,自動構(gòu)建模型BSGAN生成的查新檢索式在醫(yī)藥、化工、計算機等領(lǐng)域均達到了較高的查準率與查全率。

關(guān)鍵詞: 查新檢索式; 對抗學習; BiLSTM-CRF; Transformer

中圖分類號: G252.7

文獻標志碼: A

文章編號: 1671-6841(2024)06-0070-07

DOI: 10.13705/j.issn.1671-6841.2023134

Novelty Retrieval Expression Automatic Generation Based on

Adversarial Learning

ZENG Liying1, WANG Tingting1, LIU Yao2, WANG Xiaoyan3

(1.College of International Education, Minzu University of China, Beijing 100081, China;

2.Institute of Scientific and Technology Information of China, Beijing 100038, China;

3.Library, Minzu University of China, Beijing 100081, China)

Abstract: Scientific and technological novelty retrieval was an important way for researchers to obtain frontline information. But with the blooming of information, the traditional construction method of novelty retrieval expression had some problems, including low efficiency, incomplete keywords extraction, polysemy, etc. Regarding the issues above, a new model called BSGAN was proposed that could combine BERT and SeqGAN for automatic construction of novelty retrieval expression. The method solved the issue that keywords were not comprehensive enough in the construction process of novelty retrieval expression by building domain vocabulary and concept synonym vocabulary through BiLSTM-CRF. At the same time, the issue of polysemy in retrieval expression was solved by using the Multi-headed Self-attention mechanism in Bert. In addition, BSGAN was used to implement the automatic generation and logical construction of novelty retrieval expression, which could solve the low efficiency of experts′ traditional manual construction methods. Finally, the retrieval expression was evaluated by the retrieval results in Wanfang Chinese database. The experiment outcome showed that the novelty retrieval expression automatically generated by BSGAN achieved high precision and recall in the fields of medicine, chemical engineering, computer, etc.

Key words: novelty search; adversarial learning; BiLSTM-CRF; Transformer

0 引言

隨著數(shù)據(jù)科學、人工智能等技術(shù)在全球的飛速發(fā)展,人類步入了知識經(jīng)濟“信息爆炸”時代。網(wǎng)絡(luò)環(huán)境下信息的需求量劇增,傳統(tǒng)的查新手段已遠遠不能滿足科技查新的發(fā)展需求,尤其是每年出現(xiàn)的科技查新階段性業(yè)務(wù)高峰期,給查新機構(gòu)人員儲備與服務(wù)效率都帶來巨大的挑戰(zhàn)。

科技查新工作的核心任務(wù)是分析查新委托內(nèi)容,擬定檢索策略,對檢索結(jié)果進行評價,反復優(yōu)化檢索策略,因而檢索策略的優(yōu)劣直接影響查新報告的質(zhì)量。狹義上,檢索策略是指檢索提問表達式,也稱檢索式,是由關(guān)鍵詞、關(guān)鍵詞之間的邏輯關(guān)系組成的邏輯表達式。然而,現(xiàn)有的科技文獻檢索技術(shù)存在不完善之處。一方面,檢索本身存在模糊性,面對海量的數(shù)據(jù),查新人員很難得到自己需要的信息;另一方面,現(xiàn)有的科技查新檢索式大多是由專家撰寫的,需要花費巨大的人力和時間。因此如何實現(xiàn)查新檢索式的自動構(gòu)建成為一個重要且有意義的問題。檢索策略的制定需要經(jīng)過反復優(yōu)化才能得到良好的效果,而人工所做的反復優(yōu)化的過程與對抗學習框架中生成器與判別器相互迭代更新參數(shù)的過程類似,故生成對抗網(wǎng)絡(luò)(generative adversial network, GAN)可適用于檢索式生成。生成對抗網(wǎng)絡(luò)啟發(fā)自博弈論中的二人零和博弈,由Goodfellow等[1]開創(chuàng)性地提出,包含一個生成模型(G)和一個判別模型(D)。對抗學習基本思想是生成模型捕捉樣本數(shù)據(jù)的分布。判別模型是一個二分類器,用于判別輸入數(shù)據(jù)是否真實,這個模型的優(yōu)化過程屬于二元極小極大博弈問題,訓練時固定一方,更新另一方的參數(shù),交替迭代,使對方的錯誤最大化。最終,生成器能估測出樣本數(shù)據(jù)的分布。此外,通過對GAN的生成器、判別器做結(jié)構(gòu)上的改進或?qū)δ繕撕瘮?shù)等進行優(yōu)化,能產(chǎn)生更多種基于GAN的變種以適配不同的任務(wù)場景,生成對抗網(wǎng)絡(luò)目前廣泛應(yīng)用于計算機視覺[2]、自然語言處理[3]、半監(jiān)督學習[4]等領(lǐng)域。

時霽等[5]以較新的查新技術(shù)規(guī)范為依據(jù),介紹了傳統(tǒng)手動制定查新檢索式的步驟及注意事項。孫可佳等[6]利用雙判別器結(jié)構(gòu)生成詩歌,并通過詩歌的主題與優(yōu)美詩意作為策略梯度反饋給生成器。龐栓栓[7]利用LeakGAN作為長文本來生成模型。沈杰等[8]利用SGAN(SequenceGAN,SGAN),也稱SeqGAN來解決開放領(lǐng)域中閑聊的問答生成。Yu等[9]提出的SeqGAN中使用的生成器是基于深層神經(jīng)網(wǎng)絡(luò)編碼機制的Seq2seq(sequence to sequence),雖然查新檢索式的生成與問答生成相似,但仍有較大區(qū)別。在Seq2seq中,編碼機制將一個可變長度的信號序列變?yōu)楣潭ㄩL度的向量表達,這并不適用于查新點的編碼,因此提出了查新檢索式自動生成模型,用基于Transformer的雙向編碼器表達(bidirectional encoder representation from Transformers, BERT)替換SeqGAN的編碼機制,并輔以領(lǐng)域詞表及概念同義詞詞表來生成查新檢索式,可以幫助查新人員高效和精準地提供信息知識咨詢服務(wù)。

1 模型設(shè)計

傳統(tǒng)檢索式的構(gòu)建方式存在效率低下,關(guān)鍵詞不夠全面、一詞多義等問題。為有效解決這些問題,本文提出了融合BERT與SeqGAN的BSGAN模型,依據(jù)查新委托單中的查新點自動構(gòu)建檢索策略,查新員可以對自動生成的查新檢索式進行優(yōu)化和修改以保證檢索結(jié)果的準確性?;贐SGAN生成查新檢索式的總架構(gòu)圖如圖1所示。

圖1中的BSGAN模型融合了SeqGAN模型與BERT模型。SeqGAN利用強化學習(reinforce learning,RL)來解決GAN的缺陷,其輸入和生成的數(shù)據(jù)都是連續(xù)的,是可微分函數(shù)與深度神經(jīng)網(wǎng)絡(luò)結(jié)合成深度生成式模型的必要條件。在SeqGAN中,判別器為二分類器,生成器為Seq2seq,雖然Seq2seq生成的查新檢索式是連續(xù)的,但其自帶的向量表示模型不能解決檢索式中一詞多義問題,因此選取基于Transformer的BERT模型為詞嵌入模型。

圖1總框架中檢索式生成部分,將查新點與查新檢索式分別存儲在txt文本中,且按段落形式一一對應(yīng),作為Bert模型的輸入,首先將查新點及查新檢索式分詞、去除停用詞等預(yù)處理,預(yù)處理后以鍵值對結(jié)構(gòu)存儲于詞匯表中。然后,通過Bert模型的多頭注意力機制——依據(jù)詞匯表將文本中的每個字或詞轉(zhuǎn)換為一維初始向量,在查新點中提取每個字或詞的文本向量和位置向量,并將這三個向量進行線性變化,添加注意力權(quán)重后作為模型的輸入。其次引入mask任務(wù)并使用雙向語言模型做預(yù)訓練,最后通過微調(diào)模式解決下游任務(wù)。BERT模型輸出的是融合全文語義信息的向量表示,可作為BSGAN算法的輸入。BSGAN算法流程如下。

輸入: G、D分別是生成器和判別器,Gθ、Dφ為生成器訓練出來的矩陣,檢索式的向量為生成器的輸入,生成器的輸出yt為判別器的輸入。

輸出: G與D是否達到納什均衡。

1) 隨機初始化Gθ網(wǎng)絡(luò)和Dφ網(wǎng)絡(luò)參數(shù)。

2) 通過最大似然估計預(yù)訓練G網(wǎng)絡(luò),目的是提高G網(wǎng)絡(luò)的搜索效率。

3) 判別器與生成器共享參數(shù)。

4) 使用預(yù)訓練的Gθ生成一些數(shù)據(jù)即負樣本,通過最小化交叉熵來預(yù)訓練Dφ。

5) 開始GAN的過程,不斷循環(huán)迭代。

6) 開始生成檢索式,并使用獎勵函數(shù)方程計算reward(這個reward來自G生成的檢索式與D產(chǎn)生的Q值),Y1∶T=(y1,y2,…,yT)~Gθ。

7) for 1∶T里面的各個時刻do

8) 使用公式(1)更新G的參數(shù)。

9) 計算獎勵Q值。

10) 通過梯度更新生成器的參數(shù)。

11) end for

12) for 判別器的每一個時間步do

13) 通過生成器的序列生成偽檢索式,偽檢索式與真檢索式聯(lián)合起來。

14) 更優(yōu)的G生成更好的檢索式,和真實數(shù)據(jù)一起通過公式(2)訓練D。

以上7)至14)循環(huán)訓練直到收斂。

其中:QGθDφ為Q值;αh代表學習率。

(a=yt,s=Y1∶T-1)=

1N∑Nn=1D(Yn1∶t),Yn1∶t∈MCGθ((Y1∶t,N)),t<T,

Dφ(Y1∶t),t=T,(1)

θ←θ+αhΔθJθ。(2)

2 實驗與結(jié)果

2.1 文獻預(yù)處理及數(shù)據(jù)集構(gòu)建

為使BSGAN模型能夠生成查新檢索式,選取科技文獻中的摘要作為查新需求對BSGAN模型進行預(yù)訓練。本文利用萬方接口以“主題:藥學領(lǐng)域and時間:2015年1月1日—2020年12月31日”為檢索式進行檢索,并按照篇章結(jié)構(gòu)的層級關(guān)系對論文進行解析與存儲。經(jīng)觀察發(fā)現(xiàn),在獲取的420篇藥學領(lǐng)域期刊論文中,有303篇論文摘要結(jié)構(gòu)符合“目的,方法,結(jié)果與結(jié)論”三段式。再選取情報學領(lǐng)域、計算機領(lǐng)域、化學化工領(lǐng)域以及藥劑學領(lǐng)域中的科技文獻作為實驗對象,檢索策略同時包含“目的”“方法”“結(jié)果與結(jié)論”這三個限定詞,時間設(shè)定為2015年至2020年,檢索結(jié)果數(shù)量分別為1 267、3 675、3 132、4 979篇,共13 053篇。

對獲取的科技文獻進行預(yù)處理,從主要論文摘要中解析提取查新需求并觀察提取效果。查新需求提取后以鍵值對的形式存放于json文件中,一個字段表示一個查新需求。一篇摘要分為三個查新需求。以下為《新型冠狀病毒肺炎治療中人免疫球蛋白的合理使用與藥學監(jiān)護》中文摘要查新點的提取結(jié)果。

1) "論文":"新型冠狀病毒肺炎治療中人免疫球蛋白的合理使用與藥學監(jiān)護.pdf"

2) "目的":"探討人免疫球蛋白在新型冠狀病毒肺炎治療中的合理使用與藥學監(jiān)護要點。"(“目的”對應(yīng)查新需求1)

3) "方法":"查閱文獻,整理靜脈用人免疫球蛋白的作用機制、適應(yīng)證、感染性疾病應(yīng)用概況、劑量、藥代動力學特點,以及對實驗室指標的影響和不良反應(yīng)等特點,提出合理用藥建議。"(“方法”對應(yīng)查新需求2)

4) "結(jié)果":"人免疫球蛋白在新型冠狀病毒肺炎的治療中缺乏直接使用證據(jù),不建議常規(guī)應(yīng)用。免疫缺陷或疾病進展迅速的患者可考慮使用,但應(yīng)把握劑量,注意輸注速率。使用過程中應(yīng)動態(tài)監(jiān)測患者血漿球蛋白水平,加強藥學監(jiān)護。"(“結(jié)果”對應(yīng)查新需求3)

對查新需求進行數(shù)據(jù)收集及預(yù)處理,合并重復項、刪除缺失項,提取“標題”和“摘要”字段,形成待分析和處理的語料集,后續(xù)對語料進行分詞、停用詞過濾等操作,形成最終實驗數(shù)據(jù)集。

2.2 領(lǐng)域詞表與同義詞表的構(gòu)建

本節(jié)以藥學領(lǐng)域的科技查新項目為例,對科學技術(shù)要點從寫作內(nèi)容和寫作特征的角度進行分析,挖掘查新點中的關(guān)鍵概念,初步構(gòu)建領(lǐng)域詞表。初步構(gòu)建的領(lǐng)域詞表因數(shù)據(jù)量少,不足以支撐整個科技查新項目,需不斷更新,因而利用雙向長短時記憶網(wǎng)絡(luò)-條件隨機場(bi-directional long short term memory-conditional randomfield, BiLSTM-CRF)對查新文本(包含查新需求和查新點)進行概念及關(guān)系標引,構(gòu)建領(lǐng)域概念及同義詞表。以下為摘自藥學領(lǐng)域委托單中的兩例查新點。

查新點1:“以蛹蟲草、瑪卡、黃精、枸杞為主要原料,輔以菊粉調(diào)制成具有增強體質(zhì)、耐受疲勞的一款飲料。(來源《王府一號腎精液口服液》)”

將查新點1中的關(guān)鍵概念通過初步構(gòu)建的詞表可視化展示如圖2所示,可觀察到,與查新點1相關(guān)的概念中,“枸杞”的直接上位類是“藥食同源材料”,“抗疲勞飲料”的間接上位類是“免疫飲料”。領(lǐng)域詞表中“枸杞”還缺乏其別名,如《神農(nóng)本草經(jīng)》記載的枸杞的別名有“枸棘子”“杞子”“枸杞果”等,故將這些含有同義詞的概念詞提取并保存在概念同義詞表中,并在概念詞字段后添加其同義詞。

查新點2:“利培酮口服溶液的處方為:利培酮200g,酒石酸1.0Kg,氫氧化鈉100g,苯甲酸200g,純化水加至200L。(來源《利培酮口服溶液》)”

查新點2提出了“利培酮口服液”的處方,通過BiLSTM-CRF模型構(gòu)建的領(lǐng)域詞表及同義詞表中與“利培酮口服溶液”相關(guān)的詞可視化展示如圖3所示??煽闯觥氨郊姿帷钡膭e名有“安息香酸”“苯蟻酸”,說明領(lǐng)域詞表與概念同義詞表的構(gòu)建與擴充有助于查新檢索式的生成。如“利培酮”的同義詞有“利哌利酮”“瑞司哌酮”“瑞斯哌東”“利司環(huán)酮”等,依據(jù)領(lǐng)域詞表來構(gòu)建概念同義詞表可使查新檢索式更完整。

BiLSTM-CRF模型構(gòu)建領(lǐng)域詞表及同義詞表的流程如下:將查新點與查新需求作為訓練語料,統(tǒng)稱為查新文本。首先對查新文本按領(lǐng)域分類,將不同領(lǐng)域的概念按屬性分類。然后采用概念詞典、規(guī)則提取并輔以人工標注的方法對文本中的概念進行初步標引。最后,當詞匯積累到一定程度,得出以下科技查新概念詞的分類體系。如果某一概念屬于多個分類,則選擇頻次最高的分類??煞譃槲鍌€類別。1) 成分:“菊粉”“蛹蟲草”等;2) 功能:“抗疲勞”“增強體質(zhì)”“滋陰補陽”“緩解衰老”等;3) 適應(yīng)證:“焦慮”“抑郁”“負罪感”“懷疑”“幻覺”“妄想”等;4) 劑型:“中藥合劑”“口服液”“注射劑”“凝膠劑”“微球”“膜狀制劑”等;5) 技術(shù):“核磁共振”“腦腫瘤切除”“萃取”“提純”等。

根據(jù)相應(yīng)特點制定分類規(guī)則,最后輔以人工標注的方式共標注2 000條查新點。本研究構(gòu)建并擴充了圖書館、情報與文獻學領(lǐng)域、數(shù)學領(lǐng)域、軍事學領(lǐng)域、管理學領(lǐng)域等共26個領(lǐng)域的概念詞表及16個概念同義詞詞表。其中藥學領(lǐng)域詞表中存儲5 453個詞,詞表主要包含從屬關(guān)系,藥學領(lǐng)域同義詞表中包含25個概念詞,概念同義詞以并列關(guān)系存儲。

2.3 檢索式生成

查新檢索式自動生成的具體流程如圖4所示。生成式對抗網(wǎng)絡(luò)的訓練是生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)之間博弈的過程。為了以最快的方式達到納什均衡,訓練開始前,用最大似然估計方法將真實查新檢索式數(shù)據(jù)集置于文本生成網(wǎng)絡(luò)中進行預(yù)訓練。然后,使用生成網(wǎng)絡(luò)生成的數(shù)據(jù)和真實數(shù)據(jù)作為判別器的輸入,以最大交叉熵為目標函數(shù)預(yù)訓練判別網(wǎng)絡(luò)。最后生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)交替訓練,生成網(wǎng)絡(luò)通過一定步驟的更新訓練得到進步,判別網(wǎng)絡(luò)通過定期訓練得到進步。

圖4中,在訓練查新檢索式生成網(wǎng)絡(luò)時,對抗學習的方法可以解決訓練樣本不足的問題。實驗分別以數(shù)據(jù)集個數(shù)為50、100、150、300依次進行。結(jié)果發(fā)現(xiàn)語料數(shù)量為100條時,便可以生成與真實數(shù)據(jù)相同的查新檢索式。輸入數(shù)據(jù)為100個查新點時,生成器訓練600次,判別器訓練300次,生成器與判別器達到納什均衡,效果最優(yōu),可以輸出與標準集相同的查新檢索式,而將訓練次數(shù)提高時,模型生成的查新檢索式與專家撰寫的查新檢索式相同的個數(shù)不再增加。通過納什均衡狀態(tài)下的生成模型檢驗查新檢索式的生成效果,輸入查新需求如下。

“目的探討不同范圍肝切除術(shù)治療肝內(nèi)膽管結(jié)石的臨床療效。

方法對86例肝內(nèi)膽管結(jié)石患者采用手術(shù)治療,比較不同范圍肝切除治療的臨床效果。

結(jié)果左外葉切除術(shù)后結(jié)石殘余率明顯高于左半肝切除……

結(jié)論肝切除是治療肝內(nèi)膽管結(jié)石最有效的方法,對于非局限在左外葉的肝內(nèi)結(jié)石,左、右半肝切除和肝段切除術(shù)優(yōu)于左外葉切除術(shù)。肝切除范圍與術(shù)后結(jié)石殘留和手術(shù)治療效果密切相關(guān)。”

基于BSGAN模型生成的查新檢索式為“肝切除and肝內(nèi)膽管結(jié)石and肝內(nèi)膽管結(jié)石and(左外葉切除or左半肝切除or肝段切除術(shù))and殘余率and(肝切除范圍or術(shù)后結(jié)石殘留or肝段切除術(shù))”,由抽檢的檢索式觀察到,BSGAN模型生成的查新檢索式符合萬方數(shù)據(jù)庫檢索式的撰寫要求。除此方法外,利用Textrank方法提取查新點中的關(guān)鍵詞,通過組配邏輯算符來構(gòu)成查新檢索式,這也是查新平臺推薦檢索式的方法之一。

本文將BSGAN模型與Textrank構(gòu)建的檢索式在萬方中文數(shù)據(jù)庫中的檢索結(jié)果作對比,表1展示了兩個查新點的檢索式生成,并與Textrank和專家手工撰寫的檢索式對比。以查新點1為例,BSGAN模型生成的檢索式經(jīng)檢索得到1 771條結(jié)果,綜合來看檢索結(jié)果查準率高,查全率的評判需進一步與專家篩選的目標文獻進行計算。而Textrank生成的檢索式經(jīng)檢索得到了11 774 534條結(jié)果,該方法是關(guān)鍵詞的單純組合,并沒有對關(guān)鍵詞的上位類或下位類進行邏輯組配導致結(jié)果冗余,查準率低導致查全率低。

3 實驗結(jié)果評價

由于檢索式的特殊性,無法直接對檢索式進行評價,所以選擇《面向自動處理的科技查新案例解析與實現(xiàn)》[10]中的查新點與專家撰寫的查新檢索式來檢驗?zāi)P托Ч?。利用專家撰寫的檢索式與模型生成的檢索式在萬方數(shù)據(jù)庫中進行檢索,檢索結(jié)果都按照相關(guān)性排序。查新報告中專家撰寫的檢索式得到的檢索結(jié)果作標準集,采用查全率與查準率作為評價標準來評估方法的有效性。對查準率和查全率這兩個評價指標進行定義,具體計算方法為

查準率=檢索出的正確的論文數(shù)量檢索出的論文總數(shù)量,(3)

查全率=檢索出的正確論文數(shù)量查新報告中的檢索結(jié)果數(shù)量。(4)

當查準率小于50%時,需使用檢索詞匹配領(lǐng)域詞表中該詞的上位類或下位類進行再次檢索,若依舊小于50%,則輸出模型生成的檢索式。經(jīng)過多次實驗發(fā)現(xiàn),利用BSGAN方法自動生成檢索式的速度快在ms級別,最長時間即再次檢索時間為0.89 s。測試集中平均查全率為75%,平均查準率為82%。其查全率與查準率部分結(jié)果如表2所示。

以表2中的查新項目2為例,考察其在科技查新報告(編號為20161100100049)中的查全率,選取專家標注的四篇國內(nèi)文獻作為目標文獻。將Textrank與BSGAN模型的檢索結(jié)果按相關(guān)度排序,分別取前50篇相關(guān)文獻。BSGAN完全命中專家選取的目標文獻,而Textrank模型生成的檢索式涵蓋范圍廣,查準率低,檢索到目標文獻的概率更低。綜上,本文提出的BSGAN模型檢索結(jié)果更接近查新報告中的目標文獻,與專家檢索結(jié)果差異小。但BSGAN模型生成的部分查新檢索式也存在如括號缺失或冗余、部分專業(yè)詞匯如“苯并異噁唑”未被準確識別而導致關(guān)鍵詞不夠全面和邏輯關(guān)系缺失等問題。為確保檢索式能正常使用,實驗采取部分措施加以彌補,包括:1) 將檢索式中丟失或冗余的括號利用正則補充完整;2) 通過領(lǐng)域詞表及概念同義詞表解決專業(yè)詞匯未能準確識別的問題,進而解決關(guān)鍵詞不全面的問題;3) 檢索式中缺失的邏輯關(guān)系,檢索詞若為從屬關(guān)系則添加“and”關(guān)系,若為概念同義詞關(guān)系則添加“or”關(guān)系。

4 結(jié)論

為了解決傳統(tǒng)構(gòu)建查新檢索式方法效率低下的問題,本文針對科技查新類文本的特點,提出了基于對抗學習的查新檢索式自動生成模型BSGAN。研究并實現(xiàn)了查新檢索式自動生成關(guān)鍵技術(shù)。首先從論文中提取摘要并將其解析為查新點,然后基于領(lǐng)域?qū)<业南闰炛R通過BiLSTM-CRF構(gòu)建了領(lǐng)域詞表及概念同義詞詞表,最終實現(xiàn)查新點中的概念和概念關(guān)系自動匹配,并通過領(lǐng)域詞表和概念同義詞表解決了查新檢索式生成過程中關(guān)鍵詞不全面的問題,通過BERT模型的多頭注意力機制,解決了檢索式中一詞多義問題,通過使用對抗學習模型解決了查新檢索式的自動生成問題。

參考文獻:

[1] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al.Generative adversarial nets[C]∥Proceedings of International Conference on Neural Information Processing Systems. Cambridge: MIT Press,2014:2672-2680.

[2] 張敏情, 李宗翰, 劉佳, 等. 基于邊界平衡生成對抗網(wǎng)絡(luò)的生成式隱寫[J]. 鄭州大學學報(理學版), 2020, 52(3): 34-41.

ZHANG M Q, LI Z H, LIU J, et al. Generative steganography based on boundary equilibrium generative adversarial network[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(3): 34-41.

[3] 張得祥, 王海榮, 鐘維幸, 等. 融合軟獎勵和退出機制的WGAN知識圖譜補全方法[J]. 鄭州大學學報(理學版), 2022, 54(2): 67-73.

ZHANG D X, WANG H R, ZHONG W X, et al. WGAN knowledge map completion method integrating soft reward and exit mechanism[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(2): 67-73.

[4] 胡彬. 半監(jiān)督對抗魯棒模型無關(guān)元學習方法的研究與實現(xiàn)[D]. 南京: 南京郵電大學, 2022.

HU B. Research and implementation of semi-supervised adversarially robust model-agnostic meta-learning[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2022.

[5] 時霽, 邵如潔. 科技查新檢索策略制定分析[J]. 電子技術(shù)與軟件工程, 2023(2): 198-201.

SHI J, SHAO R J. Analysis on the formulation of retrieval strategy for sci-tech novelty retrieval[J]. Electronic technology & software engineering, 2023(2): 198-201.

[6] 孫可佳, 李啟南. 基于改進生成對抗網(wǎng)絡(luò)的詩歌生成[J]. 蘭州交通大學學報, 2020, 39(2): 64-70.

SUN K J, LI Q N. Poetry generation based on improved generative adversarial nets[J]. Journal of Lanzhou Jiaotong university, 2020, 39(2): 64-70.

[7] 龐栓栓. 基于LeakGAN的誘餌文檔生成研究與實現(xiàn)[D]. 北京: 北京交通大學, 2019.

PANG S S. Research and implementation of bait document generation based on LeakGAN[D]. Beijing: Beijing Jiaotong University, 2019.

[8] 沈杰, 瞿遂春, 任福繼, 等. 基于SGAN的中文問答生成研究[J]. 計算機應(yīng)用與軟件, 2019, 36(2): 194-199.

SHEN J, QU S C, REN F J, et al. Chinese question answer generation based on sgan[J]. Computer applications and software, 2019, 36(2): 194-199.

[9] YU L T, ZHANG W N, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park:AAAI Press,2017:2852-2858.

[10]劉耀, 曹燕. 面向自動處理的科技查新案例解析與實現(xiàn)[M]. 北京: 科學技術(shù)文獻出版社, 2019.

LIU Y, CAO Y. Analysis and implementation of sci-tech novelty retrieval case oriented to automatic processing[M]. Beijing: Scientific and Technical Documentation Press, 2019.

渝中区| 安阳市| 浪卡子县| 托克托县| 洛南县| 焦作市| 台安县| 巴南区| 北京市| 桐城市| 丰宁| 阿鲁科尔沁旗| 化隆| 吉安市| 武平县| 汝州市| 潮州市| 璧山县| 宜昌市| 舞阳县| 泰顺县| 太谷县| 峨边| 商城县| 侯马市| 巴青县| 河源市| 平顺县| 开封县| 探索| 平阴县| 清水县| 磐安县| 吐鲁番市| 柘荣县| 潮州市| 石渠县| 德格县| 礼泉县| 马山县| 祁阳县|