基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法

2018-01-07 09:41何濤王桂芳楊美妮郭楷模

現(xiàn)代情報(bào) 2018年11期

何濤王桂芳楊美妮郭楷模

〔摘要〕[目的/意義]使用科技文獻(xiàn)數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索時(shí)，檢索式中的關(guān)鍵詞如果不夠全面，將導(dǎo)致檢索結(jié)果查全率較低；檢索式中的關(guān)鍵詞如果一詞多義，則可能向檢索結(jié)果中引入無關(guān)文獻(xiàn)，導(dǎo)致查準(zhǔn)率較低。[方法/過程]針對(duì)這兩類問題，本文提出使用詞嵌入這一新穎的文本數(shù)據(jù)化表現(xiàn)形式，一方面通過語義分析對(duì)檢索關(guān)鍵詞進(jìn)行擴(kuò)充從而提高查全率；另一方面通過發(fā)現(xiàn)語義異常點(diǎn)來提高查準(zhǔn)率。[結(jié)果/結(jié)論]本文將該方法應(yīng)用于人工智能領(lǐng)域中深度學(xué)習(xí)方向上的文獻(xiàn)檢索式構(gòu)建，實(shí)驗(yàn)結(jié)果表明該方法能在一定程度上提高檢索的查全率和查準(zhǔn)率。

〔關(guān)鍵詞〕深度學(xué)習(xí)；詞嵌入；查準(zhǔn)率；查全率；檢查式構(gòu)建

DOI：10.3969/j.issn.1008-0821.2018.11.010

〔中圖分類號(hào)〕G2527〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821（2018）11-0055-04

Construction of Precise Search Queries Based on Word EmbeddingHe Tao1Wang Guifang1Yang Meini2Guo Kaimo1

（1.Wuhan Documentation and Information Center，Chinese Academy of Sciences，Wuhan 430071，China；

2.Department of Mathematics，Naval University of Engineering，Wuhan 430033，China）

〔Abstract〕[Purpose/Significance]During the literature search by using the academic databases，the search query of incomplete keywords would result in a low recall ratio；besides，the search query of polysemous keywords could introduce irrelevant literature and lead to a low precision ratio still.[Method/Process]To solve these two problems，this paper presented a novel manifestation for datafication of texture，namely word embedding：on one hand，to supplement the keywords by semantic analysis so as to improve the recall ratio；on the other hand，to enhance the precision ratio by detecting the semantic outliers.[Result/Conclusion]In this paper，the method was applied to the construction of literature search queries for deep learning in the field of artificial intelligence（AI），and the experimental results suggested that this method could improve the recall ratio and precision ratio to a certain extent.

〔Key words〕deep learning；word embedding；precision ratio；recall ratio；construction of search queries

隨著科學(xué)技術(shù)的快速發(fā)展，科技文獻(xiàn)的數(shù)量呈現(xiàn)出爆炸性增長(zhǎng)的趨勢(shì)，從海量科技文獻(xiàn)中精準(zhǔn)地獲取所需知識(shí)正變得越來越困難。常用的文獻(xiàn)檢索方法是由領(lǐng)域?qū)＜沂止?gòu)建檢索式，然后使用檢索式在科技文獻(xiàn)數(shù)據(jù)庫中進(jìn)行匹配以獲得檢索結(jié)果。這種情況下檢索式的精準(zhǔn)程度直接決定著檢索結(jié)果質(zhì)量的好壞。

領(lǐng)域?qū)＜以跇?gòu)建檢索式的過程中容易出現(xiàn)兩個(gè)方面的問題。一個(gè)是領(lǐng)域?qū)＜以跈z索式中所使用的關(guān)鍵詞可能不夠全面，遺漏部分關(guān)鍵詞，導(dǎo)致檢索結(jié)果查全率較低；另一個(gè)是檢索式所使用的關(guān)鍵詞由于一詞多義的原因，導(dǎo)致該詞不僅在檢索的目標(biāo)文獻(xiàn)中使用，也可能在其他非檢索目標(biāo)文獻(xiàn)中使用，采用這樣的關(guān)鍵詞進(jìn)行檢索就可能向檢索結(jié)果中引入無關(guān)文獻(xiàn)，導(dǎo)致查準(zhǔn)率較低。所以構(gòu)建精準(zhǔn)檢索式需要有效解決這兩類問題。

之前的工作使用上下位主題詞、同義詞、近義詞、選擇規(guī)范專業(yè)用語等方法[1-3]，或者使用邏輯運(yùn)算符、位置運(yùn)算符和通配符來提升檢索結(jié)果的查準(zhǔn)率和查全率[4-5]。這些方法大多依賴于已經(jīng)構(gòu)建好的詞表或者領(lǐng)域?qū)＜业慕?jīng)驗(yàn)，缺少對(duì)科技文獻(xiàn)數(shù)據(jù)庫全部文獻(xiàn)內(nèi)容的全局把握，而這正是導(dǎo)致以上兩類檢索問題的重要原因。

在大規(guī)模科技文獻(xiàn)摘要的基礎(chǔ)上所生成的詞嵌入（Word Embedding）蘊(yùn)含著科技文獻(xiàn)數(shù)據(jù)庫中文獻(xiàn)內(nèi)容的全局語義信息，因此可以利用詞嵌入在一定程度上解決上述兩類檢索問題。詞嵌入（Word Embedding）是隨著人工智能領(lǐng)域中深度學(xué)習(xí)技術(shù)（Deep Learning）的迅猛發(fā)展而產(chǎn)生的一種新穎的文本片段數(shù)據(jù)化的表示方式[6]。本文首先采用深度學(xué)習(xí)技術(shù)，生成蘊(yùn)含全局科技語義信息的詞嵌入。然后在此基礎(chǔ)上計(jì)算出和檢索式中關(guān)鍵詞的科技語義信息最為接近的詞，并將這些詞提供給領(lǐng)域?qū)＜易鳛閷?duì)原始關(guān)鍵詞的補(bǔ)充，以解決查不全的問題。接著在詞嵌入的基礎(chǔ)上，對(duì)原始檢索結(jié)果的作者關(guān)鍵詞進(jìn)行科技語義信息投影，在投影空間中采用異常點(diǎn)識(shí)別算法，以識(shí)別出與檢索結(jié)果的主體語義差異較大的關(guān)鍵詞，將這些關(guān)鍵詞所對(duì)應(yīng)的文獻(xiàn)提供給領(lǐng)域?qū)＜曳治?，以解決查不準(zhǔn)的問題。該方法應(yīng)用于人工智能領(lǐng)域中深度學(xué)習(xí)方向上的檢索式構(gòu)建，實(shí)驗(yàn)結(jié)果證實(shí)該方法能夠在一定程度上有效解決以上兩類問題，輔助領(lǐng)域?qū)＜覙?gòu)建出較為精準(zhǔn)的科技文獻(xiàn)檢索式。

2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.，2018Vol38No112018年11月第38卷第11期基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法Nov.，2018Vol38No111詞嵌入

詞嵌入是隨著深度學(xué)習(xí)技術(shù)的興起而產(chǎn)生的一種新穎的文本片段數(shù)據(jù)化的表示形式，這種數(shù)據(jù)表示形式蘊(yùn)含著豐富的語義信息。本文在大規(guī)?？萍嘉墨I(xiàn)摘要的基礎(chǔ)上，生成了自然科學(xué)常見詞匯的詞嵌入表現(xiàn)形式。

11詞嵌入的語義

把詞、短語或者句子抽象表示為一定的數(shù)據(jù)形式是對(duì)文本進(jìn)行語義計(jì)算的基礎(chǔ)。隨著深度學(xué)習(xí)技術(shù)的全面興起，產(chǎn)生了詞嵌入這種新穎的文本數(shù)據(jù)化表示形式，通過該方式能夠把詞、短語或者句子抽象表示為連續(xù)、稠密、低維度的實(shí)數(shù)向量。比如Book這個(gè)詞可以被表示為{0035，0076，…，0081}這樣一個(gè)400維的實(shí)數(shù)向量。

圖1相機(jī)品牌和汽車品牌詞嵌入在語義空間中的分布情況

詞嵌入蘊(yùn)含著豐富的語義信息[7]。其生成的依據(jù)是該詞在大規(guī)模文本中的上下文語境，在語言學(xué)中認(rèn)為語義相近詞的上下文語境也相似[8]，因此語義相近的詞嵌入的空間距離也比較接近。比如，依據(jù)上下文語境生成5個(gè)常見的數(shù)碼相機(jī)品牌和5個(gè)常見的汽車品牌的詞嵌入，然后使用主成分分析（Principal Components Analysis，PCA）[9]把這些詞嵌入降至兩維，將結(jié)果展現(xiàn)在二維坐標(biāo)中，如圖1所示。從圖1中可以看到，汽車類品牌BMW，Lotus，Audi等的詞嵌入聚集在一起，數(shù)碼相機(jī)品牌Nikon，Leica，Pentax等的詞嵌入聚集在一起，這樣的語義空間分布特點(diǎn)使得詞嵌入能夠用于解決之前所提到的查不準(zhǔn)和查不全這兩類問題。

12詞嵌入生成

詞嵌入的生成需要一定規(guī)模的語料文本作為基礎(chǔ)，本文在大規(guī)模SCI論文摘要的基礎(chǔ)上生成所需要的詞嵌入。通常來說，用于生成詞嵌入的語料文本與詞嵌入所希望體現(xiàn)的語義信息相關(guān)程度越高越好。本文計(jì)劃利用詞嵌入進(jìn)行自然科學(xué)文獻(xiàn)的精準(zhǔn)檢索式構(gòu)建，因此希望詞嵌入能夠體現(xiàn)出自然科學(xué)的語義信息。所以本文選用Web of Science中的SCI論文摘要作為詞嵌入的生成語料基礎(chǔ)。通過Web of Science所提供的網(wǎng)頁官方下載途徑，收集整理了中國(guó)與美國(guó)的SCI論文摘要合計(jì)約450萬份，這些摘要大致涵蓋了自然學(xué)科的主要研究領(lǐng)域，這為詞嵌入能夠蘊(yùn)含較為全局的自然科學(xué)語義信息提供了保障。

使用詞嵌入進(jìn)行精準(zhǔn)檢索式構(gòu)建時(shí)，會(huì)使用到專業(yè)詞匯的詞嵌入表示。專業(yè)詞匯依據(jù)其組成可以分為兩類，一類是由一個(gè)單詞構(gòu)成，另外一類是由多個(gè)單詞構(gòu)成。由一個(gè)單詞構(gòu)成的專業(yè)詞匯使用詞嵌入生成方法能夠直接構(gòu)建出其詞嵌入，由多個(gè)單詞構(gòu)成的專業(yè)詞匯則需要在原始語料中將這些單詞進(jìn)行拼接，然后才能生成該專業(yè)詞匯的詞嵌入。為了實(shí)現(xiàn)這一過程，將這些SCI論文的作者關(guān)鍵詞進(jìn)行了頻次統(tǒng)計(jì)，從中篩選出出現(xiàn)頻次大于1次的作者關(guān)鍵詞合計(jì)約116萬個(gè)，將其中由多個(gè)單詞構(gòu)成的專業(yè)詞匯在原始語料中進(jìn)行了拼接，從而使得能夠生成這種類型專業(yè)詞匯的詞嵌入表示。

本文使用Word2Vec工具生成自然科學(xué)詞匯的詞嵌入表示形式。Word2Vec工具在詞嵌入生成過程中有許多參數(shù)需要設(shè)置，這些設(shè)置直接影響著所生成詞嵌入的質(zhì)量好壞。在這些參數(shù)中，選用哪種模型、上下文窗口長(zhǎng)度、詞嵌入維度是其中最為重要的3個(gè)參數(shù)。為了確定這些參數(shù)設(shè)置，Word2Vec提供了類比語義關(guān)系測(cè)試數(shù)據(jù)集、語法關(guān)系測(cè)試數(shù)據(jù)集，使用這些測(cè)試數(shù)據(jù)集能夠?qū)λ稍~嵌入的質(zhì)量進(jìn)行評(píng)估。本文首先使用不同的參數(shù)設(shè)置生成多個(gè)詞嵌入，然后使用測(cè)試數(shù)據(jù)集對(duì)這些詞嵌入的質(zhì)量進(jìn)行了對(duì)比，從中選擇出質(zhì)量最好的詞嵌入用于精準(zhǔn)檢索式的構(gòu)建。該詞嵌入所使用的模型參數(shù)為連續(xù)詞包模型（CBOW），上下文窗口長(zhǎng)度設(shè)置為10，詞嵌入維度設(shè)定為400。通過這樣的方式，在大規(guī)模SCI論文摘要的基礎(chǔ)上生成了合計(jì)約170萬自然科學(xué)詞匯的詞嵌入表現(xiàn)形式。由于自然科學(xué)領(lǐng)域非常宏大，其中的詞匯多種多樣，所以詞匯量也非常巨大。

2檢索式構(gòu)建

在詞嵌入的基礎(chǔ)上，一方面通過對(duì)領(lǐng)域?qū)＜业臋z索關(guān)鍵詞進(jìn)行科學(xué)語義擴(kuò)充來提高查全率；另一方面通過對(duì)檢索結(jié)果的作者關(guān)鍵詞進(jìn)行語義異常點(diǎn)的識(shí)別，從而提高查準(zhǔn)率，下面詳細(xì)闡述。

21使用詞嵌入提高查全率

領(lǐng)域?qū)＜覙?gòu)建的檢索式中關(guān)鍵詞可能不夠全面，直接導(dǎo)致檢索結(jié)果的查全率不高。比如說檢索人工智能領(lǐng)域中深度學(xué)習(xí)技術(shù)相關(guān)的文獻(xiàn)，如只使用關(guān)鍵詞“Deep Learning”是不夠的，還需要使用“Deep Neural Net”、“Deep Network”、“Convolution Neural Net”等相關(guān)詞匯。

本文使用詞嵌入對(duì)檢索式中的關(guān)鍵詞進(jìn)行科技語義擴(kuò)充，將擴(kuò)充的新關(guān)鍵詞提交給領(lǐng)域?qū)＜遥蛊淠軌蛞源藶橐罁?jù)對(duì)原始檢索式的關(guān)鍵詞進(jìn)行補(bǔ)充，為查全率提供一定的保障。具體操作如圖2所示，將原始檢索關(guān)鍵詞使用詞嵌入投影到科學(xué)語義空間中，計(jì)算出與原始檢索關(guān)鍵詞（用圓圈表示）的詞嵌入余弦距離（Cosine Distance）最接近的N個(gè)詞（用三角表示），把這些詞提供給領(lǐng)域?qū)＜?，領(lǐng)域?qū)＜揖湍軌蛟诖嘶A(chǔ)上對(duì)原始檢索式的關(guān)鍵詞進(jìn)行補(bǔ)充，從而提高查全率。

此方法的依據(jù)是詞嵌入所體現(xiàn)的是該詞的上下文語境信息，那么與原始檢索關(guān)鍵詞的詞嵌入距離比較接近的詞匯，它們的上下文語境與原始檢索關(guān)鍵詞的上下文語境也會(huì)比較相似，所以這些詞通常是目標(biāo)檢索文獻(xiàn)的常用詞匯，可以用來對(duì)原始檢索式的關(guān)鍵詞進(jìn)行擴(kuò)充。

22使用詞嵌入提高查準(zhǔn)率

盡管領(lǐng)域?qū)＜宜褂玫臋z索關(guān)鍵詞是與檢索的目標(biāo)文獻(xiàn)密切相關(guān)的，但是其中某些關(guān)鍵詞也可能出現(xiàn)在其他非檢索目標(biāo)的文獻(xiàn)之中，使用這樣的關(guān)鍵詞進(jìn)行檢索，就可能向檢索結(jié)果引入一定程度的噪音文獻(xiàn)，導(dǎo)致查準(zhǔn)率不高。比如人工智能中的深度學(xué)習(xí)“Deep Learning”這個(gè)詞，不僅出現(xiàn)在人工智能領(lǐng)域[10-11]，同時(shí)也出現(xiàn)在傳統(tǒng)的教育教學(xué)研究方向上[12-13]，使用這樣的多義詞進(jìn)行檢索，檢索結(jié)果會(huì)同時(shí)包含人工智能和教育教學(xué)的相關(guān)文獻(xiàn)，直接導(dǎo)致查準(zhǔn)率不高。之所以出現(xiàn)這樣的情況，是由于領(lǐng)域?qū)＜抑粚?duì)文獻(xiàn)數(shù)據(jù)庫中其自身的研究方向比較熟悉，但是對(duì)文獻(xiàn)數(shù)據(jù)庫的全局信息缺乏整體把握所導(dǎo)致的。本文所構(gòu)建的詞嵌入建立在大規(guī)?？萍嘉墨I(xiàn)摘要的基礎(chǔ)之上，可以近似的認(rèn)為包含科技文獻(xiàn)數(shù)據(jù)庫的全局科技語義信息，所以本文使用詞嵌入來解決這一問題。

具體過程如圖3所示，首先把原始檢索式檢索結(jié)果的作者關(guān)鍵詞通過詞嵌入投影到科學(xué)語義空間（檢索目標(biāo)文獻(xiàn)關(guān)鍵詞使用圓點(diǎn)表示，異常點(diǎn)關(guān)鍵詞使用方塊表示）。然后通過異常點(diǎn)檢測(cè)算法Isolation Forest[14]，從科學(xué)語義空間中識(shí)別出與檢索結(jié)果主體語義偏離程度比較大的異常點(diǎn)關(guān)鍵詞。最后把含有異常點(diǎn)關(guān)鍵詞的文獻(xiàn)返回給領(lǐng)域?qū)＜疫M(jìn)行解讀，對(duì)其中的非檢索目標(biāo)文獻(xiàn)進(jìn)行移除。

通常來說含有異常點(diǎn)關(guān)鍵詞的文獻(xiàn)，大多是由一詞多義的檢索關(guān)鍵詞所引入的無關(guān)文獻(xiàn)。在科學(xué)語義空間中，檢索目標(biāo)文獻(xiàn)的關(guān)鍵詞由于上下文語境比較相似，所以這些關(guān)鍵詞的詞嵌入在科學(xué)語義空間中會(huì)聚集在一起，形成聚類，比如圖3中的聚類1和聚類2；對(duì)于檢索式中一詞多義的關(guān)鍵詞，其所產(chǎn)生的檢索結(jié)果的作者關(guān)鍵詞會(huì)含有其他研究方向的詞匯，而這些詞匯的上下文語境與檢索目標(biāo)的上下文語境差異較大，從而造成其詞嵌入與檢索目標(biāo)主體語義的詞嵌入偏離程度比較大，形成空間分布異常點(diǎn)。這是本文方法能夠一定程度上解決這類查不準(zhǔn)問題的原因。

3深度學(xué)習(xí)檢索式構(gòu)建

深度學(xué)習(xí)技術(shù)被認(rèn)為是人工智能研究50年來的重大突破[15]。AlphaGo戰(zhàn)勝圍棋名將李世石更是將該項(xiàng)技術(shù)的關(guān)注程度推向了高潮。下面將通過本文方法建立面向深度學(xué)習(xí)研究方向較為精準(zhǔn)的檢索式，用于該研究方向從2009年首次在語音識(shí)別（Speech Recognition）取得突破至今的相關(guān)科學(xué)文獻(xiàn)分析[16]。

深度學(xué)習(xí)技術(shù)的英文表述是“Deep Learning”，首先使用詞嵌入對(duì)該詞進(jìn)行多輪關(guān)鍵詞擴(kuò)充，以提升查全率。具體來說，首先通過詞嵌入計(jì)算與“Deep Learning”科技語義相似度最高的詞，從中選出適合的詞作為檢索式的補(bǔ)充關(guān)鍵詞，然后對(duì)補(bǔ)充關(guān)鍵詞再次依據(jù)詞嵌入進(jìn)行關(guān)鍵詞擴(kuò)充，這樣的步驟迭代多次，直至沒有新的相關(guān)詞匯出現(xiàn)為止，通過迭代向檢索式添加的內(nèi)容如表1所示（星號(hào)代表通配符）。使用“Deep Learning”在SCI中共能檢索到2009年至今Article和Proceedings Paper類型的文獻(xiàn)3 464篇，使用擴(kuò)充后的檢索式能夠檢索到相關(guān)文獻(xiàn)6 521篇（2018年6月19日）。

接下來對(duì)擴(kuò)充后檢索式的檢索結(jié)果進(jìn)行異常語義發(fā)現(xiàn)，以提高查準(zhǔn)率。部分異常語義內(nèi)容如表2所示，不難看出語義異常的文獻(xiàn)主要是教育教學(xué)類相關(guān)文獻(xiàn)，與人工智能沒有任何關(guān)系。通過分析發(fā)現(xiàn)，這是因?yàn)樯疃葘W(xué)習(xí)“Deep Learning”這個(gè)詞在教育教學(xué)領(lǐng)域也是一個(gè)重要的概念[12-13]，這表1使用詞嵌入對(duì)“Deep Learning”一詞多次迭代擴(kuò)充

迭代次數(shù)檢索式添加內(nèi)容1“Deep Neural Net*”；“Deep Network*”；“Convolution* Neural Net*”；“Convolution* Net*”；“Deep Belief Net*”；“Word Embedding*”；“Deep Architecture*”2“Deep Recurrent Neural Net*”；“Recursive Neural Net*”；“Deep Boltzmann Machine*”些文章由于“Deep Learning”一詞多義而被檢索結(jié)果所包含。將這些無關(guān)文獻(xiàn)移除后，人工智能領(lǐng)域的深度學(xué)習(xí)相關(guān)文獻(xiàn)是6 416篇。

綜上所述，作為實(shí)驗(yàn)對(duì)比如果只使用“Deep Learning”作為關(guān)鍵詞的搜索結(jié)果，移除由于該詞一詞多義所引入的無關(guān)文獻(xiàn)后，文獻(xiàn)總數(shù)是3 359篇，而本文方法能夠獲得的檢索結(jié)果是6 416篇，檢索結(jié)果總量增加了91%；與此同時(shí)領(lǐng)域?qū)＜译S機(jī)抽樣對(duì)6 416篇文獻(xiàn)的1/3進(jìn)行了解讀，抽樣

查準(zhǔn)率為98%。由此可見，在該檢索過程中本文方法在保障較高查準(zhǔn)率的同時(shí)，提高了查全率。

4結(jié)論及下一步研究

本文構(gòu)建了常見自然科學(xué)詞匯的詞嵌入表現(xiàn)形式，該形式蘊(yùn)含著豐富的科技語義信息。以此為基礎(chǔ)，在進(jìn)行自然科技文獻(xiàn)檢索時(shí)，一方面對(duì)檢索關(guān)鍵詞進(jìn)行科技語義擴(kuò)充，通過向檢索式補(bǔ)充關(guān)鍵詞的方法提高檢索結(jié)果的查全率；另一方面對(duì)檢索結(jié)果的作者關(guān)鍵詞進(jìn)行異常語義發(fā)現(xiàn)，從中識(shí)別出與檢索結(jié)果主體語義差異程度較大的關(guān)鍵詞，這些關(guān)鍵詞所在的文獻(xiàn)很可能是由于檢索關(guān)鍵詞的一詞多義而引入的無關(guān)文獻(xiàn)，通過從檢索結(jié)果中移除這些無關(guān)文獻(xiàn)以提升檢索結(jié)果的查準(zhǔn)率。最后使用此方法在人工智能領(lǐng)域的深度學(xué)習(xí)方向上進(jìn)行了應(yīng)用實(shí)踐，取得了一定的效果。

構(gòu)建精準(zhǔn)的檢索式，提高檢索結(jié)果的查全率和查準(zhǔn)率是一個(gè)復(fù)雜的問題，盡管本文方法能產(chǎn)生一定的作用但仍然存在一些問題。目前使用詞嵌入計(jì)算詞之間的科技語義相關(guān)程度效果較好，但計(jì)算詞組合間的科技語義相關(guān)程度效果不夠理想。有些檢索式的語義信息是通過多個(gè)檢索關(guān)鍵詞之間的組合來體現(xiàn)的，這類語義信息是詞嵌入目前所難以表現(xiàn)的，也是本文方法未來的改進(jìn)方向。

參考文獻(xiàn)

[1]李育嫦.文獻(xiàn)檢索中提高查全率與查準(zhǔn)率的方法探討[J].圖書館學(xué)研究，2002，（11）：92-93.

[2]周嬰.談?wù)勌岣卟樾聶z索查全率和查準(zhǔn)率的方法[J].圖書情報(bào)工作，1997，（5）：38-39.

[3]朱康玲.同義詞的獲取對(duì)醫(yī)學(xué)科技查新查全率和查準(zhǔn)率的影響[J].中華醫(yī)學(xué)圖書情報(bào)雜志，2012，21（3）：78-80.

[4]孫君，陳陶.提高文獻(xiàn)查全率和查準(zhǔn)率的有效途徑-邏輯運(yùn)算符，位置算符和通配符的靈活運(yùn)用[J].現(xiàn)代情報(bào)，2006，26（10）：167-169.

[5]李璐，江葆紅，孫紅紅.如何提高文獻(xiàn)信息檢索中的查全率與查準(zhǔn)率[J].科技文獻(xiàn)信息管理，2010，24（1）：23-25.

[6]Mikolov T，Sutskever I，Chen K，et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems.Curran Associates，2013：3111-3119.

[7]Mikolov T，Yih W-t，Zweig G.Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of the HLT-NAACL.ACL，2013：746-751.

[8]劉群，李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].中文計(jì)算語言學(xué)，2002，7（2）：59-76.

[9]Everitt B S，Dunn G.Applied Multivariate Data Analysis，Second Edition[M].Oxford University Press，2013：48-73.

[10]LeCun Y，Bengio Y，Hinton G.Deep Learning[J].Nature，2015，521（7553）：436-444.

[11]Schmidhuber J.Deep Learning in Neural Networks：An Overview[J].Neural Networks，2015，61：85-117.

[12]Warburton K.Deep Learning and Education for Sustainability[J].International Journal of Sustainability in Higher Education，2003，4（1）：44-56.

[13]Vos N，Van Der Meijden H，Denessen E.Effects of Constructing Versus Playing an Educational Game on Student Motivation and Deep Learning Strategy Use[J].Computers & Education，2011，56（1）：127-137.

[14]Liu F T，Ting K M，Zhou Z-H.Isolation Forest[C]//Proceedings of the Eighth IEEE International Conference on Data Mining.IEEE，2008：413-422.

[15]松尾豐.人工智能狂潮[M].北京：機(jī)械工業(yè)出版社，2016：110-111.

[16]Deng L，Yu D，Hinton G.Deep Learning for Speech Recognition and Related Applications[C]//Proceedings of the NIPS Workshop.Neural Information Processing Systems Foundation Inc，2009.

（責(zé)任編輯：陳媛）2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.，2018Vol38No112018年11月第38卷第11期基于貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情危機(jī)節(jié)點(diǎn)診斷研究Nov.，2018Vol38No11

收稿日期：2018-08-02

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法