国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Lucene的專利信息智能檢索技術

2022-02-02 10:13:04潘曉梅王全喜
機械設計與制造工程 2022年12期
關鍵詞:檢索專利神經網絡

楊 芳,張 寧,潘曉梅,王全喜

(1.國家電網有限公司信息通信分公司,北京 100761) (2.保定市大為計算機軟件開發(fā)有限公司,河北 保定 071000)

目前,各級知識產權局的相關專利信息展示頁面以及知網、萬方等文獻網站,均對專利信息進行了較為全面的公示。十九大以來,我國每年專利受理量均在400萬件左右,如何在浩如煙海的專利信息中檢索到需要的專利信息,成為當前信息管理學中需要解決的技術問題。黃孝倫等[1]研究了科技查新系統(tǒng)的實現策略,認為Lucene是系統(tǒng)的核心引擎模塊;熊安萍等[2]與李致遠等[3]分別對Lucene的索引模塊進行了系統(tǒng)研究,并提出了優(yōu)化策略。在全文檢索需求下,趙廣[4]、張紹琳等[5]、沙陽陽等[6]和張俊飛[7]分別就各自的全文檢索個案進行了算法優(yōu)化研究,并對Lucene在全文檢索的效率和適應性、計劃性方面進行了個案研究。在具體應用領域,蔣曉玲等[8]進行了Lucene在高??萍嘉墨I系統(tǒng)中的應用研究,劉怡[9]進行了Lucene在電子病歷系統(tǒng)中的應用研究,潘寧寧[10]進行了Lucene在融媒體多維可視化系統(tǒng)中的應用研究。

然而,單純使用Lucene的封裝功能會造成搜索結果中的語義、語境理解不一致問題。Lucene提供的根據分詞詞元權重對文檔進行排列,難以在搜索結果中得到更豐富的信息,如專利的下載量、相關或相似專利的數量、收錄專利信息的網站數量等。因此,在檢索前對詞元語義進行分析,在檢索后對相關信息充分整合,最終提供更符合檢索需求的檢索結果,成為當前Lucene應用研究的重點。

1 檢索工具包Lucene的應用模式

在爬取信息的基礎上確定檢索關鍵詞,通過Lucene進行檢索,同步抓取信息中的專利下載量、相關或相似專利的數量、收錄專利信息的網站數量等信息,采用加權因子法對檢索結果進行基于Lucene排序的二次排序,最終得到搜索結果。Lucene應用數據流程如圖1所示。

圖1 Lucene應用數據流程圖

Lucene工具包提供了檢索、排序的核心功能,即分詞、索引、權重排序、結果輸出功能。由于這些功能已經封裝在Lucene中,相關的研究多集中在Lucene的索引功能和排序功能算法的優(yōu)化,導致Lucene相關組件調用的代碼過于冗長,在一定程度上增加了系統(tǒng)存在Bug的概率,且給軟件的后續(xù)升級帶來一定壓力,因此本文采用基本的格式化Lucene調用代碼調用Lucene組件,實現Lucene的基本功能,其調用方法在基本算法分析中不再贅述。通過語義分析和二次賦值兩個算法,提高了Lucene的檢索效果。

2 基于機器學習的Lucene深度開發(fā)

2.1 機器學習模塊的輸入輸出架構

經過爬蟲檢索的原始結果序列,分兩路進入模糊神經網絡機器學習模塊。一路直接進入,為一個二維序列,二維中一維為指針序列維度,一維為控制字段維度,包括指針序列號(Long格式)、文章標題(String格式)、文章內容快照(String格式);另一路經Lucene進入,經過Lucene的分詞、索引、排序、輸出后直接輸出序列,輸出后的結果也是二維序列,且與直接進入的二維序列相同。機器學習模塊的輸入輸出流程如圖2所示。

圖2 機器學習模塊的輸入輸出流程

以原始結果構建的指針序列為例,將原始序列定義為LOG-A,經過Lucene處理的指針序列定義為LOG-B,經過機器學習最終輸出的指針序列定義為LOG-C。雖然上述流程中經歷了多步操作,但其指針序列僅經歷了2次改變,分別為經過Lucene處理后的一次改變和經過機器學習模塊處理后的Lucene序列改變。傳統(tǒng)Lucene序列處理后輸出的結果為LOG-B驅動下的輸出結果,而基于機器學習的Lucene改進算法輸出的結果為LOG-C驅動下的輸出結果。

2.2 評價標志集生成算法

評價標志集生成算法其目的是檢索目標的重排序過程,涉及到的數據量特別是非標準化的文本數據量較大,如果直接輸入神經網絡中勢必增加神經網絡的節(jié)點量,有較大算力需求,因此有必要采用模糊神經網絡算法。將長度未知且同構化難度較大的文本非標準數據生成標志集,使非標數據標準化,如圖3所示。

圖3 評價標志集生成算法

圖3中形成的二維矩陣序列為不同分詞條件下的M矩陣,為每一分詞在其對應序列下的詞頻標志矩陣。該矩陣生成模式下,機器學習模塊的輸入變量集為寬度為n、長度為m的整型變量二維矩陣(Integer格式)。為簡化神經網絡,設定分詞量不多于20個,序列量不多于200個,最終形成n=20、m=200的兩個評價標志集輸入矩陣M(m,n),可以得到神經網絡的2組各4 000個輸入變量。

2.3 機器學習模塊細節(jié)設計

如果單純使用降維算法將8 000個輸入節(jié)點變?yōu)?個輸出節(jié)點,則無法實現對實際序列排序結果的輸出,因此對于200個序列的重排序結果,必須確保輸出節(jié)點達到200個。機器學習模塊采用多列神經網絡實現,每個輸出節(jié)點的輸出值依然為序列指針值,以保證輸出結果無需解模糊即可直接獲取實際輸出情況。多列神經網絡結構圖如圖4所示。

圖4 多列神經網絡結構圖

圖4中,基于Lucene中200個序列指針集形成200個多列神經網絡節(jié)點,每個節(jié)點的輸入來自于其對應的1列Lucene輸出數據和基于原始爬蟲結果進行降維形成的1列參照數據。

如前文所述,模塊的數據輸入量為4 000個整型數據(Integer格式),輸出為1個雙精度浮點型數據(Double格式),其節(jié)點按照2/3取整進行降維壓縮,即分別為2 666,1 777,1 185,790,527,352,235,157,105,70,47,32,22,15,10,7,3個節(jié)點。以上合計8 000個隱藏層節(jié)點。由于數據降維過程中會損失大量信息,為確保信息利用率,因此使用待回歸系數的多項式節(jié)點函數進行節(jié)點設計。節(jié)點函數為:

(1)

式中:Y為節(jié)點輸出值;Xi為輸入數據列中第i個輸入項;Aj為多項式的待回歸系數,j為多項式階數,此處選用6階多項式進行控制,即有6個多項式待回歸系數。

多列模塊分別服務于m個輸入序列,每個多列模塊僅有2個輸入節(jié)點和1個輸出節(jié)點,因此其統(tǒng)計學意義并非上述參照模塊的數據降維作用,而是分析數據間的邏輯關系。為充分放大數據細節(jié),該多列模塊采用數據放大效應最佳的對數函數進行節(jié)點設計,將其隱藏層設計為2層,每層3個節(jié)點,共6個隱藏層節(jié)點。200列多列節(jié)點共含有隱藏層節(jié)點1 200個。節(jié)點函數可寫作:

Y=∑(A·lnXi+B)

(2)

式中:A,B為待回歸系數。

3 開發(fā)效果實測

使用上述基于機器學習Lucene深度模型在LAMP開發(fā)平臺上進行應用實現,同時在LAMP開發(fā)平臺上構建純Lucene查詢系統(tǒng),即未使用上述語義識別和二次賦值數據加權的Lucene查詢系統(tǒng),對同一順序文件庫采用相同數據可視化模式,獲得優(yōu)化后的“復合模型”以及“純Lucene模型”兩組查詢結果。

選擇100名志愿者,其中50人從事與專利轉化相關的工作,50人從事非專利轉化工作,男女各50人,年齡在24~50歲,要求其根據查詢結果做出主觀評價。在特定比較項目中,10分為特別滿意,0分為完全不滿意。比較兩個模型的實際分析效果,結果見表1。

表1 信息查詢效果的主觀評價結果對比表(Lucene實現模式)

由表1可知,復合模型的主觀評價結果顯著高于純Lucene模型,且t<10.000,P<0.01。同時,純Lucene模型組的數據分散程度顯著高于復合模型組,即不同志愿者對純Lucene模型分析結果的主觀評價存在更大分歧,對復合模型分析結果的主觀評價相對集中。

將復合模型評價結果與常見的技術文獻查詢數據庫如*乎、*度學術、中國*網、*方數據等的結果進行比較。為避免侵權糾紛,本文將其順序打亂后分別稱為平臺A~平臺D,比較結果見表2。

表2 信息查詢效果的主觀評價結果對比表(常用平臺)

由表2可知,本文使用的復合模型的評價結果顯著高于其他常見平臺的評價結果,但該對比結果并不代表其他平臺使用的算法效能不及本文復合模型,而是因為信息檢索業(yè)的盈利模式驅動相關平臺需對排序進行其他形式的信息標記加權,導致其無法向用戶提供完全符合用戶預期的檢索結果。加之商業(yè)化專利信息展示平臺的數據來源具有局限性,導致其數據庫并不完善。而本文復合模型因為并不提供商業(yè)服務,僅用于相關機構內部進行專利信息檢索、比較,所以其檢索過程中不受上述制約因素的限制。結合表1與表2數據可以看出,即便不使用前置語義分析和后置信息加權,單純使用Lucene開發(fā)工具包進行開發(fā),其最終的主觀評價結果也優(yōu)于當前的一些商業(yè)化專利信息展示網站。

4 結束語

通過使用基于機器學習多列神經網絡的語義分析標記模塊和后置的權重排序數據加權整合模塊,本文提出的Lucene復合檢索模型對Lucene檢索功能進行了有益擴充,使其檢索結果的主觀評價結果得到了提升。該模型適用于專利相關企業(yè)進行專利開發(fā)的查新和專利轉化的信息尋訪等,如進行商業(yè)化應用,專利信息的爬取存在一定法務風險。本文研究的Lucene復合查詢模型,在查詢效能和查詢結果人性化程度方面尚有待提升。

猜你喜歡
檢索專利神經網絡
專利
水運工程(2022年7期)2022-07-29 08:37:38
神經網絡抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
2019年第4-6期便捷檢索目錄
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
專利檢索中“語義”的表現
專利代理(2016年1期)2016-05-17 06:14:36
基于神經網絡的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
專利
國際標準檢索
涿鹿县| 蒙阴县| 六枝特区| 丘北县| 新竹市| 大埔县| 淮南市| 周宁县| 新邵县| 调兵山市| 内黄县| 门源| 芦溪县| 若尔盖县| 灯塔市| 铜梁县| 工布江达县| 眉山市| 桐梓县| 平利县| 镇远县| 安岳县| 宜川县| 安宁市| 浙江省| 和静县| 张北县| 新疆| 南京市| 遂平县| 成安县| 临澧县| 攀枝花市| 赤峰市| 来凤县| 双柏县| 江陵县| 万源市| 合山市| 同仁县| 西青区|