国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數據倉庫的論文推薦方法研究

2022-12-06 08:49:20汪貽杰沙夢釩周建平
現代礦業(yè) 2022年11期
關鍵詞:數據倉庫權重維度

汪貽杰 沙夢釩 趙 鵬 周建平

(1.安徽工業(yè)大學計算機科學與技術學院;2.中鋼集團馬鞍山礦山研究總院股份有限公司)

礦業(yè)類期刊文獻不僅凝練了重要的行業(yè)知識,更是礦山知識類網站的一個重要組成部分。在期刊文獻內,一篇論文包含很多專業(yè)信息,如論文的標題、摘要、關鍵詞、正文和作者等,如何根據這些專業(yè)信息實現高效快速的論文推薦是目前礦山知識類網站面臨的一個重要課題[1]。

對于文本推薦和數據倉庫技術在知識類相關領域的應用,在行業(yè)內有著廣泛關注與研究。在基于論文數據分析的專家推薦方法、裝置、設備及存儲介質中,孫圣力等[2]提出了基于文本相似度、貢獻率及復合影響因子算出的各論文作者的推薦分數并進行推薦,但未考慮到在大規(guī)模論文數據下的專家推薦方法計算時間長且新的推薦存在的冷啟動問題。在基于Spark的電影推薦系統中,朱本瑞[3]實現了對電影數據的Spark離線推薦和Spark Streaming的實時推薦,并將結果存儲到Redis、Elasticsearch、MongoDB中,但未考慮將中間臨時計算結果保存到Hive中,以節(jié)省中間臨時計算時間。

通過深入系統的研究,提出了基于數據倉庫實現的離線計算論文推薦方法。首先由維度建模搭建一個數據倉庫,設立論文推薦主題庫;然后,將論文特征數據集分詞預處理后加載到HDFS中,在HDFS中使用Hive計算推薦結果,將結果保存在論文推薦主題庫中;最后,在前端礦山知識類網站中實現可視化展示。

1 數據倉庫設計

1.1 數據倉庫體系

在設計中,數據倉庫體系主要分成原始數據層、明細數據層、數據匯總層、應用數據層4層。在分層體系中,原始數據層用于存儲預處理的數據集;明細數據層用于將原始數據層的結構化和半結構化數據轉換并清洗維度缺項,轉換為結構化數據;數據匯總層用于對明細數據層提取特征構造維度-權重矩陣;應用數據層用于聚合維度權重矩陣在主題表中,并用于指標統計、計算及數據挖掘等。該數據倉庫分層體系結構的目的在于將數據量巨大的原始論文,通過數據倉庫分層架構思想,將數據存儲在不同分層中,將結果數據與中間數據分開,減少跨層調用。同時,將計算過程中產生的中間臨時計算保存在數據倉庫中,極大地減少了重復計算。

1.2 分析主題設計

數據倉庫模型設計是面向主題的,因此在設計數據倉庫維度模型前要先確定分析主題[4]。分析主題的選擇是根據業(yè)務的實際需求分析而定的,且根據主題相關的分析結果可為相關人員或用戶提供決策支持[5]。在此選擇其中的論文為主題進行分析介紹。一篇論文主要包含標題、摘要、關鍵詞、正文、作者等,本文主要圍繞論文特征維度對論文進行數據分析,設計構建數據倉庫論文推薦主題庫。

1.3 維度表設計

維度表是描述分析主題的角度,選擇分析的維度要能從數據源中直接得到,且有利于對所選主題的分析。采用星型模型設計的維度表主要由事實表和維度表組成,每個維度表都有一個維度值作為主鍵,所有這些維度表的主鍵結合成事實表的主鍵。在維度表的建立過程中,維度值必須唯一,且每個維度代表對一個分析主題不同角度的描述[6]。根據分析主題、論文推薦主題庫的設計,這里建立了標題、摘要、關鍵詞3個維度。

這些維度表中的數據是由原始數據層和明細數據層加載到匯總數據層,并在DWS中存儲。在DWS層中,通過對加載數據中標題、摘要、關鍵詞等特征元素提取,并分別構造維度-權重矩陣得到分析主題的3個維度。以標題-論文權重矩陣t_p為例,對于t_p矩陣的每個元素f pt表示標題標簽t在論文p中的權重,計算公式為

式中,N?pt為論文p中包含標題標簽t的個數,N pt為論文p中的標題標簽數;N為總的論文數;而Nt是包含標題t的論文數量。

通過構造出的標題維度-權重矩陣、關鍵詞維度-權重矩陣、摘要維度-權重矩陣,對論文主題進行3個不同角度的分析,對論文主題進行更精確的描述。

1.4 相似度計算

通過論文主題下的多個特征維度的聚合和匯總,完成對主題下的指標計算。這里計算的指標是論文推薦主題庫下論文數據之間的相似度,通過計算不同論文對象標簽間的相似度,并對不同文本部分的標簽進行加權后得到總的論文對象間的相似度。主題庫主題中所有論文數據對象都進行相似度計算,匯總得到相似度推薦指標。計算中,特征維度間的相似度采用的是余弦相似度,計算公式如式(2)。pi、p j表示不同的向量元素,p()i、p(j)表示向量pi、pj的分量。p()i、p(j)2個向量分量的點積除以pi、pj2個向量的模長,得到了pi、pj2個向量的余弦相似度sin(pi、pj),余弦相似度值越大,則表示2個向量的相似度越高。

2 推薦方法設計

2.1 整體推薦方法流程

期刊論文數據倉庫流程設計見圖1,步驟如下。

(1)數據預處理。從MySQL數據庫的數據源中獲取數據表中的數據,對獲取的數據進行分詞預處理,將分完詞的數據發(fā)送到Kafka集群中的Paper主題中。

(2)數據存儲。使用Flume的Sink配置Kafka_File_HDFS的腳本配置文件,將Kafka的Paper主題中的數據采集到HDFS中存儲,存儲過程中按照采集的日期進行分區(qū)。

(3)數據處理和計算。對存儲在HDFS中的預處理論文特征數據采用ETL加載到數據倉庫的論文推薦主題庫中,按照數據倉庫論文推薦主題庫結構設計進行分層處理,在ODS層存儲論文分詞特征數據集,將ODS層中按行拆分格式化并將關鍵詞為空的數據清洗過濾掉后,轉換成標題元素、摘要元素、關鍵詞元素3張?zhí)卣鲾祿泶嫒隓WD層,并在DWD層將元素轉換為(單詞,詞頻),為構造維度表做準備。在數據服務層DWS中加載DWD表中特征數據表,構造為3張維度表。在ADS應用層將DWS層不同維度-權重矩陣表進行聚合,得到論文特征主題表。采用Spark對應用層論文特征主題表中的數據計算相似度指標,并將指標結果存入論文推薦主題庫應用層推薦表中。

(4)數據展示。將應用層的推薦結果采用Spark讀取Hive寫入MySQL的方式把推薦結果寫入到MySQL數據庫中,在礦山知識服務平臺的前端網站采用Web API服務的形式調用數據庫中數據。當用戶在線搜索論文時,數據庫中相關推薦論文將會推薦給用戶。

2.2 加權相似度算法

對于推薦指標計算,傳統的基于文本的相似度計算方法一般都單一統計文本的關鍵詞,未考慮到關鍵特征文本權值的影響。而關鍵特征文本往往也是用戶最為看重的,在采用多維度特征融合的離線推薦計算中,使用加權的余弦相似度算法對關鍵特征維度賦予更高的權重。如算法偽碼所示,a表示標題元素維度特征相似度,b表示關鍵詞元素維度特征相似度,c表示摘要元素維度特征相似度,d表示論文所述的文獻類別特征相似度。將輸入的ob ject和pa per對象的特征相似度a、b、c的權重因子分別設置為0.3,0.55和0.15,d為權重修正因子,根據2個論文對象文獻類別維度的相似度計算,結果在0.01≤d≤0.1。由此計算出core為多特征維度融合加權下的論文相似度。在初步的過濾中,core值大于0.1且屬于前50的結果會被保留,再次過濾中,core值大于0.3或前15的結果會被保留并進行推薦。推薦結果入庫匯總保存在ADS層論文推薦表中。

算法為SVM加權余弦相似度算法,輸入從ADS層讀取表ads_paper,存入paper_list;輸出對paper_list進行廣播,聲明為bd_paper_list。

2.3 評價指標

在試驗結果的評價方面,采用準確率、召回率和F1值進行分類評價,計算公式如下

式中,TP表示指標結果符合匹配的數據條數;F P表示指標結果推薦中不符合匹配的數據條數;FN表示指標結果中符合匹配未被推薦的數據條數[7];precision準確率表示分類器正確識別文本的一個統計測量;recall召回率指的是檢索出的相關文檔數和庫中所有相關文檔數的比率[8];F1值是衡量分類器分類準確性的標準,是準確率和召回率的加權平均,F1最大值為1,最小值為0。

3 過程與結果

3.1 試驗環(huán)境

該試驗使用了4臺虛擬服務器構建集群節(jié)點,配置見表1。其中Hadoop001是Hadoop集群和Spark集群的主節(jié)點,Hadoop002-Hadoop004為spark的從屬節(jié)點,運行slave進程。Zookeeper集群運行在Hadoop002-Hadoop004 3個節(jié)點,Kafka集群運行在Hadoop001-Hadoop004節(jié)點,Hive、Flume運行在Hadoop001節(jié)點,這4臺主機都為Hadoop的數據節(jié)點。本次集群環(huán)境試驗中Hadoop的版本為3.1.4,Spark的版本為3.0.0,MySQL版本為5.1.3,Zookeeper版本為3.6.2,Kafka版本為2.11.0,Flume版本為1.7.0,Hive版本為3.0.0。

?

3.2 數據集

試驗采用了203867條論文數據作為數據集。

3.3 試驗結果及分析

為驗證SVM加權余弦相似度算法的有效性,本文與未加權的余弦相似度方法進行對比。對試驗數據集分別采用2種算法計算相似度。由表2可知,加權后準確率提高了約6%,F1值提升了約3%,無論是準確率、召回率、F1值,改進后的算法指標都明顯優(yōu)于原始算法。再隨機選取5篇搜索論文,統計推薦論文在2種算法下的相似度值計算結果(圖2)。圖2結果顯示,采用維度融合加權后,推薦結果相似度有顯著提升,降低了非核心特征維度-摘要維度的權重影響,提升了關鍵特征維度-關鍵詞維度的權重影響,使推薦結果更突出核心關鍵詞的文本價值作用,推薦結果也更符合預期。

?

4 結語

(1)隨著期刊融媒體發(fā)展和知識服務需求的不斷提高,為用戶提供論文推薦服務的精準度成為關鍵指標。為此,設計并實現了融合礦業(yè)期刊論文數據和數據倉庫技術的離線期刊論文推薦方法。本研究方法在數據倉庫維度建模的基礎上,利用維度融合加權算法綜合對期刊論文數據進行離線計算并進行在線推薦,當用戶搜索論文時,能根據用戶所需快速準確地提供相關文獻推薦,提高用戶的使用黏性。目前,該數據倉庫模型已上線應用,為論文的相關推薦工作提供技術支持。

(2)該研究方法在后期工作中會將論文其他相關部分納入論文推薦的分析維度中,同時將引入SparkStreaming、Flink等實時在線計算引擎,實現對搜索論文的實時在線推薦。

猜你喜歡
數據倉庫權重維度
權重常思“浮名輕”
當代陜西(2020年17期)2020-10-28 08:18:18
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
基于數據倉庫的住房城鄉(xiāng)建設信息系統整合研究
為黨督政勤履職 代民行權重擔當
人大建設(2018年5期)2018-08-16 07:09:00
基于公約式權重的截短線性分組碼盲識別方法
電信科學(2017年6期)2017-07-01 15:44:57
分布式存儲系統在液晶面板制造數據倉庫中的設計
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統調度中數據倉庫技術的應用
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個維度”解有機化學推斷題
基于數據倉庫的數據分析探索與實踐
尉氏县| 吉木萨尔县| 筠连县| 毕节市| 龙门县| 景东| 会同县| 清徐县| 茶陵县| 南召县| 镇巴县| 伊吾县| 闵行区| 沛县| 婺源县| 万州区| 教育| 兴隆县| 武强县| 阿鲁科尔沁旗| 云浮市| 云梦县| 集贤县| 和田市| 泸州市| 北安市| 互助| 威信县| 监利县| 方山县| 驻马店市| 英吉沙县| 庐江县| 恩施市| 清河县| 明光市| 全州县| 潮州市| 比如县| 万宁市| 淮安市|