国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的電影評(píng)分預(yù)測(cè)研究

2021-11-08 14:13:16李香君肖小玲
電腦知識(shí)與技術(shù) 2021年27期
關(guān)鍵詞:支持向量機(jī)

李香君 肖小玲

摘要:本文依據(jù)電影是人們?nèi)粘I钪兄匾膴蕵?lè)方式之一,用戶(hù)在選擇觀看一部電影前,通常會(huì)想通過(guò)已觀看過(guò)用戶(hù)對(duì)電影的評(píng)分或是評(píng)論來(lái)了解這部電影的是否值得觀看的需求。評(píng)分預(yù)測(cè)(rating prediction)在個(gè)性化推薦研究領(lǐng)域中可以被理解為:被用來(lái)作為預(yù)測(cè)用戶(hù)對(duì)那些尚沒(méi)有評(píng)價(jià)過(guò)的電影的評(píng)分的研究問(wèn)題。本文工作首先對(duì)電影數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,隨后重點(diǎn)研究了支持向量機(jī)(SVM)回歸預(yù)測(cè)對(duì)電影評(píng)分進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果MAE的值表明支持向量機(jī)(SVM)回歸預(yù)測(cè)在電影評(píng)分預(yù)測(cè)中取得較好的預(yù)測(cè)。

關(guān)鍵詞:支持向量機(jī);MAE;回歸預(yù)測(cè)

中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)27-0109-03

Abstract: In this paper, the film is one of the important ways of entertainment in people's daily life. Before people choose to watch a film, they usually want to know the quality of a film through film rating or comments. In the field of personalized recommendation research, rating prediction can be understood as a research problem that is used to predict users' ratings of movies that have not been evaluated. This paper first preprocesses the movie data set, and then focuses on the support vector machine (SVM) regression prediction to predict the movie score. The experimental results show that the MAE value of support vector machine (SVM) regression prediction achieves better prediction in the movie score prediction.

Key words: Support vector machine; MAE;Regression prediction

1引言

現(xiàn)如今隨著影音、書(shū)籍等垂直網(wǎng)站的快速發(fā)展,已經(jīng)購(gòu)買(mǎi)或觀看過(guò)的用戶(hù)對(duì)產(chǎn)品或服務(wù)的評(píng)分評(píng)價(jià),已經(jīng)逐漸發(fā)展成了一種重要的信息載體的趨勢(shì),據(jù)有關(guān)視頻網(wǎng)站上的數(shù)據(jù)表明,借助社交媒體平臺(tái)表達(dá)自己觀點(diǎn)和想法的用戶(hù)數(shù)量有呈指數(shù)增長(zhǎng)的趨勢(shì),并且越來(lái)越多的用戶(hù)會(huì)在觀看電影前都會(huì)先關(guān)注電影的評(píng)分以及其他用戶(hù)對(duì)此電影的評(píng)價(jià),以此來(lái)作為是否觀看電影的有力依據(jù)。通過(guò)對(duì)電影評(píng)分的直觀查閱,這是一種可以幫助用戶(hù)在是否觀看此電影的決策過(guò)程中提供其他用戶(hù)意見(jiàn)的一種快速有效的方式。

由于電影的評(píng)分預(yù)測(cè)相對(duì)來(lái)說(shuō)難度較大,缺乏一套成熟并科學(xué)的預(yù)測(cè)方法。在為了實(shí)現(xiàn)對(duì)電影評(píng)分的準(zhǔn)確預(yù)測(cè)需求上,本文在進(jìn)行了相關(guān)電影推薦學(xué)習(xí)中評(píng)分預(yù)測(cè)研究的基礎(chǔ)上,結(jié)合影響用戶(hù)評(píng)分的特征實(shí)際情況與基于機(jī)器學(xué)習(xí)算法進(jìn)行建模預(yù)測(cè)-基于支持向量機(jī)(SVM)回歸預(yù)測(cè)模型,主要目的是構(gòu)建預(yù)測(cè)效果較好的分類(lèi)模型來(lái)預(yù)測(cè)用戶(hù)對(duì)電影的評(píng)分。

2相關(guān)技術(shù)

本文基于機(jī)器學(xué)習(xí)算法進(jìn)行建模預(yù)測(cè)-基于支持向量機(jī)(SVM)回歸預(yù)測(cè)模型。首先我們對(duì)SVR模型進(jìn)行初始化,將訓(xùn)練組數(shù)據(jù)輸入到帶有貝葉斯調(diào)參的10折交叉驗(yàn)證程序中進(jìn)行訓(xùn)練,再將得到的最優(yōu)超調(diào)參數(shù)帶入到處理過(guò)的預(yù)測(cè)組數(shù)據(jù)輸入進(jìn)行預(yù)測(cè),計(jì)算其MAE值。

2.1余弦相似度

余弦相似度,實(shí)現(xiàn)過(guò)程如下:先計(jì)算兩個(gè)向量夾角的余弦值,然后用計(jì)算的夾角余弦值對(duì)這兩個(gè)向量的相似度進(jìn)行評(píng)估。在數(shù)據(jù)挖掘的研究中,余弦相似度通常會(huì)被作為集群內(nèi)部凝聚力的一種度量。

應(yīng)用在文本中,首先需要將兩段文本進(jìn)行分詞的操作,再依據(jù)這兩個(gè)文本中的詞建立兩個(gè)向量,然后計(jì)算這兩個(gè)向量的夾角余弦值,通過(guò)余弦值得到這兩個(gè)文本在統(tǒng)計(jì)學(xué)方法中的相似度情況。依據(jù)余弦值范圍來(lái)判斷相似度:若求取的范圍落在[-1,1]之間:余弦值如果越趨近于1,則是代表這兩個(gè)向量的方向呈現(xiàn)越吻合,表現(xiàn)為越相似;余弦值如果越趨近于-1,這兩個(gè)向量的方向就呈現(xiàn)越相反;若接近于0,則表示這兩個(gè)向量近乎于正交。

2.2 SVR

SVR支持向量回歸,這是一種“寬容的回歸模型”,寬容的支持向量回歸(SVR)模型[1]的模型函數(shù)是一個(gè)線(xiàn)性函數(shù):y=ωx+b。

SVR支持向量回歸,算法的實(shí)現(xiàn)是通過(guò)在線(xiàn)性函數(shù)的兩側(cè)制造一個(gè)“間隔帶”,是否將樣本計(jì)入損失函數(shù)與樣本與間隔帶的關(guān)系有關(guān),若樣本是落入間隔帶中間將不會(huì)被計(jì)入損失函數(shù);若樣本落入間隔帶之外則會(huì)被計(jì)入損失函數(shù)。最優(yōu)化模型問(wèn)題,是通過(guò)最小化間隔帶的寬度和總損失解決的。在落在隔離帶邊緣之外的,或者是落在隔離帶邊緣上的,才會(huì)被計(jì)入最后的損失中。

3支持向量回歸的電影評(píng)分預(yù)測(cè)實(shí)驗(yàn)

3.1數(shù)據(jù)源

本文采用movies、ratings、tags等數(shù)據(jù)集。由于數(shù)據(jù)集過(guò)大,本論文中只選取前10000條進(jìn)行研究。調(diào)用pandas庫(kù)讀取三個(gè)數(shù)據(jù)文件并保存為CSV文件。采用用隨機(jī)分配的方式對(duì)測(cè)試集和訓(xùn)練集進(jìn)行劃分,確定訓(xùn)練集與測(cè)試集的比例為7:3。通過(guò)pandas中read_table函數(shù)讀取數(shù)據(jù)文件,并為其關(guān)鍵字命名。其中數(shù)據(jù)文件包括ratings.dat、tags.dat、movies.dat。

猜你喜歡
支持向量機(jī)
基于支持向量回歸機(jī)的電能質(zhì)量評(píng)估
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
基于SVM的煙草銷(xiāo)售量預(yù)測(cè)
動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
管理類(lèi)研究生支持向量機(jī)預(yù)測(cè)決策實(shí)驗(yàn)教學(xué)研究
考試周刊(2016年53期)2016-07-15 09:08:21
区。| 海门市| 清原| 五峰| 和田县| 大英县| 纳雍县| 焦作市| 威信县| 忻城县| 库尔勒市| 商南县| 邵东县| 多伦县| 谢通门县| 上栗县| 应城市| 沅陵县| 康乐县| 福清市| 蕉岭县| 吉隆县| 柯坪县| 红原县| 昌吉市| 广州市| 佳木斯市| 德阳市| 烟台市| 托克托县| 石屏县| 阿鲁科尔沁旗| 宁德市| 商都县| 合川市| 乌拉特中旗| 西藏| 扶余县| 咸宁市| 龙川县| 南华县|