李香君 肖小玲
摘要:本文依據(jù)電影是人們?nèi)粘I钪兄匾膴蕵?lè)方式之一,用戶(hù)在選擇觀看一部電影前,通常會(huì)想通過(guò)已觀看過(guò)用戶(hù)對(duì)電影的評(píng)分或是評(píng)論來(lái)了解這部電影的是否值得觀看的需求。評(píng)分預(yù)測(cè)(rating prediction)在個(gè)性化推薦研究領(lǐng)域中可以被理解為:被用來(lái)作為預(yù)測(cè)用戶(hù)對(duì)那些尚沒(méi)有評(píng)價(jià)過(guò)的電影的評(píng)分的研究問(wèn)題。本文工作首先對(duì)電影數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,隨后重點(diǎn)研究了支持向量機(jī)(SVM)回歸預(yù)測(cè)對(duì)電影評(píng)分進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果MAE的值表明支持向量機(jī)(SVM)回歸預(yù)測(cè)在電影評(píng)分預(yù)測(cè)中取得較好的預(yù)測(cè)。
關(guān)鍵詞:支持向量機(jī);MAE;回歸預(yù)測(cè)
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)27-0109-03
Abstract: In this paper, the film is one of the important ways of entertainment in people's daily life. Before people choose to watch a film, they usually want to know the quality of a film through film rating or comments. In the field of personalized recommendation research, rating prediction can be understood as a research problem that is used to predict users' ratings of movies that have not been evaluated. This paper first preprocesses the movie data set, and then focuses on the support vector machine (SVM) regression prediction to predict the movie score. The experimental results show that the MAE value of support vector machine (SVM) regression prediction achieves better prediction in the movie score prediction.
Key words: Support vector machine; MAE;Regression prediction
1引言
現(xiàn)如今隨著影音、書(shū)籍等垂直網(wǎng)站的快速發(fā)展,已經(jīng)購(gòu)買(mǎi)或觀看過(guò)的用戶(hù)對(duì)產(chǎn)品或服務(wù)的評(píng)分評(píng)價(jià),已經(jīng)逐漸發(fā)展成了一種重要的信息載體的趨勢(shì),據(jù)有關(guān)視頻網(wǎng)站上的數(shù)據(jù)表明,借助社交媒體平臺(tái)表達(dá)自己觀點(diǎn)和想法的用戶(hù)數(shù)量有呈指數(shù)增長(zhǎng)的趨勢(shì),并且越來(lái)越多的用戶(hù)會(huì)在觀看電影前都會(huì)先關(guān)注電影的評(píng)分以及其他用戶(hù)對(duì)此電影的評(píng)價(jià),以此來(lái)作為是否觀看電影的有力依據(jù)。通過(guò)對(duì)電影評(píng)分的直觀查閱,這是一種可以幫助用戶(hù)在是否觀看此電影的決策過(guò)程中提供其他用戶(hù)意見(jiàn)的一種快速有效的方式。
由于電影的評(píng)分預(yù)測(cè)相對(duì)來(lái)說(shuō)難度較大,缺乏一套成熟并科學(xué)的預(yù)測(cè)方法。在為了實(shí)現(xiàn)對(duì)電影評(píng)分的準(zhǔn)確預(yù)測(cè)需求上,本文在進(jìn)行了相關(guān)電影推薦學(xué)習(xí)中評(píng)分預(yù)測(cè)研究的基礎(chǔ)上,結(jié)合影響用戶(hù)評(píng)分的特征實(shí)際情況與基于機(jī)器學(xué)習(xí)算法進(jìn)行建模預(yù)測(cè)-基于支持向量機(jī)(SVM)回歸預(yù)測(cè)模型,主要目的是構(gòu)建預(yù)測(cè)效果較好的分類(lèi)模型來(lái)預(yù)測(cè)用戶(hù)對(duì)電影的評(píng)分。
2相關(guān)技術(shù)
本文基于機(jī)器學(xué)習(xí)算法進(jìn)行建模預(yù)測(cè)-基于支持向量機(jī)(SVM)回歸預(yù)測(cè)模型。首先我們對(duì)SVR模型進(jìn)行初始化,將訓(xùn)練組數(shù)據(jù)輸入到帶有貝葉斯調(diào)參的10折交叉驗(yàn)證程序中進(jìn)行訓(xùn)練,再將得到的最優(yōu)超調(diào)參數(shù)帶入到處理過(guò)的預(yù)測(cè)組數(shù)據(jù)輸入進(jìn)行預(yù)測(cè),計(jì)算其MAE值。
2.1余弦相似度
余弦相似度,實(shí)現(xiàn)過(guò)程如下:先計(jì)算兩個(gè)向量夾角的余弦值,然后用計(jì)算的夾角余弦值對(duì)這兩個(gè)向量的相似度進(jìn)行評(píng)估。在數(shù)據(jù)挖掘的研究中,余弦相似度通常會(huì)被作為集群內(nèi)部凝聚力的一種度量。
應(yīng)用在文本中,首先需要將兩段文本進(jìn)行分詞的操作,再依據(jù)這兩個(gè)文本中的詞建立兩個(gè)向量,然后計(jì)算這兩個(gè)向量的夾角余弦值,通過(guò)余弦值得到這兩個(gè)文本在統(tǒng)計(jì)學(xué)方法中的相似度情況。依據(jù)余弦值范圍來(lái)判斷相似度:若求取的范圍落在[-1,1]之間:余弦值如果越趨近于1,則是代表這兩個(gè)向量的方向呈現(xiàn)越吻合,表現(xiàn)為越相似;余弦值如果越趨近于-1,這兩個(gè)向量的方向就呈現(xiàn)越相反;若接近于0,則表示這兩個(gè)向量近乎于正交。
2.2 SVR
SVR支持向量回歸,這是一種“寬容的回歸模型”,寬容的支持向量回歸(SVR)模型[1]的模型函數(shù)是一個(gè)線(xiàn)性函數(shù):y=ωx+b。
SVR支持向量回歸,算法的實(shí)現(xiàn)是通過(guò)在線(xiàn)性函數(shù)的兩側(cè)制造一個(gè)“間隔帶”,是否將樣本計(jì)入損失函數(shù)與樣本與間隔帶的關(guān)系有關(guān),若樣本是落入間隔帶中間將不會(huì)被計(jì)入損失函數(shù);若樣本落入間隔帶之外則會(huì)被計(jì)入損失函數(shù)。最優(yōu)化模型問(wèn)題,是通過(guò)最小化間隔帶的寬度和總損失解決的。在落在隔離帶邊緣之外的,或者是落在隔離帶邊緣上的,才會(huì)被計(jì)入最后的損失中。
3支持向量回歸的電影評(píng)分預(yù)測(cè)實(shí)驗(yàn)
3.1數(shù)據(jù)源
本文采用movies、ratings、tags等數(shù)據(jù)集。由于數(shù)據(jù)集過(guò)大,本論文中只選取前10000條進(jìn)行研究。調(diào)用pandas庫(kù)讀取三個(gè)數(shù)據(jù)文件并保存為CSV文件。采用用隨機(jī)分配的方式對(duì)測(cè)試集和訓(xùn)練集進(jìn)行劃分,確定訓(xùn)練集與測(cè)試集的比例為7:3。通過(guò)pandas中read_table函數(shù)讀取數(shù)據(jù)文件,并為其關(guān)鍵字命名。其中數(shù)據(jù)文件包括ratings.dat、tags.dat、movies.dat。