国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

(2017年度“華蘇杯”獲獎?wù)撐娜泉劊┗陔S機森林回歸算法的電影評分預(yù)測模型

2018-05-21 08:35:53陸君之
江蘇通信 2018年1期
關(guān)鍵詞:森林預(yù)測特征

陸君之

中國電子科技集團第二十八研究所

0 引言

隨著人民生活水平的不斷提高,觀看電影已經(jīng)成為了大家日常生活中不可或缺的娛樂方式之一。我國作為全球第二大電影市場,電影產(chǎn)業(yè)規(guī)模一直保持著每年30%左右的增長,煥發(fā)出旺盛的生命力和巨大的可持續(xù)發(fā)展?jié)摿ΑH欢麄€市場的電影質(zhì)量卻是參差不齊,每年都會有大量大家俗稱的“爛片”上映,并且各大電影評分網(wǎng)站存在制片公司雇傭“水軍”刷評分的現(xiàn)象,導(dǎo)致觀眾在觀看前沒有信息渠道真正判斷一部電影的好壞,電影評分預(yù)測模型可以對尚未上映的電影做出客觀的評分,供觀眾進(jìn)行參考。

本文主要結(jié)構(gòu)如下:第1節(jié)介紹本實驗所使用的相關(guān)技術(shù)和資源介紹;第2節(jié)介紹基于隨機森林算法的電影評分預(yù)測模型的建模過程;第3節(jié)是實驗內(nèi)容與結(jié)果的分析,最后一節(jié)是總結(jié)與展望。

1 相關(guān)介紹

1.1 Spark MLlib

Spark是一個用來實現(xiàn)快速而通用的集群計算的開源簇運算框架。它擴展了廣泛使用的MapReduce計算模型,適用于各種原先需要不同分布式平臺的場景,大大減輕了原先需要對各種平臺分別管理的負(fù)擔(dān)。spark可以在內(nèi)存中進(jìn)行計算,因而它比MapReduce更加高效,即使在硬盤上進(jìn)行運算,它也比MapReduce更快。

MLlib是Spark中提供機器學(xué)習(xí)函數(shù)的庫,它是專為在集群上運行的情況而設(shè)計的。MLlib可使用許多常見的機器學(xué)習(xí)和統(tǒng)計算法,這些算法用來在集群上針對分類、回歸、聚類、協(xié)同過濾等,簡化大規(guī)模機器學(xué)習(xí)時間。其中一些算法也可以應(yīng)用到流數(shù)據(jù)上,例如使用普通最小二乘法或者K均值聚類(還有更多)來計算線性回歸。

1.2 豆瓣電影網(wǎng)

豆瓣電影網(wǎng)是國人最常用的對電影進(jìn)行打分,寫影評的數(shù)據(jù)網(wǎng)站,相比于IMDB更能體現(xiàn)國人對于電影文化的理解。雖然近年來豆瓣電影也開始出現(xiàn)“水軍”刷分的現(xiàn)象,但是從“水軍”現(xiàn)象的根源來看這并不影響豆瓣電影以往評分的真實性和有效性,并且雖然有延時性,豆瓣電影網(wǎng)也會將“非正常打分”的行為進(jìn)行判斷并不計入評分。

豆瓣電量評分的主旨和原則是“盡力還原普通觀影大眾對一部電影的平均看法”,是國內(nèi)最公平公正的電影評分網(wǎng)站之一。國內(nèi)相當(dāng)多的電影評論節(jié)目,例如“暴走看啥片兒”,也將豆瓣電影評分作為衡量標(biāo)準(zhǔn)向觀眾推薦電影。它的電影數(shù)據(jù)也是符合本實驗需要的,本實驗用于數(shù)據(jù)分析實驗的數(shù)據(jù)從豆瓣電影網(wǎng)上爬蟲獲取。

2 基于隨機森林回歸算法的電影評分預(yù)測模型

本文選用隨機森林回歸算法來做實驗基于以下原因:

(1)電影中導(dǎo)演的評分、演員的評分、編劇的評分等輸入特征之間可能存在潛在的相關(guān)性,但對于這些相關(guān)性很難正確的去進(jìn)行衡量,因此對于特征之間多重共線性十分敏感的算法是不適用的。隨機森林算法對于特征之間相關(guān)性并不敏感,也不需要對特征進(jìn)行選擇,非常適用于本次回歸實驗。

(2)隨機森林算法魯棒性很好,對于離散數(shù)據(jù)點相對而言不敏感,由于電影信息多樣性,難免會有噪音數(shù)據(jù),隨機森林算法可以有效的避免這些數(shù)據(jù)對于最終模型的影響。

(3)隨機森林算法可以評估所有輸入特征的重要性,為下一步研究向大眾推薦高質(zhì)量電影打下基礎(chǔ)。

2.1 特征工程

特征工程是大規(guī)模機器學(xué)習(xí)中非常重要的一步,特征選取的好壞直接影響到算法的效率。信息豐富的輸入特征與將現(xiàn)有特征轉(zhuǎn)換為合適的向量都能夠極大的改進(jìn)實驗結(jié)果。本實驗的特征選擇結(jié)合中國內(nèi)地電影市場實際情況,選取導(dǎo)演、編劇、主演、類型、國家地區(qū)作為特征,如公式(1)所示:

其中:Director表示導(dǎo)演執(zhí)導(dǎo)水平特征,Writer表示編劇水平特征,Cast表示主演水平特征,Type表示影片類型特征,Country表示國家地區(qū)特征,Rate表示電影評分。

本節(jié)具體闡釋影響電影評分的重要因素并給出相應(yīng)定義,為隨機森林回歸模型的建立做好準(zhǔn)備。

(1)導(dǎo)演執(zhí)導(dǎo)水平特征

導(dǎo)演是電影創(chuàng)作團隊的領(lǐng)導(dǎo)者和組織者,決定了電影藝術(shù)風(fēng)格,對電影質(zhì)量起到了非常重要的影響因素。本實驗中以導(dǎo)演之前執(zhí)導(dǎo)電影所獲得的評分以及評分人數(shù)作為導(dǎo)演執(zhí)導(dǎo)水平特征??紤]到雖然電影評分人數(shù)也是非常重要的維度,但是將電影評分人數(shù)單獨作為一個輸入特征引入的話,特征之間scale差距過大,會對收斂速度造成嚴(yán)重影響,所以我們將電影評分和電影評分人數(shù)作為一個特征組合來引入特征集中,作為對影人水平的綜合評分,如公式(2)所示:

n表示導(dǎo)演參與拍攝的所有電影作品中,距離該部電影上映最近的n部電影,n取值小于等于5;

Rk表示導(dǎo)演拍攝的第k部電影的評分;

Pk表示導(dǎo)演拍攝的第k部電影的評分人數(shù)。

(2)編劇水平特征

編劇是電影劇本的創(chuàng)作者,劇本是電影拍攝的基礎(chǔ),決定了電影的上限。本實驗取編劇主創(chuàng)的所有電影劇本中,距離該部電影上映最近的n部電影,n取值小于等于5,如公式(3)所示:

Rk表示編劇創(chuàng)作的第k部電影的評分;

Pk表示編劇創(chuàng)作的第k部電影的評分人數(shù)。

(3)主演水平特征:

演員具有獨特的個人魅力,演員的發(fā)揮直接影響到一部電影口碑的好壞??紤]到大部分演員每年參演電影作品數(shù)量很多,對于演員的特征字段,本實驗會參考演員參與拍攝的所有電影作品中,距離該部電影上映時間最近的n部相同類型且由他主演的電影,n取值小于等于5,主演水平特征計算公式(見公式(4))及說明如下:

Rik表示第i位主演拍攝第k部電影的評分;

Pik表示第i位主演拍攝第k部電影的評分人數(shù);

Wi表示第i位主演在此部電影的權(quán)重,這里本實驗權(quán)重設(shè)置如表1所示,參演人數(shù)多于4位,則從第5位開始不考慮其對電影的影響。

(4)影片類型

電影有愛情片、動作片、喜劇片等多種類型組合,觀眾在不同時期可能對電影的類型有不同的喜好。因此電影類型對于其口碑是非常重要的特征,電影類型決定了它內(nèi)容的表現(xiàn)形式,觀眾基礎(chǔ)和影響力。因為一部電影經(jīng)常會被貼上多種類型標(biāo)簽,所以對于該特征本實驗需要綜合考慮各個類型的權(quán)重計算得到它的評分。本實驗取上一年此類型電影平均得分作為參考值,比如電影《寒戰(zhàn)》于2012年11月08號上映,則分別選取類型為劇情、動作、犯罪且上映時間范圍應(yīng)該為

2011年11月08號到2012年11月08號的電影,計算得到此 類型電影的參考評分,見公式(5)與(6):

Rik表示第k部類型為i的電影的評分;

Pik表示第k部類型為i電影的評分人數(shù);

Ri表示第i種類型電影綜合評分;

Wi表示第i種類型在此部電影中的權(quán)重。

(5)國家地區(qū)

根據(jù)制片公司所在國家或地區(qū)的不同,觀眾受個人的文化背景和社會背景影響對于該地區(qū)的電影的看法也是不同的,因此國家地區(qū)也是電影口碑重要的特征之一。本實驗取上一年此國家地區(qū)電影平均得分作為參考值,比如電影《寒戰(zhàn)》于2012年11月08號上映,則選取同為香港制作且上映時間范圍應(yīng)該為2011年11月08號到2012年11月08號的電影,計算得到此電影的參考評分,見公式(7):

Rk表示第k部電影的評分;

Pk表示第k部電影的評分人數(shù)。

3 實驗和結(jié)果分析

3.1 數(shù)據(jù)獲取

本實驗基于SCRAPY框架,采用“深度優(yōu)先”算法,爬蟲收集豆瓣電影網(wǎng)從2000年至2016年上映的所有電影數(shù)據(jù)作為本次實驗的數(shù)據(jù)集,首先從豆瓣電影網(wǎng)的各個標(biāo)簽下的電影列表爬取獲取電影信息,然后獲取每一部電影相關(guān)推薦和影人代表作品中的電影加入到爬取隊列中去,最終共收集到8萬多條電影數(shù)據(jù)。經(jīng)過整理,電影屬性如表2所示:

表2 電影屬性表

3.2 實驗過程

(1)隨機森林算法回歸建模:

本實驗利用spark mllib的randomforest包實現(xiàn)隨機森林回歸算法。首先將2015年以前出品的電影的評分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),2016年出品的電影數(shù)據(jù)作為測試數(shù)據(jù)。我們將處理好的特征字段和電影評分處理成Labeledpoint,LabeledPoint是spark中用來表示帶標(biāo)簽的數(shù)據(jù)點,包含一個特征向量和一個標(biāo)簽(由一個浮點數(shù)表示),本實驗中標(biāo)簽為電影的評分,特征向量為上述特征工程所處理的,構(gòu)造的LabeledPoint,見公式(8)

使用mllibtree.RandomForest的trainRegressor()方法來建立起隨機森林回歸模型。TrainRegressor()方法會返回一個weightedEnsembleModel對象,本實驗使用此對象的predict()方法對測試集預(yù)測對應(yīng)的值,即電影評分。接下來的實驗中,將測試數(shù)據(jù)輸入到建立好的隨機森林中進(jìn)行測試。

(2)誤差對比

本實驗除了給出使用隨機森林回歸算法模型的誤差,還采用了DT算法、GBDT算法、Isontonic算法進(jìn)行對比,誤差比較如表3所示:

表3 算法誤差對照表

從上述對預(yù)測的誤差對比試驗可以看出,本文所使用的隨機森林回歸算法建立的模型預(yù)測性能明顯優(yōu)于其他算法模型,在預(yù)測電影評分時相對誤差遠(yuǎn)低于其他算法,同時它的確定系數(shù)也是最高的,說明這個模型在數(shù)據(jù)擬合上的表現(xiàn)是最好的。

本實驗部分電影預(yù)測結(jié)果如下表4所示:

表4 部分電影評分預(yù)測結(jié)果表

4 總結(jié)和展望

本文從實際的中國電影產(chǎn)業(yè)市場出發(fā),提出一種基于隨機森林回歸算法的電影評分預(yù)測模型,將機器學(xué)習(xí)應(yīng)用于電影評分預(yù)測領(lǐng)域,通過將導(dǎo)演、編劇、主演、類型、發(fā)行國家地區(qū)作為影響電影評分的特征,對其進(jìn)行特征工程處理。通過對比試驗,隨機森林回歸算法模型確實比其他算法在預(yù)測電影評分的相對誤差更低,同時預(yù)測的確定系數(shù)也更高。綜上所述,本文提出的基于隨機森林回歸算法的評分預(yù)測模型解決了電影評分預(yù)測精度不高的問題,能夠為大眾推薦電影提供有價值的參考,具有實際的意義。

猜你喜歡
森林預(yù)測特征
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
不必預(yù)測未來,只需把握現(xiàn)在
哈Q森林
哈Q森林
哈Q森林
罗定市| 怀柔区| 漯河市| 垦利县| 沁阳市| 土默特左旗| 饶河县| 临潭县| 大连市| 滨州市| 古浪县| 大埔县| 札达县| 八宿县| 柯坪县| 威宁| 宁津县| 宁明县| 江安县| 新津县| 广水市| 东明县| 横峰县| 扎鲁特旗| 原平市| 德钦县| 陆河县| 达拉特旗| 丹棱县| 高邮市| 大竹县| 鞍山市| 南和县| 常德市| 武功县| 开化县| 江永县| 鄱阳县| 凌海市| 迁西县| 梁河县|