国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

推薦系統(tǒng)中的算法

2019-10-14 12:01:36黃茂洲
科技風(fēng) 2019年1期
關(guān)鍵詞:推薦系統(tǒng)算法數(shù)學(xué)

黃茂洲

摘 要:近些年隨著大數(shù)據(jù)時(shí)代的來臨,人們對(duì)于信息的需求量日益增多。那么,由此產(chǎn)生的一個(gè)自然的問題是:我們?nèi)绾卧诤棋臄?shù)據(jù)海洋中盡可能準(zhǔn)確地找到自己所感興趣的內(nèi)容呢?由此,在計(jì)算機(jī)科學(xué)領(lǐng)域中便產(chǎn)生了一個(gè)特定的研究領(lǐng)域——個(gè)性化的推薦系統(tǒng)。而推薦算法正是推薦系統(tǒng)的核心所在。個(gè)性化的推薦系統(tǒng)運(yùn)用在生活的不同領(lǐng)域中,它主要是利用用戶的行為數(shù)據(jù)和其之相關(guān)的物品屬性等,通過特定的數(shù)學(xué)算法來達(dá)到向用戶推薦所感興趣信息的目的?,F(xiàn)代個(gè)性化的推薦系統(tǒng)所利用的推薦算法可以分為4種,在這篇論文中,我們將分別來討論這四種不同的推薦算法的特征。

關(guān)鍵詞:數(shù)學(xué);理論計(jì)算機(jī)科學(xué);推薦系統(tǒng);算法

1 導(dǎo)引

數(shù)學(xué)是計(jì)算機(jī)科學(xué)的基礎(chǔ)。在二十世紀(jì)六、七十年代時(shí),計(jì)算機(jī)科學(xué)在當(dāng)時(shí)僅僅數(shù)學(xué)的一個(gè)分支。一個(gè)很典型的例子,便是世界上第一個(gè)計(jì)算機(jī)科學(xué)的博士霍蘭德,在密歇根大學(xué)攻讀博士學(xué)位時(shí),一開始便是學(xué)習(xí)的是數(shù)學(xué)專業(yè),后來轉(zhuǎn)到了密歇根大學(xué)新成立的計(jì)算機(jī)與通信科學(xué)系,而這也成為世界上第一個(gè)真正的計(jì)算機(jī)科學(xué)系。

當(dāng)時(shí)光進(jìn)展到二十一世紀(jì)時(shí),計(jì)算機(jī)科學(xué)這個(gè)領(lǐng)域已經(jīng)擁有了非常廣闊的研究領(lǐng)域與眾多不同方向的科研人員。而此時(shí),計(jì)算機(jī)科學(xué)在很多方面地發(fā)展,已經(jīng)開始從相反的方向來推動(dòng)數(shù)學(xué)的發(fā)展。但是,在其中,一個(gè)始終沒有發(fā)生變化的核心主題便是,計(jì)算機(jī)科學(xué)的數(shù)學(xué)基礎(chǔ),也就是理論計(jì)算機(jī)科學(xué)。

理論計(jì)算機(jī)科學(xué)的一個(gè)重要的研究課題便是設(shè)計(jì)適應(yīng)于計(jì)算機(jī)科學(xué)中的各種不同應(yīng)用場(chǎng)景的算法。算法指的是程序員通過特定的計(jì)算機(jī)語言,輸入計(jì)算機(jī)系統(tǒng)中的一系列解決特定問題的清晰而明確的指令,使得計(jì)算機(jī)能夠在有限的時(shí)間以內(nèi)得出所符合設(shè)計(jì)要求的計(jì)算結(jié)果。

一個(gè)特定的算法都必須具備自己的要素(數(shù)據(jù)對(duì)象的運(yùn)算和操作)以及五個(gè)基本特征(有窮性,確切性,輸入,輸出項(xiàng)及可行性)。

在這篇論文中,我們主要通過機(jī)器學(xué)習(xí)中的現(xiàn)代個(gè)性化的推薦系統(tǒng)這個(gè)主題,去嘗試討論四種不同的推薦算法的特征。

2 推薦算法

計(jì)算機(jī)與網(wǎng)絡(luò)早已經(jīng)融入到了我們的日常的生活、學(xué)習(xí)、生活中,成為了我們不可或缺的助手與朋友。隨著近四、五十年計(jì)算機(jī)科學(xué)的高速發(fā)展,計(jì)算機(jī)與網(wǎng)絡(luò)已經(jīng)徹底改變了我們的日常生活、學(xué)習(xí)、工作習(xí)慣。

智能化是理論計(jì)算機(jī)科學(xué)研究的一個(gè)主要目標(biāo),近些年來的實(shí)踐已經(jīng)充分證明,機(jī)器學(xué)習(xí)的方法雖然在一些特定的問題環(huán)境下還存在一些局限性,但是總體來說它是當(dāng)前實(shí)現(xiàn)智能化這個(gè)目標(biāo)最有效的一個(gè)方法。

學(xué)習(xí)僅僅是計(jì)算機(jī)科學(xué)中的一個(gè)專門術(shù)語,用更為嚴(yán)格的數(shù)學(xué)語言來說,學(xué)習(xí)即是統(tǒng)計(jì)的意思。機(jī)器學(xué)習(xí),簡(jiǎn)單地說,僅僅是利用計(jì)算機(jī)這個(gè)平臺(tái),利用統(tǒng)計(jì)學(xué)的方法,去對(duì)數(shù)據(jù)集進(jìn)行分析與歸納?,F(xiàn)代個(gè)性化的推薦系統(tǒng)便是機(jī)器學(xué)習(xí)中的一個(gè)重要的主題,也是我們?nèi)粘I钪休^為熟悉的一個(gè)機(jī)器學(xué)習(xí)的貼切的例子。推薦算法是推薦系統(tǒng)的核心所在,一個(gè)特定的算法本質(zhì)上就是一個(gè)計(jì)算的過程。推薦算法的計(jì)算主要來自于數(shù)學(xué)中的線性代數(shù)與概率統(tǒng)計(jì),其中一個(gè)核心的概念,便是矩陣。

正如我們上面所提到,機(jī)器學(xué)習(xí)中的學(xué)習(xí)的意思等價(jià)于概率論中的統(tǒng)計(jì),那么構(gòu)成機(jī)器學(xué)習(xí)理論的一個(gè)重要數(shù)學(xué)分支是概率統(tǒng)計(jì)便不會(huì)讓人感到太奇怪。但是,另一方面,什么是矩陣?什么是線性代數(shù)呢?矩陣這個(gè)詞看似十分的抽象,事實(shí)上,一個(gè)矩陣僅僅是一個(gè)數(shù)或者文字的一個(gè)排列而構(gòu)成的一張表格。我們可以對(duì)矩陣定義加法,減法,乘法等等基本的運(yùn)算。通過這些計(jì)算的規(guī)則去研究矩陣的各種性質(zhì)的學(xué)科,便是線性代數(shù)。

在日常生活中,許許多多的APP或者各式各樣的網(wǎng)站會(huì)根據(jù)顧客的瀏覽歷史記錄或是其他的相關(guān)數(shù)據(jù),較為準(zhǔn)確的給顧客們推薦他們所感興趣的內(nèi)容,例如網(wǎng)易云音樂的每日推薦和亞馬遜的推薦讀物等等。這些看似神奇的推薦應(yīng)用背后其實(shí)都僅僅是依靠著特定的推薦算法來實(shí)現(xiàn)的。

正如我們?cè)诘谝还?jié)的最后所總結(jié)的一樣,推薦系統(tǒng)中的各種算法也具備算法的基本條件,但它們的特別之處在于它們是在通過一個(gè)特定的矩陣來分析各個(gè)用戶的行為數(shù)據(jù)而得到的一些相關(guān)的統(tǒng)計(jì)結(jié)果(如下圖所示),這其實(shí)就是為什么推薦系統(tǒng)一般能夠準(zhǔn)確的得出一個(gè)人的喜好的背后原理所在。

上面的統(tǒng)計(jì)圖代表了一個(gè)虛構(gòu)的音樂收集矩陣。不同的數(shù)字所代表的意義如下:?jiǎn)吻h(huán)=5,分享=4,收藏=3,主動(dòng)播放=2,聽完=1 拉黑=-5如此類推。最后把得分最高的歌曲推薦給相應(yīng)的用戶即可(如下圖所示)

一個(gè)矩陣也許很復(fù)雜,線性代數(shù)中的一個(gè)常用的方法,便是把矩陣分解成一些更簡(jiǎn)單的矩陣的乘積,通過研究這些更簡(jiǎn)單的矩陣,來得到原始矩陣的一些有用的性質(zhì)。矩陣的UV分解是線性代數(shù)中分解一個(gè)矩陣的經(jīng)典的方法,我們?cè)谶@里不做詳細(xì)地解釋,但是我們推薦對(duì)此感興趣的讀者去參看參考文獻(xiàn)[2]中的第二章。

利用矩陣的UV分解將每個(gè)用戶的潛在因子求出,再利用解析幾何中高維歐幾里得空間中兩個(gè)向量夾角的余弦公式相乘就可以得出得分矩陣。于是系統(tǒng)把得分最高的歌曲推薦給相應(yīng)的用戶即可(如下圖示,統(tǒng)計(jì)圖中的紅色的字體即代表推薦的歌曲)

現(xiàn)代個(gè)性化的推薦系統(tǒng)所利用的推薦算法主要可以分為4種,在下面,我們將分別來討論這四種不同的推薦算法的特征。此外,在一些特定的問題中,還會(huì)涉及到一些非傳統(tǒng)的,并不常用的推薦算法,限于篇幅,我們?cè)谶@篇文章中暫不介紹,感興趣的讀者可以參看參考文獻(xiàn)[1]中的相應(yīng)章節(jié)。

第一種方法是基于對(duì)象的行為數(shù)據(jù)的協(xié)同過濾算法(Collaborative Filtering,CF)。通過在對(duì)象的歷史行為(例如用戶的瀏覽記錄,購買記錄等等)歸納出一種特定的模式,再通過這些行為記錄,利用一些基本的統(tǒng)計(jì)知識(shí)來分析這些用戶的歷史行為與產(chǎn)品的相似度。最后推薦將相似度最高且此用戶未瀏覽過的內(nèi)容推薦給用戶。這種算法可依據(jù)收集的用戶的歷史數(shù)據(jù),來推薦世界上的任何一種東西。這個(gè)算法的實(shí)施步驟主要來說可分為三個(gè)主要的階段:(1)收集、分析各個(gè)用戶的行為記錄。(2)尋找相近用戶。也就是找到和該用戶相似度最高的用戶。為了達(dá)到該目的,一般會(huì)使用調(diào)整余弦相似性來計(jì)算。

(3)推薦。將計(jì)算得出相似度最高的產(chǎn)品且該用戶當(dāng)前沒有瀏覽過的產(chǎn)品推薦給該用戶即可。這個(gè)算法的優(yōu)點(diǎn)是所需要的產(chǎn)品的知識(shí)較少,推薦內(nèi)容準(zhǔn)確,推薦領(lǐng)域較廣等等。但它的缺點(diǎn)是強(qiáng)烈地依賴用戶反饋的準(zhǔn)確性和數(shù)量,新用戶無法得到相應(yīng)的反饋等。

第二種的推薦算法是基于流行度:這種算法是現(xiàn)在的機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中最為常見也是當(dāng)前應(yīng)用得最為廣泛的算法。原因是因?yàn)檫@個(gè)算法的運(yùn)算方式非常簡(jiǎn)便迅捷。將各個(gè)項(xiàng)目的流行度進(jìn)行排序,再將排行靠前的流行項(xiàng)目推薦給用戶即可。例如微博的熱搜,音樂APP中的最熱歌曲,各大新聞等。這個(gè)算法的優(yōu)點(diǎn)是算法簡(jiǎn)單,操作簡(jiǎn)便快捷,推薦內(nèi)容適用于大眾和新用戶。而它的缺點(diǎn)是不能推薦相對(duì)個(gè)性化的內(nèi)容和領(lǐng)域。

第三種算法是基于內(nèi)容的推薦算法。假如我是一款系列游戲的愛好者,當(dāng)游戲商更新了這個(gè)游戲新的一個(gè)版本時(shí),那么我一定會(huì)很感興趣,但以上的兩種算法都不太可能將這個(gè)更新結(jié)果推薦給我。那么這時(shí)候就會(huì)利用基于內(nèi)容的推薦算法。它的理論依據(jù)主要來源于信息的過濾和檢索。通過分析用戶的歷史搜索記錄或是其他的相關(guān)的歷史行為數(shù)據(jù),從中提取關(guān)鍵字標(biāo)簽,如下圖示

然后推薦系統(tǒng)將這些標(biāo)簽視作屬性,將用戶與數(shù)據(jù)視為歐幾里得空間中的不同向量想,系統(tǒng)計(jì)算出各個(gè)向量的距離,這個(gè)距離就從數(shù)值上反應(yīng)了內(nèi)容與用戶的相似度了。這個(gè)算法的優(yōu)點(diǎn)是能夠比較好的解決冷啟動(dòng)問題,也不會(huì)被流行度所限制,因?yàn)樗惴ū旧硎侵苯痈鶕?jù)內(nèi)容來進(jìn)行檢索。而它的 缺點(diǎn)是過度專業(yè)化,需要較高的產(chǎn)品知識(shí)與龐大的數(shù)據(jù)構(gòu)造分類器?;趦?nèi)容的推薦算法會(huì)一直根據(jù)標(biāo)簽給用戶推薦與他們密切相關(guān)的內(nèi)容,而使得推薦失去了原本的多樣性。

最后一種推薦算法是基于模型的推薦算法。基于模型的推薦算法有不同的具體實(shí)施過程,而且他們幾乎都用到了機(jī)器學(xué)習(xí)中的一些經(jīng)典的方法。一般最簡(jiǎn)單的基于模型的方法是logistics回歸預(yù)測(cè),推薦系統(tǒng)通過分析用戶的歷史購買、瀏覽記錄等行為數(shù)據(jù),得出有限多個(gè)影響用戶的特征屬性,例如性別,年齡,地區(qū)等等。用一個(gè)變量來代表著用戶對(duì)特定產(chǎn)品的喜好程度。于是,這些數(shù)據(jù)形成了一個(gè)二維平面中的散點(diǎn)圖,推薦系統(tǒng)通過線性回歸擬合出一個(gè)近似函數(shù),函數(shù)上的點(diǎn)來近似這些統(tǒng)計(jì)數(shù)據(jù)。接著系統(tǒng)再分別算出這些特征屬性所對(duì)應(yīng)的系數(shù),便可以得出對(duì)應(yīng)物品的權(quán)重值,權(quán)重值越大就代表這個(gè)產(chǎn)品對(duì)用戶越重要?;谀P偷乃惴ㄊ挚焖伲话阌糜谛侣労蛷V告領(lǐng)域,它的優(yōu)點(diǎn)是推薦的內(nèi)容可以多樣化,而它的缺點(diǎn)則是算法局限于時(shí)效性。

3 總結(jié)和將來的工作

機(jī)器學(xué)習(xí)中的現(xiàn)代個(gè)性化的推薦系統(tǒng)與我們的日常生活有著密不可分的聯(lián)系,它使我們的眼界更加開拓。隨著現(xiàn)代計(jì)算機(jī)科學(xué)地迅速發(fā)展,推薦系統(tǒng)中的核心——推薦算法也在不斷的發(fā)展,但每一種算法都還是存在著一定的局限性。在將來的工作中我們可以注重在技術(shù)方面上解決這些問題,通過更深入地學(xué)習(xí)數(shù)學(xué)與理論計(jì)算機(jī)科學(xué)知識(shí),去嘗試設(shè)計(jì)更好的推薦算法,使得推薦系統(tǒng)可以更加成熟。

參考文獻(xiàn):

[1]李航,統(tǒng)計(jì)學(xué)習(xí)方法,第1版,北京:清華大學(xué)出版社,2012.

[2]伊恩·古德費(fèi)洛,約書亞·本吉奧,與亞倫·庫維爾,深度學(xué)習(xí),第1版,人民郵電出版社,2017.

猜你喜歡
推薦系統(tǒng)算法數(shù)學(xué)
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
一種改進(jìn)的整周模糊度去相關(guān)算法
我為什么怕數(shù)學(xué)
新民周刊(2016年15期)2016-04-19 18:12:04
數(shù)學(xué)到底有什么用?
新民周刊(2016年15期)2016-04-19 15:47:52
西青区| 高尔夫| 西贡区| 乳源| 土默特右旗| 黑河市| 凭祥市| 洛扎县| 新乡县| 岚皋县| 安图县| 屏边| 泊头市| 琼海市| 常宁市| 栾川县| 通化县| 方正县| 双城市| 湟源县| 南投县| 剑川县| 溧水县| 禄丰县| 农安县| 琼中| 那曲县| 邹平县| 正镶白旗| 新源县| 高青县| 民丰县| 贺州市| 满洲里市| 油尖旺区| 丰台区| 泽普县| 屯门区| 浪卡子县| 垫江县| 周口市|