韓洪勇 馬文婷 楊超然 山東科技大學(xué)
目前的廣告推薦方法主要有以下幾種:隨機(jī)投放式、基于網(wǎng)頁信息的投放方式、個性化廣告推薦方式。由于隨機(jī)投放廣告的效率很低,在這里不作介紹。而目前移動終端的個性化廣告的推薦方法較大一部分還是使用傳統(tǒng)互聯(lián)網(wǎng)廣告(主要指的是臺式機(jī)計(jì)算機(jī))的個性化的推薦方法,使用的是基于用戶瀏覽內(nèi)容的推薦算法和協(xié)同過濾的推薦思想。但是現(xiàn)在移動互聯(lián)網(wǎng)廣告有明顯的個人個性特征,以往的傳統(tǒng)互聯(lián)網(wǎng)廣告的投放方法對于提高廣告的精確投放往往不盡人意。傳統(tǒng)互聯(lián)網(wǎng)廣告投放的公司以亞馬遜為代表,他們都是借助基于用戶瀏覽內(nèi)容的推薦算法和協(xié)同過濾的算法。這種算法的本質(zhì)是兩個相似用戶的相互推薦,這里舉個例子說明該算法。假設(shè)用戶A看過a、b、c、d、e、f這幾部電影,用戶B喜歡看a、b、c、d、g、h這幾部電影。那么我們就可以認(rèn)定為A、B兩個用戶他們有相同的興趣愛好,將B沒有看過但是A看過的e、f電影推薦給B,將A沒有看過的但是B看過的g、h兩部電影推薦給A,這里就完成了基于用戶瀏覽內(nèi)容的相互推薦。協(xié)同過濾算法的內(nèi)容是通過用戶瀏覽的廣告的內(nèi)容,然后預(yù)測出這個用戶的大致的喜好,去尋找與該用戶喜好相關(guān)的廣告內(nèi)容推薦給該用戶。
除此之外,國外Murdock v等人提出基于詞頻提取的網(wǎng)頁關(guān)鍵詞提取的算法。該算法的思想是獲取用戶搜索的內(nèi)容的那頁網(wǎng)頁的主題或者該網(wǎng)頁的關(guān)鍵詞,計(jì)算出網(wǎng)頁的內(nèi)容和預(yù)推薦廣告的內(nèi)容的相關(guān)性,將相關(guān)性系數(shù)大的廣告推薦給用戶。
在移動終端上進(jìn)行個性化廣告推薦主要要解決以下兩個問題:一個是用戶的場景問題。一個是廣告推薦速度問題。在移動終端上進(jìn)行廣告推薦不同于傳統(tǒng)的互聯(lián)網(wǎng)的廣告推薦,移動終端上進(jìn)行廣告推薦,用戶的個性化更加明顯,可以更加準(zhǔn)確的得知用戶的使用場景,更有可能得知用戶的真實(shí)廣告需求。其次,由于硬件上的差別,終端設(shè)備的用戶對于廣告推薦系統(tǒng)模型的計(jì)算能力比傳統(tǒng)的臺式計(jì)算機(jī)的用戶要弱很多。而實(shí)際生活中,用戶的數(shù)據(jù)量和廣告的數(shù)據(jù)量又很龐大,模型的計(jì)算量非常巨大,而普通的移動設(shè)備無法承受如此巨大的計(jì)算量。
解決場景獲取的問題。在移動終端上進(jìn)行個性化廣告推薦,首先要獲取用戶的使用場景。通過用戶的移動設(shè)備,獲取用戶的位置信息、時間信息、速度信息、光線信息、聲音信息等,將用戶的這些信息進(jìn)行整理分析,預(yù)測出用戶的使用場景,進(jìn)而為用戶進(jìn)行個性化的廣告推薦做準(zhǔn)備。
建立基于內(nèi)容的個性化廣告推薦模型。當(dāng)用戶使用移動終端設(shè)備瀏覽網(wǎng)頁時,用戶瀏覽器或者終端設(shè)備記錄下用戶當(dāng)前瀏覽的主題、用戶網(wǎng)頁點(diǎn)擊信息和用戶廣告點(diǎn)擊信息。根據(jù)用戶當(dāng)前瀏覽的主題、用戶網(wǎng)頁點(diǎn)擊信息和用戶廣告點(diǎn)擊信息構(gòu)建用戶相似度模型。通過用戶相似度模型,找到與欲推薦用戶的瀏覽主題、用戶網(wǎng)頁點(diǎn)擊信息和用戶廣告點(diǎn)擊信息相似的用戶,然后相似用戶的廣告推薦給欲推薦用戶,那么就做到廣告的個性化推薦。除了建立基于內(nèi)容的個性化廣告推薦模型之外,還可以建立基于標(biāo)簽的廣告推薦模型?;跇?biāo)簽的廣告推薦模型是在基于標(biāo)簽的協(xié)同過濾算法的基礎(chǔ)上進(jìn)行個性化的廣告推薦。
解決廣告推薦系統(tǒng)的計(jì)算量大的問題,主要是通過兩種方法解決。一種是將模型本身構(gòu)建的比較小。也就是說模型本身的參數(shù)少,模型的計(jì)算量自然降低。二是通過并行計(jì)算的方法,使用分布式計(jì)算的方法,對模型進(jìn)行計(jì)算提高模型的計(jì)算的效率。
對于減少模型參數(shù)的方法主要采用的是屬性剪枝的策略。將模型的參數(shù)進(jìn)行預(yù)處理,對各個屬性進(jìn)行屬性的增益計(jì)算,根據(jù)增益值對模型進(jìn)行排序,然后根據(jù)模型的精確度去掉必要的屬性。為保證模型有更好的精確度,將屬性值代入貝葉斯概率模型中,然后計(jì)算出廣告的推薦度。除此之外還可以使用并行計(jì)算的方法來解決廣告推薦系統(tǒng)計(jì)算量大的問題。以K-mean模型為例,簡述模型的并行計(jì)算的方法。在并行計(jì)算中,本文使用Hadoop中的MapReduce的方法來對模型進(jìn)行并行計(jì)算。該方法的主要思想是將一個大的數(shù)據(jù)集處理成各個小的數(shù)據(jù)集,然后每個小數(shù)據(jù)集在不同的設(shè)備進(jìn)行并行計(jì)算。將數(shù)據(jù)集的規(guī)模減小就解決了模型計(jì)算量太大的問題。
本文使用了兩種方法對比實(shí)現(xiàn)了廣告的個性化推薦及解決了廣告推薦過程中的問題,但文中的兩種方法還都是基于協(xié)同過濾的方法構(gòu)建的兩種不同的模型,在今后還可以加入NLP的思想來獲得用戶的瀏覽內(nèi)容。