龐正揚 趙媛
摘要
梳理現(xiàn)有智能推薦系統(tǒng)文獻(xiàn)研究,對大眾點評網(wǎng)某個用戶五年(2012-2017)的評論數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)爬取、量化影響該用戶選擇餐廳的主要因素,利用Python進(jìn)行文本情感分析、神經(jīng)網(wǎng)絡(luò)建模,并針對數(shù)據(jù)處理結(jié)果進(jìn)行分析,揭示該用戶的飲食偏好,從而決定是否給用戶推薦未來可能出現(xiàn)在用戶選擇中的餐廳。
【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲 文本挖掘 神經(jīng)網(wǎng)絡(luò) 智能推薦
1 問題背景
互聯(lián)網(wǎng)時代給傳統(tǒng)商務(wù)系統(tǒng)帶來了前所未有的沖擊,用戶能夠快速獲得物品相關(guān)信息的能力使用戶在現(xiàn)代商務(wù)系統(tǒng)中占據(jù)主導(dǎo)地位。新時代下的商務(wù)系統(tǒng)必須能夠更快地發(fā)現(xiàn)用戶需求的變化趨勢,這一需求大大促進(jìn)了智能推薦系統(tǒng)的快速發(fā)展。智能推薦系統(tǒng)并非局限于一種營銷策略——僅用于幫助用戶了解商品以促進(jìn)商務(wù)流動,它也同時作為改進(jìn)銷售策略的工具,保證系統(tǒng)的自動化、智能化,通過其學(xué)習(xí)的普適性加強(qiáng)用戶與系統(tǒng)的互動與粘性。
而大眾點評網(wǎng)經(jīng)過近15年的發(fā)展,已經(jīng)成為了中國領(lǐng)先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站,積累了大量的用戶與相關(guān)反饋,適合引入智能推薦系統(tǒng)拓寬其經(jīng)營范圍。這樣系統(tǒng)就可根據(jù)顧客本人的喜好、歷史訪問留下的信息等完成網(wǎng)上瀏覽、購買的過程,提供的是個性化的服務(wù),這也是未來網(wǎng)上服務(wù)發(fā)展的趨勢。
本文考慮到大眾點評網(wǎng)的商務(wù)推薦功能需求,實現(xiàn)了一個商務(wù)評分推薦系統(tǒng)的初步試點,通過對某用戶五年的評論分析求得智能推薦的可行性與準(zhǔn)確度,測試了所有已支持推薦算法的性能。
2 相關(guān)理論
2.1 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲(Web Crawler),又稱為網(wǎng)絡(luò)蜘蛛(Web Spider)或Web信息采集器,是一個自動下載網(wǎng)頁HTML并按一定規(guī)則提取信息的計算機(jī)程序或自動化腳本,是搜索引擎的重要組成部分。本文中所使用到的網(wǎng)絡(luò)爬蟲主要包括URL管理器、HTML下載器、HTML解析器和主程序4個部分組成,其中URL管理器用來存儲待爬取和已爬取的切U,HTML下載器向服務(wù)器發(fā)送請求以獲取網(wǎng)頁的HTML,HTML解析器運用BeautifulSoup進(jìn)行網(wǎng)頁的結(jié)構(gòu)化解析以獲取網(wǎng)頁中的數(shù)據(jù)和URL并存儲到MySQL數(shù)據(jù)庫中。
2.2 文本情感分析
文本情感分析簡單來講就是分析一句話說得是很主觀還是客觀描述,分析這句話表達(dá)的是積極的情緒還是消極的情緒。在進(jìn)行中文文本情感分析的過程中,由于詞與詞中間沒有像英文句子一樣的間隔,因此需要根據(jù)大量的語料庫進(jìn)行分詞訓(xùn)練。此時引入結(jié)巴分詞,這是基于人工標(biāo)注的詞性和統(tǒng)計特征,對中文進(jìn)行建模,即根據(jù)觀測到的數(shù)據(jù)(標(biāo)注好的語料)對模型參數(shù)進(jìn)行估計,即訓(xùn)練。在分詞階段再通過模型計算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。
2.3 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元活動的過程,其中包括對信息的加工、處理、存儲、搜索等過程。本文中使用的是神經(jīng)網(wǎng)絡(luò)中的多層感知器MLP,是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量。MLP是感知器的推廣,克服了感知器不能對線性不可分?jǐn)?shù)據(jù)進(jìn)行識別的弱點。
3 應(yīng)用過程
3.1 數(shù)據(jù)獲取
本文的數(shù)據(jù)是使用python爬蟲技術(shù)爬取,分為兩步,第一步爬取某一用戶所有評論過的店的URL以及其評論文本,第二步進(jìn)入所有店的URL對應(yīng)的網(wǎng)頁以爬取其對應(yīng)商戶的一些信息。獲取數(shù)據(jù)共641條記錄,其中有14個字段分別為評論編號、商戶編號、商戶名稱、商戶星級、商戶位置、商戶類型、評論數(shù)、人均消費、口味評分、環(huán)境評分、服務(wù)評分、商戶UFRL,用戶評論和評論日期。
3.2 文本情感分析
本文提供了主要的算法步驟:
第一步:讀取評論數(shù)據(jù),對評論進(jìn)行分句。
第二步:查找對分句的情感詞,記錄積極還是消極,以及位置。
第三步:往情感詞前查找程度詞,找到就停止搜尋。為程度詞設(shè)權(quán)值,乘以情感值。
第四步:往情感詞前查找否定詞,找完全否定詞,若數(shù)量為奇數(shù),乘以一1,若為偶數(shù),乘以I。
第五步:判斷分句結(jié)尾是否有感嘆號,有嘆號則往前尋找情感詞,有則相應(yīng)的情感值+2。
第六步:計算完一條評論所有分句的情感值,用數(shù)組(list)記錄起來。
第七步:計算并記錄所有評論的情感值。
第八步:通過分句計算每條評論的積極情感均值,消極情感均值,積極情感方差,消極情感方差。
3.3 數(shù)據(jù)清洗與整理
將數(shù)據(jù)導(dǎo)入SPSS中對其進(jìn)行數(shù)據(jù)清理。
(1)缺失值的剔除;
(2)建立新的指標(biāo):綜合情感值一積極情感值一消極情感值;
(3)分別計算綜合情感值平均值(Al)、積極情感值平均值(A2)、消極情感值平均值(A3)、綜合情感值四分位數(shù)(A4)、積極情感值四分位數(shù)(A5)、消極情感值四分位數(shù)(A6);
(4)構(gòu)建“是否推薦”指標(biāo):如果每一個體值分別大于At,A2,A3,A4,A5,A6,則分別標(biāo)記推薦(值為1),否則標(biāo)記不推薦(值為0)如圖11圖2.
3.4 建立MLP模型
(1)為了減少誤差,多次使用MLP模型,求得其檢驗正確百分比,最后求得平均數(shù)。
(2)為了防止過度訓(xùn)練,對樣本進(jìn)行重新分配,總369樣本,測試樣本為10%,培訓(xùn)樣本由原來的90%縮減至70%,另外的20%分配給支持樣本。
3.5 結(jié)果分析
(1)MLP神經(jīng)網(wǎng)絡(luò)圖,模型包括I個輸入層、I個隱藏層和I個輸出層。
如表I,模型分類表,軟件默認(rèn)采用0.5作為正確和錯誤的概率分界,將2大分區(qū)樣本的正確率進(jìn)行交叉對比,顯示出預(yù)測為。,即預(yù)測為不推薦的概率(100%)高于推薦的概率,模型對向客戶推薦的能力較低,測試結(jié)果只為23.I%。
通過多次建立MLP模型,算出模型檢驗的正確概率平均值為75.3 5%,可以看出模型總體檢驗預(yù)測能力還是比較理想的。
(2)為防止過度訓(xùn)練,調(diào)整參數(shù)后得到以下結(jié)果,如表2。
測試樣本正確率為73.5%,和計算的平均值接近,說明該模型過度訓(xùn)練程度較少。
4 結(jié)論與展望
本文使用神經(jīng)網(wǎng)絡(luò)預(yù)測模型,為一個大眾點評的消費者的建立了適合他的“推薦模型”,大眾點評可以為每一個使用軟件次數(shù)頻繁的消費者建立屬于他們自己的“推薦模型”,以此來解決上述問題。
當(dāng)然不僅針對大眾點評這類餐飲型的APP,我們也可以將這種思想方法運用到很多領(lǐng)域。比如住宿類:以愛彼迎(民宿APP)為例,可以為消費者建立“推薦模型”,而不僅僅靠關(guān)聯(lián)規(guī)則等評判信息,以此來達(dá)到更加智能化的優(yōu)質(zhì)服務(wù)。
神經(jīng)網(wǎng)絡(luò)、文本挖掘、網(wǎng)絡(luò)爬蟲已經(jīng)作為現(xiàn)代商業(yè)中十分重要的工具,可以說誰掌握了數(shù)據(jù)挖掘與信息管理的能力,誰就能在市場中取得更高的份額,實現(xiàn)更高的價值。
參考文獻(xiàn)
[1]牟少霞.基于智能終端的移動電子商務(wù)商業(yè)模式研究(D).山東師范大學(xué),2014.
[2]程敏.大眾點評網(wǎng)的互動性對消費者食品購買意向的影響研究[D].海南大學(xué),2017.
[3]趙卿.大眾點評統(tǒng)一菜單系統(tǒng)的設(shè)計與實現(xiàn)[D].南京大學(xué),2016.
[4]方觀聲.美團(tuán)大眾020電子商務(wù)模式的發(fā)展研究[D].暨南大學(xué),2016.