基于大眾點評網(wǎng)的智能推薦系統(tǒng)研究

2018-02-28 02:31:28龐正揚趙媛

電子技術(shù)與軟件工程 2018年20期

關(guān)鍵詞：網(wǎng)絡(luò)爬蟲文本挖掘神經(jīng)網(wǎng)絡(luò)

龐正揚趙媛

摘要

梳理現(xiàn)有智能推薦系統(tǒng)文獻(xiàn)研究，對大眾點評網(wǎng)某個用戶五年（2012-2017）的評論數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)爬取、量化影響該用戶選擇餐廳的主要因素，利用Python進(jìn)行文本情感分析、神經(jīng)網(wǎng)絡(luò)建模，并針對數(shù)據(jù)處理結(jié)果進(jìn)行分析，揭示該用戶的飲食偏好，從而決定是否給用戶推薦未來可能出現(xiàn)在用戶選擇中的餐廳。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲文本挖掘神經(jīng)網(wǎng)絡(luò) 智能推薦

1 問題背景

互聯(lián)網(wǎng)時代給傳統(tǒng)商務(wù)系統(tǒng)帶來了前所未有的沖擊，用戶能夠快速獲得物品相關(guān)信息的能力使用戶在現(xiàn)代商務(wù)系統(tǒng)中占據(jù)主導(dǎo)地位。新時代下的商務(wù)系統(tǒng)必須能夠更快地發(fā)現(xiàn)用戶需求的變化趨勢，這一需求大大促進(jìn)了智能推薦系統(tǒng)的快速發(fā)展。智能推薦系統(tǒng)并非局限于一種營銷策略——僅用于幫助用戶了解商品以促進(jìn)商務(wù)流動，它也同時作為改進(jìn)銷售策略的工具，保證系統(tǒng)的自動化、智能化，通過其學(xué)習(xí)的普適性加強(qiáng)用戶與系統(tǒng)的互動與粘性。

而大眾點評網(wǎng)經(jīng)過近15年的發(fā)展，已經(jīng)成為了中國領(lǐng)先的本地生活信息及交易平臺，也是全球最早建立的獨立第三方消費點評網(wǎng)站，積累了大量的用戶與相關(guān)反饋，適合引入智能推薦系統(tǒng)拓寬其經(jīng)營范圍。這樣系統(tǒng)就可根據(jù)顧客本人的喜好、歷史訪問留下的信息等完成網(wǎng)上瀏覽、購買的過程，提供的是個性化的服務(wù)，這也是未來網(wǎng)上服務(wù)發(fā)展的趨勢。

本文考慮到大眾點評網(wǎng)的商務(wù)推薦功能需求，實現(xiàn)了一個商務(wù)評分推薦系統(tǒng)的初步試點，通過對某用戶五年的評論分析求得智能推薦的可行性與準(zhǔn)確度，測試了所有已支持推薦算法的性能。

2 相關(guān)理論

2.1 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲（Web Crawler），又稱為網(wǎng)絡(luò)蜘蛛（Web Spider）或Web信息采集器，是一個自動下載網(wǎng)頁HTML并按一定規(guī)則提取信息的計算機(jī)程序或自動化腳本，是搜索引擎的重要組成部分。本文中所使用到的網(wǎng)絡(luò)爬蟲主要包括URL管理器、HTML下載器、HTML解析器和主程序4個部分組成，其中URL管理器用來存儲待爬取和已爬取的切U，HTML下載器向服務(wù)器發(fā)送請求以獲取網(wǎng)頁的HTML，HTML解析器運用BeautifulSoup進(jìn)行網(wǎng)頁的結(jié)構(gòu)化解析以獲取網(wǎng)頁中的數(shù)據(jù)和URL并存儲到MySQL數(shù)據(jù)庫中。

2.2 文本情感分析

文本情感分析簡單來講就是分析一句話說得是很主觀還是客觀描述，分析這句話表達(dá)的是積極的情緒還是消極的情緒。在進(jìn)行中文文本情感分析的過程中，由于詞與詞中間沒有像英文句子一樣的間隔，因此需要根據(jù)大量的語料庫進(jìn)行分詞訓(xùn)練。此時引入結(jié)巴分詞，這是基于人工標(biāo)注的詞性和統(tǒng)計特征，對中文進(jìn)行建模，即根據(jù)觀測到的數(shù)據(jù)（標(biāo)注好的語料）對模型參數(shù)進(jìn)行估計，即訓(xùn)練。在分詞階段再通過模型計算各種分詞出現(xiàn)的概率，將概率最大的分詞結(jié)果作為最終結(jié)果。

2.3 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元活動的過程，其中包括對信息的加工、處理、存儲、搜索等過程。本文中使用的是神經(jīng)網(wǎng)絡(luò)中的多層感知器MLP，是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)，映射一組輸入向量到一組輸出向量。MLP是感知器的推廣，克服了感知器不能對線性不可分?jǐn)?shù)據(jù)進(jìn)行識別的弱點。

3 應(yīng)用過程

3.1 數(shù)據(jù)獲取

本文的數(shù)據(jù)是使用python爬蟲技術(shù)爬取，分為兩步，第一步爬取某一用戶所有評論過的店的URL以及其評論文本，第二步進(jìn)入所有店的URL對應(yīng)的網(wǎng)頁以爬取其對應(yīng)商戶的一些信息。獲取數(shù)據(jù)共641條記錄，其中有14個字段分別為評論編號、商戶編號、商戶名稱、商戶星級、商戶位置、商戶類型、評論數(shù)、人均消費、口味評分、環(huán)境評分、服務(wù)評分、商戶UFRL，用戶評論和評論日期。

3.2 文本情感分析

本文提供了主要的算法步驟：

第一步：讀取評論數(shù)據(jù)，對評論進(jìn)行分句。

第二步：查找對分句的情感詞，記錄積極還是消極，以及位置。

第三步：往情感詞前查找程度詞，找到就停止搜尋。為程度詞設(shè)權(quán)值，乘以情感值。

第四步：往情感詞前查找否定詞，找完全否定詞，若數(shù)量為奇數(shù)，乘以一1，若為偶數(shù)，乘以I。

第五步：判斷分句結(jié)尾是否有感嘆號，有嘆號則往前尋找情感詞，有則相應(yīng)的情感值+2。

第六步：計算完一條評論所有分句的情感值，用數(shù)組（list）記錄起來。

第七步：計算并記錄所有評論的情感值。

第八步：通過分句計算每條評論的積極情感均值，消極情感均值，積極情感方差，消極情感方差。

3.3 數(shù)據(jù)清洗與整理

將數(shù)據(jù)導(dǎo)入SPSS中對其進(jìn)行數(shù)據(jù)清理。

（1）缺失值的剔除;

（2）建立新的指標(biāo)：綜合情感值一積極情感值一消極情感值;

（3）分別計算綜合情感值平均值（Al）、積極情感值平均值（A2）、消極情感值平均值（A3）、綜合情感值四分位數(shù)（A4）、積極情感值四分位數(shù)（A5）、消極情感值四分位數(shù)（A6）;

（4）構(gòu)建“是否推薦”指標(biāo)：如果每一個體值分別大于At，A2，A3，A4，A5，A6，則分別標(biāo)記推薦（值為1），否則標(biāo)記不推薦（值為0）如圖11圖2.

3.4 建立MLP模型

（1）為了減少誤差，多次使用MLP模型，求得其檢驗正確百分比，最后求得平均數(shù)。

（2）為了防止過度訓(xùn)練，對樣本進(jìn)行重新分配，總369樣本，測試樣本為10%，培訓(xùn)樣本由原來的90%縮減至70%，另外的20%分配給支持樣本。

3.5 結(jié)果分析

（1）MLP神經(jīng)網(wǎng)絡(luò)圖，模型包括I個輸入層、I個隱藏層和I個輸出層。

如表I，模型分類表，軟件默認(rèn)采用0.5作為正確和錯誤的概率分界，將2大分區(qū)樣本的正確率進(jìn)行交叉對比，顯示出預(yù)測為。，即預(yù)測為不推薦的概率（100%）高于推薦的概率，模型對向客戶推薦的能力較低，測試結(jié)果只為23.I%。

通過多次建立MLP模型，算出模型檢驗的正確概率平均值為75.3 5%，可以看出模型總體檢驗預(yù)測能力還是比較理想的。

（2）為防止過度訓(xùn)練，調(diào)整參數(shù)后得到以下結(jié)果，如表2。

測試樣本正確率為73.5%，和計算的平均值接近，說明該模型過度訓(xùn)練程度較少。

4 結(jié)論與展望

本文使用神經(jīng)網(wǎng)絡(luò)預(yù)測模型，為一個大眾點評的消費者的建立了適合他的“推薦模型”，大眾點評可以為每一個使用軟件次數(shù)頻繁的消費者建立屬于他們自己的“推薦模型”，以此來解決上述問題。

當(dāng)然不僅針對大眾點評這類餐飲型的APP，我們也可以將這種思想方法運用到很多領(lǐng)域。比如住宿類：以愛彼迎（民宿APP）為例，可以為消費者建立“推薦模型”，而不僅僅靠關(guān)聯(lián)規(guī)則等評判信息，以此來達(dá)到更加智能化的優(yōu)質(zhì)服務(wù)。

神經(jīng)網(wǎng)絡(luò)、文本挖掘、網(wǎng)絡(luò)爬蟲已經(jīng)作為現(xiàn)代商業(yè)中十分重要的工具，可以說誰掌握了數(shù)據(jù)挖掘與信息管理的能力，誰就能在市場中取得更高的份額，實現(xiàn)更高的價值。

參考文獻(xiàn)

[1]牟少霞.基于智能終端的移動電子商務(wù)商業(yè)模式研究（D）.山東師范大學(xué)，2014.

[2]程敏.大眾點評網(wǎng)的互動性對消費者食品購買意向的影響研究[D].海南大學(xué)，2017.

[3]趙卿.大眾點評統(tǒng)一菜單系統(tǒng)的設(shè)計與實現(xiàn)[D].南京大學(xué)，2016.

[4]方觀聲.美團(tuán)大眾020電子商務(wù)模式的發(fā)展研究[D].暨南大學(xué)，2016.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大眾點評網(wǎng)的智能推薦系統(tǒng)研究