国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大眾點評網(wǎng)的智能推薦系統(tǒng)研究

2018-02-28 02:31:28龐正揚趙媛
電子技術(shù)與軟件工程 2018年20期
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲文本挖掘神經(jīng)網(wǎng)絡(luò)

龐正揚 趙媛

摘要

梳理現(xiàn)有智能推薦系統(tǒng)文獻(xiàn)研究,對大眾點評網(wǎng)某個用戶五年(2012-2017)的評論數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)爬取、量化影響該用戶選擇餐廳的主要因素,利用Python進(jìn)行文本情感分析、神經(jīng)網(wǎng)絡(luò)建模,并針對數(shù)據(jù)處理結(jié)果進(jìn)行分析,揭示該用戶的飲食偏好,從而決定是否給用戶推薦未來可能出現(xiàn)在用戶選擇中的餐廳。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲 文本挖掘 神經(jīng)網(wǎng)絡(luò) 智能推薦

1 問題背景

互聯(lián)網(wǎng)時代給傳統(tǒng)商務(wù)系統(tǒng)帶來了前所未有的沖擊,用戶能夠快速獲得物品相關(guān)信息的能力使用戶在現(xiàn)代商務(wù)系統(tǒng)中占據(jù)主導(dǎo)地位。新時代下的商務(wù)系統(tǒng)必須能夠更快地發(fā)現(xiàn)用戶需求的變化趨勢,這一需求大大促進(jìn)了智能推薦系統(tǒng)的快速發(fā)展。智能推薦系統(tǒng)并非局限于一種營銷策略——僅用于幫助用戶了解商品以促進(jìn)商務(wù)流動,它也同時作為改進(jìn)銷售策略的工具,保證系統(tǒng)的自動化、智能化,通過其學(xué)習(xí)的普適性加強(qiáng)用戶與系統(tǒng)的互動與粘性。

而大眾點評網(wǎng)經(jīng)過近15年的發(fā)展,已經(jīng)成為了中國領(lǐng)先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站,積累了大量的用戶與相關(guān)反饋,適合引入智能推薦系統(tǒng)拓寬其經(jīng)營范圍。這樣系統(tǒng)就可根據(jù)顧客本人的喜好、歷史訪問留下的信息等完成網(wǎng)上瀏覽、購買的過程,提供的是個性化的服務(wù),這也是未來網(wǎng)上服務(wù)發(fā)展的趨勢。

本文考慮到大眾點評網(wǎng)的商務(wù)推薦功能需求,實現(xiàn)了一個商務(wù)評分推薦系統(tǒng)的初步試點,通過對某用戶五年的評論分析求得智能推薦的可行性與準(zhǔn)確度,測試了所有已支持推薦算法的性能。

2 相關(guān)理論

2.1 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲(Web Crawler),又稱為網(wǎng)絡(luò)蜘蛛(Web Spider)或Web信息采集器,是一個自動下載網(wǎng)頁HTML并按一定規(guī)則提取信息的計算機(jī)程序或自動化腳本,是搜索引擎的重要組成部分。本文中所使用到的網(wǎng)絡(luò)爬蟲主要包括URL管理器、HTML下載器、HTML解析器和主程序4個部分組成,其中URL管理器用來存儲待爬取和已爬取的切U,HTML下載器向服務(wù)器發(fā)送請求以獲取網(wǎng)頁的HTML,HTML解析器運用BeautifulSoup進(jìn)行網(wǎng)頁的結(jié)構(gòu)化解析以獲取網(wǎng)頁中的數(shù)據(jù)和URL并存儲到MySQL數(shù)據(jù)庫中。

2.2 文本情感分析

文本情感分析簡單來講就是分析一句話說得是很主觀還是客觀描述,分析這句話表達(dá)的是積極的情緒還是消極的情緒。在進(jìn)行中文文本情感分析的過程中,由于詞與詞中間沒有像英文句子一樣的間隔,因此需要根據(jù)大量的語料庫進(jìn)行分詞訓(xùn)練。此時引入結(jié)巴分詞,這是基于人工標(biāo)注的詞性和統(tǒng)計特征,對中文進(jìn)行建模,即根據(jù)觀測到的數(shù)據(jù)(標(biāo)注好的語料)對模型參數(shù)進(jìn)行估計,即訓(xùn)練。在分詞階段再通過模型計算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。

2.3 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元活動的過程,其中包括對信息的加工、處理、存儲、搜索等過程。本文中使用的是神經(jīng)網(wǎng)絡(luò)中的多層感知器MLP,是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量。MLP是感知器的推廣,克服了感知器不能對線性不可分?jǐn)?shù)據(jù)進(jìn)行識別的弱點。

3 應(yīng)用過程

3.1 數(shù)據(jù)獲取

本文的數(shù)據(jù)是使用python爬蟲技術(shù)爬取,分為兩步,第一步爬取某一用戶所有評論過的店的URL以及其評論文本,第二步進(jìn)入所有店的URL對應(yīng)的網(wǎng)頁以爬取其對應(yīng)商戶的一些信息。獲取數(shù)據(jù)共641條記錄,其中有14個字段分別為評論編號、商戶編號、商戶名稱、商戶星級、商戶位置、商戶類型、評論數(shù)、人均消費、口味評分、環(huán)境評分、服務(wù)評分、商戶UFRL,用戶評論和評論日期。

3.2 文本情感分析

本文提供了主要的算法步驟:

第一步:讀取評論數(shù)據(jù),對評論進(jìn)行分句。

第二步:查找對分句的情感詞,記錄積極還是消極,以及位置。

第三步:往情感詞前查找程度詞,找到就停止搜尋。為程度詞設(shè)權(quán)值,乘以情感值。

第四步:往情感詞前查找否定詞,找完全否定詞,若數(shù)量為奇數(shù),乘以一1,若為偶數(shù),乘以I。

第五步:判斷分句結(jié)尾是否有感嘆號,有嘆號則往前尋找情感詞,有則相應(yīng)的情感值+2。

第六步:計算完一條評論所有分句的情感值,用數(shù)組(list)記錄起來。

第七步:計算并記錄所有評論的情感值。

第八步:通過分句計算每條評論的積極情感均值,消極情感均值,積極情感方差,消極情感方差。

3.3 數(shù)據(jù)清洗與整理

將數(shù)據(jù)導(dǎo)入SPSS中對其進(jìn)行數(shù)據(jù)清理。

(1)缺失值的剔除;

(2)建立新的指標(biāo):綜合情感值一積極情感值一消極情感值;

(3)分別計算綜合情感值平均值(Al)、積極情感值平均值(A2)、消極情感值平均值(A3)、綜合情感值四分位數(shù)(A4)、積極情感值四分位數(shù)(A5)、消極情感值四分位數(shù)(A6);

(4)構(gòu)建“是否推薦”指標(biāo):如果每一個體值分別大于At,A2,A3,A4,A5,A6,則分別標(biāo)記推薦(值為1),否則標(biāo)記不推薦(值為0)如圖11圖2.

3.4 建立MLP模型

(1)為了減少誤差,多次使用MLP模型,求得其檢驗正確百分比,最后求得平均數(shù)。

(2)為了防止過度訓(xùn)練,對樣本進(jìn)行重新分配,總369樣本,測試樣本為10%,培訓(xùn)樣本由原來的90%縮減至70%,另外的20%分配給支持樣本。

3.5 結(jié)果分析

(1)MLP神經(jīng)網(wǎng)絡(luò)圖,模型包括I個輸入層、I個隱藏層和I個輸出層。

如表I,模型分類表,軟件默認(rèn)采用0.5作為正確和錯誤的概率分界,將2大分區(qū)樣本的正確率進(jìn)行交叉對比,顯示出預(yù)測為。,即預(yù)測為不推薦的概率(100%)高于推薦的概率,模型對向客戶推薦的能力較低,測試結(jié)果只為23.I%。

通過多次建立MLP模型,算出模型檢驗的正確概率平均值為75.3 5%,可以看出模型總體檢驗預(yù)測能力還是比較理想的。

(2)為防止過度訓(xùn)練,調(diào)整參數(shù)后得到以下結(jié)果,如表2。

測試樣本正確率為73.5%,和計算的平均值接近,說明該模型過度訓(xùn)練程度較少。

4 結(jié)論與展望

本文使用神經(jīng)網(wǎng)絡(luò)預(yù)測模型,為一個大眾點評的消費者的建立了適合他的“推薦模型”,大眾點評可以為每一個使用軟件次數(shù)頻繁的消費者建立屬于他們自己的“推薦模型”,以此來解決上述問題。

當(dāng)然不僅針對大眾點評這類餐飲型的APP,我們也可以將這種思想方法運用到很多領(lǐng)域。比如住宿類:以愛彼迎(民宿APP)為例,可以為消費者建立“推薦模型”,而不僅僅靠關(guān)聯(lián)規(guī)則等評判信息,以此來達(dá)到更加智能化的優(yōu)質(zhì)服務(wù)。

神經(jīng)網(wǎng)絡(luò)、文本挖掘、網(wǎng)絡(luò)爬蟲已經(jīng)作為現(xiàn)代商業(yè)中十分重要的工具,可以說誰掌握了數(shù)據(jù)挖掘與信息管理的能力,誰就能在市場中取得更高的份額,實現(xiàn)更高的價值。

參考文獻(xiàn)

[1]牟少霞.基于智能終端的移動電子商務(wù)商業(yè)模式研究(D).山東師范大學(xué),2014.

[2]程敏.大眾點評網(wǎng)的互動性對消費者食品購買意向的影響研究[D].海南大學(xué),2017.

[3]趙卿.大眾點評統(tǒng)一菜單系統(tǒng)的設(shè)計與實現(xiàn)[D].南京大學(xué),2016.

[4]方觀聲.美團(tuán)大眾020電子商務(wù)模式的發(fā)展研究[D].暨南大學(xué),2016.

猜你喜歡
網(wǎng)絡(luò)爬蟲文本挖掘神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
中國市場(2016年23期)2016-07-05 04:35:08
慧眼識璞玉,妙手煉渾金
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
松桃| 玉山县| 汤阴县| 贵港市| 花莲市| 桃源县| 河西区| 大田县| 五华县| 永寿县| 运城市| 平潭县| 兰考县| 大城县| 临西县| 图木舒克市| 新沂市| 抚远县| 彩票| 江孜县| 钟祥市| 福安市| 杭州市| 河北区| 博罗县| 突泉县| 江北区| 抚顺市| 大方县| 新郑市| 枣阳市| 陕西省| 义乌市| 古丈县| 海原县| 孟津县| 钦州市| 松滋市| 垦利县| 明溪县| 大港区|