国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種新的基于用戶交易記錄的個(gè)性化搜索方法

2016-01-05 15:27許凱柳先輝
電腦知識與技術(shù) 2015年31期

許凱 柳先輝

摘要:本文針對B2B領(lǐng)域的用戶搜索排序提出了一種新的方法,實(shí)現(xiàn)基于用戶交易記錄的個(gè)性化搜索排序。利用用戶歷史交易記錄構(gòu)建交易有向圖,根據(jù)有向圖構(gòu)建轉(zhuǎn)移矩陣,利用Pagerank1網(wǎng)頁重要度傳遞思想計(jì)算商戶的可信度。用戶的搜索根據(jù)模糊匹配得到初步結(jié)果,根據(jù)商戶可信度與用戶偏好進(jìn)行排序,即可得到搜索結(jié)果。另外對轉(zhuǎn)移矩陣增加了回饋系數(shù)和修正系數(shù),可以有效地防止B2B商家為了高信用度而進(jìn)行相互刷單交易行為。

關(guān)鍵詞:商戶可信度;搜索排序;轉(zhuǎn)移矩陣;個(gè)性化搜索

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)31-0156-04

A New Kind of Personalized Search Method Based on User Transaction Records

XU Kai, LIU Xian-hui

(Research Center of CAD, Tongji University, Shanghai 201804,China)

Abstract: In this paper, we proposed a new method which is used in B2B search results ranking. We could implement personalized search results ranking based on the user transaction records. We using user transaction records to build trading directed graph, building transfer matrix based on trading directed graph, and calculating the credibility of users by using the thought of Pagerank1. We could get preliminary search results according to the keywords matching,

And we ranking the results one the basis of the credibility of users and the users preference. In addition we add Feedback coefficient and the correction coefficient into transfer matrix, which could effectively prevent the behavior that doing malicious trades to get high credibility.

Key words: user credibility; search ranking; transfer matrix; personalized search

1概述

互聯(lián)網(wǎng)的發(fā)明將人類帶入了信息化社會,對個(gè)人生活方式、企業(yè)的經(jīng)營模式都產(chǎn)生了深刻的影響?;ヂ?lián)網(wǎng)漸漸深入我們生活中的每一個(gè)環(huán)節(jié),使得電子商務(wù)得到了迅猛發(fā)展,給傳統(tǒng)的企業(yè)銷售模式、個(gè)人購物方式帶來了深刻影響。2015年阿里巴巴、京東的成功上市讓我們看到了電子商務(wù)的巨大潛力。對個(gè)人來說,電子商務(wù)讓我們的生活更加便捷,選購商品的時(shí)候有了更多的選擇。對企業(yè)而言,電子商務(wù)直接變革了多數(shù)企業(yè)的運(yùn)營模式。B2B平臺讓企業(yè)可以更大范圍的尋找合作伙伴,B2C平臺讓企業(yè)可以直接向消費(fèi)者銷售商品。但是現(xiàn)有的電子商務(wù)的技術(shù)水平以及電商運(yùn)營模式,制約了電子商務(wù)的進(jìn)一步快速發(fā)展。電子商務(wù)的進(jìn)一步發(fā)展對電商提出了更多的新的要求,例如商品的質(zhì)量、售后,以及配送的及時(shí)性等等。其中,最為突出的問題在于商品的選購、合作商家的選定。

在B2B平臺中,公司在尋找合作伙伴的時(shí)候會有很多候選公司,但是這些候選公司的公司資產(chǎn)情況參差不齊,另外由于電子商務(wù)的虛擬性,候選公司的產(chǎn)品質(zhì)量也沒辦法直觀的定性評測,候選公司的實(shí)際生產(chǎn)能力也需要進(jìn)一步人工核實(shí)。因此在B2B平臺中,用戶很希望有一種推薦系統(tǒng),或者一種類似企業(yè)可信度的一種量化指標(biāo),使得商戶在搜索合作伙伴的時(shí)候優(yōu)先考量信用度高的公司,這樣就可以極大提高B2B平臺用戶的使用效率。

2算法背景介紹

本文提出本的算法是為了解決現(xiàn)實(shí)工程中實(shí)際的問題,由于B2B領(lǐng)域搜索問題一直鮮有人研究,先行多數(shù)B2B平臺的搜索主要分為兩種2。第一種站外搜索:B2B平臺允許第三方搜索引擎(如百度,谷歌)獲取其產(chǎn)品數(shù)據(jù),用戶可以通過第三方搜索引擎進(jìn)入對應(yīng)的產(chǎn)品頁面;第二種主要是站內(nèi)搜索,現(xiàn)行多數(shù)B2B平臺只是進(jìn)行關(guān)鍵字模糊匹配,然后按照交易額度、好評度等幾個(gè)維度進(jìn)行簡單排序。

在我們的工程中,為了解決在現(xiàn)行眾多中小企業(yè)中存在的企業(yè)間多為小范圍內(nèi)合作,總體生產(chǎn)效率不高問題,我們構(gòu)建一個(gè)B2B平臺,提供商務(wù)以及產(chǎn)品交易,使得眾多制造業(yè)企業(yè)可以在該平臺下搜索尋找自己的合作伙伴,充分發(fā)揮制造業(yè)企業(yè)集群的優(yōu)勢,促進(jìn)區(qū)域合作,實(shí)現(xiàn)雙贏。我們平臺用戶使用搜索引擎來搜尋合作伙伴公司,然后進(jìn)行合作協(xié)商。這要求平臺的搜索具有如下功能:

1) 優(yōu)先推薦可信度高的企業(yè);

2) 優(yōu)先推薦曾經(jīng)有合作的商家;

3) 性能高,在小型服務(wù)器上可以滿足萬次每秒的搜索。

為了滿足以上要求,本文在這里提出一種新的基于用戶歷史交易信息搜索模型。該模型以商戶的可信度為基準(zhǔn)來衡量商家的可信度,并通過對不同商家的可信度進(jìn)行調(diào)整來實(shí)現(xiàn)個(gè)性化搜索。下文將介紹本搜索模型,以及可信度算法的具體實(shí)現(xiàn)。

3 基于歷史交易記錄的搜索

3.1搜索模型

圖1 搜索模型

本文所提出的搜索模型如圖1所示。具體的搜索過程為:

1)服務(wù)器接收到A用戶的搜索請求,返回所有基于搜索關(guān)鍵字模糊匹配商家集合Raw_results。

2)服務(wù)器從商戶可信度數(shù)據(jù)庫中檢索所有Raw_results中的商戶可信度分?jǐn)?shù),并返回含有每個(gè)商戶可信度信息的商家集合Raw_results_with_marks。

3)服務(wù)器讀取A用戶的歷史交易信息,以及A用戶的偏好信息,對Raw_results_with_marks中的各個(gè)商家的可信度進(jìn)行調(diào)整排序返回最終商家搜索集合Final_results。

4)服務(wù)器根據(jù)Final_results中的排名信息,生成動(dòng)態(tài)網(wǎng)頁搜索結(jié)果,呈現(xiàn)給A用戶。

綜上所述,在上述搜索模型中,核心就是商戶可信度數(shù)據(jù)庫的建立。

3.2 建立商戶可信度排名數(shù)據(jù)庫

3.2.1商戶可信度的定義以及算法主要思想

商戶可信度,顧名思義表明該商戶在本平臺上的一個(gè)可信賴度。該信賴度的計(jì)算應(yīng)該是一個(gè)動(dòng)態(tài)過程;即隨著商戶交易總額度提升而提升(獎(jiǎng)勵(lì)),隨著商戶的退貨量總量的增加而降低(懲罰)。

為了給每一個(gè)商家用戶賦予一個(gè)可信度,我們根據(jù)歷史交易數(shù)據(jù)為每一個(gè)電子商務(wù)平臺商戶計(jì)算其可信度。該算法總體思想如下:

一個(gè)可信度高的商家A購買商家B的服務(wù),并且A給予B好評,那么商家B應(yīng)該從A那里獲得較高的可信度獎(jiǎng)勵(lì),那么商家B的可信度會大幅度增加。

在電商平臺上眾多普通可信度商家都購買B商家提供的服務(wù),并且給予好評,那么商家B應(yīng)該獲得較多的可信度獎(jiǎng)勵(lì),商家B的可信度也會大幅度增加。

1) 一個(gè)可信度高的商家A購買商家C的服務(wù),并且A給予C差評,那么商家C的可信度就會大幅度降低。

2) 眾多小商家購買商家C的服務(wù),并且給予C差評,那么商家C的可信度也會大幅度降低。

為計(jì)算所有商戶的可信度,我們首先要獲取一定時(shí)間間隔內(nèi)的平臺所有商戶的交易信息。為了簡化模型降低復(fù)雜度,我們采取分別計(jì)算每位商戶的好評可信度、中評可信度、差評可信度,然后經(jīng)過加權(quán)平均即可得到平臺每位商戶綜合可信度。

3.2.2 商戶可信度的計(jì)算

3.2.2.1 交易記錄的分組

讀取歷史交易記錄,以每一條交易記錄為一次交易行為。

交易記錄應(yīng)該包括交易雙方ID,交易雙方的相互評論情況。

首先我們讀取所有用戶的交易記錄,按照好中差評論分為3組,然后依次計(jì)算每個(gè)分組下的商戶可信度。

3.2.2.2 轉(zhuǎn)移矩陣構(gòu)建

在上個(gè)章節(jié),我們定義了可信度的計(jì)算方法,這里我們給出具體實(shí)現(xiàn)。

首先根據(jù)交易記錄我們可以畫出有向圖如圖2所示.

圖 2 一個(gè)簡單的有向圖

通過上圖我們可以看出可信度的轉(zhuǎn)移過程,由于甲方購買乙方的服務(wù),那么交易完成后甲方的可信度就會按照一定的權(quán)重轉(zhuǎn)移給乙方。而轉(zhuǎn)移矩陣就是可信度的轉(zhuǎn)移權(quán)重的向量組。定義R為A商家可信度,T(i)為所有交易記錄中購買過A商家服務(wù)的合作商家其總數(shù)量為設(shè)為N,B(u)為對應(yīng)T(i)中的每個(gè)商家購買A商家服務(wù)的資金占其自身總交易量的一個(gè)權(quán)重。那么可信度的一個(gè)簡單的模型如下所示:

但是在電子商務(wù)平臺中,這種簡單的可信度計(jì)算遠(yuǎn)不能達(dá)到實(shí)用要求,原因主要在于:

1) 有些商家自身不提供服務(wù),在平臺一直是扮演消費(fèi)者角色,這樣他自身的可信度不會有任何提高

2) 如有商家惡意刷單,會導(dǎo)致可信度排名異常高

基于以上要求,我們采用以下方法計(jì)算可信度的轉(zhuǎn)移

1) 增加買家回饋系數(shù)α,回饋系數(shù)是商家A購買了商家B的產(chǎn)品服務(wù),那么系統(tǒng)可以根據(jù)商家B的可信度,適量的增加商家A的可信度。這樣平臺老商家用戶即使不出售產(chǎn)品服務(wù),也可以獲得適當(dāng)可信度的提升。如圖3所示,在更新完B C 商家的可信度后,還要更新A商家的可信度。

2) 增加權(quán)值修正系數(shù)β,權(quán)值修正系數(shù)主要是為了防范可信度富集累效應(yīng),因?yàn)槿缛粢粋€(gè)可信度比較高的商家C,只購買過商家D的產(chǎn)品服務(wù),按照之前的可信度計(jì)算方法,C的可信度會被近乎100%傳遞給D,這樣容易導(dǎo)致D的可信度過高。另外修正系數(shù)可以防止幾個(gè)用戶之間的惡意刷單行為,這些惡意用戶之間的交易有向圖為孤立的連通環(huán),增加修正系數(shù)后可以打破這種孤立的連通環(huán),其思想方法與Page Lawrence 解決Rank Sink4的問題一致。另外增加權(quán)值修正可以極大的方便我們的可信度的計(jì)算實(shí)現(xiàn)。

那么定義R為A商家可信度,重定義E(i)為平臺所有商家其總數(shù)量為設(shè)為N,B(u)為對應(yīng)T(i)中的每個(gè)商家購買A商家服務(wù)的資金占其自身總交易量的一個(gè)權(quán)重,那么B(u)是一個(gè)總和為1的N*1的向量。E是一個(gè)N*1單位向量。

圖3 增加反饋系數(shù)的連通圖

3.2.2.3 平臺可信度的計(jì)算讀取好評交易記錄 ,構(gòu)建可信度向量A 。

A為1*N維向量,N為平臺總用戶量,給平臺每位用戶都分配唯一向量下標(biāo)n。我們可以根據(jù)下標(biāo)來獲取特定用戶的可信度向量。初始值全部為1。構(gòu)建交易狀態(tài)轉(zhuǎn)移矩陣B ,B為N*N矩陣 初始值0。代表B的第i行,第j列的數(shù)字,讀取所有好評交易記錄,假設(shè)如果a商家購買b商家服務(wù),購買金額為m元,則

對B每一行進(jìn)行歸一化以及利用權(quán)值修正系數(shù)β修正矩陣,

代表B矩陣的第i行

迭代收斂使得;我們可以使用下列方法增快迭代速度5:

算法:計(jì)算好評可信度

s0為N*1維向量,初始值全為1

σ=0.1

Loop:

While:

對于一個(gè)中等B2B商務(wù)平臺,大概是百萬級用戶,通常迭代30次就可以收斂,計(jì)算復(fù)雜度憑借現(xiàn)代PC機(jī)性能,很快就可以計(jì)算得出結(jié)果。

得到好評可信度A0,我們再次分別建立轉(zhuǎn)移矩陣B1、B2按照上述步驟以好評可信度A0為初始向量,迭代相乘直至收斂得到基于中評可信度A1向量,基于差評記錄的可信度A2向量。至此,我們得到了分別基于交易記錄中好中差評論的可信度A0,A1,A2 三個(gè)可信度向量。下一步為了整合所有可信度排名信息,在這里提出懲罰參數(shù)γ,因?yàn)楂@得中差評的商家,可信度會有所降低。因此平臺可信度可以用以下公式獲得:

[A=A0A1A2*γ0γ1γ2]

3.2.3 基于用戶交易記錄的搜索算法

可信度數(shù)據(jù)庫構(gòu)建完成后,為了實(shí)現(xiàn)針對特定用戶推薦其感興趣的商家,在得到模糊匹配商家集合后我們要對其可信度進(jìn)行修正,優(yōu)先推薦與用戶交易過的商家,以及用戶收藏過的商家。在這里使用用戶偏好系數(shù)[l]來修正可信度。用戶偏好系數(shù)是對一次模糊搜索結(jié)果所得到商家可信度的一個(gè)修正。對每一個(gè)用戶,掃描其交易記錄以及收藏夾,生成一個(gè)各自的偏好系數(shù)向量。對交易過、收藏過的商家用戶偏好系數(shù)設(shè)置為一個(gè)大于1的常數(shù)。這樣搜索結(jié)果最終的可信度可以表示為: ,最終對其按照可信度進(jìn)行排名后,即可返回商家搜索結(jié)果。

4 搜索結(jié)果分析

本小節(jié)將展示基于本文提出的方法,對所得的基于可信度的商家排序結(jié)果與現(xiàn)行B2B搜索排序中流行的基于好評度、總交易量等所得到的商家排序結(jié)果對比。

4.1驗(yàn)證數(shù)據(jù)庫的選取

由于現(xiàn)行的B2B平臺例如阿里巴巴、中國制造網(wǎng)等不對外提供交易數(shù)據(jù),所以我們使用自行生成的B2B交易單來驗(yàn)證我們的算法。

我們模擬B2B商家的交易行為,我們選取500名商家作為模擬樣本總數(shù)。交易量主要集中在前100名左右,評分好中差評論數(shù)量比例接近10:2:1。

交易記錄生成主要格式

買家ID 賣家ID 交易金額 評分(1-3)

0001 0002 100 1

0002 0011 89 3

4.2結(jié)果對比

交易記錄的各方面信息

圖4 原始數(shù)據(jù)特性

現(xiàn)有的排序指標(biāo):交易總量、好評率、交易總額等都無法全面反映該商家的一個(gè)綜合信息,如圖4所示。

基于上述文中提出的算法,我們計(jì)算該平臺的可信度選取α=0.1 β=0.9 計(jì)算后得:

圖5 商戶可信度分布

結(jié)果分析:

由圖5的點(diǎn)集分布我們可以看出,傳統(tǒng)的基于商戶交易量的排序方法呈現(xiàn)的結(jié)果中,對一些進(jìn)入平臺比較晚,交易量不算高,但是品質(zhì)比較優(yōu)秀的商家得分并不高。而傳統(tǒng)的好評率的排名情況不僅容易滋生惡意差評利益鏈,而且不能防止商家惡意刷單導(dǎo)致排名靠前。

基于交易記錄的可信度排名情況著實(shí)提供了一個(gè)綜合考量商家各項(xiàng)交易指標(biāo)后,得出的一個(gè)中肯的排名次序。從上圖中可以看出雖然ID 在100-200的商家交易量比較高但是由于差評比較多,所以可信度比較低,在200-250范圍內(nèi)的商家由于頻繁小范圍內(nèi)相互交易,其最終可信度也沒有明顯的提升。而交易量比較小的商家(ID>300)則獲得了中等的排名。

5 總結(jié)

搜索引擎作為互聯(lián)網(wǎng)的第一入口,其重要性已毋庸置疑。電子商務(wù)平臺中的搜索引擎更為重要,搜索結(jié)果排序幾乎直接決定了交易對象的選取。傳統(tǒng)電子商務(wù)網(wǎng)站一般提供按照好評率、總交易量的排名功能,這種排序結(jié)果依據(jù)過于片面,不能很好反應(yīng)商家的整體信息。本文提出一種基于用戶交易記錄搜素排序算法,綜合考慮用戶的交易量,交易好評度,商戶的交易行為等信息,為搜索結(jié)果排序提供一個(gè)綜合依據(jù)參數(shù)。另外,本文在可信度基礎(chǔ)上提出基于用戶自身交易行為,以及用戶收藏記錄的個(gè)性化搜索算法,為每一位平臺用戶提供最合適搜索結(jié)果展示。

參考文獻(xiàn):

[1] 琚潔慧. 中文搜索引擎中的 PageRank 算法及實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2007,28(7):1632-1635.

[2] 王非. 中文電子商務(wù)搜索引擎有效性比較[J]. 情報(bào)雜志,2008,27(4):128-129.

[3] 黃德才,戚華春. PageRank 算法研究[J]. 計(jì)算機(jī)工程,2006,32(4):145-146.

[4] Page L,Brin S,Motwani R,et al. The PageRank citation ranking: bringing order to the Web. 1999.

[5] Haveliwala T H. In Topic-sensitive pagerank, Proceedings of the 11th international conference on World Wide Web, ACM: 2002:517-526.