張春麗 張濤
摘要:隨著各種互聯(lián)網(wǎng)金融理財產品的普及,用戶往往難以獲取可信任的投資產品,為解決這一問題,設計一種基于社交網(wǎng)絡定向推送理財產品的方法,利用用戶直接社會關系和間接社會關系來推送理財產品。當用戶之間關系不明確時,通過分析用戶所使用的移動設備或位置感知服務產生的時空數(shù)據(jù)集,基于EBM 模型來挖掘潛在的用戶社會關系,即間接社會關系?;谟脩舻闹苯由鐣P系和間接社會關系發(fā)現(xiàn)用戶可信任的其他用戶,然后利用傳統(tǒng)的基于用戶的協(xié)同過濾算法做出理財產品推送。算法分析與仿真實驗結果表明該推送方法是可行和有效的。
關鍵詞:金融理財產品;社會關系;時空數(shù)據(jù);EBM模型;協(xié)同過濾
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)30-0277-04
The Study of Financial Products Push Based on Social Relations
ZHANG Chun-li, ZHANG Tao
(Network Security Technology Research and Development Center, Third Research Institute of the Ministry of Public Security, Shanghai 200120, China)
Abstract: With the popularity of various internet financial products, the user is often difficult to obtain trusted investment products. In order to solve this problem, a method based on social network to recommend financial products is designed, which makes use of the user direct and indirect social relations to push financial products. When the relationship between the users is not clear, by analyzing spatiotemporal data sets generated by the mobile device or location based service used by users, the EBM model is applied to tap the potential social relations between users, namely indirect social relations. After that trusted users of the target user can be found based on the direct and indirect social relations. Finally, traditional user-based collaborative filtering algorithm is used to recommend financial products. Algorithm analysis and simulation results show that the push method is feasible and effective.
Key words: financial products; social relations; spatiotemporal data; EBM model; collaborative filtering
1 引言
隨著互聯(lián)網(wǎng)的快速發(fā)展和智能手機的迅速普及,我國互聯(lián)網(wǎng)金融市場作為一個潛力巨大的新興市場應運而生?;ヂ?lián)網(wǎng)金融快速的發(fā)展為互聯(lián)網(wǎng)金融理財產品[1]的生長提供豐富的土壤。2013年,阿里巴巴集團推出一款名為“余額寶”的金融理財產品,成為第一個真正意義上的互聯(lián)網(wǎng)金融理財產品。與傳統(tǒng)銀行理財產品相比,低門檻、高收益、操作簡單方便是它留給投資者的最深刻的印象。這些優(yōu)點讓互聯(lián)網(wǎng)理財產品很快成為投資者的新型理財方式。在余額寶的帶領下越來越多的互聯(lián)網(wǎng)金融理財產品如雨后春筍般成長起來。伴隨著這些投資產品的產生,消費者信任這一問題日漸突出,如何選擇低風險高回報的理財產品越來越難。在此背景下,本文提出了一種基于社交網(wǎng)絡定向推送理財產品的方法。利用用戶直接社會關系和間接社會關系來推送理財產品。當用戶之間關系不明確時,通過分析用戶所使用的移動設備或位置感知服務產生的時空數(shù)據(jù)集,基于EBM 模型來挖掘潛在的用戶社會關系,即間接社會關系。
眾所周知,微博、微信、位置感知服務LBS的普及,產生了大量有關用戶位置信息的數(shù)據(jù)集。我們可以隱式的獲取這些用戶位置信息,例如當用戶在移動設備上進行了信用卡交易活動,我們通過手機信號發(fā)射塔、GPS、WiFi熱點等可以推測出他目前所在的位置以及交易的時間等。同時,用戶位置信息也可以顯示獲取,例如當一個人發(fā)布了一篇帶有地理標簽的微博,或者在微信上傳了一張圖片。這些位置數(shù)據(jù)集,即時空數(shù)據(jù)集,保真度高,是研究用戶的社會行為,用戶間社會關系的豐富信息資源。同時社會研究表明,頻繁在同一時間出現(xiàn)在同一地點的兩個人,最有可能有一定的社會關系,比如說朋友關系、夫妻關系等。
本文通過獲取用戶的時空數(shù)據(jù)集,發(fā)現(xiàn)用戶的間接社會關系,并基于用戶的直接社會關系和間接社會關系幫助用戶發(fā)現(xiàn)可信任的其他用戶,然后利用傳統(tǒng)的基于用戶的協(xié)同過濾算法做出理財產品推送。
2 相關工作
2.1 協(xié)同過濾推薦
協(xié)同過濾的概念最早于1992年由Goldberg等人提出,用于解決電子郵件數(shù)量過載問題。直到今天,協(xié)同過濾算法依然是互聯(lián)網(wǎng)中應用最廣泛、最成功的推薦算法。目前主要有基于用戶(User-based)[2] 的協(xié)同過濾和基于商品(Item-based)[3]的協(xié)同過濾算法。
基于用戶的協(xié)同過濾算法依據(jù)“相似用戶具有相似興趣”的假設,為目標用戶選擇相似用戶集,利用這些相似用戶的已有評分對目標用戶沒有進行過評分的產品進行評分預測,具體步驟如下:
假設用戶u和用戶v購買理財產品集合分別為[Iu]、Iv,共同購買的理財產品集合為Iuv,[Ru,i]表示用戶u對理財產品i 的購買情況,[Rv,i]表示用戶v對理財產品i 的購買情況,0代表沒有購買過,1代表購買過,[Ru]和[Rv]分別表示用戶u和v對理財產品的平均購買情況。
(1) 計算用戶相似性
基于兩個用戶共同購買的理財產品計算相似性,為目標用戶選擇興趣相似度最高的N個最近鄰,最常用的測量用戶相似度的方法是皮爾遜相關系數(shù)相似度和余弦相似度。用戶u和用戶v之間的相似性通過Pearson相關系數(shù)度量[4]:
[simu,v=i∈IuvRu,i-RuRv,i-Rvi∈IuvRu,i-Ru2i∈IuvRv,i-Rv2] (1)
(2) 得到目標用戶的推薦列表。
根據(jù)N個近鄰用戶對理財產品的購買行為,計算目標用戶對目標產品的預測評分。最終將預測評分最高的若干理財產品推薦給目標用戶。常用計算方法是平均加權策略,如下:
目標用戶u 對理財產品i 的預測評分為[4]:
[Pu,i=Ru+simu,v×Rv,i- Rvsimu,v] (2)
基于商品的協(xié)同過濾算法原理和基于用戶的算法基本上是相同的,但是基于商品的協(xié)同過濾算法在計算相似性的時候是針對商品的,該種算法適用于用戶數(shù)量的增長速度大大超過商品數(shù)量的增長速度的系統(tǒng)中。通過為目標用戶的未購買過的理財產品選擇相似產品集并對其進行評分預測,算法選出最終評分最高的N個理財產品推薦給用戶。
本文中我們使用基于用戶的協(xié)同過濾算法,以用戶社會關系強度[6,7]衡量用戶相似度,使用平均加權策略預測未知評分。
2.2 用戶社會關系強度
Granovetter在他的標志性論文《The Strength of Weak Ties》[5]提出了關系強度的概念。關系強度從量化角度考察社會網(wǎng)絡用戶間的連接緊密程度。社會關系強度越高,表示用戶間的關系越緊密。因此度量和分析用戶社會網(wǎng)絡關系強度具有重要的理論和實用價值。針對當前在線社交網(wǎng)絡中用戶關系強度度量問題,陳亮[6]等認為在線社會網(wǎng)絡中用戶的交互頻率從某種程度上反映了社交網(wǎng)絡中用戶之間的關系強度,并以微博用戶為例給出了關系強度的定量化描述。具體步驟如下:
(1) 形式化定義微博用戶交互行為
微博應用存在多種用戶交互行為,如消息提醒、私信、轉發(fā)、收藏、評論、關注、點贊等,分為四種不同的屬性:直接、間接、公開、私有。
這些用戶交互行為可以形式化定義如下:
[WBu1,…,un:P] (3)
其中,WB表示微博應用情景,而P可表示多種用戶交互行為,[ u1,…,un]可代表該交互行為涉及到的不同用戶。
由此可知,不同用戶的不同交互行為可表示為[Piv1,…,vn],[Pjv1,…,vm]等形式。例如,用戶[u1]與用戶[v1]在某篇微博中存在不同的用戶交互行為[P1]與[P2],為計算用戶[u1]與用[v1]之間關系強度,可將兩者合并為同一描述形式:[WBu1,v1:P1u1?P2v1]。其中[P1]與[P2]是不同的用戶交互行為,如[P1u1]代表用戶[u1]轉發(fā)了當前的微博,[P2v1]代表用戶[v1]評論了該微博。
(2) 計算關系強度值
關系強度值計算形式化表示如下:
[suv=k=1Nkαk*f(|Su|k(v) |)] (4)
在上式中, Suv表示用戶u與用戶v之間的關系強度值,其取值范圍為(0,1),[k=1Nkαk=1]代表用戶情境空間分類及每種情境的權重,不失一般性,這里取四種關系屬性權重為[αk] = 0.25。Nk代表了屬性分類,在這里代表直接屬性、間接屬性、公開屬性和私有屬性。[Su|k(v)]表示屬于第k類屬性的交互行為的集合。f是用戶交互行為正規(guī)化函數(shù),形式化表示為:
[fx=ln(xmaxx2x)ln(xmax2x2)] (5)
其中,[x][x]表示自變量的平均值,在微博應用情景中表示用戶交互行為集合的平均值,[xmax]表示自變量的最大值,這里表示某類屬性交互行為的最大值。從上式中可以看出如果[x>x],f(x)的值接近1,反之[fx]值接近0。
關系強度值接近0表明兩者之間為弱關系,接近1表明兩者之間為強關系。在線社交網(wǎng)絡中用戶交互行為形成的關系強度反映了用戶對的興趣相似性和同質性,但并不能反映用戶對的現(xiàn)實社會關系。用戶在購買理財產品時更多地會考慮到它帶來的風險性,所以人們更愿意相信來自信任度高的朋友的推薦。所以在社交網(wǎng)絡中向用戶推送理財產品不僅要考慮用戶的興趣相似性,還要考慮用戶的真實社會關系,真實關系越親密,推送成功率越高。所以本文工作主要在于挖掘社交網(wǎng)絡中用戶的真實社會關系,并綜合用戶的興趣相似性,來推送理財產品。
3 基于社交網(wǎng)絡的理財產品推送方法
3.1 建立原始數(shù)據(jù)模型
本文使用從新浪微博中采集的6萬余名用戶信息(用戶個人賬號信息、用戶關系信息、用戶交互行為信息與用戶位置信息等),并獲取到這些用戶在2016年3月到2016年6月共三個月的理財產品購買記錄,建立原始數(shù)據(jù)模型如下:
(1) 用戶集合,即所有采集的新浪微博用戶集合,用U表示。
(2) 理財產品集合,即所有可選擇的理財產品集合,用I表示。
(3) 用戶交互行為集合,用[WBu1,…,un:P]表示。
(4) 用戶時空數(shù)據(jù)集[7],即從社交網(wǎng)絡中收集到的有關用戶位置信息的數(shù)據(jù)集,每條時空數(shù)據(jù)包括用戶ID、用戶訪問地點的經緯度值、地點ID,用L表示。
(5) 用戶社會關系矩陣,即集合U 中的用戶間的社會關系,用 F表示用戶關系矩陣,存儲用戶之間的社會關系強度。
(6) 用戶產品評分矩陣,即集合U 中用戶對集合I中理財產品的評分矩陣,使用R 表示。
3.2 用戶社會關系
(1) 直接社會關系
社交網(wǎng)絡中用戶間的直接社會關系[ sdij],表示有在線交互記錄的用戶i和用戶j的用戶相似性以及歷史交互行為情況的屬性向量,如公式4所示。
(2) 間接社會關系
社交網(wǎng)絡中用戶間的間接社會關系[ sidij],是指通過從社交網(wǎng)絡中收集用戶i和用戶j的時間位置信息挖掘用戶i和用戶j潛在的社會關系,如公式6、7、8所示。
本文中我們基于用戶位置信息計算用戶間的間接社會關系強度。EBM模型是一種時空數(shù)據(jù)集上計算社會關系強度的基于熵的模型,是用戶多樣性[7]和加權頻率[7]的有效結合。多樣性量化度量兩個用戶的所有共同出現(xiàn)中有效位置的數(shù)量,給出了實際位置的平均豐度比例。并通過引入了一個可調節(jié)的參數(shù)q靈活控制頻繁發(fā)生的巧合事件對社會關系強度的影響力。加權頻率提高了兩個用戶在不擁擠地點的共同出現(xiàn)對社會關系強度的重要性。
假設用戶社會關系強度為[ sij],用戶多樣性為[Dij],用戶加權頻率為[Fij],社會關系強度計算公式如下:
[ sij=αDij+βFij+γ ] (6)
[Dij=l,cij,l≠0cij,lfijq11-q] (7)
[Fij=lcij,l×exp u,Pu,l≠0Pu,llogPu,l ] (8)
其中α 、β 、γ 是優(yōu)化參數(shù),q是多樣性階數(shù),α 、β的經驗值[7]為(0.483,0.520),q的經驗值為0.1。[ cij,l]是用戶i和j在地點l的共同出現(xiàn)次數(shù),[fij=lcij,l]是用戶i和j在所有地點共同出現(xiàn)的總數(shù)。[Pu,l]是用戶u在地點l出現(xiàn)的概率。
基于用戶位置信息形成的社會關系強度,因為考慮了用戶的實時和歷史位置信息,更能反映用戶對在現(xiàn)實中的社會關系。
(3) 綜合社會關系
在線社交網(wǎng)絡中用戶交互行為形成的關系強度反映了用戶對的興趣相似性和同質性,并不能反映用戶對的現(xiàn)實社會關系。同時基于用戶位置信息形成的社會關系強度,因為考慮了用戶的實時和歷史位置信息,更能反映用戶對在現(xiàn)實中的社會關系。綜合考慮兩種社會關系強度,最終形成了既能反映用戶興趣相似性又能反映用戶真實信任關系的社會關系強度。給出了計算方法如下:
[ sij=γ sdij+(1-γ) sidij] (9)
其中[γ∈[0,1]],當[γ=0]時,用戶社會關系即用戶的間接社會關系,當[γ=1]時,用戶社會關系即用戶的直接社會關系,通過調節(jié)[γ]可以控制兩種社會關系的權重比例。
基于理財產品市場現(xiàn)狀,多數(shù)用戶更愿意相信來自朋友而非理財平臺的推薦信息,且交往密切的用戶信任度越高。用戶社會關系強度越高,他們交往越密切,那么他們的信任值越高。所以用戶社會關系強度在某種程度上表示用戶之間信任度。
3.3 基于用戶社會關系的理財產品推薦方法
推薦方法的基本思想是:用戶交互行為信息上計算用戶對的直接社會關系,形成直接社*會關系矩陣;時空數(shù)據(jù)集上計算用戶對的間接社會關系,形成間接社會關系矩陣;線性組合直接社會關系矩陣和間接社會關系矩陣,得到既能反映用戶對興趣相似性也能反映用戶現(xiàn)實社會關系的綜合社會關系,并根據(jù)關系緊密程度找到可信任用戶集;基于可信任用戶的理財產品評分信息,利用傳統(tǒng)的基于用戶的協(xié)同過濾算法做出理財產品推薦。
算法:基于用戶社會關系推送理財產品
輸入:用戶交互行為集[WBu1,…,un:P],用戶時空數(shù)據(jù)集L,用戶產品評分矩陣R,目標用戶[u]
輸出:向目標用戶[u]推送的理財產品集
第一步:用戶交互行為集合[WBu1,…,un:P]上根據(jù)公式3、4計算用戶對的直接社會關系強度[ tij],得到直接社會關系矩陣T;
第二步:時空數(shù)據(jù)集L上根據(jù)公式5、6、7計算用戶對的間接社會關系強度[ sij],得到間接社會關系矩陣S;
第三步:T和S線性組合得到用戶對社會關系矩陣F。
第四步:基于用戶社會關系矩陣F,利用TOP-N方法或閾值法,得到目標用戶的K個最近鄰。
第五步:平均加權策略進行評分預測,得到推送產品列表。
4 實驗
本文提出一種基于社交網(wǎng)絡推送理財產品的方法。根據(jù)用戶的在線交互行為和時空數(shù)據(jù)集,深入挖掘潛在的用戶社會關系,然后將其應用于協(xié)同過濾算法,幫助用戶發(fā)現(xiàn)其可信任的近鄰用戶,并進行用戶偏好理財產品預測。
4.1 實驗環(huán)境
實驗運行的硬件環(huán)境為Intel(R) Core? i7-4790 CPU @3.60GHz,內存8GB,操作系統(tǒng)為Windows7。開發(fā)環(huán)境為Eclipse。
4.2 評價方法
(1)準確率
準確率表示推薦給用戶的列表中他喜歡的理財產品的概率,定義為推薦列表中用戶喜歡的理財產品個數(shù)與推薦列表長度的比值,對于用戶u,推薦準確率的計算方式如下:
[P=NtpL]
其中[Ntp]表示推薦列表中的理財產品與測試集中該用戶所選過的理財產品重合的個數(shù),L表示系統(tǒng)為用戶推薦的理財產品個數(shù)(即推薦列表長度)。
P的值越高,,說明算法的推薦效果越好,而系統(tǒng)平均的推薦準確 率,既是測試集中所有用戶準確率的平均值。
(2)召回率
我們將推薦列表中用戶喜歡的理財產品個數(shù)與系統(tǒng)中用戶喜歡的所有理財產品個數(shù)的比率定義為召回率,用于表示一個用戶喜歡的理財產品被推薦的概率。對于用戶u,推薦召回率定義如下:
[R=NtpIu]
其中,[Ntp]表示推薦列表中的理財產品與測試集中用戶u選過的理財產品重合的個數(shù),[Iu]表示測試集中用戶u選過的所有理財產品的個數(shù)。
R的值越高,說明算法的推薦效果越好,而系統(tǒng)平均的推薦召回率,既是測試集中所有用戶召回率的平均值。
4.3 結果比較
為了驗證用戶間的社會關系強度對推薦結果的影響,在實驗中我們比較了基于用戶的協(xié)同過濾算法(user-based CF)、基于產品的協(xié)同過濾算法(item-based CF)和本文提出的基于用戶社會關系的推薦算法(hybrid)的推薦效果。
對于上述三種算法,我們取推薦列表長度(即系統(tǒng)推薦給目標用戶的理財產品個數(shù)為1-6,并計算算法在準確率、召回率兩個指標上的表現(xiàn)。
從圖1和2中可以看出,在準確率和召回率兩個指標上,均是基于用戶社會關系的推薦算法的效果最佳,其次是基于產品的協(xié)同過濾算法(item-based CF),再次是基于用戶的協(xié)同過濾算法(user-based CF),三種推薦算法的準確率和召回率的差異不太大。
從圖3和圖4中的結果可以看出,本文提出的基于用戶社會關系的推薦算法,當[γ=0.3]時推薦效果最佳,表示更能體現(xiàn)用戶真實社會關系的間接社會關系對理財產品推薦效果的影響較大。
5 結論
本文結合用戶社會關系研究方法提出一種基于用戶社會關系強度進行理財產品推薦的方法。該方法在推薦過程中考慮了用戶的在線交互行為信息、用戶的位置信息、用戶間的社會關系強度以及評分矩陣信息,并根據(jù)用戶關系緊密程度找到可信用戶;利用可信用戶計算目標用戶對理財產品的偏好。從實驗結果可以看出基于用戶社會關系推送理財產品有比較好的推送效果。另外,本文中的社會關系計算方法只考慮了用戶訪問某一地點的時間以及地點的擁擠程度,而忽略了用戶在某一地點的停留時間,這對用戶間的社會關系也是至關重要的。在未來的工作中,我們打算研究如何將用戶停留時間加入到社
會關系計算方法中,以便進一步改善推薦的效果。
參考文獻:
[1] 徐弦,程姣姣,符之瑜,等.不同年齡階層群體對互聯(lián)網(wǎng)理財產品的信任度研究[J].經貿實踐,2015(16).
[2] Breese J S, Heckerman D, Kadie C. Empirical Analysis of Predictive Algorithm for Collaborative Filtering[J]. 2015.
[3] GONG Songjie, YE Hongwei. Joining user clustering and item based collaborative filtering in personalized recommendation services[C]//Industrial and Information Systems, 2009. IIS'09. International Conference on. IEEE, 2009: 149-151.
[4] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計算機系統(tǒng), 2009 ,30 (7): 1282-1288.
[5] Granovetter M. The strength of weak ties[J]. American journal of sociology, 1973: 1360-1380
[6] 陳亮,朱培棟,陳侃.基于在線交互行為的社會關系強度計算方法[EB/OL].北京:中國科技論文在線 [2016-06-12].http://www.paper.edu.cn/releasepaper/content/201606-577.
[7] Pham H, Shahabi C,Liu Y, Ebm- an entropy-based model to infer social strength from spatiotemporal data, Proceedings of the 2013 international conference on Management of data. ACM, 2013: 265-276.
[8] 張佩云, 黃波, 謝榮見,等. 一種基于社會網(wǎng)絡信任關系的服務推薦方法[J].小型微型計算機系統(tǒng), 2014, 35(2):222-227.
[9] 王玉祥, 喬秀全, 李曉峰,等. 上下文感知的移動社交網(wǎng)絡服務選擇機制研究[J].計算機學報,2010, 33(11):2126-2135.