薛井紅
[摘 要]隨著在線眾籌的快速發(fā)展,用戶從海量的眾籌項目中搜尋感興趣的項目信息越發(fā)困難。本文提出了基于文本挖掘的在線眾籌項目推薦方法:首先,利用LDA主題模型挖掘眾籌項目的隱主題;其次,基于隱主題構建眾籌項目間的關聯(lián)網(wǎng)絡;最后,對相關眾籌項目進行推薦。基于京東眾籌數(shù)據(jù)的實驗表明,基于文本挖掘的在線眾籌項目推薦方法能夠對眾籌項目進行有效推薦。
[關鍵詞]在線眾籌;文本挖掘;項目推薦;關聯(lián)網(wǎng)絡
doi:10.3969/j.issn.1673 - 0194.2020.10.069
[中圖分類號]F724.6;F832.4 [文獻標識碼]A [文章編號]1673-0194(2020)10-0-02
0? ? ?引 言
在線眾籌平臺的快速發(fā)展雖然為企業(yè)籌措資金、推廣產(chǎn)品提供了有效渠道,但是,隨著平臺上眾籌項目越來越多,消費者從海量的眾籌項目中搜尋感興趣的項目信息越發(fā)困難。因此,如何幫助用戶從眾多的眾籌項目中找到感興趣的項目、如何幫助眾籌項目準確定位目標用戶是項目眾籌成功的關鍵,也是眾籌平臺關心的重要問題。研究者對在線眾籌中的用戶行為機制、眾籌項目成功率預測方法和個性化推薦等問題進行了廣泛研究,但是眾籌項目的文本描述等信息在現(xiàn)有研究中應用不足。對眾籌項目的描述文本進行深入分析,構建眾籌項目的個性化推薦方法,可以有效利用項目之間的內(nèi)在關聯(lián),提高眾籌項目的推薦精度。本文從京東眾籌平臺下載了7 334個眾籌項目的描述文本,在此基礎上進行實驗驗證。本文實驗表明,所提方法可以對項目的關聯(lián)關系進行有效分析,有效提高眾籌項目的推薦準確性。
1? ? ?眾籌項目推薦模型構建
1.1? ?基于LDA的眾籌項目隱主題建模
假設是眾籌項目描述的語料集合,是項目m對應的描述詞集合,其中M是眾籌項目的數(shù)量。設V是預先給定的隱主題數(shù)量,V是語料中不重復的詞的數(shù)量,Nm是項目m的描述中詞的數(shù)量。用Wm,n來標記項目m的描述中的第n個詞,用Zm,n標記該詞所屬的主題。為了估計文檔-主題分布和主題-詞分布,需要計算聯(lián)合分布。
其中,語料中每個詞的生成概率和可以分別計算如下。
其中,Γ(x)是伽馬函數(shù)。因此,我們可以得到聯(lián)合分布的計算公式如下。
基于聯(lián)合分布和Dirichlet-Multinomial共軛分布,我們可以得到θ和Φ的計算公式如下。
其中,表示項目m的描述文檔中所有詞的主題分布。基于Dirichlet期望計算方法,可以得到眾籌項目描述的主題-詞分布和文檔-主題分布如下。
基于φk,v,可以得到所有眾籌項目描述的主題分布,對深入了解眾籌項目的內(nèi)容和類型起到?jīng)Q策支持作用。θm,k有助于分析每個眾籌項目所屬的眾籌主題,對分析項目之間的關聯(lián)關系、準確推薦眾籌項目具有決策支持作用。
1.2? ?基于隱主題分布的眾籌項目關聯(lián)分析與推薦
假設眾籌項目的關系網(wǎng)絡用G=(D,E,W)表示,其中D表示眾籌項目,E表示邊的集合,即項目之間的關聯(lián)關系集合,W表示項目兩兩之間的關聯(lián)程度。為了構造項目關系網(wǎng)絡G,本文假設兩個眾籌項目i和j屬于同一主題,則他們之間存在一條連邊,同時屬于的主題數(shù)越多,連邊的權重Wij則越大,即Wij等于項目i和j同時屬于的主題數(shù)量。由于主題模型中每個項目幾乎在所有主題上都有概率分布,而大量主題上的概率值極小。因此,針對每個項目,本文只取概率值最大的5個主題,并以此為基礎構建眾籌項目的關系網(wǎng)絡G。
基于眾籌項目的關系網(wǎng)絡G,本文構建的眾籌項目推薦策略如下。①針對新用戶,本文利用結點介數(shù)(node betweenness)對眾籌項目在關聯(lián)網(wǎng)絡中的重要性和流行性進行排序,推薦項目集合中最重要和最流行的項目。項目i的介數(shù)定義為:。其中,njk表示從項目j到項目k的最短路徑數(shù),而nijk表示njk條最短路徑中經(jīng)過項目i的路徑數(shù)。②如果用戶搜索或點擊了某一眾籌項目i,本文推薦與該項目相連的T個項目。即從與項目i相連的所有項目j中,找出Wij最大的前T個項目,推薦給該用戶。當與項目i直接相連的項目數(shù)量少于T時,本文采取k核方法對相關項目進行選擇。
2? ? ?實驗驗證
2.1? ?眾籌項目主題發(fā)現(xiàn)
在本文實驗中,文檔主題數(shù)量設置為50,利用基于LDA的眾籌主題建模,可以得到眾籌項目的隱含特征。例如,眾籌項目與眼睛保護相關,特征詞包括“眼鏡”“眼睛”“藍光”“時尚”等;與室內(nèi)空氣健康有關,特征詞包括“空氣”“凈化”“加濕”“霾”等;與智能硬件相關,特征詞包括“產(chǎn)品”“智能”“科技”“市場”等。
2.2? ?眾籌項目關聯(lián)分析
表1給出了“你家里能有晴空萬里么”和“穿在身上的低音炮SubPac”兩個目標眾籌項目的關聯(lián)項目??梢钥闯?,“你家里能有晴空萬里么”產(chǎn)品的關聯(lián)項目均與空氣凈化、室內(nèi)健康等主題相關聯(lián);“穿在身上的低音炮SubPac”產(chǎn)品的關聯(lián)項目均與智能家居、新奇設計等主題相關。表1表明,所提方法可以對項目的關聯(lián)關系進行有效度量。
2.3? ?推薦精度對比試驗
本文邀請50名志愿者參與推薦精度對比試驗。從所獲取的京東眾籌項目中隨機選擇特定項目作為目標項目,利用不同方法產(chǎn)生推薦列表,將推薦列表提交給志愿者,讓志愿者判斷每個推薦項目與目標項目是否相關。將相關項目的數(shù)量與推薦產(chǎn)品數(shù)量的比值作為推薦準確度。本文選取的對比推薦方法為基于類目的推薦方法。從表2中可以看出,與基于類目的推薦策略相比,本文方法可以得到準確的眾籌項目推薦結果。基于類目的推薦方法雖然可以從同一類目中選擇產(chǎn)品推薦給用戶,由于同一類目中的產(chǎn)品數(shù)量眾多,推薦難以得到準確效果。本文所提方法可以充分利用眾籌項目的隱主題信息和關聯(lián)關系,取得更高的推薦精度。
3? ? ?結 語
本文利用眾籌項目的描述文本挖掘項目特征的隱主題,基于隱主題分布構建眾籌項目之間的關聯(lián)網(wǎng)絡,并提出了個性化項目推薦方法?;诰〇|眾籌項目數(shù)據(jù)的實驗表明,所提方法可以對眾籌項目主題和關聯(lián)關系進行有效分析,得到準確的個性化推薦結果。在后續(xù)研究中,本文將在LDA主題模型的基礎上,研究基于眾籌主題和項目標簽的二部圖模型,進而構建更加有效的眾籌項目推薦方法。
主要參考文獻
[1]畢功兵,楊云紳,梁樑.策略延遲下眾籌項目的定價和激勵決策[J].中國管理科學,2019(11):1-10.
[2]李清香,王念新,呂爽,等.發(fā)起人與出資者的在線交互對眾籌項目成功的影響[J].管理工程學報,2020(2):1-9.