蘇靖淇 劉煜豪
[摘 要]互聯(lián)網(wǎng)技術(shù)的高速發(fā)展加速了網(wǎng)絡(luò)與金融行業(yè)的融合,誕生了眾籌等網(wǎng)絡(luò)金融形式。很多具有想法但缺乏資金的人可以通過(guò)眾籌平臺(tái)吸引投資者進(jìn)行投資。對(duì)眾籌項(xiàng)目的成功性評(píng)估及給投資者推薦合適的投資項(xiàng)目對(duì)發(fā)展眾籌行業(yè)具有重要意義。結(jié)合我國(guó)眾籌行業(yè)的實(shí)際情況,文章設(shè)計(jì)了一種基于語(yǔ)義主體模型的眾籌項(xiàng)目成功性預(yù)測(cè)及推薦系統(tǒng),以幫助發(fā)起人更好地籌集資金,同時(shí)為投資者預(yù)測(cè)項(xiàng)目成功性提供更好的推薦服務(wù)。
[關(guān)鍵詞]眾籌;成功性預(yù)測(cè);項(xiàng)目推薦;語(yǔ)義LDA
doi:10.3969/j.issn.1673 - 0194.2020.16.068
[中圖分類號(hào)]F830;TP391.3[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2020)16-0-04
0? ? ?引 言
2009年,美國(guó)成立了世界上第一個(gè)眾籌網(wǎng)站——Kickstarter,
自此,“眾籌”的概念正式產(chǎn)生。眾籌指項(xiàng)目發(fā)起人通過(guò)互聯(lián)網(wǎng)平臺(tái)向社會(huì)公眾展示自己的想法,以實(shí)現(xiàn)籌集資金目標(biāo)的網(wǎng)絡(luò)金融形式。隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,越來(lái)越多的企業(yè)和個(gè)人參與到由眾籌平臺(tái)開(kāi)展的眾籌項(xiàng)目中。據(jù)Massolution發(fā)布的《眾籌行業(yè)報(bào)告》顯示,2018年全球的眾籌行業(yè)共籌集57億美元,涉及全球超過(guò)100萬(wàn)個(gè)商業(yè)活動(dòng)。結(jié)合我國(guó)眾籌行業(yè)實(shí)際情況,本文提出了基于語(yǔ)義主體模型的眾籌項(xiàng)目成功性預(yù)測(cè)及推薦系統(tǒng),該系統(tǒng)旨在挖掘文本背后的信息對(duì)眾籌項(xiàng)目成功率的影響,以提高發(fā)起人項(xiàng)目成功的可能性,并通過(guò)推薦系統(tǒng)為投資者提供較好的服務(wù),提升其用戶體驗(yàn),進(jìn)而提升我國(guó)眾籌市場(chǎng)的質(zhì)量,促進(jìn)我國(guó)眾籌行業(yè)發(fā)展。
1? ? ?研究背景
1.1? ?中國(guó)眾籌行業(yè)的發(fā)展歷程及現(xiàn)狀
1.1.1? ?中國(guó)眾籌行業(yè)發(fā)展歷程
我國(guó)眾籌行業(yè)起步較晚,但是發(fā)展速度快,具體可以總結(jié)為3個(gè)階段:由2011年7月“點(diǎn)名時(shí)間”上線拉開(kāi)帷幕的萌芽期(2011-2013年);眾籌行業(yè)發(fā)展迅速的崛起期(2014-2015年);行業(yè)監(jiān)管日趨嚴(yán)格,全國(guó)正常運(yùn)營(yíng)平臺(tái)數(shù)量驟減的行業(yè)洗牌階段(2016年至今)。
1.1.2? ?中國(guó)眾籌行業(yè)現(xiàn)狀
邊海寧等人認(rèn)為眾籌分為4種形式:產(chǎn)品眾籌、公益眾籌、債權(quán)眾籌和股權(quán)眾籌。不同形式的眾籌使投資人獲得的回報(bào)也各不相同。侯潔等人根據(jù)籌資人與出資者的交換關(guān)系,將眾籌劃分為基于回報(bào)、基于借貸、基于捐贈(zèng)和股權(quán)眾籌4種類型。據(jù)前瞻產(chǎn)業(yè)研究院整理,我國(guó)眾籌行業(yè)具體包括股權(quán)型、權(quán)益型、物權(quán)型、公益型以及綜合型5種類型的平臺(tái)。從相關(guān)數(shù)據(jù)了解到,2016年我國(guó)眾籌行業(yè)達(dá)到發(fā)展高峰,當(dāng)年行業(yè)內(nèi)運(yùn)營(yíng)平臺(tái)數(shù)高達(dá)532個(gè),2017年出現(xiàn)平臺(tái)數(shù)目減少的現(xiàn)象,但成功項(xiàng)目數(shù)及融資金額穩(wěn)步提升。同時(shí),我國(guó)股權(quán)型及權(quán)益型平臺(tái)占比高達(dá)行業(yè)內(nèi)的50%以上,行業(yè)內(nèi)各類型平臺(tái)發(fā)展不均衡。圖1是2011-2018 年我國(guó)眾籌平臺(tái)年增量走勢(shì)。
1.2? ?眾籌項(xiàng)目成功率預(yù)測(cè)
王娜研究了發(fā)起人特征信息如受教育程度等對(duì)項(xiàng)目成功性的影響。楊智斌等人從參與眾籌項(xiàng)目的三方行為主體即發(fā)起人、投資方以及平臺(tái)方面分別考慮對(duì)項(xiàng)目成功性的影響。一些學(xué)者還考慮了項(xiàng)目當(dāng)前已籌集金額等問(wèn)題,如梁睿等人以淘寶眾籌為例,通過(guò)構(gòu)建已籌金額預(yù)測(cè)模型,得出點(diǎn)贊數(shù)目、項(xiàng)目支持人數(shù)等與能籌集到的資金正相關(guān)的結(jié)論。
1.3? ?眾籌項(xiàng)目推薦
推薦指通過(guò)對(duì)用戶瀏覽網(wǎng)站的歷史信息或者網(wǎng)站的特點(diǎn)對(duì)用戶偏好進(jìn)行分析,從而向用戶建議符合其偏好的業(yè)務(wù)等。推薦是為了在用戶沒(méi)有明確需求時(shí),為他們提供精準(zhǔn)、快速的業(yè)務(wù)信息。目前,我國(guó)推薦系統(tǒng)已發(fā)展成熟,如淘寶根據(jù)用戶的購(gòu)買歷史、收藏信息等提供給用戶希望購(gòu)買的商品。當(dāng)前最常用的推薦算法有基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦和基于社交網(wǎng)絡(luò)的推薦。而在實(shí)際應(yīng)用中,推薦系統(tǒng)大多使用混合推薦方法,混合推薦是通過(guò)加權(quán)、變換和層疊等方式將多個(gè)算法技術(shù)進(jìn)行融合推薦,以彌補(bǔ)單一算法的缺陷,從而獲得更優(yōu)的推薦效果。推薦對(duì)用戶具有重要意義,用戶可以通過(guò)推薦以最短的時(shí)間選擇自己感興趣的信息。在不同領(lǐng)域的推薦可以帶來(lái)不同的價(jià)值,在電商行業(yè),用戶不僅需要商品,還需要足夠合理的建議。精確的推薦可以增加用戶的消費(fèi)頻率,增加網(wǎng)站的銷售額,提高用戶黏性。在眾籌領(lǐng)域中,給投資者提供可靠嚴(yán)謹(jǐn)?shù)捻?xiàng)目推薦,可以節(jié)省投資者瀏覽項(xiàng)目的時(shí)間,增強(qiáng)投資者對(duì)眾籌平臺(tái)的信賴。
2? ? ?系統(tǒng)設(shè)計(jì)
2.1? ?基于文本信息的項(xiàng)目成功率預(yù)測(cè)
假設(shè)已知項(xiàng)目主頁(yè)的項(xiàng)目描述可以通過(guò)文字對(duì)用戶產(chǎn)生吸引力,提高預(yù)測(cè)項(xiàng)目成功率的準(zhǔn)確性。本文提出利用一種改進(jìn)的潛在狄利克雷分布(Latent Diriclet Allocation)提取項(xiàng)目描述的具體信息,通過(guò)話題聚類,得到“文檔-話題”概率,該概率分布表示項(xiàng)目描述在不同話題下的概率值,表示該項(xiàng)目描述想要表達(dá)的主要內(nèi)容。LDA求解的過(guò)程是無(wú)監(jiān)督的,因此,本文提出利用一種SLDA(Semantic-LDA)擬在模型在詞語(yǔ)分配話題的過(guò)程中加入詞與詞之間的“必連”關(guān)系作為先驗(yàn)知識(shí),如果兩個(gè)詞之間存在“必連”關(guān)系,則相應(yīng)提高兩個(gè)詞語(yǔ)在同一個(gè)話題下出現(xiàn)的概率。在得到“文檔-話題”的概率后,將傳統(tǒng)的數(shù)值型信息作為特征向量,使用機(jī)器學(xué)習(xí)的方法對(duì)已完成的項(xiàng)目(兩種結(jié)果:成功與失?。┻M(jìn)行分類實(shí)驗(yàn),并得到分類模型,以預(yù)測(cè)未來(lái)項(xiàng)目的發(fā)布成功率,具體流程如圖2所示。
2.1.1? ?數(shù)據(jù)獲取與預(yù)處理
在選定研究網(wǎng)站后,使用爬蟲(chóng)軟件爬取網(wǎng)站中的項(xiàng)目信息,具體包括:直接在網(wǎng)站中顯示的數(shù)字型信息,如項(xiàng)目的目標(biāo)籌集金額;通過(guò)簡(jiǎn)單統(tǒng)計(jì)工作統(tǒng)計(jì)信息,如允許投資的金額級(jí)數(shù)以及項(xiàng)目描述等文本型信息,并進(jìn)行相應(yīng)的預(yù)處理。
2.1.2? ?建立SLDA模型
傳統(tǒng)的LDA并沒(méi)有在采樣過(guò)程中給詞語(yǔ)間的聯(lián)系增加更多的限制,因此,本文提出了基于語(yǔ)義的LDA模型。在采樣過(guò)程中引入了詞語(yǔ)間的“必連”關(guān)系,即如果兩個(gè)詞語(yǔ)之間有聯(lián)系,那么這兩個(gè)詞語(yǔ)之間就具有“必連”關(guān)系?!氨剡B”關(guān)系的引入實(shí)際上是為L(zhǎng)DA的訓(xùn)練過(guò)程加入了相應(yīng)的先驗(yàn)知識(shí),標(biāo)準(zhǔn)的LDA的前提是假設(shè)存在一個(gè)固定分布,然而分布計(jì)算依靠無(wú)監(jiān)督的吉布斯采樣,加入“必連”先驗(yàn)知識(shí)可以指導(dǎo)吉布斯采樣,可以輔助話題生成與概率分布計(jì)算。
2.1.3? ?特征選擇
設(shè)定合適的主題個(gè)數(shù),并推斷出訓(xùn)練集及測(cè)試集中文檔對(duì)主題的分布,在輸入預(yù)測(cè)模型之前,需要用特征選擇選取最具有代表性的特征,以獲取更好的預(yù)測(cè)結(jié)果。一個(gè)典型的特征選擇過(guò)程包括4個(gè)步驟,如圖3所示。
2.1.4? ?建立預(yù)測(cè)模型
眾籌平臺(tái)項(xiàng)目成功率預(yù)測(cè)實(shí)際上是一個(gè)分類模型,針對(duì)已經(jīng)結(jié)束的項(xiàng)目,使用分類模型對(duì)其進(jìn)行訓(xùn)練。在本文中,模型的本質(zhì)就是用來(lái)分類項(xiàng)目的成功或者失敗兩種情況,成功的案例被標(biāo)注為1,失敗的案例被標(biāo)注為-1,使用SVM進(jìn)行訓(xùn)練。本文選取SVM作為主模型進(jìn)行,使用的SVM類型包括c-SVC和v-SVC,并采用3種常用的核函數(shù)。①線性(Linear)核函數(shù):K(x,xi)=xTxi;②徑向基(RBF)核函數(shù):K(x,xi)=exp(-γ||x-xi||2),γ>0;③兩層感知器(Sigmoid)核函數(shù):K(x,xi)=tanh(γxTxi+r)。
同回歸模型不同的是,由于二分類模型具有兩種情況,為了保證模型的合理性,兩種分類的訓(xùn)練個(gè)數(shù)要保持1∶1的比例。同時(shí),為了保持模型的一致性與有效性,在模型訓(xùn)練完成之后,需要由測(cè)試集驗(yàn)證模型,同時(shí)使用交叉驗(yàn)證避免數(shù)據(jù)集的偶然性。本文提出的語(yǔ)義主體模型是為了驗(yàn)證文本描述有利于預(yù)測(cè)項(xiàng)目成功率,只使用了數(shù)字型信息的預(yù)測(cè)模型作為基準(zhǔn)實(shí)驗(yàn),并調(diào)用神經(jīng)網(wǎng)絡(luò)及決策樹(shù)等分類模型驗(yàn)證主模型的有效性及高效性。
2.2? ?基于預(yù)測(cè)結(jié)果與描述相似度的項(xiàng)目推薦
在眾籌領(lǐng)域,用戶瀏覽一個(gè)項(xiàng)目的主頁(yè)被默認(rèn)為傾向于投資此項(xiàng)目,對(duì)用戶提供合適且準(zhǔn)確的項(xiàng)目推薦,可以提高項(xiàng)目的有效瀏覽率,減少用戶在首頁(yè)篩選項(xiàng)目的時(shí)間,并提高項(xiàng)目的投資額。基于SLDA的眾籌項(xiàng)目成功率的預(yù)測(cè)結(jié)果,結(jié)合SLDA得到的項(xiàng)目描述的話題分布率計(jì)算項(xiàng)目文案相似度,進(jìn)而為用戶提供與當(dāng)前瀏覽項(xiàng)目類似的高質(zhì)量項(xiàng)目?;趯?duì)文獻(xiàn)的閱讀,本文選定了成功率及項(xiàng)目間的相似度作為推薦指標(biāo)?;陬A(yù)測(cè)結(jié)果與項(xiàng)目描述相似度的推薦研究框架如圖4所示。
2.2.1? ?項(xiàng)目結(jié)果概率值獲取
通過(guò)使用選定的數(shù)字型信息及文本型信息輸入主模型SVM進(jìn)行分類,可以得到對(duì)項(xiàng)目最終結(jié)果的預(yù)測(cè)。在眾籌領(lǐng)域使用SVM對(duì)結(jié)果進(jìn)行預(yù)測(cè)時(shí),投資者僅需知道未結(jié)束項(xiàng)目是否成功的概率即可,這種不確定性成為軟輸出。大多數(shù)研究使用S型函數(shù)(Sigmoid)將SVM的硬判斷輸出f(x)映射到概率范圍[0,1]內(nèi)。
(1)
其中,A和B通過(guò)最小化訓(xùn)練樣本的負(fù)向最大似然函數(shù)獲得。
(2)
公式(2)中,。
對(duì)于二分類問(wèn)題,在眾籌領(lǐng)域,該概率表示了眾籌項(xiàng)目得到最終預(yù)測(cè)結(jié)果的概率值,如果使用SVM計(jì)算項(xiàng)目A和項(xiàng)目B會(huì)成功,A項(xiàng)目成功概率值為0.90,B項(xiàng)目成功概率值僅為0.55,它們結(jié)果相同,但兩者并不能被看作價(jià)值完全相同,網(wǎng)站應(yīng)該給用戶推薦其認(rèn)為具有更大可能性成功率的項(xiàng)目,即優(yōu)先給用戶推薦項(xiàng)目A。同樣,如果兩個(gè)項(xiàng)目C和D失敗的概率分別為0.60和0.95,那么在兩者之間選擇時(shí),必然是選擇更不容易失敗的C項(xiàng)目,這樣可以避免一些不必要的投資行動(dòng),同時(shí)也可以增加用戶對(duì)該眾籌網(wǎng)站推薦的信任感。
2.2.2? ?項(xiàng)目間相似度獲取
當(dāng)用戶點(diǎn)開(kāi)一個(gè)項(xiàng)目主頁(yè)時(shí),代表用戶對(duì)這個(gè)項(xiàng)目更加感興趣。假設(shè)用戶對(duì)項(xiàng)目的認(rèn)知來(lái)自最詳盡介紹項(xiàng)目?jī)?nèi)容的項(xiàng)目文案。當(dāng)問(wèn)題從項(xiàng)目的相似度歸結(jié)為項(xiàng)目文案——文檔相似度時(shí),主題模型是一個(gè)解決此類問(wèn)題的工具。前面的SLDA可以得到主題對(duì)文檔的概率分布,文檔的相似度常使用兩個(gè)文檔概率分布之間的KL距離(Kullback-Leibler)衡量。
(3)
KL距離越大,表示兩個(gè)文檔之間的相似度越低,如果兩個(gè)文檔完全相似,那么該KL距離為0。但是需要注意兩個(gè)文檔之間的距離并不是對(duì)稱的,即文檔A和B的距離與B和A的距離并不相同。所以為了保持其對(duì)稱性,可以改變KL距離。
Dλ(p,q)=λDKL(p,λp+(1-λ)q)+(1-λ)DKL(q,λp+(1-λ)q)(4)
設(shè)λ=1/2,那么對(duì)稱的KL距離則成為JS(Jensen-Shannon)距離。
(5)
使用JS距離可以衡量文檔之間的相似度,且具有對(duì)稱性。
2.2.3? ?項(xiàng)目推薦
本系統(tǒng)采用加權(quán)平均的方式處理兩個(gè)指標(biāo),假設(shè)兩個(gè)指標(biāo)的權(quán)重分別為w1和w2。在當(dāng)前項(xiàng)目固定的情況下,成功概率越大且某項(xiàng)目介紹與當(dāng)前項(xiàng)目文案的距離越小,該項(xiàng)目越應(yīng)該被推薦。本文認(rèn)為兩個(gè)因素對(duì)推薦是同等重要的,然而在用戶從當(dāng)前項(xiàng)目頁(yè)面點(diǎn)開(kāi)網(wǎng)站為其推薦的項(xiàng)目頁(yè)面時(shí),對(duì)該項(xiàng)目的第一印象來(lái)自該推薦項(xiàng)目與之前的項(xiàng)目是否相似,而之后才會(huì)考慮項(xiàng)目成功率大小,所以可以得出,成功率權(quán)重應(yīng)比相似度權(quán)重小。
由于JS距離考慮的是項(xiàng)目之間的距離,距離越小表示越相似,那么取JS距離的倒數(shù)表示項(xiàng)目之間的相似度。
(6)
考慮到兩個(gè)指標(biāo)的基準(zhǔn)數(shù)并不相同,需要對(duì)兩個(gè)指標(biāo)進(jìn)行歸一化處理,將數(shù)值控制在0~1范圍。通過(guò)加權(quán)平均兩個(gè)指標(biāo)得到最終的項(xiàng)目評(píng)分,以項(xiàng)目分?jǐn)?shù)最高的項(xiàng)目作為當(dāng)前項(xiàng)目的推薦。
Score(p,q)=w1·nProb+w2·nDocSim(7)
該推薦方式結(jié)合了項(xiàng)目之間的相似度,考慮了用戶對(duì)項(xiàng)目的興趣度,同時(shí)推薦給用戶成功率較高的項(xiàng)目,使用戶可以投資高質(zhì)量的項(xiàng)目。
3? ? ?本系統(tǒng)的存在價(jià)值
發(fā)起人可以了解到項(xiàng)目主頁(yè)上的不同信息對(duì)成功率的影響,通過(guò)與成功率較高的項(xiàng)目進(jìn)行對(duì)比,改進(jìn)自身項(xiàng)目主頁(yè)的相應(yīng)信息,提高項(xiàng)目成功的可能性;對(duì)項(xiàng)目進(jìn)行成功性預(yù)測(cè),可有效降低投資者的機(jī)會(huì)成本,提升投資者用戶體驗(yàn);可增加成功項(xiàng)目數(shù)量,提高公眾參與度,進(jìn)一步推進(jìn)平臺(tái)建設(shè),促進(jìn)我國(guó)眾籌行業(yè)發(fā)展。
4? ? ?結(jié) 語(yǔ)
中國(guó)眾籌行業(yè)發(fā)展前景廣闊,將成為推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的新生力量。本文結(jié)合我國(guó)眾籌行業(yè)現(xiàn)狀,提出了基于語(yǔ)義主體模型(SLDA)的眾籌項(xiàng)目成功性預(yù)測(cè)及推薦系統(tǒng),為項(xiàng)目發(fā)起人及投資者提供相應(yīng)參考,提高眾籌市場(chǎng)質(zhì)量。如今我國(guó)眾籌行業(yè)在發(fā)展過(guò)程中面臨一系列挑戰(zhàn)與風(fēng)險(xiǎn),國(guó)家應(yīng)盡快出臺(tái)更多與之相關(guān)的完備法律,并結(jié)合國(guó)情,鼓勵(lì)大眾積極參與,使眾籌平臺(tái)在有效的監(jiān)督與管理下發(fā)展得更好。
主要參考文獻(xiàn)
[1]秦詩(shī)云.我國(guó)眾籌平臺(tái)發(fā)展的現(xiàn)狀、問(wèn)題與對(duì)策探究[J].現(xiàn)代商業(yè),2018(31):178-179.
[2]邊海寧,張春輝,賈敏,等.產(chǎn)品眾籌的發(fā)展研究——以京東金融眾籌為例[J].中國(guó)商論,2019(24):221-222.
[3]侯潔.眾籌過(guò)程中發(fā)起人在線互動(dòng)行為的影響機(jī)理研究[J].中國(guó)集體經(jīng)濟(jì),2018(26):72-73.
[4]王娜.發(fā)起人特征對(duì)創(chuàng)意眾籌成功的影響研究——以追夢(mèng)網(wǎng)為例[J].財(cái)會(huì)通訊,2016(29):47-50,129.
[5]楊智斌,趙嵩正.產(chǎn)品眾籌項(xiàng)目融資成功率影響因素實(shí)證研究[J].東岳論叢,2019(8):74-83.
[6]梁睿,金瑋佳.基于大數(shù)據(jù)的眾籌項(xiàng)目成功影響因素分析——以淘寶眾籌為例[J].產(chǎn)業(yè)與科技論壇,2019(23):71-72.
[7]周萬(wàn)珍,曹迪,許云峰,等.推薦系統(tǒng)研究綜述[J].河北科技大學(xué)學(xué)報(bào),2020(1):76-87.
[8]閆子琪.以微博為例淺析社交網(wǎng)站中的視頻推薦算法[J].科技傳播,2018(23):148-149.
[9]張志威.個(gè)性化推薦算法研究綜述[J].信息與電腦:理論版,2018
(17):27-29
[10]趙一格.個(gè)性化推薦技術(shù)在電商網(wǎng)站中的應(yīng)用[J].科技傳播,2019(15):136-137.