国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動APP演化模式分析與預(yù)測*

2019-12-19 17:24:40張藝璇歐陽逸於志文
計(jì)算機(jī)與生活 2019年12期
關(guān)鍵詞:預(yù)測特征算法

張藝璇,郭 斌,歐陽逸,王 柱,於志文

西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710072

1 引言

1.1 研究背景

移動APP 自推出以來就飛速影響著人們的生活。隨著其數(shù)量的爆炸式增長,軟件開發(fā)商需要根據(jù)市場反饋及時(shí)做出運(yùn)營決策,廣告投放商更需要通過預(yù)判抓住轉(zhuǎn)瞬即逝的商機(jī)。顯然,如果各種類型APP的流行度演化過程以及其未來一段時(shí)間內(nèi)的預(yù)期表現(xiàn)能夠被開發(fā)商和廣告商事先得知,則可為相關(guān)決策提供十分有價(jià)值的信息。本文中流行度演化是指APP的受歡迎程度在時(shí)間軸上的流動與變化過程。如果能夠?qū)ρ莼^程進(jìn)行合理分析與預(yù)測,就能夠?yàn)檐浖_發(fā)商管理和更新APP 提供決策建議,切實(shí)提高消費(fèi)者的使用體驗(yàn),從而逐漸實(shí)現(xiàn)APP的智能演化;長遠(yuǎn)來看,這有利于應(yīng)用軟件市場的細(xì)分與優(yōu)化,最終導(dǎo)致市場整合,帶來極大的應(yīng)用和商業(yè)價(jià)值。

然而,流行度動態(tài)演變迅速,其背后各種因素交織作用,很難完成單獨(dú)量化?,F(xiàn)有APP 流行度相關(guān)研究可大致概括為以下三方面:

一部分研究[1-2]通過分析促進(jìn)APP發(fā)展的積極屬性來構(gòu)建預(yù)測模型,或通過分類預(yù)測用戶下一個(gè)應(yīng)用的APP。這樣方便分析和理解APP的發(fā)展過程,但不同種類、不同排名的APP所受影響因素不同,僅僅依靠影響因素對APP流行度進(jìn)行預(yù)測不具有通用性。

另一部分研究[3-5]側(cè)重從APP早期流行度出發(fā)建立回歸方程或者采用分類算法預(yù)測流行度,針對時(shí)態(tài)模式的組成預(yù)測APP流行度發(fā)展。這種方法在預(yù)測近期流行度時(shí)具有較高準(zhǔn)確度,但當(dāng)預(yù)測時(shí)間延長時(shí)則表現(xiàn)不佳。另外,這樣預(yù)測流行度時(shí)效性不強(qiáng),必須等待歷史流行度數(shù)據(jù)出來后才能進(jìn)行預(yù)測。

此外,由于APP市場龐大,各類使用數(shù)據(jù)種類眾多且十分復(fù)雜[6-7],預(yù)測工作不應(yīng)只獲得預(yù)期流行度,還應(yīng)針對流行度演化過程給出合理分析和解釋。

1.2 研究問題

為了全面考慮早期流行度、影響特征對APP 的影響,本文針對流行度演化的分析、預(yù)測,主要研究以下3個(gè)問題:

(1)APP 流行度演化過程中是否存在一些共性模式?

APP 流行度的演化過程通過APP 每日流行度的擬合曲線表示,其中流行度以每日下載量量化,演化中必然存在大量上升與下降過程[8]。如果能夠?qū)⑸仙c下降合理切割歸類為演化模式,就能把復(fù)雜無規(guī)律的APP 演化量化為某些模式的組合,這些模式分別對應(yīng)不同的含義和意義。這直接有助于判斷APP 的生命狀態(tài)、當(dāng)前受制約因素和未來改進(jìn)的方向;從逆向工程的角度而言,這項(xiàng)研究能夠?qū)PP進(jìn)行實(shí)時(shí)監(jiān)測,考查APP各項(xiàng)指標(biāo)的異常情況,從而更加精準(zhǔn)地決策當(dāng)前最佳更新或營銷活動,而不是僅僅為了提高產(chǎn)品在APP 市場中的曝光率而盲目更新。這項(xiàng)工作直接與未來的預(yù)測息息相關(guān)。

(2)如何找到并量化流行度的影響因素,如何衡量它們的影響作用?

APP的自身特性、同類產(chǎn)品間的競爭情況以及用戶對于APP使用感受的反饋等因素都直接影響APP的流行度,如果能夠量化對應(yīng)這3類影響因素的具體特征指標(biāo),并結(jié)合得到的演化模式進(jìn)行分析,就能得知是怎樣的組合導(dǎo)致了某一時(shí)刻APP 的流行度表現(xiàn)。一旦找到影響流行度的因素并量化其影響力大小,便能夠針對表現(xiàn)不佳的影響因素提出改進(jìn)策略。

(3)如何針對影響特征建立模型以預(yù)測流行度的演化趨勢?

當(dāng)獲得APP流行度的影響因素及其權(quán)重便可建立數(shù)學(xué)模型以預(yù)測未來一段時(shí)間內(nèi)APP的受歡迎程度。這項(xiàng)工作有助于軟件開發(fā)商針對自身APP未來預(yù)計(jì)表現(xiàn)及時(shí)作出決策,提高用戶體驗(yàn);同時(shí),它對APP市場整合和智能演化均有幫助。

1.3 研究成果

針對以上3個(gè)問題,本文得到如下成果:

(1)發(fā)現(xiàn)了7種流行度演化的原子結(jié)構(gòu),并通過序列模式挖掘發(fā)現(xiàn)了6類演化模式。

執(zhí)行曲線切割算法后,針對曲線形狀進(jìn)行聚類,最終得到不同狀態(tài)下的7種原子演化結(jié)構(gòu),它們均代表APP流行度的上升或者下降的單個(gè)過程。之后針對APP為期一年的流行度演化原子結(jié)構(gòu)進(jìn)行序列模式挖掘來將上升與下降的原子結(jié)合得到6類演化模式。后文將針對不同的演化模式分別給出定義、特征、出現(xiàn)時(shí)期、意義等詳細(xì)表述。

(2)選擇出6種與APP流行度演化相關(guān)的特征并對其作用進(jìn)行了詳細(xì)分析。

通過對獲取數(shù)據(jù)的分析并參考已有文獻(xiàn)中特征的選取,本文歸納6種作用于APP 流行度表現(xiàn)特征,它們歸類為以下三方面:自身特性(版本更新、營銷活動等)、同類競爭(實(shí)時(shí)排名等)、市場反饋(評論量、評分和評論情感等)。后文給出各種特征的解釋說明,從而證實(shí)選取該特征的正確性。

(3)結(jié)合分析內(nèi)容建立CrowdPop 預(yù)測模型,通過更加細(xì)粒度地結(jié)合歷史表現(xiàn)與特征因素,實(shí)現(xiàn)了對APP流行度演化的準(zhǔn)確預(yù)測。

本文提出一個(gè)綜合考慮APP歷史演化模式與日常特征因素的CrowdPop 預(yù)測模型,并根據(jù)實(shí)驗(yàn)結(jié)果通過不斷優(yōu)化演化模式的量化方法從而提高預(yù)測模型的準(zhǔn)確性。實(shí)驗(yàn)設(shè)計(jì)包括4類特征作為預(yù)測因子的CrowdPop模型基準(zhǔn)研究和8類特征作為預(yù)測因子的CrowdPop 模型,通過最小化測試集與預(yù)測集間均方誤差選取最優(yōu)的改進(jìn)模型,并與另外兩種算法進(jìn)行預(yù)測精度的對比,從而驗(yàn)證了成果(2)中有關(guān)APP演化模式的分析結(jié)果,從而證實(shí)了分析和模型的準(zhǔn)確性與實(shí)用性。

與現(xiàn)有工作相比,CrowdPop 模型綜合考慮了歷史流行度與影響特征對APP 未來流行度的影響,并且隨著預(yù)測時(shí)間的延長,該模型均表現(xiàn)出較好的準(zhǔn)確性,克服了現(xiàn)有研究中長遠(yuǎn)流行度預(yù)測準(zhǔn)確率不能保證以及忽略歷史流行度的影響等問題。

2 相關(guān)工作

2.1 APP流行度的影響因素

目前國內(nèi)外學(xué)者針對移動APP流行度的影響因素開展了系列研究。Lee[9]提出并分析了對移動APP的可持續(xù)性產(chǎn)生積極影響的若干屬性,并提出一種選取有效特征的方法,為本文選取影響特征提供了思路。Liu 等人[10]通過分析應(yīng)用程序的用戶行為數(shù)據(jù),獲得多個(gè)應(yīng)用程序管理活動和應(yīng)用程序使用模式。Guzman 等人[11]提出了一種自動化方法,可幫助開發(fā)人員過濾、匯總和分析用戶評論。它可以幫助開發(fā)人員系統(tǒng)地分析用戶對單個(gè)功能的意見并過濾不相關(guān)的評論。Sarro等人[12]介紹了應(yīng)用商店中APP生命周期的理論特征,他們的分析還突出了價(jià)格、評級和受歡迎程度之間的關(guān)聯(lián)。Tian等人[13]從1 492個(gè)高評級和低評級APP案例研究中提取最有影響力的因素,并應(yīng)用隨機(jī)森林分類器來識別高評級應(yīng)用。Arzt 等人[14]提出了一種基于用戶行為來衡量應(yīng)用相似性的新技術(shù)。他們采用信息檢索來提取特征并將其用作APP的表征,然后使用這些屬性來聚類APP。

2.2 流行度建模與預(yù)測

現(xiàn)有預(yù)測工作中,針對網(wǎng)絡(luò)信息或者線上內(nèi)容的研究最為成熟,它們針對時(shí)序化的流行度建模,流行度定義為某時(shí)刻發(fā)生的積極網(wǎng)絡(luò)動作的次數(shù)?,F(xiàn)有研究工作從預(yù)測方法的角度可以分為3類:基于早期流行度、基于影響流行度的因素和級聯(lián)傳播理論。Zhu 等人[15]提出一種基于隱馬爾可夫模型的順序方法,用于對移動APP 的流行度信息進(jìn)行建模。Lu 等人[16]提出了一種捕獲用戶行為的方法,包括APP下載和安裝、卸載和用戶評級。通過用戶行為與開發(fā)人員可控屬性相結(jié)合來預(yù)測APP 未來使用率。斯坦福大學(xué)的Yang等人[17]提出了一個(gè)有效的時(shí)間序列聚類算法以研究線上內(nèi)容隨時(shí)間變化的模式。Cha 等人[18]通過研究發(fā)現(xiàn)網(wǎng)絡(luò)信息中早期流行度與未來流行度存在較強(qiáng)關(guān)系,由此該研究以早期流行度作為預(yù)測因子建立回歸方程開展預(yù)測工作。Hong等人[19]將經(jīng)典的一元回歸SH(Szabo-Huberman)模型擴(kuò)展至多元,針對歷史流行度分配不同權(quán)重,以最小化平均相對平方誤差為目的訓(xùn)練模型。Bandari等人[20]針對時(shí)效性較強(qiáng)的新聞信息定義4個(gè)特征并將其作為自變量,未來流行度作為因變量并建立對數(shù)回歸方程,相比早期流行度對時(shí)效型信息預(yù)測的不準(zhǔn)確性而大幅度提高模型的預(yù)測性能。許多現(xiàn)有的預(yù)測模型對于短期預(yù)測具有良好的準(zhǔn)確性,但當(dāng)用于長期預(yù)測時(shí)性能變差。

以上工作為本文研究APP流行度預(yù)測提供了思路。本文同時(shí)考慮影響因素與早期流行度對APP未來一段時(shí)間的流行性的影響,并針對早期流行度挖掘出6種演化模式。之后建立預(yù)測模型CrowdPop,將選定的因素和模式量化為8種預(yù)測因子用作模型輸入。實(shí)驗(yàn)表明,與基準(zhǔn)研究相比,CrowdPop在預(yù)測精度上獲得相對更好的性能。另外,本文提出的6種演化模式為后續(xù)研究人員在理解APP流行度演化的過程中奠定良好基礎(chǔ)。

3 數(shù)據(jù)收集與預(yù)處理

3.1 問題表述與分析

現(xiàn)有預(yù)測工作中,針對網(wǎng)絡(luò)信息或者線上內(nèi)容的研究最為成熟,它們針對時(shí)序化的流行度建模,流行度定義為某時(shí)刻發(fā)生的積極網(wǎng)絡(luò)動作的次數(shù)。

為了統(tǒng)一概念與符號,方便理解內(nèi)容,本節(jié)針對第1章中提出的研究中3個(gè)基本問題的相關(guān)概念和理論進(jìn)行形式化描述和說明。

(1)流行度:給定某個(gè)APPi和時(shí)間點(diǎn)t,流行度pi(t)定義為其在時(shí)刻t的受歡迎程度。本文選取APP當(dāng)日下載量來量化APP當(dāng)日流行度。下載量能夠較好地反映用戶對于APP的喜愛程度。

(2)流行度演化:給定某個(gè)APPi和生命長度Li,流行度演化定義為時(shí)間序列{pi(1),pi(2),…,pi(Li)}。通過以一天為時(shí)序單位,以一年時(shí)間跨度的每日下載量曲線來模擬APP 流行度一年內(nèi)的變化情況,探尋影響流行度變化的因素和流行度的變化特征。

通過對APP 的流行度演化的基本觀察與分析,本文提出3類與流行度緊密相關(guān)的指標(biāo):自身特性、同類競爭和用戶反饋。這3類指標(biāo)分別由以下特征進(jìn)行量化。

(1)自身特性

①版本更新

軟件開發(fā)商會不定時(shí)推出軟件的更新版本供用戶下載使用。更新動作從短期來看能夠有效提高APP在應(yīng)用市場中的活躍度和曝光率,提高潛在用戶的安裝率;長遠(yuǎn)來看更新動作實(shí)現(xiàn)了對軟件性能的優(yōu)化,能夠穩(wěn)定已有用戶群體并吸引潛在用戶使用。

②營銷活動

開發(fā)商會不定時(shí)推出一系列線上或者線下的營銷活動來提高APP的關(guān)注度。良好的營銷活動能夠有效提高用戶體驗(yàn),增加用戶粘度,有助于潛在用戶的積極轉(zhuǎn)化。

(2)同類競爭

①實(shí)時(shí)排名

本文利用日下載量數(shù)據(jù)中最近一天的APP市場排名作為APP 的流行度排名,用于觀察隨流行度下降演化模式的變化情況。同時(shí),實(shí)時(shí)排名符合“富者更富”思想,即當(dāng)前十分流行的APP未來會更有可能被潛在用戶知曉并安裝使用。

②同類APP數(shù)量

盡管市場排名能夠很好代表某APP在同類產(chǎn)品中的受歡迎程度,但是同類APP 數(shù)量更能反映子市場競爭的激烈程度。這里統(tǒng)計(jì)同類APP 的數(shù)量,用于日后觀測某類型對應(yīng)子市場的發(fā)展情況。

(3)用戶反饋

評論量、評分和評論情感:開發(fā)商往往采取評論有獎、APP 彈窗等措施來鼓勵用戶積極評論以促進(jìn)APP的完善。本文將用戶評論劃分為三部分,評論量、評分和評論情感。評論量在一定程度上能夠表征用戶對于APP使用感受發(fā)表意見的積極程度。評分是用戶對于APP最直觀的感受,十分直觀但不夠細(xì)致。評論情感是針對評論內(nèi)容進(jìn)行文本分析得到的文本情感評分,更加具體地反映了用戶對APP的喜愛程度。

3.2 數(shù)據(jù)收集與描述

本文收集了來自酷傳網(wǎng)站(http://www.kuchuan.com)的多源群智APP 數(shù)據(jù),涵蓋360、百度、應(yīng)用寶、豌豆莢等10個(gè)在中國廣受歡迎的APP市場,涉及APP單日下載量、日均使用時(shí)間、實(shí)時(shí)排名、用戶評論等多類時(shí)序和文本數(shù)據(jù)。數(shù)據(jù)集相關(guān)信息如表1所示。

3.3 數(shù)據(jù)預(yù)處理

首先針對采集數(shù)據(jù)進(jìn)行初步篩選,選取各項(xiàng)指標(biāo)均不為空的APP,并參考APP市場中的分類對APP分類和整合;之后對上述特征數(shù)據(jù)進(jìn)行預(yù)處理得到各項(xiàng)時(shí)序數(shù)據(jù)。不同類型的數(shù)據(jù)的處理方式如下。

(1)日下載量:首先對日下載量進(jìn)行歸一化,之后采用Matlab 的工具箱進(jìn)行曲線擬合,從而得到貼近真實(shí)演化過程的平滑曲線。

(2)版本更新與營銷活動:這兩者處理為0/1結(jié)構(gòu),即當(dāng)天有更新發(fā)生則數(shù)值記為1,反之為0;當(dāng)天有營銷活動則記為1,反之為0。這樣就相當(dāng)于間接給有更新和營銷活動的日期標(biāo)注,方便日后分析當(dāng)日APP流行度所受的影響因素。

(3)實(shí)時(shí)排名:針對每一類APP進(jìn)行實(shí)時(shí)排名的升序排列。存在一種情況:部分排名在中段的APP因數(shù)據(jù)類型不全而被剔除,注意更新排名的數(shù)字。

(4)同類APP數(shù)量:通過統(tǒng)計(jì)每種類型中APP的個(gè)數(shù)來得到同類APP 的數(shù)量,用于日后結(jié)合實(shí)時(shí)排名進(jìn)行關(guān)乎市場競爭的綜合判斷。

(5)評論量:針對獲取的每日評論進(jìn)行計(jì)數(shù),用數(shù)值大小來代表當(dāng)日用戶評論的活躍情況。

(6)評分:用戶切換至APP市場的評論界面時(shí)可以對APP直接打分。假設(shè)沒有用戶惡意評論的情況,直接對每日評分求平均值,這個(gè)平均值代表當(dāng)日該APP獲得的評分。最后針對一年的評分做歸一化處理。

(7)評論情感:本文采用SnowNLP(https://github.com/isnowfy/snownlp)計(jì)算評論的情感得分。SnowNLP是用于切割識別中文短語的Python 語言類庫,用來對評論量化生成情感評分。在計(jì)算每日評論情感得分的平均值后針對一年的數(shù)據(jù)進(jìn)行歸一化。

4 移動APP流行度分析

本章通過對APP一年時(shí)間內(nèi)流行度演化的過程進(jìn)行統(tǒng)計(jì)和分析,旨在發(fā)現(xiàn)流行度演化的基本原子結(jié)構(gòu),挖掘頻繁序列模式并探究演化發(fā)展的規(guī)律及其背后的原因。

4.1 原子結(jié)構(gòu)

本文采用APP的日下載量來刻畫APP在用戶市場中的流行程度,以每日時(shí)間點(diǎn)作為橫坐標(biāo),每日下載量作為縱坐標(biāo)的取值。這里給出原子結(jié)構(gòu)的形式化定義。

原子結(jié)構(gòu):給定某APP的流行度演化曲線,原子演化結(jié)構(gòu)是其中一段由相鄰連續(xù)坐標(biāo)點(diǎn)組成的整體符合單調(diào)增或減的二維序列,保證序列在維持原有增減性下的最大化。增減過程中允許出現(xiàn)若干小型波動,但波動處的差值不能超過序列首尾縱向差值的θ(0 <θ<1)。

下面對以上定義進(jìn)行解釋。APP 流行度演化整體符合上升-下降模式,但允許在上升或者下降過程中出現(xiàn)并不影響整體走勢的波動。這些波動可能是因?yàn)锳PP的連續(xù)更新動作導(dǎo)致流行度迎來持續(xù)的脈沖式增長(對應(yīng)波動式增長原子),也有可能是因?yàn)楦潞驛PP的不穩(wěn)定性導(dǎo)致用戶評分走低從而流失部分潛在用戶(對應(yīng)波動式下降原子),具體原因?qū)⒃诘?章給出。但并不代表只要存在波峰或者波谷就應(yīng)該被劃分為不同子序列,這樣做可能會破壞在升降中出現(xiàn)的異常。

下面給出切割算法。

算法1演化曲線切割算法

輸入:流行度演化序列和生命周期時(shí)間序列。

輸出:流行度單調(diào)子序列集合。

1.讀取流行度波峰值和波谷值;

2.分別讀取波峰值,劃分振幅閾值內(nèi)的鄰居點(diǎn)作為上升子序列;

3.保存上述序列至單調(diào)增序列集合中;

4.分別讀取波谷值,劃分振幅閾值內(nèi)的鄰居點(diǎn)作為下降子序列;

5.保存上述序列至單調(diào)降序列集合中;

6.輸出兩個(gè)單調(diào)子序列集合;

7.結(jié)束。

針對APP 流行度擬合曲線切割后,得到對應(yīng)時(shí)序數(shù)據(jù)的原子結(jié)構(gòu)序列。針對原子結(jié)構(gòu)進(jìn)行聚類時(shí),本文采用K-means 聚類算法(https://github.com/skyline0623/K-meansCluster),這是一種通過計(jì)算歐氏距離來尋找聚類中心點(diǎn)的迭代算法,由于移動APP數(shù)據(jù)之間差別很大,上升和下降情況十分復(fù)雜,聚類并不局限于增降過程的速率。聚類后得到并定義7種原子結(jié)構(gòu),結(jié)果如圖1所示。其中原子結(jié)構(gòu)A2和A4表示上升和下降環(huán)節(jié)中存在一個(gè)或多個(gè)小型的波峰或波谷,圖中一律使用一個(gè)波折段表示。A5和A6表征了更新動作發(fā)生時(shí)下載量尖峰式的脈沖。A7表示了較長一段時(shí)間內(nèi)APP流行性維持平穩(wěn)狀態(tài)波動很小的狀態(tài)。

Fig.1 APP popularity atomic evolution structure圖1 APP流行度原子演化結(jié)構(gòu)

4.2 序列模式挖掘

本文采用APP的日下載量來刻畫APP在用戶市場中的流行程度,以每日時(shí)間點(diǎn)作為橫坐標(biāo),每日下載量作為縱坐標(biāo)的取值。這里給出原子結(jié)構(gòu)的形式化定義。

由于APP 的流行演化基本遵循上升-下降的過程,因此本文針對得到的原子結(jié)構(gòu)序列進(jìn)行相鄰奇偶位置組合統(tǒng)計(jì),篩選高頻出現(xiàn)的原子結(jié)構(gòu)對歸納為演化模式,共得到6個(gè)不同類型的組合即流行度演化模式,結(jié)果如圖2所示。

Fig.2 APP popularity evolution pattern圖2 APP流行度演化模式

(1)P1模式

這種模式最為常見,是最主流的APP演化模式,在絕大多數(shù)APP 的生命周期中均會存在。P1代表一種相對穩(wěn)定的流行度變化狀態(tài)。它表征APP在發(fā)展過程中受到某些內(nèi)部或者外部刺激時(shí),其流行度產(chǎn)生相對穩(wěn)定的應(yīng)激反應(yīng)。其中的上升與下降過程均為冪律消長狀態(tài)。整個(gè)過程可理解為,流行度上升過程中未受到消極因素影響而阻礙正常進(jìn)度,下降過程也符合冪律型自然發(fā)展規(guī)律,未受到人為干預(yù)或干預(yù)較小。

(2)P2模式

這種模式是繼P1后較常見模式之一,流行度的下降過程仍遵循冪律形式,但上升中存在一個(gè)及以上的中斷或者波動,流行度的增長受到一定內(nèi)部或外部阻礙。本文認(rèn)為中間的波動存在兩種可能:正常增長過程受到內(nèi)部或外部影響因素的阻礙而減緩增長速度;增長處于瓶頸狀態(tài)因采取一定措施(連續(xù)更新或者營銷活動)而挽回一定的增加量。

(3)P3模式

這種模式是繼P1之后另一種較為常見的模式,其流行度上升過程遵循冪律形式,但在下降過程中存在一個(gè)及以上的中斷或者波動,流行度的降低受到一定內(nèi)部或者外部的積極刺激而產(chǎn)生正向反饋。中間的波動存在兩種可能:正常下降過程受到內(nèi)部或外部的積極影響,例如開發(fā)商的一系列有效動作等,從而在流行度下降的中段位置維持了一段時(shí)間的穩(wěn)定水平;某些導(dǎo)致流行度下降的不利因素級聯(lián)式地?cái)U(kuò)大,從而牽連至原本較為穩(wěn)定的用戶群體。

(4)P4模式

P4是一種不常見的模式,其上升和下降階段中都存在若干波動,但整體仍呈冪律走勢。導(dǎo)致P4的原因較為復(fù)雜,兩個(gè)階段的波動除受上述評論、更新等因素影響外,可能還存在其他組合因素的影響。整體而言,演化模式P4代表APP受內(nèi)外部因素影響后波動最為復(fù)雜,穩(wěn)定性較差,尚未形成自身的發(fā)展規(guī)律。

(5)P5模式

P5代表存在更新動作時(shí)APP 流行度演化的模式。本文將更新動作發(fā)生的前一天作為第一個(gè)數(shù)據(jù)點(diǎn),以完整表現(xiàn)更新動作對APP 流行度的巨大影響。由于使用下載量量化APP 流行度,因此大量已經(jīng)安裝此APP的用戶可能會選擇更新,從而P5會顯示出急速的上升和下降。

(6)P6模式

P6被定義為連續(xù)7天及以上只發(fā)生微小變化的情況。事實(shí)上,數(shù)據(jù)統(tǒng)計(jì)顯示大多數(shù)情況下一段時(shí)間內(nèi)的下載量趨于零。因?yàn)榱餍卸妊莼ǔJ亲裱仙?、下降的模式,所以這是一種異常的演化模式。排除數(shù)據(jù)采集出現(xiàn)的缺失,這可能是APP 流行度演化中較為嚴(yán)重的瓶頸期,大多存在于流行度排名較差的APP中。

4.3 演化模式分析

針對不同APP 的頻繁模式序列,本文進(jìn)行了數(shù)量、頻率、類別、排名等不同方面的統(tǒng)計(jì)工作,并從統(tǒng)計(jì)結(jié)果中分析得到了系列論點(diǎn)以及論點(diǎn)的合理解釋。由于P5和P6代表特殊情況的演化模式,因此本文暫不考慮。

4.3.1 生命周期中的演化模式數(shù)量

演化模式P1在各類APP 的生命周期中大量存在,是最為常見的演化模式,因此P1的數(shù)量可用于刻畫大部分APP 生命周期中演化模式的整體數(shù)量。另外,由于數(shù)據(jù)時(shí)間跨度較長,因此某類演化模式出現(xiàn)數(shù)量的多少在一定程度上可以反映這類演化模式出現(xiàn)的頻率。

P2與P3屬于較為常見的演化模式,其中大多數(shù)類別的APP 的生命周期中P3的出現(xiàn)次數(shù)較P2多。這是由于APP 市場本身并不穩(wěn)定,內(nèi)外部影響因素繁多復(fù)雜,APP 的流行度增長的原因較為清晰,但導(dǎo)致下降的因素較為復(fù)雜多變,這也是APP 市場波動頻繁劇烈的因素之一。

P4是這4類中出現(xiàn)次數(shù)最少的演化模式,它代表著APP的不穩(wěn)定狀態(tài),受內(nèi)部外部影響變化劇烈,但這種不穩(wěn)定狀態(tài)并不常見。

4.3.2 不同演化模式的占比

不同模式所占百分比情況如圖3所示。

P1在各類APP中的出現(xiàn)次數(shù)均達(dá)到整體模式的43%以上,是所有APP中的主流模式。

P2與P3所占百分比浮動較大,但其加和不超過P1所占百分比。P2與P3的比重變化更多受APP所屬類別以及該類市場發(fā)展情況的影響。

Fig.3 Percentage of 4 evolution patterns圖3 4種演化模式出現(xiàn)次數(shù)所占百分比

P4所占百分比浮動不大,一般在5.50%左右。

4.3.3 不同流行度之間的演化模式差異

這里根據(jù)APP的市場排名對不同APP的流行度進(jìn)行排名,考察當(dāng)流行度逐漸下降時(shí)演化模式的不同表現(xiàn)。

(1)演化模式數(shù)量差異明顯

隨著APP 流行度的下降,演化模式數(shù)量出現(xiàn)一定規(guī)律的波動,波動情況如圖4所示。其中位于流行度排名中上段和中后段的APP 其模式數(shù)量較大,具體為25.0%左右與80%左右。

Fig.4 The number of 4 patterns as APP ranks down圖4 隨APP排名下降4種演化模式出現(xiàn)次數(shù)

分析認(rèn)為排名在25.0%左右的APP 正處于加速上升的競爭階段,這期間開發(fā)商更新動作頻繁,流行度變化速度加快,因此演化模式數(shù)量在該類APP 中占據(jù)高點(diǎn)。

分析認(rèn)為排名在79.2%左右的APP 用戶群體較小,APP 的流行度發(fā)展遠(yuǎn)遠(yuǎn)未到達(dá)穩(wěn)定狀態(tài),受內(nèi)外部沖擊后波動幅度頻繁且劇烈,因此演化模式數(shù)量明顯大于其他排名的APP。

排名理想的APP多屬于行業(yè)巨頭,其發(fā)展穩(wěn)定,更新動作規(guī)律,評論真實(shí)性較高,具有穩(wěn)定的用戶群體,因此受內(nèi)部、外部影響波動小。

(2)演化模式占比變化較大

隨著流行度的下降,演化模式P1所占比例在逐步下降,演化模式P2、P3、P4都有不同幅度的波動且總體呈上升趨勢,這證明隨流行度下降,APP 發(fā)展所受影響因素增多,波動增多,常見的穩(wěn)態(tài)模式逐漸減少,富于波動的模式的出現(xiàn)更加頻繁。

(3)演化模式的活躍位置不同

這里以演化模式出現(xiàn)的百分比量化該演化模式的活躍度。在生命周期中,演化模式出現(xiàn)百分比越大,則證明當(dāng)前時(shí)期該演化模式越活躍。不同模式在APP排名中活躍位置如圖5所示。

Fig.5 Active position with 4 patterns as APP ranks down圖5 隨APP排名下降4種演化模式的活躍位置

P1在整個(gè)生命周期中都十分活躍,但隨著流行度的下降,演化模式P1的活躍度整體呈下降趨勢。排名在50%左右的APP 是演化模式P1占比下降的分水嶺,前后兩階段的APP 的演化模式P1出現(xiàn)的百分比差異較大。

P2的最活躍期出現(xiàn)在25%左右,說明對于流行度增長速度表現(xiàn)強(qiáng)勁的APP,P2是它們最受歡迎的模式,這既代表開發(fā)商對于增長的努力,也代表未來發(fā)展良好的能力。當(dāng)然這也與APP 發(fā)展現(xiàn)狀相吻合,同行競爭大,流行度上升難,但APP穩(wěn)定性強(qiáng),因此需要采取措施不斷提高流行度增長的速度。

P3的最活躍期出現(xiàn)在70%左右,大多出現(xiàn)在排名的中后段位置,說明流行性表現(xiàn)不佳的APP 在針對降低下降速度而做出努力,此處開發(fā)商的關(guān)注點(diǎn)可能已轉(zhuǎn)移到如何減小損失,降低每次下降的速率。這也與APP 發(fā)展現(xiàn)狀相吻合,來自相同位次的同行間競爭較小,流行度上升較為容易,但APP發(fā)展的穩(wěn)定性差,因此需要不斷采取措施減緩流行度下降的速度。P2與P3的活躍位置還受其他因素影響。

P4因出現(xiàn)數(shù)量較少無法得到確切的規(guī)律,但可以看出其多活躍于排名中后段的APP 的生命周期中。說明流行度排名較為優(yōu)越的APP很難出現(xiàn)上升下降過程中都包含曲折過程的演化模式,當(dāng)排名不佳時(shí),其演化過程更為復(fù)雜,所受影響因素更多,更加不穩(wěn)定。

4.3.4 演化模式平均持續(xù)時(shí)間的差異

并非是TOP APP 就一定穩(wěn)定,它們的每一次更新影響深遠(yuǎn),波及用戶人數(shù)多,演化模式持續(xù)時(shí)間較短但演化模式種類較為單一。

排名中上段較為穩(wěn)定,演化模式持續(xù)時(shí)間較長,種類開始增多,上升需要更多助力,主要精力放在增加下載量上。中下段不是非常穩(wěn)定,演化模式持續(xù)時(shí)間短,變化多,開發(fā)商動作頻繁但影響并不深遠(yuǎn),主要精力放在減慢下降速度上。最后段表現(xiàn)不佳,變化多但可能更多是受外部影響,穩(wěn)定性差。根據(jù)統(tǒng)計(jì)計(jì)算,演化模式的平均持續(xù)時(shí)間如表2所示。

Table 2 Average duration of each pattern表2 演化模式平均持續(xù)時(shí)間

5 APP流行度預(yù)測方法

5.1 CrowdPop預(yù)測模型架構(gòu)

本文提出基于隨機(jī)森林(random forest,RF)的CrowdPop 預(yù)測模型,將深遠(yuǎn)影響APP 流行度的8種特征作為預(yù)測因子輸入,通過訓(xùn)練21天(第1至3周)的APP數(shù)據(jù)來預(yù)測后7天(第4周)的APP流行度。采用MSE(mean square error)與RMSE(root mean square error)來驗(yàn)證模型的準(zhǔn)確性。為了進(jìn)行對比,采用多元線性回歸(linear regression,LR)和支持向量機(jī)回歸(support vector regression,SVR)兩種算法作為參考基準(zhǔn)。CrowdPop模型架構(gòu)如圖6所示。

Fig.6 CrowdPop model architecture圖6 CrowdPop模型架構(gòu)

5.2 CrowdPop預(yù)測因子

CrowdPop 模型的預(yù)測因子包括P1、P2、P3和P4的表現(xiàn)、評論量、評分、評論情感、更新動作,需要將其量化為8種時(shí)序數(shù)據(jù)作為CrowdPop模型輸入。

為方便區(qū)分,將APP 的更新頻率、評論量、評分和評論情感這4種特征稱為顯式特征,因?yàn)槠湓从贏PP的維護(hù)運(yùn)營和用戶反饋中;對應(yīng)的隱式特征是包含APP生命周期中流行度演化過程反映出的演化模式組成、持續(xù)時(shí)間等特征信息。

為了更加顯著地表現(xiàn)出CrowdPop 模型的優(yōu)越性,實(shí)現(xiàn)演化模式組成這一預(yù)測因子的最佳量化,本節(jié)共提出4種表示隱式特征的方法,分別為:

方法1當(dāng)天演化模式占比序列

即當(dāng)前時(shí)間內(nèi)所處演化模式的類型。這里數(shù)據(jù)采用稀疏矩陣的表示方法,每行4個(gè)狀態(tài)中僅有一個(gè)狀態(tài)取值為1,代表當(dāng)前正處于這類演化模式的過程中。

方法2疊加式演化模式占比序列

考慮到演化模式并不只是作用于相鄰的有限時(shí)間內(nèi),方法2將針對方法1中的稀疏矩陣進(jìn)行縱向疊加,疊加后每行數(shù)據(jù)代表截止到當(dāng)天,之前出現(xiàn)的所有演化模式的組合情況。

方法3疊加式持續(xù)時(shí)間序列

參考本文在4.3.4小節(jié)中得到的結(jié)論即不同演化模式的持續(xù)時(shí)間差別較大,考慮到僅僅標(biāo)記演化模式的出現(xiàn)并不能準(zhǔn)確刻畫出不同模式在APP流行度演化過程中的持續(xù)性,這里提出方法3,將矩陣表示為直至當(dāng)天時(shí)間,之前出現(xiàn)的各演化模式的持續(xù)時(shí)間的疊加,不同演化模式的出現(xiàn)頻率不同,出現(xiàn)次序不同,其持續(xù)時(shí)間也不同,方法3更加細(xì)化了演化模式對于未來流行度的影響和作用。

方法4時(shí)間窗口式持續(xù)時(shí)間序列

設(shè)置時(shí)間窗口滑動機(jī)制,通過改變窗口長度來確定疊加的時(shí)間長度,矩陣數(shù)據(jù)仍表示為持續(xù)時(shí)間的疊加,但不直接設(shè)定為截至當(dāng)天出現(xiàn)的所有演化模式的持續(xù)時(shí)間。

CrowdPop模型分別采用以上4種方法作為輸入并依次計(jì)算不同方法下CrowdPop 模型的預(yù)測精度,最終發(fā)現(xiàn)方法4作為最佳輸入有效優(yōu)化了基準(zhǔn)研究的預(yù)測精度。實(shí)驗(yàn)輸出為模型中的各概率初始參數(shù),預(yù)測周的平均下載量和預(yù)測周的流行度演化曲線。

5.3 CrowdPop預(yù)測算法

CrowdPop 模型采用隨機(jī)森林RF 算法對輸入的預(yù)測因子進(jìn)行APP未來一段時(shí)間內(nèi)流行度的預(yù)測工作。之后分別與多元線性回歸LR、支持向量機(jī)回歸SVR算法的預(yù)測精度進(jìn)行對比,以驗(yàn)證CrowdPop模型在預(yù)測算法方面的優(yōu)越性。首先對RF算法進(jìn)行簡要介紹。

隨機(jī)森林是一種多功能機(jī)器學(xué)習(xí)算法,能夠執(zhí)行回歸和分類的任務(wù)。在APP流行度的預(yù)測工作中,隨機(jī)森林算法主要從以下步驟完成回歸預(yù)測工作:

(1)針對訓(xùn)練集生成多個(gè)決策樹并組成決策森林;

(2)基于APP 的8種特征數(shù)據(jù)進(jìn)行未來流行度的預(yù)估;

(3)隨機(jī)森林中的每一棵樹都會給出自身的分類輸出值;

(4)森林整體將所有決策樹輸出的平均值作為輸出結(jié)果,即對應(yīng)當(dāng)前特征取值的APP一周下載量。

另外本文引入多元線性回歸與支持向量機(jī)回歸兩種算法與CrowdPop模型進(jìn)行對比,下面分別對LR和SVR進(jìn)行簡要介紹。

(1)LR算法

多元線性回歸算法用于刻畫與APP流行度演化相關(guān)的8個(gè)自變量與APP未來流行度間的線性關(guān)系。通過LR算法建立訓(xùn)練集中7天前特征的取值與當(dāng)前流行度的線性關(guān)系,并得到不同特征的權(quán)重參數(shù),以便實(shí)現(xiàn)通過當(dāng)前特征取值預(yù)測未來流行度的工作。

(2)SVR算法

SVR 算法本質(zhì)為尋找一個(gè)回歸平面,讓一個(gè)集合的所有數(shù)據(jù)到該平面的距離最近。它從訓(xùn)練集數(shù)據(jù)中選取一部分更加有效的支持向量,根據(jù)這些訓(xùn)練樣本的值通過回歸分析預(yù)測對應(yīng)當(dāng)前特征數(shù)據(jù)取值的未來一段時(shí)間APP流行度的取值。

6 實(shí)驗(yàn)驗(yàn)證

預(yù)處理的數(shù)據(jù)包括7個(gè)功能分類共126個(gè)APP,每4周為一組數(shù)據(jù),共計(jì)6 148組。其中每組數(shù)據(jù)包括21天(3周)的訓(xùn)練數(shù)據(jù)和7天(1周)的測試數(shù)據(jù)。

6.1 實(shí)驗(yàn)設(shè)置

為了更加清晰地對比CrowdPop模型結(jié)合4種不同量化方法的預(yù)測精度,以及引入P1、P2、P3和P4這一隱式特征對于APP 流行度預(yù)測的必要性,本節(jié)設(shè)置基準(zhǔn)方法,實(shí)現(xiàn)結(jié)果的清晰對照。這里仍采用CrowdPop 預(yù)測模型架構(gòu),但只引入除去演化模式的其他4類影響因子:評論量、評分、評論情感和更新動作。并將預(yù)測結(jié)果的MSE 與RMSE 作為對比基準(zhǔn)。在增加演化模式組成與持續(xù)時(shí)間這一影響特征后,通過比較不同方法的MSE與基準(zhǔn)方法MSE的大小,從而判斷不同方法下CrowdPop 模型針對APP 流行度預(yù)測的性能差異,選取最優(yōu)模型與方法。

首先建立4類顯式特征與APP 流行度間的數(shù)學(xué)關(guān)系。分別采用LR、RF和SVR算法針對顯式特征與APP流行度之間建立數(shù)學(xué)關(guān)系,計(jì)算對應(yīng)測試集的預(yù)測數(shù)據(jù)集,并計(jì)算測試集與預(yù)測集的MSE和RMSE,統(tǒng)計(jì)針對每個(gè)APP 產(chǎn)生最小MSE 值的算法,結(jié)果如表3所示。

其中,最優(yōu)百分比表示這種算法在針對同一APP進(jìn)行預(yù)測時(shí),相比其他兩種方法,其MSE 值最小,即預(yù)測準(zhǔn)確性最優(yōu)??梢钥闯?,LR 與RF 在這6 148組數(shù)據(jù)中的表現(xiàn)平分秋色,MSE 的均值也在同一數(shù)量級上,相差較小。而SVR在預(yù)測精度上則表現(xiàn)不佳,其MSE值與RF相差一個(gè)數(shù)量級,當(dāng)對同一APP進(jìn)行預(yù)測時(shí),更是很難表現(xiàn)絕對優(yōu)勢。因此下一步實(shí)驗(yàn)摒棄SVR算法,采用LR與RF進(jìn)行性能對比。

Table 3 Accuracy comparison of predictive algorithm表3 預(yù)測算法精度對比

6.2 實(shí)驗(yàn)結(jié)果

方法1當(dāng)天演化模式占比序列

這里采用稀疏矩陣表示,通過0或1來代表當(dāng)天流行度處于何種演化模式。設(shè)置為4×365的稀疏矩陣,其中行值代表時(shí)間序列,列值表征4種演化模式在某一天的取值,當(dāng)天如果正處于演化模式P2,則該天P2特征值取值為1,P1、P3和P4特征值取值為0。從橫向的角度看,P1、P2、P3和P4的取值構(gòu)成了4個(gè)隱式特征,0/1取值反映當(dāng)天APP 所處演化模式的狀態(tài)。從縱向來看只研究一周前的同一時(shí)間APP所處演化模式對于當(dāng)下流行度的影響,實(shí)際上可以理解為歷史流行度對于當(dāng)前流行度如何演化的影響。將演化模式序列與其他4個(gè)顯式特征對應(yīng)組合后,應(yīng)用LR 和RF 兩種算法分別對APP 的一周流行度進(jìn)行預(yù)測和計(jì)算MSE,并將實(shí)驗(yàn)結(jié)果與6.1節(jié)中對應(yīng)數(shù)據(jù)的MSE 比較,從而發(fā)現(xiàn)方法1對于預(yù)測模型的優(yōu)化情況。其中優(yōu)化結(jié)果如表4所示。

Table 4 Method 1 optimization表4 方法1優(yōu)化情況

隱式特征的引入能切實(shí)提高模型的預(yù)測精度,但是并不能實(shí)現(xiàn)對所有實(shí)驗(yàn)集的優(yōu)化,排除APP 個(gè)體差異,有理由認(rèn)為只是反映當(dāng)前APP 演化模式的狀態(tài)并不能完全涵蓋演化模式中蘊(yùn)含的信息。例如一個(gè)APP如果連續(xù)處于多個(gè)P1模式中,那么在一段時(shí)間內(nèi)其隱式特征取值就不會改變,如果考慮演化模式的出現(xiàn)對于未來APP 流行度演化的疊加式效應(yīng),模型的預(yù)測精度是否會進(jìn)一步提升呢?

方法2疊加式演化模式占比序列

引入隱式特征的疊加式數(shù)據(jù)來探究其對APP流行度演化的影響和對模型的優(yōu)化。具體為實(shí)現(xiàn)方法1中代表4個(gè)隱式特征的稀疏矩陣進(jìn)行縱向的疊加,即當(dāng)前隱式特征仍表示為4×365的數(shù)值矩陣,但每一個(gè)數(shù)值代表截止到當(dāng)前時(shí)間,之前出現(xiàn)過某種演化模式的次數(shù)。在對模型進(jìn)行進(jìn)一步的改進(jìn)之后將實(shí)驗(yàn)結(jié)果繼續(xù)與基準(zhǔn)研究對比,對比結(jié)果如表5所示。

Table 5 Method 2 optimization表5 方法2優(yōu)化情況

實(shí)驗(yàn)結(jié)果顯示方法2針對基準(zhǔn)研究優(yōu)化范圍十分有限,即當(dāng)引入演化模式在時(shí)間推移上的疊加式影響時(shí),模型的準(zhǔn)確性并沒有得到預(yù)期效果。為此本文分析方法2得到的各個(gè)特征數(shù)據(jù)的平均參數(shù),并與基準(zhǔn)研究中4個(gè)顯式特征的參數(shù)進(jìn)行對比。對比結(jié)果如圖7所示。對比發(fā)現(xiàn),顯式特征在不同模型中的變化并不顯著,針對不同APP 進(jìn)行預(yù)測時(shí)其值在正常范圍內(nèi)波動。圖7展現(xiàn)了在基準(zhǔn)研究和方法2中采用特征不同但顯式特征參數(shù)近似的情況。之后統(tǒng)計(jì)所有樣本集P1、P2、P3和P4這4個(gè)隱式特征的參數(shù)并求取平均值,結(jié)果如表6所示。

各演化模式表現(xiàn)在方法2模型中的參數(shù)值依次遞減,其中P2至P4和P1對應(yīng)的參數(shù)相差4個(gè)數(shù)量級。模型不夠合理,因?yàn)镻2、P3和P4在影響流行度的過程中權(quán)重太低以至于沒有考慮它們的必要。但從4.3節(jié)中得知不同演化模式都因代表不同狀態(tài)而存在,因此考慮這4類常見演化模式并沒有問題。方法2在處理演化模式這一類隱式特征的方法有待優(yōu)化,因?yàn)椋?/p>

Fig.7 Explicit feature weights of method 2 vs.benchmark studies圖7 方法2與基準(zhǔn)研究的顯式特征權(quán)重對比

(1)P1出現(xiàn)最為頻繁導(dǎo)致其特征值遠(yuǎn)遠(yuǎn)超過P2、P3和P4的特征值。P1作為最常見的模式,疊加式統(tǒng)計(jì)出現(xiàn)次數(shù)和整體歸一化的計(jì)算方法無疑縮小了原本就出現(xiàn)次數(shù)較少的P2、P3和P4這3類演化模式間的差異。

(2)不同演化模式本身的影響和作用并沒有單獨(dú)量化。方法2中簡單地用0/1來表示在某一時(shí)間點(diǎn)下某種演化模式是否出現(xiàn),這基于一項(xiàng)基本假設(shè):任意一個(gè)演化模式對APP未來流行度的影響只與其在生命周期中出現(xiàn)的次數(shù)有關(guān),而與演化模式的不同種類無關(guān)。

(3)演化模式的持續(xù)時(shí)間各不相同。在4.3.4小節(jié)中明確指出模式的持續(xù)時(shí)間,并且不同演化模式的持續(xù)時(shí)間的差異顯然是不能粗略認(rèn)為是等同的。

因此需要針對方法2中不同演化模式的同種量化方法進(jìn)行改進(jìn)。

方法3疊加式持續(xù)時(shí)間序列

方法2認(rèn)為演化模式這種隱式特征可以量化為兩種統(tǒng)計(jì)數(shù)值的乘積:某種演化模式的影響力和它在生命周期中出現(xiàn)的次數(shù)。這里可以選取演化序列中統(tǒng)計(jì)的演化模式的持續(xù)時(shí)間來表征不同演化模式對于APP 未來流行度的影響,顯然這兩者確實(shí)是直接相關(guān)的,并且持續(xù)時(shí)間是由統(tǒng)計(jì)工作得到,本身能夠較為客觀地反映演化中的復(fù)雜影響。

采用累加式持續(xù)時(shí)間來表征隱式特征P1至P4的數(shù)值。這里繼續(xù)采用數(shù)值矩陣表示,仍以一天時(shí)間為單位,即每過一個(gè)時(shí)間單位,若某種演化模式仍在持續(xù)就在數(shù)值上疊加1。例如演化模式P3在某個(gè)APP的生命周期中持續(xù)8天,則這8天內(nèi)隱式特征P3的取值為(1,2,3,4,5,6,7,8),當(dāng)然在統(tǒng)計(jì)工作結(jié)束后需要對隱式特征的取值統(tǒng)一歸一化。這里采用LR和RF兩種算法分別針對新的數(shù)據(jù)集進(jìn)行訓(xùn)練并輸出預(yù)測結(jié)果,同時(shí)計(jì)算測試集與預(yù)測集之間MSE 取值來衡量模型的精度。

圖8顯示了集中于前40%時(shí)間段內(nèi)的數(shù)據(jù)的詳細(xì)分析。其中橫坐標(biāo)表示預(yù)測集中的周序號,縱坐標(biāo)表示預(yù)測的優(yōu)化率與失誤率,優(yōu)化率定義為方法3中模型預(yù)測后成功降低原始模型(只考慮顯式特征)MSE數(shù)值的百分比,而失誤率則代表方法3模型與原始模型相比MSE 反而升高的百分比。可以清楚看到,方法3模型除了在初始周的優(yōu)化率達(dá)到100%,最高優(yōu)化率出現(xiàn)在第8周,之后便逐漸降低,在第20周甚至小于50%;相反的是,其失誤率從第9周開始逐周增長,且具有持續(xù)增長的走勢。

Fig.8 Accuracy of top 40%data prediction result in method 3圖8 方法3前40%數(shù)據(jù)預(yù)測結(jié)果準(zhǔn)確率

通過對方法3的細(xì)致分析,認(rèn)為改進(jìn)的模型相比原始模型確實(shí)能夠有效降低MSE 數(shù)值,這說明將演化模式量化為持續(xù)時(shí)間著實(shí)是正確的。但新模型的優(yōu)化性能卻因APP生命周期的推移而受限。這里尚待商榷的因素還有一個(gè):持續(xù)時(shí)間的累加程度。方法3將某一天的演化模式表征為之前所有持續(xù)時(shí)間的加和,這存在前提假設(shè):之前所有的演化模式的出現(xiàn)都對未來流行度產(chǎn)生相同程度的影響。顯然這不夠合理,例如100天前的演化模式的構(gòu)成比例對于當(dāng)前的流行度的影響十分微妙。因此再次對模型進(jìn)行改進(jìn),提出方法4。

方法4時(shí)間窗口式持續(xù)時(shí)間序列

設(shè)置滑動時(shí)間窗口,每次選取固定時(shí)長的演化特征的取值來引入模型。也就是說,在每天特征中,演化模式處的4個(gè)特征值分別為之前42天(6周)的持續(xù)時(shí)間的疊加值。分別計(jì)算不同時(shí)間窗口下對應(yīng)模型的優(yōu)化率,實(shí)驗(yàn)結(jié)果如圖9所示。

Fig.9 Accuracy of prediction results in method 4圖9 方法4預(yù)測結(jié)果準(zhǔn)確率對比

由圖9可知,當(dāng)時(shí)間窗口為4周時(shí)方法4的優(yōu)化率能夠達(dá)到最高為85.7%。

7 總結(jié)與展望

本文采集大量APP 群智感知數(shù)據(jù),通過對APP流行度演化曲線的切割與聚類歸納出7種原子演化結(jié)構(gòu);之后通過序列模式挖掘發(fā)現(xiàn)APP 流行度演化過程的6種基本演化模式;針對統(tǒng)計(jì)數(shù)據(jù)分析后,探究了影響APP 流行度演化的7種影響因素:更新動作、營銷活動、同類APP 數(shù)量、實(shí)時(shí)排名、評論量、評分和評論情感。之后將演化模式與7種影響因素結(jié)合,針對其內(nèi)源性聯(lián)系和相互影響進(jìn)行探究并得到一系列普適結(jié)論;之后本文提出預(yù)測APP流行度演化的CrowdPop 模型,模型采用隨機(jī)森林算法,將演化模式的組成與作用以及探索得到的7種影響因素歸納并量化為8種特征數(shù)據(jù)作為預(yù)測因子,并提出量化演化模式的4種不同方法并與其他兩種算法進(jìn)行對比,實(shí)驗(yàn)證明,CrowdPop模型能夠有效提高預(yù)測精度。

本研究中仍有很多問題值得繼續(xù)探索,例如擴(kuò)展CrowdPop 預(yù)測模型,通過引入更加細(xì)粒度的APP使用數(shù)據(jù)作為預(yù)測因子來提高預(yù)測精度,并針對不同類型、不同市場排名等分類方式細(xì)化CrowdPop 模型,訓(xùn)練APP不同標(biāo)簽的特征參數(shù),使預(yù)測模型針對性更強(qiáng)且又涵蓋全面。

猜你喜歡
預(yù)測特征算法
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
如何表達(dá)“特征”
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
不忠誠的四個(gè)特征
進(jìn)位加法的兩種算法
抓住特征巧觀察
不必預(yù)測未來,只需把握現(xiàn)在
定远县| 宁乡县| 九龙县| 扶绥县| 台安县| 红河县| 泰顺县| 饶平县| 淳安县| 余江县| 石门县| 晴隆县| 葵青区| 阿克陶县| 东阳市| 集安市| 龙游县| 辽源市| 乌拉特前旗| 合山市| 永城市| 克东县| 轮台县| 河池市| 徐州市| 易门县| 永泰县| 本溪市| 双柏县| 清水县| 合肥市| 迁西县| 临高县| 颍上县| 璧山县| 武川县| 山东省| 衡阳县| 云霄县| 平山县| 宁夏|