史可玉 羅洋
摘 ?要: 作為由多個(gè)問答社區(qū)組成的問答網(wǎng)站,StackExchange上擁有諸多用戶的問答數(shù)據(jù)。想要實(shí)現(xiàn)知識的有效傳播,還要加強(qiáng)專業(yè)回答的挖掘。基于此,本文對數(shù)據(jù)挖掘技術(shù)及其在社區(qū)網(wǎng)絡(luò)平臺中的應(yīng)用方法進(jìn)行了探討,然后結(jié)合StackExchange特點(diǎn)提出了相應(yīng)的數(shù)據(jù)挖掘算法,為網(wǎng)站個(gè)性化問答推薦服務(wù)生成提供支持,促使用戶知識獲取需求得到滿足。
關(guān)鍵詞: StackExchange問答網(wǎng)站;社區(qū)網(wǎng)絡(luò)平臺;數(shù)據(jù)挖掘
中圖分類號: TP3 ? ?文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.06.048
本文著錄格式:史可玉,羅洋. 關(guān)于StackExchange問答社區(qū)網(wǎng)絡(luò)數(shù)據(jù)挖掘的分析[J]. 軟件,2020,41(06):233236
【Abstract】: As Q & A website composed of multiple Q & A communities, StackExchange has Q & A data of many users. To achieve effective dissemination of knowledge, it is necessary to strengthen mining of professional answers. Based on this, the paper discusses data mining technology and application method in community network platform, and puts forward corresponding data mining algorithm combined with characteristics of StackExchange, which provides support for generation of personalized Q & A recommendation service on website, and meets ?knowledge acquisition requirement of users.
【Key words】: StackExchange Q & A website; Community network platform; Data mining
0 ?引言
在信息大爆炸時(shí)代,知識出現(xiàn)了多元化交融的趨勢。面對人們?nèi)諠u增加的知識和信息獲取需求,社區(qū)網(wǎng)絡(luò)平臺得到了迅速發(fā)展,為人們獲取知識提供途徑。對于網(wǎng)站用戶來講,希望在第一時(shí)間通過訪問平臺滿足自身求知欲。因此在網(wǎng)站經(jīng)營方面,還應(yīng)同夠數(shù)據(jù)挖掘?qū)崿F(xiàn)精準(zhǔn)營銷,以推動平臺的可持續(xù)發(fā)展。
1 ?數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)實(shí)際為利用算法從大量數(shù)據(jù)中完成有用信息提取的過程,需要先獲取數(shù)據(jù)源,然后進(jìn)行預(yù)處理和數(shù)據(jù)變換,將提取到的有用信息轉(zhuǎn)換為知識,向用戶可視化展現(xiàn)。針對數(shù)據(jù)推向,應(yīng)確定特征信息。在合適數(shù)據(jù)庫中完成數(shù)據(jù)存儲,能夠保證數(shù)據(jù)綜合性、完整性,然后根據(jù)經(jīng)驗(yàn)確定分析指標(biāo)。對數(shù)據(jù)進(jìn)行清洗、歸約等處理,去除無效和冗余數(shù)據(jù),完成噪聲點(diǎn)處理,保證數(shù)據(jù)一致性,從而使數(shù)據(jù)質(zhì)量得到提高[1]。對得到的數(shù)據(jù)進(jìn)行歸約,能夠得到形式更小的數(shù)據(jù)集,保證數(shù)據(jù)挖掘效率。實(shí)際在數(shù)據(jù)挖掘期間,需要確定目標(biāo),對研究主題進(jìn)行選擇,然后解決數(shù)據(jù)抽樣問題。根據(jù)挖掘程度,能夠?qū)εc任務(wù)相關(guān)的知識類型進(jìn)行確認(rèn)。選擇適合的分析工具,如決策樹、模糊集等,能夠完成數(shù)據(jù)挖掘,最后以圖表、報(bào)告等不同形式呈現(xiàn)結(jié)果。
2 ?數(shù)據(jù)挖掘在社區(qū)網(wǎng)絡(luò)平臺中的應(yīng)用
2.1 ?確定訪問習(xí)慣
社區(qū)網(wǎng)絡(luò)平臺在運(yùn)營的過程中,需要為用戶提供個(gè)性化服務(wù),確保平臺點(diǎn)擊量和人流量能夠得到提高。為此,平臺需要把握受眾心理,呈現(xiàn)用戶感興趣的內(nèi)容。通過為用戶提供相對自由的網(wǎng)絡(luò)空間,根據(jù)自身需求發(fā)表意見和建議,能夠使用戶對平臺服務(wù)感到滿意,繼而使平臺競爭力得到提升。因此運(yùn)用數(shù)據(jù)挖掘技術(shù),需要對訪問平臺的用戶數(shù)據(jù)展開深入分析,結(jié)合用戶習(xí)慣對其日常偏好、界面瀏覽方式等進(jìn)行推斷,以便提供有針對性的服務(wù)[2]。通過提供人性化服務(wù),能夠使用戶對平臺的好感度得到提升,促使平臺運(yùn)營效益得到保證。結(jié)合這一目標(biāo),對用戶網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析需要確定用戶行為流程,如瀏覽點(diǎn)擊、搜索等過程。根據(jù)用戶瀏覽規(guī)律和訪問習(xí)慣,能夠?qū)︻l繁訪問路徑進(jìn)行抽取,實(shí)現(xiàn)前端界面優(yōu)化,使用戶能夠迅速完成符合需求的結(jié)果查找。
2.2 ?實(shí)現(xiàn)類群分組
按照上述思路,在對平臺數(shù)據(jù)進(jìn)行挖掘時(shí)需要完成用戶搜索特征信息采集,從中分析得到用戶搜索行為特點(diǎn)。通常的情況下,用戶需要利用關(guān)鍵詞對想要的信息進(jìn)行搜索。根據(jù)這一習(xí)慣對平臺關(guān)鍵詞進(jìn)行選取,使平臺搜索符合用戶操作習(xí)慣,能夠使用戶目光在第一時(shí)間被吸引。實(shí)際在關(guān)鍵詞選取時(shí),需要做到合理分組,完成詞庫建立,以便使擁有類似行為特征的用戶需求得到兼顧,確保用戶群能夠根據(jù)平臺推廣搜索到想要的內(nèi)容。按照這一要求,需要對用戶后端數(shù)據(jù)展開分析和處理,根據(jù)用戶問答提供的文本信息完成興趣標(biāo)簽的設(shè)置,完成潛在用戶特征數(shù)據(jù)提取,得到準(zhǔn)確的用戶類群信息。根據(jù)興趣標(biāo)簽完成用戶分組,能夠推斷用戶對哪些信息感興趣。結(jié)合用戶傾向進(jìn)行信息推廣,能夠使挖掘得到的有用信息更具價(jià)值,幫助平臺成功實(shí)現(xiàn)用戶關(guān)系維系。
2.3 ?完善網(wǎng)站運(yùn)營
利用數(shù)據(jù)挖掘結(jié)果,能夠?qū)τ脩粼L問結(jié)果進(jìn)行完善,促使用戶得到關(guān)注度得到提高。結(jié)合用戶群興趣愛好,可以對平臺界面布局進(jìn)行調(diào)整和動態(tài)更新,在顯著位置推廣關(guān)鍵信息。在平臺規(guī)劃設(shè)計(jì)階段,也可以采取該措施實(shí)現(xiàn)資源整合,通過提供大量有效信息完成用戶感興趣內(nèi)容挖掘,使平臺對用戶的吸引力得到提高。應(yīng)用數(shù)據(jù)挖掘技術(shù),也能完成網(wǎng)站日志數(shù)據(jù)分析,做到合理判斷用戶日常瀏覽行為,為用戶操作提供便捷服務(wù)。針對潛在客戶,也可以在瀏覽信息中推送感興趣的內(nèi)容[3]。從平臺運(yùn)營角度來看,可以結(jié)合用戶群偏好進(jìn)行廣告適度推送,在保證用戶順利接收各種信息的同時(shí),為平臺帶來更多收益,繼而使平臺在維持穩(wěn)定用戶數(shù)的同時(shí),能夠取得可持續(xù)發(fā)展。
其中,EQui→qj為回答ui對問題涉及各知識領(lǐng)域?qū)I(yè)可信度,Tagqj為問題qj知識領(lǐng)域標(biāo)簽。在實(shí)際分析的過程中,需要對相關(guān)參數(shù)進(jìn)行歸一化處理,得到Tui→tk的特定取值范圍。根據(jù)分析得到的用戶在不同領(lǐng)域回答可信度,并根據(jù)用戶提問涉及的知識領(lǐng)域,能夠完成專業(yè)可信用戶群劃分,對用戶的回答進(jìn)行推薦,達(dá)到生成網(wǎng)站個(gè)性化回答推薦服務(wù)的目標(biāo)[9]。
3.5 ?網(wǎng)站個(gè)性化推薦服務(wù)生成
利用數(shù)據(jù)挖掘方法完成社區(qū)網(wǎng)絡(luò)數(shù)據(jù)分析后,可以得到不同的用戶群。在平臺個(gè)性化回答推薦服務(wù)生成方面,可以先利用篩選得到的高信譽(yù)用戶集合進(jìn)行驗(yàn)證,然后利用特殊貢獻(xiàn)用戶集合展開驗(yàn)證分析。在此基礎(chǔ)上,針對某個(gè)問題,可以完成全部用戶專業(yè)可信度評價(jià),從中篩選出專業(yè)可信用戶,得到專家用戶集合。在問題回答驗(yàn)證上,可以對三種用戶群的回答命中個(gè)數(shù)展開比較,確定不同推薦服務(wù)的有效性。實(shí)際開展評估時(shí),可以采用準(zhǔn)確率和平均相似度兩大指標(biāo),前者為回答命中數(shù)占推薦個(gè)數(shù)的比率,后者為命中個(gè)數(shù)占用戶個(gè)數(shù)的比率。如表1所示,為驗(yàn)證結(jié)果。在回答擁有一定推薦數(shù)的情況下,相較于其他用戶群,專業(yè)用戶群的回答顯然擁有更高的準(zhǔn)確率和較小平均相似度。但在一些問題回答上,專業(yè)可信回答用戶數(shù)量較少,以至于推薦數(shù)量比設(shè)定的數(shù)量要少。出現(xiàn)這一情況,主要是由于專業(yè)用戶數(shù)量本身較少。為提高專業(yè)用戶的活躍度,平臺還應(yīng)采取一定獎勵(lì)措施。但總體 ?來看,專業(yè)用戶回答推薦性能依然較高,因此還應(yīng)將專業(yè)用戶回答當(dāng)成是優(yōu)選結(jié)果,在新問題提出 ?后進(jìn)行個(gè)性化推薦,繼而使網(wǎng)站服務(wù)水平得到提 ? 高[10]。
4 ?結(jié)語
綜上所述,針對社區(qū)網(wǎng)絡(luò)中大量問答數(shù)據(jù),可以利用數(shù)據(jù)挖掘技術(shù)加強(qiáng)用戶訪問習(xí)慣分析,通過類群分組對訪問結(jié)果進(jìn)行完善,保證用戶能夠盡快獲得想要的信息。在StackExchange網(wǎng)站運(yùn)營方面,通過實(shí)現(xiàn)數(shù)據(jù)采集和處理,能夠完成專業(yè)回答數(shù)據(jù)挖掘,生成個(gè)性化推薦服務(wù),從而通過構(gòu)建高效社區(qū)滿足用戶訪問需求。
參考文獻(xiàn)
[1] 陳華慶, 冼遠(yuǎn)清, 賴建明. 網(wǎng)站彈幕視頻數(shù)據(jù)的挖掘與分析[J]. 福建電腦, 2019, 35(08): 102-103.
[2] 國鋒. 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J]. 電腦知識與技術(shù), 2019, 15(24): 280-281.
[3] 劉艷, 李一銘, 劉子逸. 基于精準(zhǔn)營銷的問答平臺數(shù)據(jù)挖掘算法需求綜述[J]. 中小企業(yè)管理與科技(中旬刊), 2018(01): 152-153.
[4] 劉迎春, 朱旭, 謝年春, 等. 基于數(shù)據(jù)挖掘的專業(yè)可信回答者個(gè)性化推薦——以Stack Overflow問答社區(qū)為例[J]. 現(xiàn)代教育技術(shù), 2019, 29(05): 78-84.
[5] 常海. 數(shù)據(jù)挖掘與分析在網(wǎng)站運(yùn)營管理中的應(yīng)用[J]. 企業(yè)改革與管理, 2018(19): 66+70.
[6] 李小雙. 基于CNKI數(shù)據(jù)庫的城市社區(qū)活力知識圖譜分析[C]. 中國城市規(guī)劃學(xué)會、重慶市人民政府. 活力城鄉(xiāng) 美好人居——2019中國城市規(guī)劃年會論文集(20住房與社區(qū)規(guī)劃). 中國城市規(guī)劃學(xué)會、重慶市人民政府: 中國城市規(guī)劃學(xué)會, 2019: 817-832.
[7] 洪闖, 李賀, 祝琳琳, 彭麗徽. 活動理論視角下社會化問答平臺用戶知識協(xié)同模型與關(guān)鍵影響因素研究——基于模糊DANP方法[J]. 情報(bào)理論與實(shí)踐, 2019, 42(11): 100-106.
[8] 王麗萍. 智慧圖書館知識服務(wù)新思路:問答社區(qū)模式的啟示與應(yīng)用[J]. 出版廣角, 2019(13): 74-76.
[9] 閆俊周, 齊念念. 基于ISM的我國戰(zhàn)略性新興產(chǎn)業(yè)創(chuàng)新績效影響因素分析[J]. 科技管理研究, 2019, 39(12): 159-166.
[10] 張曉清, 潘清, 龔波. 基于控制流與數(shù)據(jù)流分離機(jī)制的網(wǎng)絡(luò)服務(wù)方法[J]. 軟件, 2014, 35(03): 111-113.