国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Apriori算法的網(wǎng)絡社區(qū)知識形成影響因素分析

2015-12-25 00:57:28
科技視界 2015年18期
關鍵詞:回帖置信度知識結構

徐 凡

(西南科技大學,四川 綿陽 621010)

關聯(lián)規(guī)則是數(shù)據(jù)挖掘中最常用的方法,關聯(lián)規(guī)則挖掘的主要目的是從大量的數(shù)據(jù)中尋找關聯(lián)性,為決策分析提供理論支持[1]。關聯(lián)規(guī)則運用最經(jīng)典的運用是購物籃分析“啤酒與尿布”的例子。而關聯(lián)規(guī)則中最常運用到的是Apriori 算法,它能夠根據(jù)用戶提供的條件有效的進行數(shù)據(jù)挖掘。

1 Apriori 算法及其特點

Agrawal 等人在1993年首次提出關聯(lián)規(guī)則,該規(guī)則主要用于挖掘數(shù)據(jù)之間的關聯(lián)性,對事物之間的親密度進行描述。關聯(lián)規(guī)則可描述為:設I={i1,i2,…,in}是項目集,D 是全體事務的集合,集合T∈I,即T 為I 的子集,每個事務有唯一的TID 標識。關聯(lián)規(guī)則就是形如X=>Y 的蘊含式,其中X∈I,Y∈I 且X∩Y=φ,X 稱為規(guī)則的條件,Y 稱為規(guī)則的結果[1]。運算結果通過支持度和可信度進行約束。

關聯(lián)規(guī)則中的支持度(Support)S 表示D 中有S%的事務同時包含X 和Y,即事務集中同時包含X 和Y 的事務數(shù)與所有事務數(shù)之比,記作Support(X,Y)=P(X∪Y)。置信度(Confidence)C 表示D 中有C%的事務同時也包含Y,即包含X 和Y 的事務數(shù)與包含X 的事務數(shù)之比,記作Confidence(X,Y)=P(Y/X)=P(X∩Y)/P(X)[2]。運用關聯(lián)規(guī)則進行數(shù)據(jù)挖掘就是要挖掘出滿足用戶設定的最小支持度和置信度的規(guī)則。我們把同時滿足用戶設定的最小支持度和最小置信度的規(guī)則稱為強規(guī)則。關聯(lián)規(guī)則的數(shù)據(jù)挖掘,一般分為兩步:首先找出所有滿足用戶設置的最小支持度的項目集,其次利用最大數(shù)據(jù)項集所生成的關聯(lián)規(guī)則,根據(jù)用戶指定的最小置信度確定規(guī)則的取舍,最后得到強關聯(lián)規(guī)則[1]。

Apriori 算法作為經(jīng)典的關聯(lián)規(guī)則算法,其算法的實現(xiàn)是通過對數(shù)據(jù)庫進行掃描從候選項集中找出頻繁項,不斷對候選項計數(shù)來完成的。它使用的是逐層搜索的迭代方法,通過對前一項集的探索來發(fā)現(xiàn)符合該次條件的項集。也就是說,Apriori 算法的基本思想是通過對數(shù)據(jù)庫的多次掃描以發(fā)現(xiàn)所有符合條件的頻繁項。在第k 次掃描中只考慮具有同一長度k 的所有項集。在后續(xù)的掃描中,首先以前一次所發(fā)現(xiàn)的所有頻繁項集為基礎,生成所有新的候選項集。然后掃描數(shù)據(jù)庫D,計算這些候選項集的支持度,最后確定候選項集中哪些可成為頻繁項集。重復上述過程直到再也產(chǎn)生不出新的頻繁項集。在計算過程中,Apriori 算法需要不斷重復連接與剪枝這兩個步驟。然而該算法也存在潛在的問題,即當數(shù)據(jù)容量龐大時,生成的候選項集數(shù)量太多,會降低該算法的計算效率,同時大量規(guī)則的產(chǎn)生也讓用戶難以選擇,這也是在運用Apriori 算法是需要解決的問題[3]。

2 數(shù)據(jù)準備

2.1 數(shù)據(jù)來源

為研究網(wǎng)絡社區(qū)中知識形成過程中哪些因素對其產(chǎn)生了影響,本文通過對網(wǎng)絡社區(qū)中知識形成過程進行分析,著重思考了在知識形成中哪些因素會影響到個人對網(wǎng)絡社區(qū)知識的吸收,重點考慮了九個方面的因素來分析,主要包括參與的目的性、成員級別、個人專業(yè)知識、知識接收者的知識結構、回帖數(shù)量、表達方式、回帖者態(tài)度、信息源、社區(qū)參與者的線下關系這九個方面,分析了以上九個方面的因素對知識形成產(chǎn)生的影響。通過網(wǎng)絡問卷調查的方式,共收獲共119 份問卷,為文章提供了原始數(shù)據(jù)。

2.2 數(shù)據(jù)預處理

對于部分數(shù)據(jù),參與調研者的態(tài)度并不是很明確,因此通過運用SPSS19.0 對已有數(shù)據(jù)進行了數(shù)據(jù)轉換,同時,由于調查者的使用時間與使用頻率不在考察的范圍,因此對問卷中的關于使用時間與使用頻率的數(shù)據(jù)進行了刪除,將問卷結果轉化為布爾型數(shù)據(jù),將結果中的肯定結構標為“1”,否定結果標注為“0”,并對數(shù)據(jù)中的九個項目進行了從I1 到I9 的編號,即I1=目的性,I2=成員級別,I3=個人專業(yè)知識、I4=知識結構、I5=回帖量、I6=表達方式、I7=回帖者態(tài)度、I8=信息源、I9=社區(qū)參與者的線下關系,部分數(shù)據(jù)整理結果如表1 所示:

3 基于Apriori 算法的數(shù)據(jù)分析

在對數(shù)據(jù)進行基礎分析后,進入數(shù)據(jù)分析階段。文章運用SPSS clemention12.0 對數(shù)據(jù)進行Appriori 運算。關聯(lián)規(guī)則設置中,文章將I1設置為后項,其他八項設為前項,將最小支持度設置為40%,最低置信度為80%,對其他的選項進行設置后開始運行,其運行結果部分如表2 所示。

表2 運算結果

對運行結果進行分析,可知,I4、I6、I3 同時出現(xiàn)的頻率為42%,置信度達到了92%,這說明這三個項目在整個運算中非常重要,此規(guī)則為強關聯(lián)。這表明知識結構、表達方式、個人專業(yè)知識同時影響了網(wǎng)絡社區(qū)成員知識的形成。I6、I3 同時出現(xiàn)的置信度為87%,這說明這一項目集在整個事務中起著很大的影響,即在網(wǎng)絡社區(qū)知識形成中,表達方式、個人專業(yè)知識同時影響著社區(qū)成員知識形成。I4、I6 同時出現(xiàn)的置信度為85%,這表明在網(wǎng)絡社區(qū)知識形成中,社區(qū)成員的知識結構與表達方式同時影響著社區(qū)成員知識形成的行為。I7、I5 同時出現(xiàn)的置信度為85%,它表明在整個事務中,二者同時出現(xiàn)的行為對整體有很大的影響,即在研究網(wǎng)絡社區(qū)知識形成中,回帖者態(tài)度與回帖量同時影響著社區(qū)成員新知識的形成。I3、I5 同時出現(xiàn)的置信度為85%,即在此研究中,個人專業(yè)知識與回帖量同時影響著網(wǎng)絡社區(qū)知識形成行為。I4、I6、I5 同時出現(xiàn)的置信度為85%,這表明知識結構、表達方式、回帖量同時對網(wǎng)絡社區(qū)知識的形成產(chǎn)生重要的影響。I4、I3、I5 同時出現(xiàn)的置信度為85%,這表明個人專業(yè)知識、知識結構與回帖量同時影響著社區(qū)成員知識形成行為。I4、I3 同時出現(xiàn)的置信度為84%,這表明在網(wǎng)絡社區(qū)知識形成中成員知識結構與個人專業(yè)知識同時對其產(chǎn)生了很大的影響。I8、I6 同時出現(xiàn)的置信度為84%,表明信息源與表達方式同時影響著社區(qū)成員的知識形成。I6 產(chǎn)生影響的置信度為83%,即在影響網(wǎng)絡社區(qū)成員知識形成中知識的表達方式產(chǎn)生了很大的作用。I6、I5 同時出現(xiàn)的置信度為82%,表明表達方式與回帖者態(tài)度同時影響了社區(qū)知識形成行為,I7、I6 同時出現(xiàn)的置信度為82%,表明回帖者態(tài)度與表達方式同時對網(wǎng)絡社區(qū)知識形成產(chǎn)生了很大的影響。I8、I3 同時出現(xiàn)的置信度為82%,表明信息源與專業(yè)知識同時影響了網(wǎng)絡社區(qū)知識的形成。在支持度為42%時I8、I3 同時出現(xiàn)的支持度為82%,再一次表明信息源與專業(yè)知識同時對網(wǎng)絡社區(qū)知識的形成產(chǎn)生了很大的影響。I4、I5 同時出現(xiàn)的置信度為81%,這表明知識結構與回帖量同時對網(wǎng)絡社區(qū)知識形成產(chǎn)生了大的影響。I4、I5 同時出現(xiàn)的支持度為55%,置信度為81%,它說明知識結構與回帖量同時影響著網(wǎng)絡社區(qū)知識的形成。I5 出現(xiàn)的置信度為81%,它表明在網(wǎng)絡社區(qū)知識形成中回帖量對其產(chǎn)生了大的影響。I9、I5 同時出現(xiàn)的置信度為81%,即在網(wǎng)絡社區(qū)知識形成中,線下關系與回帖量同時產(chǎn)生了大的影響。I7、I3 同時出現(xiàn)的置信度為81%,它表明回帖者態(tài)度與個人專業(yè)同時影響了知識對網(wǎng)絡社區(qū)知識的形成。I8、I6 同時出現(xiàn)的置信度為80%,表明信息來源與表達方式同時影響了網(wǎng)絡社區(qū)知識形成。

從以上數(shù)據(jù)分析我們可以發(fā)現(xiàn),在這些統(tǒng)計項中,I5 與I6 出現(xiàn)的次數(shù)最多,即回帖量與知識表達方式對網(wǎng)絡社區(qū)知識形成產(chǎn)生最重要的影響,因此對于網(wǎng)絡社區(qū)回帖量以及發(fā)帖中的表達方式規(guī)范的管理非常的重要,因為他對網(wǎng)絡社區(qū)成員對于知識的篩選與吸收產(chǎn)生了很大的影響。在所有的項集中,I3 出現(xiàn)的頻率也非常的高,即知識分享者的專業(yè)對社區(qū)成員知識形成具有很大的影響作用。I8、I3 即信息源與專業(yè)知識、I4、I5 即知識結構與回帖量同時出現(xiàn)的可能性非常高。

4 結論

通過以上數(shù)據(jù)分析我們發(fā)現(xiàn),回帖量與知識表達方式對網(wǎng)絡社區(qū)知識形成產(chǎn)生非常重要的影響,對于多數(shù)網(wǎng)絡社區(qū)成員來說,登陸網(wǎng)絡社區(qū)僅僅屬于瀏覽狀態(tài),并沒有特別的目的,這也在研究中有所體現(xiàn),因此對于多數(shù)社區(qū)成員,回帖量成為選擇閱讀內容的標準。同時對于社區(qū)成員來說,內容的表達方式如文字、圖片、視頻等也影響到了其對知識的篩選。有些社區(qū)成員偏向于對圖片內容的閱讀與吸收,而有些卻潛意識的選擇視頻圖像形式的知識。由上述數(shù)據(jù)分析可以得到社區(qū)知識的表現(xiàn)方式有極大的影響。而知識分享者的專業(yè)知識這一因素成為影響網(wǎng)絡社區(qū)知識形成的重要因素在于它體現(xiàn)了其分享的知識的可信程度,影響了社區(qū)成員對社區(qū)知識的選取與轉化程度。

同時由上述結果可以發(fā)現(xiàn),信息源與專業(yè)知識、知識結構與回帖量是項目同時出現(xiàn)頻率最高的兩組,即其中的一個因素出現(xiàn),另一個因素也隨之出現(xiàn)。信息來源與專業(yè)知識的同時出現(xiàn)表明網(wǎng)絡社區(qū)成員在對關注信息發(fā)布者的個人專業(yè)時,同時會關注轉載來的信息的來源,也就是說當網(wǎng)絡社區(qū)成員關注他人的知識的專業(yè)性時在選擇其他知識時也會關注其知識來源,這在一定程度上表明了社區(qū)成員對信息可信度的考量。社區(qū)成員個人的知識結構與回帖量的同時出現(xiàn)則表明當社區(qū)成員由于個人知識結構出現(xiàn)欠缺在進行知識選擇時,回帖數(shù)量會成為其考慮因素,因為回帖數(shù)量代表了知識的積累量,因此在對網(wǎng)絡社區(qū)知識形成影響因素進行分析時二者同時出現(xiàn)的可能性非常大。

需要指出的是,這里的影響因素側重于研究影響社區(qū)成員將社區(qū)知識轉化為個人知識的因素,即哪些因素影響了網(wǎng)絡社區(qū)中成員對已有知識的接收與轉化,因此研究結果會與之前的研究可能存在一定的差別。

[1]廖開際.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京大學出版社,2008,11.

[2]劉耀南.Apriori 算法的分析及應用[J].佛山科學技術學院學報:自然科學版,2012,30(3).

[3]張仁壽,羅林開,葉凌君.Apriori 算法對高技能人才市場工資價位影響因素的實證分析[J].中國軟科學,2010(1).

猜你喜歡
回帖置信度知識結構
硼鋁復合材料硼含量置信度臨界安全分析研究
把握核心概念 優(yōu)化知識結構
物理之友(2020年12期)2020-07-16 05:39:18
我國正當防衛(wèi)研究的網(wǎng)絡知識結構與核心脈絡
法大研究生(2019年2期)2019-11-16 00:39:26
概率統(tǒng)計知識結構與方法拓展
正負關聯(lián)規(guī)則兩級置信度閾值設置方法
計算機應用(2018年5期)2018-07-25 07:41:26
基于九因子模型的新手教師TPACK知識結構分析
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
“術”材擴用·善意回帖
善意回帖:韓國教授的民間努力
世界博覽(2014年14期)2015-03-25 20:20:15
多假設用于同一結論時綜合置信度計算的新方法?
電訊技術(2011年11期)2011-04-02 14:00:37
顺平县| 双流县| 和田县| 镇雄县| 彭泽县| 临夏市| 保康县| 彝良县| 桦川县| 北海市| 定西市| 霍州市| 南通市| 乐昌市| 广水市| 武陟县| 郁南县| 岳阳县| 桓台县| 昭平县| 德安县| 巨鹿县| 凤翔县| 洛宁县| 大埔区| 衡南县| 奉化市| 镇坪县| 宁波市| 黎平县| 门头沟区| 湖南省| 涡阳县| 思南县| 新巴尔虎右旗| 盐池县| 无极县| 延庆县| 毕节市| 蓝山县| 周口市|