龔松杰+林婉怡
摘要:在電子商務(wù)教學(xué)與應(yīng)用中,很多內(nèi)容已經(jīng)在向大數(shù)據(jù)的方向前進(jìn),用大數(shù)據(jù)進(jìn)行分析和總結(jié),教學(xué)效果可以由大數(shù)據(jù)分析總結(jié)出來(lái)。因此,在這個(gè)大數(shù)據(jù)化的時(shí)代,不與大數(shù)據(jù)有一定關(guān)聯(lián)性,很可能會(huì)被社會(huì)所淘汰。本文研究了在電子商務(wù)教學(xué)中,大量的微博和微信內(nèi)容,進(jìn)行大數(shù)據(jù)挖掘研究。
關(guān)鍵詞:電子商務(wù);大數(shù)據(jù);挖掘
1 引言
電子商務(wù)已經(jīng)成為中國(guó)戰(zhàn)略性新興產(chǎn)業(yè)中的一個(gè)重要組成部分,代表了全球信息經(jīng)濟(jì)的發(fā)展趨勢(shì)。隨著電子商務(wù)的發(fā)展,出現(xiàn)了基本問(wèn)題,如支付和分配,雙方的信任和聲譽(yù),這些已成為了電子商務(wù)和電子服務(wù)發(fā)展的瓶頸。在虛擬市場(chǎng)中,信任的缺失、信任危機(jī)和信任狀況的惡化等問(wèn)題越來(lái)越嚴(yán)重。
Web2.0技術(shù)的應(yīng)用和發(fā)展為表達(dá)自己的欲望和感情的用戶(hù)提供了豐富的渠道和方式。各種各樣的人通過(guò)網(wǎng)絡(luò)、網(wǎng)站、博客、微博、微信等發(fā)表評(píng)價(jià)商品,產(chǎn)品和服務(wù)的意見(jiàn)。特別是,微博和微信在電子商務(wù)的應(yīng)用領(lǐng)域中,提供了一種人們可以表達(dá)各種物品的感情,業(yè)務(wù)和服務(wù)渠道。這種用戶(hù)評(píng)價(jià)和微博客評(píng)論已成為一種形式,所有的用戶(hù)都可以發(fā)布、關(guān)注、評(píng)價(jià)、評(píng)論和分享信息。用戶(hù)微博客的信息和數(shù)據(jù)和電子商務(wù)的意見(jiàn)和評(píng)價(jià)不僅包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),還包括文本、鏈接、圖片、音頻和視頻內(nèi)容,電子商務(wù)發(fā)展迅猛。信息和數(shù)據(jù)的快速膨脹。通過(guò)數(shù)天和數(shù)月的時(shí)間逐漸形成了大量的數(shù)據(jù),大容量和復(fù)雜的結(jié)構(gòu),還有各種類(lèi)型的大數(shù)據(jù)。
2 微博和微信
微博起源于新浪媒體,是一個(gè)社會(huì)媒體平臺(tái),微信是一個(gè)社交平臺(tái)。吳軍先生在《浪潮之頂》中提到的企業(yè)基因,認(rèn)為新浪是一個(gè)網(wǎng)絡(luò)媒體,而騰訊是社交軟件和聊天工具,所以它也決定了兩種產(chǎn)品的方向。微博客是社會(huì)媒體的核心,還具有社會(huì)功能;社交工具的本質(zhì),還有一些媒體的功能。微博作為一種媒體工具,關(guān)系主要建立在興趣上,關(guān)系質(zhì)量薄弱,更多的是單向傳播,更多的是注重傳播速度和內(nèi)容的公開(kāi),這些信息很快就能在微博上傳播。微信是一個(gè)社交工具,是在社會(huì)關(guān)系的恢復(fù),關(guān)系主要在社交上,關(guān)系質(zhì)量強(qiáng)大,更多的是雙向的關(guān)系,關(guān)注的是私人之間的交換和互動(dòng)內(nèi)容,信息傳播的速度不是很快,但觀眾的消化率很高。
舉一個(gè)例子,同樣的內(nèi)容,在微信上的評(píng)論和回復(fù)要比在微博多很多,一個(gè)可見(jiàn)的關(guān)系,在你的生活中有很多的關(guān)系,微博客是單向的或更多一些的人之間的關(guān)系,看到和接受的信息,是不愿意花時(shí)間復(fù)習(xí)和反饋的,因?yàn)槭且粋€(gè)單向的關(guān)系。
微博和微信這兩種產(chǎn)品的優(yōu)劣長(zhǎng)短,在核心業(yè)務(wù)上沒(méi)有直接的沖突。就像在互聯(lián)網(wǎng)時(shí)代之前,你也得看電視,或者打個(gè)電話。微博要做的是媒體,主要是賣(mài)廣告;社會(huì)和銷(xiāo)售增值服務(wù)平臺(tái)。雖然微博也有很多做平臺(tái)的行動(dòng):微博支付等等,但是,更多的是有關(guān)媒體的。吳軍的企業(yè)基因決定論中,認(rèn)為新浪的基因是深的,而騰訊的基因則更純,在未來(lái)聯(lián)想微信產(chǎn)品方面有更多的空間。
3大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘的過(guò)程主要包括兩個(gè)階段:第一階段必須從數(shù)據(jù)集合中找出所有的高頻項(xiàng)目組,第二階段是從這些高頻項(xiàng)目組中生成關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始數(shù)據(jù)集中找出所有的高頻項(xiàng)目。高頻意味著一個(gè)項(xiàng)目組的頻率相對(duì)于所有的記錄必須在一定的水平。
關(guān)聯(lián)規(guī)則挖掘的第二階段是生成關(guān)聯(lián)規(guī)則。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,將產(chǎn)生高頻率的項(xiàng)目的規(guī)則,在最小置信度閾值的條件下,所得到的規(guī)律和最小的可靠性就是關(guān)聯(lián)規(guī)則。
首先,我們必須設(shè)置最小支持度和最小信任度兩個(gè)閾值。因此,滿(mǎn)足超市的要求的關(guān)聯(lián)規(guī)則將在同一時(shí)間滿(mǎn)足上述兩個(gè)條件。如果在挖掘過(guò)程中發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則符合下列條件,可接受生成關(guān)聯(lián)規(guī)則。
1 Apriori算法
Apriori算法是一種最具影響力的挖掘布爾關(guān)聯(lián)規(guī)則的算法。核心是一個(gè)在遞歸算法的基礎(chǔ)上的兩個(gè)階段的頻率集理論。關(guān)聯(lián)規(guī)則屬于一維,一層,布爾關(guān)聯(lián)規(guī)則。在此,所有的支持度都大于最小支持度。
該算法的基本思想是找出所有的頻率集,就是相同的最小支持度。然后,通過(guò)頻率集,產(chǎn)生關(guān)聯(lián)規(guī)則,它必須滿(mǎn)足最小支持度和最小置信度。然后,第一步是用找到所需的規(guī)則所產(chǎn)生的所有規(guī)則,其中只包含一組條款,只有一個(gè)在這里使用的每一個(gè)規(guī)則的權(quán)利之一。一旦生成這些規(guī)則,只有那些大于用戶(hù)給定的最小信任度的規(guī)則被留下。為了生成所有的頻率集,使用遞歸的方法??赡軙?huì)產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù),這是Apriori算法的主要缺點(diǎn)。
2 頻集算法
雖然Apriori的算法有缺陷,但Han J.提出了不產(chǎn)生候選頻繁項(xiàng)集挖掘的方法:FP樹(shù)算法采用分而治之的策略,在首次掃描數(shù)據(jù)庫(kù)時(shí),將頻率集壓縮成一個(gè)FP樹(shù)(樹(shù)),與他們相關(guān)的信息分化為條件FP樹(shù)庫(kù),再將每個(gè)庫(kù)的頻率設(shè)定到長(zhǎng)度為1。條件為開(kāi)采基地,當(dāng)原始數(shù)據(jù)量大時(shí),也可以結(jié)合劃分的方法,使FP-tree可以放入內(nèi)存。實(shí)驗(yàn)表明,和Apriori算法進(jìn)行比較,F(xiàn)P增長(zhǎng)有不同長(zhǎng)度的規(guī)則,適應(yīng)性好,具有良好的效率。
3.劃分算法
劃分算法是一個(gè)基于分區(qū)的算法。該算法首先將數(shù)據(jù)庫(kù)邏輯上劃分為幾個(gè)不相交的塊,每個(gè)塊單獨(dú)考慮它生成所有的頻繁集,然后將產(chǎn)生的頻率集,用于生成所有可能的頻率集,最后計(jì)算項(xiàng)集。塊大小的選擇在這里可以使每個(gè)塊被放入到主存儲(chǔ)器中,每個(gè)階段只是一個(gè)掃描。并且該算法至少保證在一個(gè)塊的頻率集的正確性。該算法可以是高度并行的,而且每個(gè)塊可以被分配到一個(gè)處理器,然后產(chǎn)生頻率集。在生成集的每個(gè)周期后,處理器與處理器通信會(huì)產(chǎn)生一個(gè)全局候選項(xiàng)集。通常通信過(guò)程是算法執(zhí)行時(shí)間的主要瓶頸,而另一方面,每個(gè)處理器的時(shí)間也是一個(gè)瓶頸。
4 結(jié)束語(yǔ)
在這個(gè)大數(shù)據(jù)時(shí)代,如果沒(méi)有和大數(shù)據(jù)有一定的相關(guān)性,很有可能會(huì)被社會(huì)淘汰。本文是對(duì)電子商務(wù)教學(xué)以及大量的微博和微信內(nèi)容,開(kāi)展了大數(shù)據(jù)挖掘研究。
參考文獻(xiàn):
[1] 高海建.基于大數(shù)據(jù)視角的電子商務(wù)產(chǎn)業(yè)研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2015.
[2] 韋偉.大數(shù)據(jù)背景下的微博在高校管理中的作用[J].高教學(xué)刊,2015(24):147-148.
[3] 時(shí)妍婧,張麗.大數(shù)據(jù)時(shí)代微信營(yíng)銷(xiāo)的創(chuàng)新方式探析[J].電子商務(wù),2015(8):31-32.
[4] 沈志榮.基于大數(shù)據(jù)的社會(huì)化媒體營(yíng)銷(xiāo)研究[D].北京化工大學(xué),2015.
[5] 孟肖虎.大數(shù)據(jù)技術(shù)在新媒體產(chǎn)業(yè)中的應(yīng)用[J].科技視界,2015(5):383-383.