国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的自動(dòng)化推薦系統(tǒng)改進(jìn)ART算法探究

2019-09-10 07:22彭文惠
現(xiàn)代信息科技 2019年8期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘? 要:隨著網(wǎng)絡(luò)的深度普及,人們對(duì)于互聯(lián)網(wǎng)的使用越來(lái)越頻繁,隨之而來(lái)的是龐大且分散的各式各樣的數(shù)據(jù)。面對(duì)海量的數(shù)據(jù),用戶在查詢時(shí)往往難以高效地獲取到對(duì)自己有價(jià)值的信息。為了向用戶提供更精準(zhǔn)的信息,提高用戶獲取有效信息的效率,自動(dòng)化推薦系統(tǒng)適時(shí)而生。不管是通信領(lǐng)域還是其他領(lǐng)域,繁雜的數(shù)據(jù)都需要一種優(yōu)異的處理算法或者機(jī)制來(lái)進(jìn)行處理,本文通過(guò)把自適應(yīng)共振理論(ART)和數(shù)據(jù)挖掘技術(shù)兩者結(jié)合,形成一個(gè)自動(dòng)化在線推薦系統(tǒng),并對(duì)用于用戶聚類的ART算法進(jìn)行改進(jìn),提升了通信領(lǐng)域中推薦系統(tǒng)推薦的合理性與有效性。

關(guān)鍵詞:數(shù)據(jù)挖掘;自動(dòng)化推薦系統(tǒng);ART算法;通信領(lǐng)域

中圖分類號(hào):TP311.13;TP391.3? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)08-0044-03

Abstract:With the popularization of the internet,people become more and more dependent on the use of the internet. Faced with massive data,it is often difficult for users to efficiently obtain valuable information for themselves when querying. In order to provide users with more accurate information and improve the efficiency of users to obtain effective information,the automatic recommendation system is timely born. Both communication and other areas,complex data needs to be an excellent processing algorithms or mechanism to deal with,in this paper,the adaptive resonance theory(ART) and a combination of data mining technology,forming an automated online recommendation system,and for users to improve the ART of clustering algorithm,improved communication in the field of recommendation system recommended by the rationality and validity.

Keywords:data mining;automated recommendation system;ART algorithm;communication field

0? 引? 言

互聯(lián)網(wǎng)的發(fā)展帶動(dòng)了許多領(lǐng)域的進(jìn)步,包括通信領(lǐng)域也發(fā)生了天翻地覆的變化。人們的生活已經(jīng)越來(lái)越依賴于互聯(lián)網(wǎng),網(wǎng)絡(luò)中的信息量增長(zhǎng)迅速,信息種類也越來(lái)越多。用戶想要從互聯(lián)網(wǎng)上獲取需要的資料,就會(huì)花費(fèi)很多的時(shí)間。為了解決這一問(wèn)題,相關(guān)的信息推薦系統(tǒng)便被研發(fā)設(shè)計(jì)出來(lái)。在通信領(lǐng)域,數(shù)據(jù)就是根本,通信行業(yè)數(shù)據(jù)的流量和維度遠(yuǎn)遠(yuǎn)高出了其他行業(yè),做好對(duì)數(shù)據(jù)的收集整理、分析工作,有助于企業(yè)掌握客戶的質(zhì)量,直接決定了企業(yè)與客戶之間的黏性,這在企業(yè)的發(fā)展中也是核心的影響因素。利用數(shù)據(jù)挖掘技術(shù),可以幫助通信行業(yè)增強(qiáng)信息的提取能力,讓其能夠及時(shí)對(duì)數(shù)據(jù)進(jìn)行分析然后做出判斷,為營(yíng)銷策略提供科學(xué)的依據(jù)。

1? 數(shù)據(jù)挖掘技術(shù)在通信領(lǐng)域的應(yīng)用分析以及相關(guān)算法設(shè)計(jì)

數(shù)據(jù)挖掘技術(shù),顧名思義是指通過(guò)采取一定的行為方法,對(duì)指定范圍的信息數(shù)據(jù)等進(jìn)行提取,從而實(shí)現(xiàn)進(jìn)一步的分類整理和分析匯總,為數(shù)據(jù)應(yīng)用、存儲(chǔ)共享和科學(xué)預(yù)測(cè)等提供基礎(chǔ)支持的一種技術(shù)。如果將數(shù)據(jù)挖掘技術(shù)運(yùn)用到商業(yè)領(lǐng)域,其可以搜尋有價(jià)值以及有潛力的商業(yè)信息,然后通過(guò)相應(yīng)的方法進(jìn)行分析處理,最后整理出來(lái),從而將相關(guān)的數(shù)據(jù)信息轉(zhuǎn)變成相關(guān)的策略,運(yùn)用到商業(yè)的操作中去??梢钥闯觯瑪?shù)據(jù)挖掘技術(shù)能夠顯著提高企業(yè)的信息化水平。通信企業(yè)一旦信息資源不足,對(duì)業(yè)務(wù)的開(kāi)展就會(huì)失去具體的方向,也不利于通信行業(yè)的發(fā)展。

通過(guò)將分類、回歸和時(shí)間序列三種分析方法結(jié)合在一起,可以強(qiáng)化數(shù)據(jù)挖掘技術(shù)相關(guān)功能的實(shí)現(xiàn)。該技術(shù)經(jīng)過(guò)了長(zhǎng)期的發(fā)展,加上互聯(lián)網(wǎng)技術(shù)的發(fā)展,促使數(shù)據(jù)挖掘技術(shù)也得以應(yīng)用到實(shí)際的工作上[1]。對(duì)于通信領(lǐng)域而言,對(duì)不同客戶銷售數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,就可以很好地預(yù)測(cè)客戶的行為,從而做出相應(yīng)的措施。

在當(dāng)今社會(huì)中,許多領(lǐng)域的數(shù)據(jù)信息都呈現(xiàn)出暴漲的態(tài)勢(shì),也就是所說(shuō)的信息爆炸和數(shù)據(jù)爆炸。數(shù)據(jù)信息越來(lái)越多,可是對(duì)信息數(shù)據(jù)的使用率卻沒(méi)有很快的提升上去,在數(shù)據(jù)的海洋里無(wú)法搜尋到有效、有價(jià)值的數(shù)據(jù)。而聚類相似性度量與量綱分析的網(wǎng)絡(luò)通信數(shù)據(jù)挖掘的出現(xiàn),讓這些數(shù)據(jù)都能夠變廢為寶,逐漸成為一項(xiàng)越來(lái)越重要的技術(shù)。目前,很多企業(yè)都越來(lái)越重視基于互聯(lián)網(wǎng)的通信數(shù)據(jù)挖掘算法的設(shè)計(jì),通過(guò)這一技術(shù)的應(yīng)用,讓工作更加的準(zhǔn)確和有效率。通過(guò)下面對(duì)表1和圖1的分析,對(duì)數(shù)據(jù)挖掘技術(shù)中的聚類算法進(jìn)行分析。

由表1的信息可以看出,不同組別的數(shù)據(jù)集因?yàn)榇氐膫€(gè)數(shù)的不同,而得到了不同的結(jié)果。在A1數(shù)據(jù)集中,簇的個(gè)數(shù)較少,其函數(shù)運(yùn)算的時(shí)間以及簇合并的時(shí)間都比較短;在A2數(shù)據(jù)組里面,簇的個(gè)數(shù)相應(yīng)增加,函數(shù)計(jì)算和簇合并時(shí)間也相應(yīng)地增加;在A3數(shù)據(jù)集中,和A2數(shù)據(jù)集的情況差不多;同樣地再看A4數(shù)據(jù)集,情況和其他三種都不相同,當(dāng)簇的個(gè)數(shù)變成了27,與A3相比個(gè)數(shù)減少時(shí),它的函數(shù)運(yùn)算的時(shí)間和簇合并時(shí)間卻增加了不少。

根據(jù)圖1的數(shù)據(jù)信息圖我們可以得知,在實(shí)際的運(yùn)用中,有些企業(yè)也通過(guò)聚類算法取得了一些效果,但事實(shí)上結(jié)果都不是很樂(lè)觀,有的企業(yè)在算法完成分析工作后就認(rèn)為達(dá)到了目的,從而對(duì)相關(guān)的分析工作就松懈了下來(lái),導(dǎo)致得到的效果不理想。

綜上所述,該算法能夠?qū)?shù)據(jù)進(jìn)行有針對(duì)性的相似性度量和量綱分析,充分發(fā)揮數(shù)據(jù)挖掘的重要作用。我們?cè)诳偨Y(jié)了這一類算法后,也相應(yīng)地對(duì)其他聚類算法進(jìn)行了研究,其中ART聚類算法就是重點(diǎn)研究之一。

2? 關(guān)于相關(guān)自動(dòng)化推薦系統(tǒng)以及ART算法的研究分析

2.1? 目前自動(dòng)化推薦系統(tǒng)的主要技術(shù)

目前在互聯(lián)網(wǎng)上的自動(dòng)化推薦系統(tǒng)其主要推薦技術(shù)可以分為非個(gè)性化的推薦技術(shù)、基于屬性的推薦技術(shù)、物品關(guān)聯(lián)推薦技術(shù)以及人物關(guān)聯(lián)式推薦技術(shù)。[1]對(duì)于這些推薦技術(shù)來(lái)說(shuō),其主要推薦方式分為基于內(nèi)容的過(guò)濾方式和合作過(guò)濾方式。每一種方式都有著自身獨(dú)特的功能。以內(nèi)容為基礎(chǔ)的過(guò)濾方式具有簡(jiǎn)單、有效的優(yōu)點(diǎn),能夠利用用戶興趣和信息的相似性來(lái)過(guò)濾信息,但是其存在著過(guò)濾關(guān)鍵字庫(kù)容易過(guò)時(shí),不能夠及時(shí)挖掘出有用的、最新的信息的問(wèn)題;合作過(guò)濾方式可以彌補(bǔ)上一種方式的短板,讓用戶之間的信息互聯(lián),僅僅依靠其中一個(gè)用戶的數(shù)據(jù)就可以推薦新的信息給其他用戶。但是,在實(shí)際運(yùn)行的過(guò)程中,還是存在著一些難以處理的問(wèn)題。

2.2? 基于ART算法的推薦機(jī)制總體框架

運(yùn)用ART神經(jīng)網(wǎng)絡(luò)技術(shù),能夠預(yù)處理用戶的個(gè)人信息,提取出用戶的個(gè)性化屬性信息并加以分析,根據(jù)分析結(jié)果再對(duì)用戶進(jìn)行相應(yīng)的分類,從而為用戶提供個(gè)性化的推薦信息[2]。該自動(dòng)推薦機(jī)制的處理流程包括預(yù)處理階段和在線階段。圖2列出了在線自動(dòng)化推薦機(jī)制的框架圖。

在線自動(dòng)化推薦機(jī)制運(yùn)用了相關(guān)技術(shù)預(yù)處理用戶的個(gè)人信息資料,當(dāng)有用戶在線發(fā)起相應(yīng)的服務(wù)請(qǐng)求時(shí),系統(tǒng)會(huì)識(shí)別用戶的類型信息,從而進(jìn)行分析并挖掘出用戶的興趣度信息,展現(xiàn)給用戶個(gè)性化的推薦信息。預(yù)處理階段的主要任務(wù)是對(duì)用戶的屬性以及歷史交易數(shù)據(jù)等信息進(jìn)行分析,在提取數(shù)據(jù)的操作過(guò)程中,可能會(huì)發(fā)生一些問(wèn)題,比如出現(xiàn)格式不相容的問(wèn)題,需要及時(shí)處理。預(yù)處理的同時(shí)推薦信息被存儲(chǔ)進(jìn)知識(shí)庫(kù),便于系統(tǒng)重復(fù)利用。

2.3? 關(guān)于ART算法的現(xiàn)狀分析

對(duì)于ART算法來(lái)說(shuō),其目前的情況是,雖然被廣泛用來(lái)進(jìn)行用戶聚類,但其本身也存在著一些不足,主要表現(xiàn)在以下兩個(gè)方面。

(1)屬性向量“同或”狀態(tài)。ART算法進(jìn)行相似度比較,涉及到最大匹配度節(jié)點(diǎn)j*的外權(quán)向量Wj*和輸入向量x,比較兩者和“1”的數(shù)量關(guān)系,其表達(dá)如式(1):

此公式中沒(méi)有考慮外權(quán)向量中“0”的作用,但在實(shí)際運(yùn)用中,0和1兩種狀態(tài)在判斷中都是有用的信息,該方法因此不能有效的做出反應(yīng)[3]。

(2)ART算法中輸入屬性相對(duì)應(yīng)的權(quán)重問(wèn)題。輸入屬性是多個(gè)屬性的集合,每個(gè)因子都會(huì)對(duì)聚類的結(jié)果產(chǎn)生不同的影響,為了處理在聚類過(guò)程中屬性重要性的問(wèn)題,ART算法仍然需要通過(guò)改進(jìn)才能得到合理的結(jié)果。

3? 在自動(dòng)化推薦系統(tǒng)中應(yīng)用ART網(wǎng)絡(luò)進(jìn)行聚類的設(shè)計(jì)以及改進(jìn)該算法的研究

自適應(yīng)共振理論(ART)來(lái)源于人工神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種應(yīng)用較好的集群技術(shù),其理論基礎(chǔ)來(lái)源于生物學(xué),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的信息處理系統(tǒng)[4]。對(duì)于自適應(yīng)共振理論(ART),其是一位美國(guó)學(xué)者在1987年提出的一種神經(jīng)網(wǎng)絡(luò)模型。通過(guò)整合ART以及數(shù)據(jù)挖掘技術(shù),可以幫助用戶在浩大的信息流中找到真正需要的、有用的關(guān)鍵信息。

3.1? 在數(shù)據(jù)挖掘中關(guān)于ART算法的聚類設(shè)計(jì)

ART算法網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、輸出層和網(wǎng)絡(luò)連接層。在應(yīng)用ART算法處理時(shí),第一步要設(shè)置好用戶屬性和其對(duì)應(yīng)的輸入向量,其初始向量的范圍在(0,1)間;第二步設(shè)定其開(kāi)始時(shí)只有一個(gè)初始輸出點(diǎn);第三步利用權(quán)重矩陣表示出輸入向量和第j個(gè)輸出集的匹配度,然后找到相對(duì)應(yīng)的輸出集,計(jì)算出兩者之間的相似度。

3.2? 目前ART聚類算法存在的不足

對(duì)于ART聚類算法,目前的情況是雖然被廣泛用來(lái)進(jìn)行用戶聚類,但其本身也存在著一些不足,主要表現(xiàn)在以下兩個(gè)方面:對(duì)于屬性向量“同或”狀態(tài)的問(wèn)題,對(duì)于典型的相似度比較的問(wèn)題,沒(méi)有能夠全面的考慮,因此需要進(jìn)行相關(guān)的改進(jìn)優(yōu)化。通過(guò)整合ART和數(shù)據(jù)挖掘技術(shù),針對(duì)自動(dòng)化推薦系統(tǒng)的特性進(jìn)行相應(yīng)的改進(jìn),這時(shí)MART算法便應(yīng)運(yùn)而出。

3.3? 將ART算法改進(jìn)為MART算法

根據(jù)ART算法的相關(guān)分析,發(fā)現(xiàn)其存在著明顯的不足,我們將相似值計(jì)算公式修改如式(2)所示:

在改進(jìn)后的MART算法中,M[i]為輸入屬性的權(quán)重,即第i個(gè)節(jié)點(diǎn)重要性。ART算法改進(jìn)后得到的MART算法能夠公平比較兩個(gè)向量,其算法的執(zhí)行步驟和ART算法類似,根據(jù)用戶的個(gè)人屬性,通過(guò)相應(yīng)的算法對(duì)用戶進(jìn)行分組,進(jìn)而達(dá)到數(shù)據(jù)挖掘的目的。

通過(guò)相關(guān)的實(shí)驗(yàn)我們可以得到兩種算法經(jīng)過(guò)計(jì)算分析后的結(jié)果,然后進(jìn)行相關(guān)的分析我們可以發(fā)現(xiàn)以MART算法來(lái)進(jìn)行聚類,判斷出用戶屬性的重要性,從而自動(dòng)化推薦系統(tǒng)可以設(shè)置每一個(gè)屬性節(jié)點(diǎn)的權(quán)重。把以這樣的方式計(jì)算出的結(jié)果與傳統(tǒng)的ART算法得到的結(jié)果進(jìn)行比較,輸出的結(jié)果更加合理和靈活。

4? 結(jié)? 論

互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)的信息量迅速增長(zhǎng),如何在浩大的數(shù)據(jù)海洋里搜尋到有價(jià)值、有效的數(shù)據(jù)信息,是各個(gè)注重信息價(jià)值領(lǐng)域的企業(yè)所應(yīng)該關(guān)注的問(wèn)題。對(duì)于數(shù)據(jù)挖掘技術(shù)而言,其主要的價(jià)值就是在海量的數(shù)據(jù)資源里進(jìn)行分析比較,然后發(fā)現(xiàn)有價(jià)值的數(shù)據(jù)信息,再通過(guò)一定的自動(dòng)化推薦系統(tǒng),把這些有用的數(shù)據(jù)呈現(xiàn)到用戶的面前,從而為用戶制定相關(guān)的發(fā)展策略提供有用的參考。在通信領(lǐng)域采用優(yōu)質(zhì)的自動(dòng)化推薦系統(tǒng)對(duì)企業(yè)的發(fā)展具有至關(guān)重要的作用。

參考文獻(xiàn):

[1] 陳慶章,湯仲喆,王凱,等.采用數(shù)據(jù)挖掘的自動(dòng)化推薦技術(shù)的研究 [J].中文信息學(xué)報(bào),2012,26(4):115-121.

[2] 張軍.試分析數(shù)據(jù)挖掘在通信行業(yè)營(yíng)銷中的應(yīng)用 [J].信息通信,2018(7):254-255.

[3] 劉鑫.聚類相似性度量與量綱分析的網(wǎng)絡(luò)通信數(shù)據(jù)挖掘算法研究 [J].計(jì)算機(jī)產(chǎn)品與流通,2018(3):48-49.

[4] 朱文忠.基于數(shù)據(jù)挖掘的自動(dòng)化推薦系統(tǒng)算法 [J].四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2012,25(2):55-59.

作者簡(jiǎn)介:彭文惠(1981-),女,漢族,湖南寧鄉(xiāng)人,講師、高級(jí)工程師,碩士,主要研究方向:大數(shù)據(jù)、數(shù)據(jù)庫(kù)、Web開(kāi)發(fā)。

猜你喜歡
數(shù)據(jù)挖掘
近十年國(guó)內(nèi)教育數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用技術(shù)分析
數(shù)據(jù)挖掘技術(shù)在內(nèi)河航道維護(hù)管理中的應(yīng)用研究
數(shù)據(jù)挖掘技術(shù)在物流企業(yè)中的應(yīng)用
數(shù)據(jù)挖掘過(guò)程模型及創(chuàng)新應(yīng)用
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
電子政務(wù)中基于云計(jì)算模式的數(shù)據(jù)挖掘研究
數(shù)據(jù)挖掘創(chuàng)新應(yīng)用
數(shù)據(jù)挖掘的系統(tǒng)構(gòu)成與發(fā)展趨勢(shì)
澎湖县| 西贡区| 营山县| 姚安县| 若羌县| 眉山市| 库伦旗| 安西县| 凤凰县| 土默特右旗| 泰来县| 香格里拉县| 即墨市| 越西县| 遵化市| 高淳县| 民和| 河池市| 云南省| 遵义县| 镇雄县| 墨竹工卡县| 泰来县| 赞皇县| 德钦县| 象州县| 张北县| 色达县| 星子县| 迭部县| 江西省| 察哈| 淅川县| 远安县| 房产| 孝昌县| 金阳县| 三江| 连南| 六盘水市| 嘉义市|