褚希,周笑天,任廣治,王中英
(1.山東省氣象服務(wù)中心,山東 濟(jì)南 250031;2.山東省氣象信息中心,山東 濟(jì)南 250031)
隨著經(jīng)濟(jì)發(fā)展和社會進(jìn)步,為滿足人們?nèi)找嬖鲩L的氣象服務(wù)需求,山東省氣象局于2004年4月成立了氣象聲訊服務(wù)中心,對外開展氣象聲訊服務(wù)工作,此時氣象短信應(yīng)運(yùn)而生。氣象短信為手機(jī)用戶獲取天氣預(yù)報提供了一種更快捷簡便的方式,用戶可以隨時隨地獲取及時、準(zhǔn)確、專業(yè)、全面的氣象信息。十年間,氣象短信憑借其傳播便捷、準(zhǔn)確高效等服務(wù)優(yōu)勢,得到了通信運(yùn)行商的大力支持,一度在各通信運(yùn)行商增值業(yè)務(wù)品牌排名中名列前茅,同時也受到了廣大手機(jī)用戶的喜歡。目前山東省氣象短信用戶數(shù)由2004年初的100萬增長到近500萬。
但是,近年來隨著3G網(wǎng)絡(luò)和智能手機(jī)的發(fā)展,出現(xiàn)了諸多的天氣通、墨跡天氣等智能手機(jī)應(yīng)用終端軟件,人們可以隨時隨地獲取各種氣象信息。另外,再加上各種非正規(guī)渠道發(fā)布的氣象信息充斥著市場,導(dǎo)致氣象短信用戶在近幾年一直處于下滑狀態(tài)[1]。據(jù)統(tǒng)計(jì),山東省的氣象短信用戶的下滑率已高達(dá)5%,如何減少氣象短信用戶的流失已成為氣象服務(wù)部門急需解決的問題。
為減少用戶流失,氣象部門除了要不斷提高氣象服務(wù)能力之外,還應(yīng)對氣象短信用戶的相關(guān)情況進(jìn)行分析和研究,探討哪些用戶是氣象短信的重點(diǎn)需求用戶很有必要。本文以數(shù)據(jù)挖掘的相關(guān)理論為基礎(chǔ),利用概念描述數(shù)據(jù)挖掘的相關(guān)知識,提出了一種基于特征化概念描述的氣象短信重點(diǎn)用戶數(shù)據(jù)挖掘方法,能夠?qū)庀蠖绦庞脩暨M(jìn)行發(fā)現(xiàn),對重點(diǎn)用戶的特征進(jìn)行提取,發(fā)掘氣象服務(wù)重點(diǎn)用戶,從而為氣象部門進(jìn)行有的放矢的用戶挽留、減少用戶流失提供參考。
數(shù)據(jù)挖掘(Data Mining)是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases)中的一個步驟。它是從大量的數(shù)據(jù)中提取或挖掘可能有用的信息和知識,是在數(shù)據(jù)庫中發(fā)現(xiàn)有效的、新穎的、潛在有用的、可理解的模式的非平凡過程。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫提取有趣的知識、規(guī)律或高層信息,并可以從不同角度觀察或?yàn)g覽數(shù)據(jù),數(shù)據(jù)挖掘發(fā)現(xiàn)的知識可以用于決策、過程控制、信息管理、查詢處理等。數(shù)據(jù)挖掘一般按照數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖據(jù)、模式評估、知識表示等步驟進(jìn)行。目前,數(shù)據(jù)挖掘已廣泛地應(yīng)用于制造業(yè)、零售業(yè)、保險業(yè)、電信業(yè)、市場營銷、互聯(lián)網(wǎng)等諸多領(lǐng)域[2-5]。
概念描述是對含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行概述性總結(jié),并獲得簡明、準(zhǔn)確的描述,通過綜合、匯總、歸納和對比來分析事物的特征。概念描述數(shù)據(jù)挖掘是描述式數(shù)據(jù)挖掘中的一種,它能夠以簡單的、概要的方式描述數(shù)據(jù),對給出數(shù)據(jù)進(jìn)行簡潔匯總并形成目標(biāo)類數(shù)據(jù)的特征情況[6]。一般用t-weight 度量表示描述規(guī)則中對應(yīng)概化關(guān)系的某個元組的典型性,對于某個概化元組qa而言,qa的t-weight 是來自初始工作關(guān)系被qa涵蓋目標(biāo)類元組的百分比,t-weight 在特征規(guī)則中表示的是條件成為目標(biāo)類的充分條件。將目標(biāo)類與對比類進(jìn)行比較,其度量一般用d-weight 表示,qa的d-weight 是初始目標(biāo)類工作關(guān)系中被qa覆蓋的元組數(shù)與初始目標(biāo)類和對比類工作關(guān)系中被qa覆蓋的元組數(shù)的比,d-weight 表示的是條件成為目標(biāo)類的必要條件。因此,利用t-weight 和d-weight 即可對應(yīng)目標(biāo)類的充分必要條件。
按照數(shù)據(jù)挖掘的步驟,給出基于特征化概念描述的氣象短信重點(diǎn)用戶挖掘方法的具體步驟如下:
(1)選取要進(jìn)行挖掘的氣象短信用戶數(shù)據(jù),確定數(shù)據(jù)結(jié)構(gòu)。
(2)刪除與挖掘任務(wù)無關(guān)的用戶屬性。
(3)概化處理有大量不同值的用戶屬性。
其中,步驟(1)為數(shù)據(jù)挖掘任務(wù)的描述,步驟(2)、(3)為數(shù)據(jù)挖掘的預(yù)處理,步驟(4)、(5)、(6)為數(shù)據(jù)挖掘,步驟(7)為數(shù)據(jù)挖掘的結(jié)果表示。
以氣象短信用戶的相關(guān)數(shù)據(jù)為例,隨機(jī)抽取氣象短信用戶系統(tǒng)數(shù)據(jù)庫中的3 000條信息,對上文提出的方法進(jìn)行驗(yàn)證。為了更好地分析氣象短信的用戶相關(guān)特征,抽取的用戶既包含當(dāng)前在網(wǎng)定制氣象短信業(yè)務(wù)的用戶,也包含曾經(jīng)定制過氣象短信但目前已退訂業(yè)務(wù)的用戶。
定制氣象短信的用戶作為普通的手機(jī)用戶,首先,用戶的屬性信息一般包含姓名、身份證號、電話號碼;其次,用戶在定制氣象短信時會產(chǎn)生相應(yīng)的屬性信息,如定制時間、退訂時間、定制來源、定制產(chǎn)品類型、費(fèi)率、用戶號碼所在地、定制地區(qū)等信息。因此,氣象短信服務(wù)用戶的數(shù)據(jù)結(jié)構(gòu)包含以下多種屬性。相應(yīng)的數(shù)據(jù)結(jié)構(gòu)如表1所示:
表1 氣象短信用戶的數(shù)據(jù)結(jié)構(gòu)
由表1可知,氣象短信用戶系統(tǒng)中共有20個屬性,這些屬性在系統(tǒng)中存在是為了對氣象短信用戶進(jìn)行更好的管理。針對數(shù)據(jù)挖掘而言,有些屬性跟挖掘任務(wù)并不相關(guān),需要刪除;有些屬性的數(shù)據(jù)粒度太過細(xì)節(jié),需要進(jìn)行概化處理后再進(jìn)行挖掘。
氣象短信用戶的數(shù)據(jù)結(jié)構(gòu)中,姓名、出生日期、身份證號、家庭地址、電子郵箱、手機(jī)號碼等屬性都是針對個人信息而言的,數(shù)據(jù)粒度太過細(xì)節(jié),每個屬性均存在大量不同值,無法進(jìn)行數(shù)據(jù)概化處理,而且這些屬性對氣象短信重點(diǎn)用戶的特征化數(shù)據(jù)挖掘任務(wù)而言沒有挖掘意義,因此將這些屬性刪除。另外,性別、年齡、民族、文化程度、職業(yè)、郵政編碼、退訂時間屬性雖然可以進(jìn)行屬性的概化,但對氣象短信重點(diǎn)用戶的特征提取意義不大,為避免大數(shù)據(jù)量的挖掘運(yùn)算,也將這些屬性刪除。
經(jīng)過用戶屬性的刪除步驟后,氣象短信系統(tǒng)中需要概化的屬性及其取值情況處理為以下幾方面:
(1)在網(wǎng)時長
在網(wǎng)時長屬性反映用戶使用氣象短信業(yè)務(wù)的時間長短,通過用戶的定制起始時間和退訂時間可得到其值,根據(jù)統(tǒng)計(jì)結(jié)果的情況,對該屬性概化為4項(xiàng),取值為:{1(小于0.5年)、2(0.5—1年)、3(1—2年)、 4(大于2年)}。
(2)定制起始時間
定制起始時間屬性能反映不同時期用戶定制氣象短信的情況,并體現(xiàn)各階段氣象短信業(yè)務(wù)的發(fā)展?fàn)顩r,根據(jù)統(tǒng)計(jì)結(jié)果,對該屬性概化為4項(xiàng),取值為:{1(最近半年內(nèi))、2(最近1年內(nèi))、3(最近2年內(nèi))、4(2年前)}。
(3)定制地區(qū)
氣象短信業(yè)務(wù)目前針對用戶的定制地區(qū)只有某市區(qū)氣象短信和某縣區(qū)氣象短信這2類,因此對該屬性概化為2項(xiàng),取值為:{1(市區(qū))、2(縣)}。
(4)號碼歸屬地區(qū)
山東省共有濟(jì)南、青島、淄博、棗莊、東營、煙臺、濰坊、濟(jì)寧、泰安、威海、日照、萊蕪、臨沂、德州、聊城、濱州、菏澤17個地級市,縣級單位140個。由于短信用戶的定制情況與當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展水平、人口數(shù)量等密切相關(guān),因此根據(jù)山東省地市的實(shí)際經(jīng)濟(jì)與發(fā)展?fàn)顩r,將其概化為3項(xiàng),取值為:{1(副省級市)、2(沿海地區(qū))、3(中西部地區(qū))}。其中,副省級市為:濟(jì)南、青島;沿海城市為:煙臺,威海,日照,東營,濰坊;中西部城市為:淄博、棗莊、濟(jì)寧、泰安、萊蕪、臨沂、德州、聊城、濱州、菏澤。
(5)定制來源
氣象短信系統(tǒng)中該屬性共有3項(xiàng)取值:{1(客服電話)、2(網(wǎng)站)、3(上行短信)},該屬性不需再概化。同樣,費(fèi)率和定制產(chǎn)品在氣象短信系統(tǒng)中的取值較少也不需概化,直接使用其取值。
經(jīng)過對屬性的刪除和概化,數(shù)據(jù)挖掘中的氣象短信用戶屬性共有8個。用于數(shù)據(jù)挖掘的屬性表如表2所示:
表2 用于數(shù)據(jù)挖掘的屬性表
由此可知,氣象短信重點(diǎn)用戶特征為:通過客服電話定制的、費(fèi)率為包月2元、定制某市區(qū)下午天氣預(yù)報產(chǎn)品的用戶。
下面對上述結(jié)果進(jìn)行總結(jié)和分析。
首先,從氣象短信重點(diǎn)用戶特征提取的情況可知,如果一個用戶為氣象短信的重點(diǎn)用戶,那么他可能是省內(nèi)的沿海地區(qū)用戶,在網(wǎng)時長為2年以上、在2年前定制了某市區(qū)的天氣預(yù)報地區(qū),也可能是通過客服電話定制包月2 元的下午天氣預(yù)報。另一方面,如果一個用戶在省內(nèi)的中西部地區(qū),在網(wǎng)時長為0.5—1年,而且最近2年內(nèi)定制了某市區(qū)的包月2元的下午天氣預(yù)報,那么他很可能就是氣象短信的重點(diǎn)用戶。
其次,從氣象短信重點(diǎn)用戶的統(tǒng)計(jì)樣本數(shù)據(jù)來分析。氣象短信重點(diǎn)用戶的在網(wǎng)時長和定制起始時間占較大的選項(xiàng)均為2年前,說明在2年前氣象短信的用戶認(rèn)可度高、定制率高;最近半年內(nèi)的在網(wǎng)用戶以及定制起始時間在半年內(nèi)的用戶占比均不到10%,說明近半年氣象短信用戶的發(fā)展較為緩慢。定制地區(qū)為市區(qū)的氣象短信用戶占70.63%,說明氣象短信在城市用戶中認(rèn)可度較高,在縣級以下地區(qū)的認(rèn)可度較低,這與縣級以下地區(qū)經(jīng)濟(jì)發(fā)展水平欠發(fā)達(dá)以及氣象短信產(chǎn)品的基層宣傳力度不足有關(guān)。費(fèi)率為包月2元的業(yè)務(wù)更受用戶歡迎,說明價格低廉是氣象短信的一大優(yōu)勢。另外,定制來源中客服電話的占比最高,說明氣象短信的發(fā)展還主要依賴通信運(yùn)營商的定制渠道,氣象部門自身拓展用戶市場的能力還不足,應(yīng)該進(jìn)一步加強(qiáng)與通信運(yùn)營商的合作,借助通信運(yùn)營商的力量更好地開拓氣象短信用戶市場。
表3 氣象短信重點(diǎn)用戶目標(biāo)類、對比類的t-權(quán)和d-權(quán)表
本文以數(shù)據(jù)挖掘的相關(guān)理論為基礎(chǔ),利用概念描述數(shù)據(jù)挖掘的相關(guān)知識,提出了一種基于特征化概念描述的氣象短信重點(diǎn)用戶數(shù)據(jù)挖掘方法。該方法能夠?qū)庀蠖绦胖攸c(diǎn)用戶的特征進(jìn)行提取,發(fā)掘氣象服務(wù)重點(diǎn)用戶特征。通過實(shí)例進(jìn)一步驗(yàn)證,該方法具有較強(qiáng)的可操作性,能夠?yàn)闅庀蟛块T進(jìn)行氣象短信用戶的市場分析、減少用戶流失提供參考。
[1] 李建,張鋒. 短網(wǎng)址技術(shù)在浙江省氣象短信業(yè)務(wù)中的應(yīng)用[J]. 計(jì)算機(jī)與網(wǎng)絡(luò), 2013(14): 72-75.
[2] 趙海青,李社宗,周幸福,等. 數(shù)據(jù)庫中的知識發(fā)現(xiàn)及其在氣象中的應(yīng)用[J]. 河南氣象, 2002(2): 35-36.
[3] Mehmed Kantardzic. 數(shù)據(jù)挖掘——概念、模型、方法和算法[M]. 北京: 清華大學(xué)出版社, 2003.
[4] Han J W, Kamber M. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京: 機(jī)械工業(yè)出版社, 2001.
[5] 馬廷淮,穆強(qiáng),田偉,等. 氣象數(shù)據(jù)挖掘研究[J]. 武漢理工大學(xué)學(xué)報, 2010,32(16): 110-114.
[6] 徐鎮(zhèn)輝. 特征化概念描述的數(shù)據(jù)挖掘方法在學(xué)生評教中的應(yīng)用[J]. 漳州職業(yè)技術(shù)學(xué)院學(xué)報, 2006,8(4): 21-23.★