汪少敏,王錚
?
基于異構(gòu)關(guān)聯(lián)的大數(shù)據(jù)價值密度提升方法
汪少敏,王錚
(中國電信股份有限公司上海研究院,上海 200122)
電信大數(shù)據(jù)通常分散存儲在DPI、OIDD、CRM等多個系統(tǒng)中,且格式、表述和規(guī)則在各系統(tǒng)中互不相同;因而,同一對象在不同系統(tǒng)中的多類數(shù)據(jù)很難被有效識別及完整利用,大數(shù)據(jù)分析的樣本規(guī)模和特征維度嚴(yán)重受限,導(dǎo)致分析結(jié)果可信度和準(zhǔn)確率下降。提出了電信大數(shù)據(jù)的異構(gòu)關(guān)聯(lián)方法與實現(xiàn)架構(gòu),并進(jìn)行了方法的流程舉例和驗證,從用戶維度實現(xiàn)了多系統(tǒng)間的數(shù)據(jù)融合,優(yōu)化了諸如用戶畫像等應(yīng)用的數(shù)據(jù)樣本空間,從而大幅提升電信大數(shù)據(jù)價值密度。
大數(shù)據(jù);電信大數(shù)據(jù);多源異構(gòu);異構(gòu)關(guān)聯(lián)
大數(shù)據(jù)已在各行業(yè)開展廣泛應(yīng)用,其中電信行業(yè)由于其天然的數(shù)據(jù)基礎(chǔ)和應(yīng)用需求,是大數(shù)據(jù)應(yīng)用的重點(diǎn)領(lǐng)域。電信大數(shù)據(jù)是指基于運(yùn)營商豐富的大數(shù)據(jù)資源進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘分析及應(yīng)用[1]。這些數(shù)據(jù)包括:互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)的用戶行為數(shù)據(jù)、用戶位置數(shù)據(jù)、用戶電信業(yè)務(wù)數(shù)據(jù)、網(wǎng)絡(luò)信令數(shù)據(jù)等。隨著大數(shù)據(jù)與人工智能技術(shù)的飛速發(fā)展,作為蘊(yùn)含巨大社會價值和商業(yè)價值的電信大數(shù)據(jù),已被運(yùn)營商列為重點(diǎn)應(yīng)用課題[2]。
然而,由于運(yùn)營商的架構(gòu)特點(diǎn),運(yùn)營商的這些數(shù)據(jù)分散存儲在不同的系統(tǒng)中,例如,用戶的上網(wǎng)行為數(shù)據(jù)、位置數(shù)據(jù)和信令數(shù)據(jù)、業(yè)務(wù)信息數(shù)據(jù)分別存儲在DPI(deep packet inspect,深度報文識別)系統(tǒng)、OIDD(open information of dynamic data,開放信息動態(tài)數(shù)據(jù))系統(tǒng)、ODMS(operation data management system,運(yùn)營數(shù)據(jù)管理系統(tǒng))中。其造成了運(yùn)營商豐富的大數(shù)據(jù)多源異構(gòu)的現(xiàn)狀。運(yùn)營商對這些數(shù)據(jù)進(jìn)行挖掘處理時,多采用系統(tǒng)內(nèi)部分析處理的方式,不能進(jìn)行多系統(tǒng)間數(shù)據(jù)融合、交叉分析[3]。在大數(shù)據(jù)應(yīng)用,特別是用戶畫像方面,數(shù)據(jù)的準(zhǔn)確性、全面性都大打折扣,使得數(shù)據(jù)價值密度受到限制。解決電信大數(shù)據(jù)多源異構(gòu)問題與提升電信大數(shù)據(jù)價值密度的需求越來越迫切。
本文分析了電信大數(shù)據(jù)多源異構(gòu)問題,提出了電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法和異構(gòu)關(guān)聯(lián)實現(xiàn)架構(gòu),并進(jìn)行了方法的流程舉例和驗證。該方法基于運(yùn)營商最有價值且數(shù)量龐大的用戶數(shù)據(jù),根據(jù)不同來源數(shù)據(jù)的業(yè)務(wù)邏輯,通過可關(guān)聯(lián)的字段,實現(xiàn)了多數(shù)據(jù)源的數(shù)據(jù)之間以用戶維度的關(guān)聯(lián)匹配規(guī)則。以自然人識別ID為主鍵將不同數(shù)據(jù)源、不同業(yè)務(wù)邏輯的數(shù)據(jù)進(jìn)行串聯(lián),實現(xiàn)不同數(shù)據(jù)間的內(nèi)容匹配。本文提出的方法能有效解決電信大數(shù)據(jù)多源異構(gòu)所造成的同一用戶的多類數(shù)據(jù)無法關(guān)聯(lián)、數(shù)據(jù)分析維度及樣本規(guī)模降低等問題,不僅能擴(kuò)大用戶維度的數(shù)據(jù)一次性挖掘分析可涉及的數(shù)據(jù)范圍,還可以實現(xiàn)分散在不同系統(tǒng)中的數(shù)據(jù)源在用戶維度的緊耦合,從而實現(xiàn)電信業(yè)務(wù)數(shù)據(jù)的收斂和交叉融合,使數(shù)據(jù)信息更完整,挖掘價值更大。
電信大數(shù)據(jù)包含的數(shù)據(jù)種類繁多,從數(shù)據(jù)載體角度,分為用戶數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)和運(yùn)維數(shù)據(jù)。用戶數(shù)據(jù)包括個人用戶和行業(yè)用戶的信息、業(yè)務(wù)及行為等數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)包括電信3G、4G移動網(wǎng)絡(luò)及寬帶網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù),如信令數(shù)據(jù)等。運(yùn)維數(shù)據(jù)包括電信網(wǎng)絡(luò)運(yùn)維過程中產(chǎn)生的數(shù)據(jù),如設(shè)備日志數(shù)據(jù)等。其中,較為有價值且常被用來分析挖掘的數(shù)據(jù)是用戶數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)中的位置數(shù)據(jù)。這些數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù)[4],易于分析處理,可用于分析用戶興趣偏好、用戶行為追蹤等,從而為電信提供基于用戶畫像的策略分析、精準(zhǔn)營銷和客戶關(guān)懷,以減少客戶流失、增加市場收入、提升客戶感知及忠誠度。并且,這些數(shù)據(jù)的數(shù)據(jù)量巨大,例如,省級4G網(wǎng)絡(luò)DPI數(shù)據(jù),每天的數(shù)據(jù)增量為TB級別。巨大的數(shù)據(jù)量為大數(shù)據(jù)分析的準(zhǔn)確性提供了基礎(chǔ)。所以,電信大數(shù)據(jù),特別是用戶數(shù)據(jù)和位置數(shù)據(jù),有很高的分析價值[5]。
然而,電信大數(shù)據(jù)分散存儲在電信網(wǎng)絡(luò)中的不同系統(tǒng)上。如圖1所示,用戶的寬帶上網(wǎng)行為數(shù)據(jù)存儲在寬帶DPI設(shè)備中;移動上網(wǎng)行為數(shù)據(jù)存儲在移動DPI設(shè)備中;用戶的業(yè)務(wù)信息數(shù)據(jù)存在ODMS中;用戶的計費(fèi)和基本信息數(shù)據(jù)存儲在CRM(customer relationship management,客戶關(guān)系管理)系統(tǒng)中;位置數(shù)據(jù)和信令數(shù)據(jù)存儲在OIDD系統(tǒng)中。這些系統(tǒng)對數(shù)據(jù)的解釋、數(shù)據(jù)的表述、數(shù)據(jù)的格式均不相同,系統(tǒng)間數(shù)據(jù)互不關(guān)聯(lián),相互割裂。這形成了電信大數(shù)據(jù)多源異構(gòu)的現(xiàn)狀。
圖1 電信大數(shù)據(jù)多源異構(gòu)現(xiàn)狀
電信大數(shù)據(jù)的多源異構(gòu)造成了豐富的大數(shù)據(jù)資源被分散,價值密度降低,體現(xiàn)在以下方面。
(1)同一用戶的多類數(shù)據(jù)無法關(guān)聯(lián)
由于數(shù)據(jù)的多源異構(gòu),同一用戶的多種數(shù)據(jù)存儲在不同系統(tǒng)中,例如用戶的移動DPI數(shù)據(jù)、固網(wǎng)寬帶DPI數(shù)據(jù)、用戶話單數(shù)據(jù)分散在3個獨(dú)立系統(tǒng)中。這些系統(tǒng)中的數(shù)據(jù)相互獨(dú)立、互不關(guān)聯(lián),數(shù)據(jù)規(guī)范不一致,導(dǎo)致這些數(shù)據(jù)無法對應(yīng)到同一用戶,從而無法結(jié)合這3種數(shù)據(jù)分析用戶行為特征,不能繪制出較為完整的用戶畫像,使得數(shù)據(jù)價值受到限制。
(2)數(shù)據(jù)分析維度降低
進(jìn)行大數(shù)據(jù)挖掘分析時,只能挖掘某單一系統(tǒng)的數(shù)據(jù),不能結(jié)合多系統(tǒng)的數(shù)據(jù)進(jìn)行分析挖掘,造成數(shù)據(jù)分析的維度降低,反映事物特性的特征減少,從而導(dǎo)致大數(shù)據(jù)挖掘分析的準(zhǔn)確性、全面性降低。
(3)數(shù)據(jù)分析的樣本規(guī)模被限制
由于大數(shù)據(jù)分析是基于數(shù)據(jù)樣本學(xué)習(xí),所以數(shù)據(jù)樣本數(shù)量越大,數(shù)據(jù)分析結(jié)果的準(zhǔn)確率越高。當(dāng)只能通過單一系統(tǒng)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析挖掘時,分析樣本的數(shù)據(jù)量和豐富程度被限制。所以,電信大數(shù)據(jù)的多源異構(gòu)特點(diǎn),限制了數(shù)據(jù)分析的樣本規(guī)模,降低了分析結(jié)果的準(zhǔn)確率。
為了提升電信大數(shù)據(jù)價值密度,解決電信大數(shù)據(jù)多源異構(gòu)所造成的問題,本文提出電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法。該方法在數(shù)據(jù)匯聚后的數(shù)據(jù)處理層實現(xiàn),對采集的數(shù)據(jù)清洗后,對所有數(shù)據(jù)進(jìn)行自然人識別和標(biāo)識,標(biāo)識后的數(shù)據(jù)可實現(xiàn)多系統(tǒng)數(shù)據(jù)間的關(guān)聯(lián)分析,從而實現(xiàn)多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)和拼接,解決多源異構(gòu)造成的同一用戶的多類數(shù)據(jù)無法關(guān)聯(lián)、數(shù)據(jù)分析維度降低等問題。
本文提出電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法主要包括以下3步,如圖2所示。
步驟1 面向身份信息的關(guān)鍵字提取。對各系統(tǒng)的數(shù)據(jù)進(jìn)行字段分析,提取其中反映用戶身份的ID信息,形成該條數(shù)據(jù)的關(guān)鍵字,如手機(jī)號碼、寬帶賬號、各社交UID、MAC地址等。提取的數(shù)據(jù)關(guān)鍵字用于下一步查找自然人ID映射表,同時也可用于生成和維護(hù)自然人ID映射表。
圖2 電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)關(guān)鍵技術(shù)
步驟2 基于自然人ID映射表的數(shù)據(jù)識別。本文提出了自然人識別ID和自然人ID映射表。一個自然人可以擁有手機(jī)號碼、寬帶賬號、社交網(wǎng)絡(luò)身份ID等多種用戶ID,所以需要在所有用戶標(biāo)識ID之上,建立一套全網(wǎng)統(tǒng)一的自然人識別ID,自然人識別ID是不同系統(tǒng)數(shù)據(jù)間用戶的唯一性標(biāo)識。通過自然人識別ID這個唯一標(biāo)識,將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。自然人ID映射表保存用戶的各種ID,包括自然人識別ID、手機(jī)號碼、寬帶賬號、各社交UID等。將數(shù)據(jù)提取的關(guān)鍵字在自然人ID映射表中查找匹配的ID(手機(jī)號碼、寬帶賬號和各社交UID等),匹配ID對應(yīng)的自然人識別ID即為該條數(shù)據(jù)的自然人識別ID。
步驟3 對數(shù)據(jù)進(jìn)行自然人標(biāo)簽標(biāo)識。通過對所有系統(tǒng)的數(shù)據(jù)加上自然人識別ID標(biāo)簽的方式進(jìn)行數(shù)據(jù)的自然人標(biāo)識。不同數(shù)據(jù)源的數(shù)據(jù)加上全網(wǎng)統(tǒng)一的自然人識別ID之后,在進(jìn)一步的數(shù)據(jù)挖掘分析時,可通過自然人識別ID進(jìn)行關(guān)聯(lián)分析,從而實現(xiàn)多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)融合。例如,移動DPI數(shù)據(jù)、固網(wǎng)DPI數(shù)據(jù)和話單數(shù)據(jù)加上自然人識別ID后,可通過自然人識別ID區(qū)別出同一用戶的移動DPI數(shù)據(jù)、固網(wǎng)DPI數(shù)據(jù)和話單數(shù)據(jù),這樣可以結(jié)合用戶的移動上網(wǎng)行為和固網(wǎng)上網(wǎng)行為以及電話呼叫行為等多種類型的數(shù)據(jù),更全面地繪制出該用戶的用戶畫像。
電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)關(guān)鍵技術(shù)有以下幾種。
(1)面向身份信息的關(guān)鍵字提取
本文提出的電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法中,通過對數(shù)據(jù)關(guān)鍵字的提取和比對,識別數(shù)據(jù)所對應(yīng)的自然人,所以,關(guān)鍵字和用戶身份強(qiáng)相關(guān),如手機(jī)號碼、寬帶賬號、用戶社交UID等。由于不同來源的數(shù)據(jù)格式和數(shù)據(jù)內(nèi)容互不相同,所以不同來源的數(shù)據(jù)具有不同的關(guān)鍵字,表1列舉了固網(wǎng)DPI數(shù)據(jù)、移動DPI數(shù)據(jù)、話單數(shù)據(jù)、ODMS數(shù)據(jù)、OIDD數(shù)據(jù)和ODS數(shù)據(jù)的關(guān)鍵字。
表1 電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)關(guān)鍵字舉例
關(guān)鍵字可以通過解析數(shù)據(jù)中的字段獲得,例如:解析固網(wǎng)DPI數(shù)據(jù)的AD賬號字段,可獲得用戶的寬帶賬號關(guān)鍵字;解析寬帶和移動DPI數(shù)據(jù),從HTTP業(yè)務(wù)用戶訪問記錄中的DestinationURL字段中提取微博、騰訊社交網(wǎng)絡(luò)UID,可獲得用戶的社交UID關(guān)鍵字;解析話單數(shù)據(jù)中的主叫號碼、被叫號碼字段,可獲得手機(jī)號碼關(guān)鍵字。
當(dāng)從數(shù)據(jù)中提取關(guān)鍵字后,在自然人ID映射表中查找關(guān)鍵字,若在自然人ID映射表中找到了關(guān)鍵字匹配的條目,則從自然人ID映射表中獲得此關(guān)鍵字的自然人識別ID,即此條數(shù)據(jù)的自然人識別ID,從而實現(xiàn)此條數(shù)據(jù)的自然人識別;若沒有找到匹配條目,將更新自然人ID映射表中的條目。所以,提取的關(guān)鍵字有兩種用途:一是用于生成和維護(hù)自然人ID映射表,二是有效識別數(shù)據(jù)的自然人身份。
(2)自然人ID映射表
本文提出了自然人識別ID和自然人ID映射表。通過數(shù)據(jù)中的關(guān)鍵字查找自然人ID映射表,能夠獲得此條數(shù)據(jù)的自然人識別ID。所以,自然人ID映射表保存了用戶的各種ID和映射關(guān)系,包括自然人識別ID、手機(jī)號碼、寬帶賬號以及各社交UID等。自然人ID映射表的鍵值ID為自然人識別ID,它為全網(wǎng)統(tǒng)一的標(biāo)注和識別該用戶的ID。自然人ID映射表還包含了用戶自然人識別ID和用戶其他各種ID的映射關(guān)系。自然人ID映射表舉例如圖3所示。
圖3 自然人ID映射表舉例
①自然人ID映射表的生成
自然人ID映射表中的內(nèi)容通過從移動DPI數(shù)據(jù)、固網(wǎng)DPI數(shù)據(jù)、ODS數(shù)據(jù)和終端自注冊數(shù)據(jù)等數(shù)據(jù)中提取的關(guān)鍵字生成和更新。例如:通過提取ODS數(shù)據(jù)的關(guān)鍵字,獲取自然人的手機(jī)號碼、寬帶賬號并分配自然人識別ID,寫入自然ID映射表;通過終端自注冊平臺數(shù)據(jù)的關(guān)鍵字獲取手機(jī)MAC地址、MEID;通過移動DPI數(shù)據(jù)的關(guān)鍵字獲取微博UID、QQ空間UID等社交UID。
自然人ID映射表的生成可分為兩步:先通過上述方法分析存量的電信大數(shù)據(jù)(已有未識別數(shù)據(jù)),初步生成自然人ID映射表中的內(nèi)容;再對新采集的數(shù)據(jù)采用上述方法進(jìn)行實時分析,從而不斷增加自然人ID映射表的內(nèi)容。
②自然人ID映射表的維護(hù)
已生成的自然人ID映射表需要不斷地更新維護(hù)。自然人ID映射表的更新維護(hù)同樣通過對電信大數(shù)據(jù)的關(guān)鍵字分析,從數(shù)據(jù)中提取的關(guān)鍵字在已生成的ID映射表中進(jìn)行查找匹配,若查找的關(guān)鍵字和自然人ID映射表中的字段匹配成功,則得到了該條數(shù)據(jù)的自然人識別ID;若在自然人ID映射表中沒有相匹配的ID,則說明此條數(shù)據(jù)的關(guān)鍵字為新的ID信息,應(yīng)更新到自然人ID映射表中。通過數(shù)據(jù)關(guān)鍵字查找匹配自然人ID映射表的方式,實現(xiàn)自然人ID映射表在應(yīng)用過程中的更新維護(hù)。
(3)數(shù)據(jù)的自然人標(biāo)簽標(biāo)識
數(shù)據(jù)經(jīng)過關(guān)鍵字提取后,根據(jù)獲得的關(guān)鍵字,查找自然人ID映射表,找到和關(guān)鍵字一致的ID,從而獲得該條數(shù)據(jù)的自然人識別ID,然后通過對數(shù)據(jù)增加標(biāo)簽的形式,將該自然人識別ID標(biāo)注到該條數(shù)據(jù)。通過對每條數(shù)據(jù)標(biāo)注自然人識別ID,達(dá)到不同數(shù)據(jù)相互關(guān)聯(lián)的目的。
一條數(shù)據(jù)可能存在多個關(guān)鍵詞的情況,如移動DPI數(shù)據(jù)可能解析出手機(jī)號碼、新浪微博UID等關(guān)鍵字。這種情況下應(yīng)按一定的優(yōu)先級順序,比對關(guān)鍵字和自然人ID映射表中的ID。根據(jù)各關(guān)鍵字和自然人的關(guān)聯(lián)程度的強(qiáng)弱不同,可設(shè)置關(guān)鍵字查找比對的優(yōu)先級順序如下:手機(jī)號碼>MEID號碼>MAC地址>cookie>新浪微博UID>社交UID>寬帶賬號。當(dāng)關(guān)鍵字匹配優(yōu)先級高的ID時,使用優(yōu)先級高的ID所對應(yīng)的自然人識別ID標(biāo)識數(shù)據(jù)。
本文提出了電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法應(yīng)用到實際網(wǎng)絡(luò)中的兩種方式實現(xiàn)架構(gòu):一種是關(guān)聯(lián)后再存儲,另一種是存儲后再關(guān)聯(lián)。
電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實現(xiàn)架構(gòu)方式1如圖4所示。
圖4 電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實現(xiàn)架構(gòu)方式1
關(guān)聯(lián)后再存儲的實現(xiàn)方式為:原始數(shù)據(jù)經(jīng)過清洗后,逐一對每條數(shù)據(jù)進(jìn)行自然人識別,并加上自然人識別ID的標(biāo)簽。然后,將加上自然人識別ID后的數(shù)據(jù)存入數(shù)據(jù)庫,數(shù)據(jù)庫中所有的數(shù)據(jù)均是標(biāo)注了自然人識別ID的已關(guān)聯(lián)數(shù)據(jù)。上層應(yīng)用使用數(shù)據(jù)時,直接分析挖掘已關(guān)聯(lián)數(shù)據(jù)。
這種方式的特點(diǎn)在于:
? 在數(shù)據(jù)清洗階段即完成每條數(shù)據(jù)的關(guān)聯(lián),這將增加數(shù)據(jù)清洗階段的工作量和數(shù)據(jù)存入數(shù)據(jù)庫的時長;
? 因為數(shù)據(jù)入庫前要逐條解析數(shù)據(jù)并關(guān)聯(lián),所以對系統(tǒng)性能有一定要求;
? 存儲后的數(shù)據(jù)皆為已關(guān)聯(lián)數(shù)據(jù),使用方便,可實時取用。
電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實現(xiàn)架構(gòu)方式2如圖5所示。
存儲后再關(guān)聯(lián)的實現(xiàn)方式為:原始數(shù)據(jù)不做關(guān)聯(lián)即存入數(shù)據(jù)庫。當(dāng)數(shù)據(jù)應(yīng)用請求需要關(guān)聯(lián)數(shù)據(jù)時,數(shù)據(jù)關(guān)聯(lián)模塊對數(shù)據(jù)庫中的被請求數(shù)據(jù)進(jìn)行自然人識別和加自然人識別ID標(biāo)簽進(jìn)行數(shù)據(jù)關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)完成后,應(yīng)用從數(shù)據(jù)庫中取得需要的已關(guān)聯(lián)數(shù)據(jù)。庫中關(guān)聯(lián)后的數(shù)據(jù)保留標(biāo)簽,供下次應(yīng)用請求時取用,避免重復(fù)關(guān)聯(lián)。
圖5 電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實現(xiàn)架構(gòu)方式2
這種方式的特點(diǎn)在于:
? 不影響清洗入庫流程,不影響數(shù)據(jù)存入數(shù)據(jù)庫的時長;
? 數(shù)據(jù)關(guān)聯(lián)按需實現(xiàn),不需要對數(shù)據(jù)逐條解析和關(guān)聯(lián),對系統(tǒng)性能要求較方式1較低;
? 應(yīng)用不能實時取用已關(guān)聯(lián)數(shù)據(jù),需先請求關(guān)聯(lián),等待關(guān)聯(lián)完成后再取得關(guān)聯(lián)數(shù)據(jù),通過分步請求方式獲得關(guān)聯(lián)數(shù)據(jù)。
根據(jù)本文中的電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法,以移動DPI數(shù)據(jù)自然人識別和標(biāo)注為例,驗證異構(gòu)關(guān)聯(lián)的可行性和效果,如圖6所示,對某一條的移動DPI數(shù)據(jù)自然人識別和標(biāo)注的流程如下:對清洗后的移動DPI數(shù)據(jù)進(jìn)行關(guān)鍵字提取,得到關(guān)鍵字——手機(jī)號碼;在自然人ID映射表中查找該手機(jī)號碼,得到該手機(jī)號碼映射的自然人識別ID;在清洗后的數(shù)據(jù)中加入自然人識別ID標(biāo)簽,標(biāo)注自然人;標(biāo)注后的該條移動DPI數(shù)據(jù)入庫。根據(jù)上述流程,以中國電信多個省市一天的4G移動DPI數(shù)據(jù)為數(shù)據(jù)源,對這些數(shù)據(jù)逐條進(jìn)行識別和關(guān)聯(lián)驗證。驗證環(huán)境為Linux上的Hadoop系統(tǒng)。數(shù)據(jù)源情況見表2。
圖6 移動DPI數(shù)據(jù)自然人識別和標(biāo)注流程舉例
表2 電信業(yè)務(wù)大數(shù)據(jù)異構(gòu)關(guān)聯(lián)驗證數(shù)據(jù)源情況
驗證結(jié)果如圖7所示。驗證生成的自然人ID映射表,包括條目9 374 328條。原始數(shù)據(jù)77.76億條,可標(biāo)識數(shù)據(jù)77.76億條,標(biāo)識率為100%。由于移動DPI數(shù)據(jù)的關(guān)鍵字為手機(jī)號碼,所以標(biāo)識率較高。
運(yùn)營商作為數(shù)據(jù)密集型企業(yè),有豐富的大數(shù)據(jù)資源。然而這些數(shù)據(jù)資源分布在多個相互獨(dú)立的系統(tǒng)中,存在多源異構(gòu)情況,數(shù)據(jù)相互獨(dú)立,互不關(guān)聯(lián),所以數(shù)據(jù)價值未被充分挖掘。本文提出了基于異構(gòu)關(guān)聯(lián)的大數(shù)據(jù)處理方法,可以實現(xiàn)不同數(shù)據(jù)間的內(nèi)容匹配,從而提升數(shù)據(jù)價值密度,為后續(xù)高質(zhì)量的數(shù)據(jù)挖掘打下基礎(chǔ)。
圖7 移動DPI數(shù)據(jù)自然人ID映射表驗證結(jié)果
[1] 李秋靜, 葉云. 電信大數(shù)據(jù)解決方案及實踐[J]. 中興通訊技術(shù), 2013, 19(4): 39-41.
LI Q J, YE Y. Telco big-data solution and experience[J]. ZTE Technology Journal, 2013, 19(4): 39-41.
[2] 童曉渝, 張云勇, 房秉毅, 等. 大數(shù)據(jù)時代電信運(yùn)營商的機(jī)遇[J]. 通信信息技術(shù), 2013(1): 5-9.
TONG X Y, ZHANG Y Y, FANG B Y, et al. Opportunities and strategies to adopt big data for telecom operators[J]. Information and Communications Technologies, 2013(1):5-9.
[3] 韓晶, 張智江, 王健全, 等. 面向統(tǒng)一運(yùn)營的電信運(yùn)營商大數(shù)據(jù)戰(zhàn)略[J]. 電信科學(xué), 2014, 30(11): 154-158.
HAN J, ZHANG Z J, WANG J Q, et al. The unified operation-oriented big data strategy for telecom operators [J]. Telecommunications Science, 2014, 30(11): 154-158.
[4] 沈雷明, 別志銘. 基于電信大數(shù)據(jù)的數(shù)據(jù)建模平臺研究[J]. 電信科學(xué), 2014, 30(6): 138-141.
SHEN L M, BIE Z M. Research on data modeling platform based on big data of telecom[J]. Telecommunications Science, 2014, 30(6):138-147
[5] 靳丹, 張磊, 王洪軍, 等. 基于Hadoop的大數(shù)據(jù)清洗框架設(shè)計與應(yīng)用[J]. 網(wǎng)絡(luò)新媒體技術(shù), 2015(9):33-38.
JIN D, ZHANG L, WANG H J, et al. Design and application of Hadoop based data cleaning framework[J]. Journal of Network New Media, 2015(2):5-10.
Method of improving big data value density based on heterogeneous association
WANG Shaomin, WANG Zheng
Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China
The big data resources possessed by telecom operators are usually distributed in many different systems, such as DPI、OIDD、CRM. Moreover, the formulation, interpretation and rules of the big data are not always the same in different systems. Therefore, it is difficult to identify and utilize the same object’s multi-type data in different systems.Big data analysis’ sample size and dimension are limited, with the decreasing of analysis results’ reality and accuracy. The methods, architectures and implementation examples of big data’s heterogeneous association were presented. The data fusion in user-dimension from different systems could optimize the data sample space of applications, such as user portrait.Thus, the value of carrier’s big data density was greatly improved.
big data, telecom service big data, multi-source and heterogeneous, heterogeneous association
TP393
A
10.11959/j.issn.1000?0801.2017341
2017?11?01;
2017?12?04
汪少敏(1983?),女,中國電信股份有限公司上海研究院工程師,主要研究方向為大數(shù)據(jù)架構(gòu)、數(shù)據(jù)挖掘分析和人工智能技術(shù)。
王錚(1973?),男,中國電信股份有限公司上海研究院工程師,人工智能交互團(tuán)隊負(fù)責(zé)人,主要研究方向為大數(shù)據(jù)架構(gòu)、數(shù)據(jù)挖掘分析和人工智能技術(shù)。