肖建軍,邱瑞,肖崇星
【摘 ?要】近年來,數(shù)據(jù)呈指數(shù)級(jí)增長,人們對(duì)數(shù)據(jù)的利用能力越來越高,特別是近幾年興起的大數(shù)據(jù)、云計(jì)算、人工智能等新興技術(shù)匯集了人類有史以來最多最全的數(shù)據(jù),但是如何從數(shù)據(jù)中發(fā)現(xiàn)各種關(guān)系與規(guī)則,從海量數(shù)據(jù)中找到更有價(jià)值的數(shù)據(jù),是人們急需解決的問題。數(shù)據(jù)挖掘技術(shù)是解決這一問題的根本方法,而基于標(biāo)簽的數(shù)據(jù)挖掘技術(shù)是完整刻畫描述人物特征的基本方法。
【Abstract】In recent years, the numbers have grown exponentially. People's ability to use data is getting higher and higher, especially in recent years, emerging technologies such as big data, cloud computing and artificial intelligence have collected the largest and most complete data in human history. However, how to discover all kinds of relationships and rules from data and find more valuable data from mass data is an urgent problem that people need to solve. Data mining technology is the fundamental method to solve this problem, and the data mining technology based on tag is the basic method to describe the characters completely.
【關(guān)鍵詞】數(shù)據(jù)挖掘;大數(shù)據(jù);標(biāo)簽
【Keywords】data mining; big data; tag
【中圖分類號(hào)】TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號(hào)】1673-1069(2020)02-0156-02
1 引言
目前,關(guān)于人員標(biāo)簽的研究主要集中在人物畫像,所謂人物畫像[1]就是將人物的行為特征標(biāo)簽化,是描述人物的數(shù)據(jù),是符合特定業(yè)務(wù)需求的對(duì)人員的形式化描述。人員標(biāo)簽的應(yīng)用主要體現(xiàn)在商業(yè)營銷領(lǐng)域,各大購物網(wǎng)站通過記錄用戶的操作數(shù)據(jù),對(duì)用戶進(jìn)行建模,給用戶建立標(biāo)簽,再給用戶推薦其可能會(huì)購買的商品,從而達(dá)到促進(jìn)消費(fèi)的目的,如京東、淘寶、拼多多等。標(biāo)簽技術(shù)在公共安全領(lǐng)域的研究起步比較晚,僅做到描述層級(jí),無法實(shí)現(xiàn)深度的挖掘和關(guān)聯(lián),與具體業(yè)務(wù)的結(jié)合比較松散,對(duì)于需要從海量情報(bào)信息中串并深挖、預(yù)測預(yù)警的業(yè)務(wù)工作來說,仍需要進(jìn)行定制化的研發(fā)。
從數(shù)據(jù)中“淘金”,從大量數(shù)據(jù)(文本)中挖掘出隱含的、未知的、對(duì)決策有潛在的關(guān)系、模型和趨勢,并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程,這就是數(shù)據(jù)挖掘。它是利用各種分析工具在大量數(shù)據(jù)中尋找其規(guī)律和發(fā)現(xiàn)模型與數(shù)據(jù)之間關(guān)系的過程,是統(tǒng)計(jì)學(xué)、數(shù)據(jù)技術(shù)和人智能智能技術(shù)的綜合。
2 技術(shù)背景
2.1 標(biāo)簽
標(biāo)簽[2]是根據(jù)人物的行為、屬性與具體的時(shí)間、地點(diǎn)、事件等數(shù)據(jù)結(jié)合后給出的人物的特征,如有相同屬性的人群,性別(男或女)表示同性別的人員等。近年來,在消費(fèi)、金融等領(lǐng)域,普遍利用標(biāo)簽對(duì)人物進(jìn)行畫像,經(jīng)過特征分析,對(duì)人物進(jìn)行合理分類,從而幫助用戶改進(jìn)工作流程和工作模式。公共安全行業(yè)在標(biāo)簽系統(tǒng)的建設(shè)中起步較晚,已經(jīng)開展了一批標(biāo)簽系統(tǒng)建設(shè),但是并沒有形成統(tǒng)一的方法論對(duì)實(shí)體標(biāo)簽進(jìn)行數(shù)據(jù)挖掘,對(duì)標(biāo)簽的實(shí)際應(yīng)用分析比較少。
2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘[3]是指在海量的、復(fù)雜的數(shù)據(jù)中,挖掘出隱藏其中的、未知的、有用的信息的過程。數(shù)據(jù)挖掘涉及比較廣泛,融合了數(shù)據(jù)分析、決策支持、大數(shù)據(jù)、人工智能、云計(jì)算等內(nèi)容。源數(shù)據(jù)的結(jié)構(gòu)比較復(fù)雜,可以是結(jié)構(gòu)化的如關(guān)系型數(shù)據(jù)庫等,也可以是非結(jié)構(gòu)化的如圖片、音頻、視頻等,或者是半結(jié)構(gòu)化的如網(wǎng)頁等。數(shù)據(jù)挖掘可分為直接和間接數(shù)據(jù)挖掘。直接數(shù)據(jù)挖掘就是利用現(xiàn)有的數(shù)據(jù),建立模型,然后利用該模型對(duì)剩余的數(shù)據(jù)進(jìn)行分析和描述,包括分類、估值和預(yù)測等。間接數(shù)據(jù)挖掘是在所有的變量中尋找某種關(guān)系,事先并未選出某一具體的變量[4]。
3 核心內(nèi)容
3.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)包括分類、聚類、預(yù)測、時(shí)間序列分析、關(guān)聯(lián)分析等。分類是根據(jù)已知的一些樣本包括屬性與類標(biāo)號(hào)來得到分類模型,即得到樣本屬性與類標(biāo)號(hào)之間的函數(shù),然后通過此目標(biāo)函數(shù)來對(duì)只包含屬性的樣本數(shù)據(jù)進(jìn)行分類,是一種有監(jiān)督的學(xué)習(xí)。最常見的分類方法是邏輯回歸或者邏輯分類。聚類分析是一種無監(jiān)督學(xué)習(xí),目的是通過某種方法將一組未知數(shù)據(jù)劃分成若干種類,事先并不知道源數(shù)據(jù)的類別。預(yù)測是在歷史數(shù)據(jù)的基礎(chǔ)上,找出其中的某種規(guī)律,建立模型,并通過該模型對(duì)未來的數(shù)據(jù)種類及特征進(jìn)行預(yù)測。時(shí)間序列分析是通過時(shí)間序列搜索出重復(fù)發(fā)生概率較高的規(guī)律或者模式。關(guān)聯(lián)分析主要用于發(fā)現(xiàn)變量取值之間的相關(guān)性規(guī)律[5]。
3.2 數(shù)據(jù)治理
數(shù)據(jù)治理是對(duì)數(shù)據(jù)的有效處理。通過數(shù)據(jù)采集,將各類數(shù)據(jù)匯集,并進(jìn)行數(shù)據(jù)清洗,將其中無用的、重復(fù)的數(shù)據(jù)清除、精簡,再通過標(biāo)準(zhǔn)化、結(jié)構(gòu)化之后,分類存儲(chǔ),形成結(jié)構(gòu)化、規(guī)范化的資源庫,為實(shí)體標(biāo)簽分類和生產(chǎn)提供了可靠的數(shù)據(jù)基礎(chǔ)(見圖2)。
3.3 標(biāo)簽開發(fā)和應(yīng)用
從數(shù)據(jù)中發(fā)現(xiàn)有用信息是數(shù)據(jù)挖掘技術(shù)的重點(diǎn)。通過算法分析,將人、車、物、事件和時(shí)間空間相結(jié)合,按照分類方法劃分相應(yīng)的標(biāo)簽,根據(jù)標(biāo)簽組合實(shí)現(xiàn)對(duì)實(shí)體的行為的基本判斷。實(shí)體標(biāo)簽是基于標(biāo)簽引擎開發(fā),標(biāo)簽開發(fā)和應(yīng)用流程如圖3所示。
標(biāo)簽根據(jù)人員的屬性分為行為屬性標(biāo)簽、人員特征標(biāo)簽、基礎(chǔ)屬性標(biāo)簽以及社會(huì)屬性標(biāo)簽。標(biāo)簽一般按照實(shí)體進(jìn)行分類,例如,人的基礎(chǔ)屬性包括姓名、性別、出生日期、出生地、血型等;社會(huì)屬性標(biāo)簽包括職業(yè)、年齡、所在城市、會(huì)員等級(jí)等;行為屬性標(biāo)簽包括出行行為、異常經(jīng)歷行為等。人員特征標(biāo)簽包括是不是重點(diǎn)人員等。
4 結(jié)語
通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,對(duì)收集到的各類數(shù)據(jù)進(jìn)行處理,形成標(biāo)簽體系,投入標(biāo)簽市場,并發(fā)布到標(biāo)簽中心,下一步將對(duì)標(biāo)簽進(jìn)行進(jìn)一步分析、同步、管理等,并提供給上層應(yīng)用,如標(biāo)簽查詢、標(biāo)簽統(tǒng)計(jì)、標(biāo)簽地圖、情報(bào)研判等。
【參考文獻(xiàn)】
【1】席巖,張乃光,王磊,等.基于大數(shù)據(jù)的用戶畫像方法研究綜述[J].廣播電視信息,2017(10):37-41.
【2】李思男,李寧,李戰(zhàn)懷,等.多標(biāo)簽數(shù)據(jù)挖掘技術(shù):研究綜述[J].計(jì)算機(jī)科學(xué),2013(04):14-21.
【3】楊雪.淺析數(shù)據(jù)挖掘技術(shù)[J].華南金融電腦,2005(08):83-85.
【4】邱國偉.移動(dòng)通信中數(shù)據(jù)挖掘技術(shù)的有效運(yùn)用[J].通訊世界,2017(08):76-77.
【5】靳延安.社會(huì)標(biāo)簽推薦技術(shù)與方法研究[D].武漢:華中科技大學(xué),2011.