魏俊杰 何 翼 熊 黃 莊 輝
(深圳新聞網(wǎng)傳媒股份有限公司,廣東 深圳518034)
數(shù)據(jù)清洗是指通過(guò)一定的技術(shù)手段來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題的過(guò)程,在不同領(lǐng)域?qū)嶋H應(yīng)用中,數(shù)據(jù)清洗的具體操作可能會(huì)有所不同,一般來(lái)說(shuō)包括數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)庫(kù)以及數(shù)據(jù)挖掘三個(gè)方面。新聞數(shù)據(jù)清洗則主要是針對(duì)新聞數(shù)據(jù)進(jìn)行上述操作,本研究數(shù)據(jù)清洗主要是指改善所使用的新聞數(shù)據(jù)質(zhì)量這一過(guò)程。[1]
1.2.1 國(guó)外應(yīng)用現(xiàn)狀
從國(guó)外研究情況來(lái)看目前有較多的數(shù)據(jù)集成商或服務(wù)商能夠提供定制化數(shù)據(jù)清洗服務(wù),且已經(jīng)步入了較為成熟的商業(yè)化階段。目前國(guó)外提供的清洗方案主要包括用戶自定義工具和搜索引擎,兩者有著各自的優(yōu)勢(shì)和弊端。
第一種用戶自定義工具是一種半開(kāi)放式框架,用戶可以根據(jù)自己的需求來(lái)制定清洗規(guī)則,但最大難點(diǎn)在于需要運(yùn)用清洗策略語(yǔ)句和類編程語(yǔ)言,這就大大提高了新聞工作者的工作難度,因此這類工具使用效果較不理想。[2]第二種搜索引擎主要是通過(guò)對(duì)維度、屬性等進(jìn)行預(yù)先分類,然后在用戶搜索時(shí)能夠給出篩選后的數(shù)據(jù)。這種方式使用較為便捷,但其弊端在于設(shè)置分類時(shí)主觀性較大,分類指標(biāo)設(shè)置過(guò)細(xì),則可能將原本不屬于數(shù)據(jù)噪聲的信息去掉,因此還需進(jìn)一步人工處理。[3]
1.2.2 國(guó)內(nèi)應(yīng)用現(xiàn)狀
國(guó)內(nèi)數(shù)據(jù)清洗應(yīng)用已有較豐富的成型算法,且和電子商務(wù)等實(shí)際商業(yè)用途進(jìn)行了結(jié)合,包含的數(shù)據(jù)類型有抽象數(shù)據(jù)、多元組等類型。但針對(duì)自然語(yǔ)言的數(shù)據(jù)清洗應(yīng)用還較少,主要原因是所需技術(shù)需要多學(xué)科交叉配合,這就大大提升了制定數(shù)據(jù)清洗規(guī)則的難度。同時(shí),國(guó)內(nèi)數(shù)據(jù)清洗的商業(yè)化動(dòng)力還較弱,主要還是停留在簡(jiǎn)單轉(zhuǎn)化有限文本的層面。[4]
因此,本研究則針對(duì)筆者日常工作中的媒體數(shù)據(jù),對(duì)其數(shù)據(jù)清洗問(wèn)題進(jìn)行進(jìn)一步深入研究,利用基于模糊綜合評(píng)判模型,從媒體角度在信息源頭就去除數(shù)據(jù)噪聲信息,保證新聞數(shù)據(jù)的質(zhì)量,進(jìn)而實(shí)現(xiàn)對(duì)新聞稿件的快速清洗。
運(yùn)用基于模糊綜合評(píng)判的媒體新聞數(shù)據(jù)清洗方法時(shí),第一步需要搭建總體框架,第二步需要建立新聞數(shù)據(jù)評(píng)級(jí)指標(biāo)體系,第三步需要對(duì)該體系進(jìn)行定量化評(píng)估。
媒體新聞數(shù)據(jù)清洗方法總體技術(shù)框架如圖1所示,主要包括了模式約束處理、實(shí)例數(shù)據(jù)清洗以及語(yǔ)義驗(yàn)證階段。[5]
圖1 數(shù)據(jù)清洗框架
2.2.1 構(gòu)建媒體新聞指標(biāo)體系
構(gòu)建完數(shù)據(jù)清洗框架后,應(yīng)當(dāng)在實(shí)際工作中對(duì)新聞稿件篩選,主要包括的指標(biāo)有新聞事件、新聞基本要素。新聞事件主要是反映新聞發(fā)生的時(shí)間、地點(diǎn)、人物等,這些屬性可以作為數(shù)據(jù)清洗的維度。新聞基本要素主要是評(píng)估新聞的完整性和準(zhǔn)確性,在數(shù)據(jù)清洗時(shí)可以利用其進(jìn)行篩選,提高采集效率。新聞內(nèi)容則包含了一些討論內(nèi)容或立場(chǎng),在數(shù)據(jù)清洗時(shí)可以根據(jù)傾向分析快速識(shí)別輿論熱點(diǎn)。[6]具體指標(biāo)體系如表1所示。
表1 媒體新聞指標(biāo)體系
2.2.2 基于模糊綜合評(píng)判的定量化評(píng)估
本研究基于模糊綜合評(píng)判法構(gòu)建新聞稿件質(zhì)量評(píng)級(jí)體系,并對(duì)各項(xiàng)指標(biāo)進(jìn)行量化。在實(shí)際工作中發(fā)現(xiàn),對(duì)媒體新聞數(shù)據(jù)集合歸屬的界定不是很清晰,模糊概念之間的差異無(wú)法量化。因此,利用模糊集的概念對(duì)此類表述進(jìn)行處理,將其表示成為三角模糊值,通過(guò)加權(quán)平均值的方式使得輸出結(jié)果包含更多信息。
其模型集主要包括判斷因素集合、評(píng)判等級(jí)集合以及權(quán)重集合,同時(shí)還包括單因素評(píng)判矩陣。在模糊向量和模糊關(guān)系矩陣都已有的前提下,可以對(duì)模糊變換進(jìn)行綜合評(píng)判。[7]主要步驟如下:
(1)劃分因素集U
(2)初級(jí)評(píng)判
(3)總體評(píng)判矩陣
得到總體評(píng)判模型為:素集的權(quán)重模糊向量為A、迷糊關(guān)系矩陣為R,可得
能夠看出對(duì)因素進(jìn)行了K 次劃分,第K 次劃分的單層次評(píng)判就是K+1 次劃分的綜合評(píng)判。
(4)確定評(píng)判等級(jí)及隸屬函數(shù)
本研究將評(píng)判等級(jí)劃分為五級(jí),從0~100 每隔20 分值為一級(jí),將各級(jí)區(qū)間的中值設(shè)置為等級(jí)參數(shù),即等級(jí)參數(shù)
分級(jí)完成后,建立各影響因子對(duì)應(yīng)級(jí)別隸屬度函數(shù)關(guān)系式,本研究選擇線性隸屬度函數(shù),隸屬第一級(jí)的隸屬函數(shù)為:
2.3.1 實(shí)驗(yàn)新聞稿件數(shù)據(jù)源
本次實(shí)驗(yàn)新聞稿件選擇深圳新聞網(wǎng)采編數(shù)據(jù)庫(kù),選擇2021年10月至12月入庫(kù)的1456.86 萬(wàn)條新聞數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,實(shí)驗(yàn)指標(biāo)設(shè)定如表2所示。主要原因如下:
表2 實(shí)驗(yàn)設(shè)定指標(biāo)
首先,數(shù)據(jù)質(zhì)量較高,便于建立規(guī)則庫(kù)。深圳新聞網(wǎng)數(shù)據(jù)源均為已審核過(guò)且能夠直接使用的數(shù)據(jù),其數(shù)據(jù)質(zhì)量已有一定的保證,數(shù)據(jù)要素基本完整、標(biāo)準(zhǔn)化程度較高。因此選用該數(shù)據(jù),可以有效降低數(shù)據(jù)預(yù)處理壓力,從而能夠更加精準(zhǔn)地對(duì)數(shù)據(jù)清洗效果進(jìn)行分析,并評(píng)判出清洗規(guī)則是否有效。其次,稿件內(nèi)容較為廣泛。深圳新聞網(wǎng)是立足于“中國(guó)改革開(kāi)放窗口”深圳的國(guó)家重點(diǎn)新聞網(wǎng)站,是全國(guó)領(lǐng)先的地方網(wǎng)絡(luò)媒體,有著完善的全庫(kù)數(shù)據(jù),并且與全國(guó)上百家大型媒體單位有合作,大部分新聞數(shù)據(jù)稿件能夠互通互用,這就保證了實(shí)驗(yàn)數(shù)據(jù)源有著充分的基礎(chǔ)。最后,新聞稿件數(shù)據(jù)能夠轉(zhuǎn)化為XML格式,這種格式有著可擴(kuò)展等優(yōu)勢(shì),已成為當(dāng)前數(shù)據(jù)交換、電子商務(wù)等領(lǐng)域應(yīng)用最為廣泛的數(shù)據(jù)格式標(biāo)準(zhǔn),本次實(shí)驗(yàn)中也采用該種數(shù)據(jù)類型。數(shù)據(jù)推送采用FTP 數(shù)據(jù)傳送方式,設(shè)定推送間隔為三分鐘。
2.3.2 數(shù)據(jù)清洗
2.3.2.1 標(biāo)準(zhǔn)化處理
由于新聞數(shù)據(jù)來(lái)源較為廣泛,數(shù)據(jù)要素和表達(dá)形式可能有所不同,因此需要對(duì)一些新聞素材進(jìn)行標(biāo)準(zhǔn)化處理。例如在有的稿件中將日期表示為“2021.11.5”,而有的稿件中又表示為“11/5/2021”,或者還有的使用英文表述。針對(duì)不同數(shù)據(jù),需對(duì)應(yīng)各自的拆分規(guī)則庫(kù),不同規(guī)則庫(kù)有不同的提取規(guī)則,新聞稿件中的各數(shù)據(jù)已經(jīng)是被拆分后的字段,符合一定的粒度級(jí)別以及相應(yīng)的樹(shù)狀結(jié)構(gòu)。拆分后的字段會(huì)在內(nèi)存模型數(shù)據(jù)結(jié)構(gòu)中進(jìn)行保存。
在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理時(shí),利用貪婪算法在動(dòng)態(tài)表單入口處對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,進(jìn)而能夠有效控制表單域排序,加快數(shù)據(jù)采集和傳輸效率?;谏钲谛侣劸W(wǎng)語(yǔ)料庫(kù),采取內(nèi)存層次模型進(jìn)行標(biāo)準(zhǔn)化操作,處理的具體方法和步驟如圖2所示。通過(guò)對(duì)新聞稿件標(biāo)準(zhǔn)化操作,能夠?qū)?shù)據(jù)消除歧義,提高后續(xù)算法執(zhí)行的可行性。[8]
圖2 標(biāo)準(zhǔn)化操作步驟
2.3.2.2 匹配消重處理
媒體新聞報(bào)道時(shí),會(huì)存在相互轉(zhuǎn)發(fā)的情況,而有些稿件并非原創(chuàng),也會(huì)存在重復(fù)數(shù)據(jù),因此需要對(duì)新聞數(shù)據(jù)進(jìn)行匹配消重操作,將無(wú)效數(shù)據(jù)進(jìn)行剔除。使用匹配技術(shù)對(duì)關(guān)鍵字進(jìn)行檢測(cè),然后分別在文檔級(jí)別和文檔元素級(jí)別對(duì)其進(jìn)行匹配,為了提高匹配效率,高級(jí)別粒度數(shù)據(jù)匹配時(shí)會(huì)參考低級(jí)別粒度的結(jié)果。本研究采用的主要是SNM(Sorted-Neighborhood Method)方法進(jìn)行匹配消重,其基本思路是對(duì)全數(shù)據(jù)進(jìn)行排序,并且對(duì)文件進(jìn)行遞歸,再比較相鄰記錄的相似程度,最后經(jīng)過(guò)計(jì)算完成記錄匹配過(guò)程。[9]
第一步為創(chuàng)建排序關(guān)鍵字。該步驟需要根據(jù)數(shù)據(jù)總體情況進(jìn)行評(píng)估,計(jì)算數(shù)據(jù)集中每條記錄的鍵值,最后基于匹配標(biāo)準(zhǔn)進(jìn)行判斷。第二步是對(duì)整個(gè)數(shù)據(jù)集進(jìn)行排序操作,如果在匹配關(guān)鍵字時(shí)認(rèn)為有相似的重復(fù)記錄,則會(huì)將其放置在鄰近區(qū)域內(nèi),從而使得排序后的數(shù)據(jù)集有著更高的匹配性,大大降低了數(shù)據(jù)比較次數(shù),提高了匹配效率。第三步為計(jì)算字段匹配得分,采用滑動(dòng)窗口的形式進(jìn)行比較。匹配算法包括:一般性匹配、字符串完全匹配、單錯(cuò)誤匹配和縮寫(xiě)詞匹配。經(jīng)過(guò)該步驟后,被清洗腳本自動(dòng)清洗的新聞則被認(rèn)定為是稿件重復(fù)。第四步則是與閾值比較、分流數(shù)據(jù),需設(shè)定一個(gè)閾值范圍,可根據(jù)數(shù)據(jù)源的實(shí)際情況進(jìn)行靈活配置。同時(shí)要記得將新聞數(shù)據(jù)寫(xiě)入相應(yīng)清洗日志,退出流程。
2.3.2.3 補(bǔ)全缺失數(shù)據(jù)
在對(duì)數(shù)據(jù)倉(cāng)儲(chǔ)裝載數(shù)據(jù)時(shí),原始數(shù)據(jù)可能有所缺失,對(duì)有些重要新聞而言,缺少數(shù)據(jù)可能導(dǎo)致清洗策略失效。字段值的缺失,主要包括:縮寫(xiě)詞、慣用語(yǔ)被格式化以及字段值不符合規(guī)則或超出范圍等。具體來(lái)看,數(shù)據(jù)補(bǔ)全主要包括:第一是對(duì)不完整字段進(jìn)行補(bǔ)充,例如一些新聞出處的URL 地址不完整,需要對(duì)其補(bǔ)充才能夠得到必要參數(shù)。第二是對(duì)空值字段進(jìn)行補(bǔ)全,例如一些新聞XML 文檔中填寫(xiě)了新聞發(fā)生地點(diǎn)這一屬性,但部分又未填寫(xiě),而新聞發(fā)生地點(diǎn)這一屬性是數(shù)據(jù)清洗的關(guān)鍵字,此時(shí)就需要對(duì)空值進(jìn)行補(bǔ)全。第三是需要增加字段補(bǔ)全額外信息,例如一些新聞數(shù)據(jù)的來(lái)源類型、入庫(kù)時(shí)間、郵編等信息不夠完整,可以采用一些搜索樹(shù)形式的外部輔助文件加以補(bǔ)全。[10]
本研究利用樸素貝葉斯方法來(lái)補(bǔ)全缺失的數(shù)據(jù),該方法能大大降低計(jì)算復(fù)雜度且可以自動(dòng)劃分屬性,相關(guān)公式為:
如果X 缺少了某個(gè)屬性值,要對(duì)其進(jìn)行補(bǔ)充,則設(shè)j 是記錄中所有非缺失值的索引集合,則根據(jù)下式進(jìn)行計(jì)算:
2.3.2.4 相關(guān)工具管理
在數(shù)據(jù)清洗時(shí)還需對(duì)使用的清洗工具進(jìn)行管理,主要包括清洗任務(wù)管理、清洗算法管理、拓展算法管理、規(guī)則庫(kù)管理以及清洗日志管理。
清洗任務(wù)管理主要是記錄實(shí)體表以及表中的基本信息,包括表名、主鍵及相關(guān)描述等,一個(gè)清洗任務(wù)可能執(zhí)行了多個(gè)實(shí)體表的目標(biāo)。任務(wù)管理描述表如表3所示。
表3 數(shù)據(jù)清洗任務(wù)管理描述表
清洗算法管理主要是為了能夠提高其清洗的靈活性,將所使用的算法加入到算法庫(kù)中,然后在實(shí)際使用時(shí),選擇相應(yīng)的算法可以較為靈活配置,在實(shí)際清洗工作中利用計(jì)算機(jī)集群進(jìn)行工作,按照不同版塊實(shí)施清洗任務(wù)。算法管理結(jié)構(gòu)表入表4所示。
表4 數(shù)據(jù)清洗算法管理表
拓展算法管理則是在已有算法管理的基礎(chǔ)上,通過(guò)算法接口實(shí)現(xiàn)算法的可擴(kuò)展性。利用拓展算法管理,可以制定個(gè)性化的數(shù)據(jù)清洗算法,將其編譯好后,保存在該管理配置表中,使用時(shí)調(diào)用相關(guān)接口。具體拓展算法管理表如表5所示。
表5 拓展算法管理表
規(guī)則庫(kù)管理則主要是存儲(chǔ)數(shù)據(jù)清洗規(guī)則包含的一些運(yùn)行參數(shù)、清洗指標(biāo)等,主要需與實(shí)際業(yè)務(wù)相對(duì)應(yīng),具體規(guī)則庫(kù)管理表如表6所示。
表6 規(guī)則庫(kù)管理表
清洗日志管理主要是記錄在數(shù)據(jù)清洗過(guò)程中的相關(guān)信息,做到清洗任務(wù)可回溯,例如對(duì)清洗過(guò)的數(shù)據(jù)標(biāo)記為歷史數(shù)據(jù),不能清洗的數(shù)據(jù)標(biāo)記為異常數(shù)據(jù)。具體數(shù)據(jù)清洗日志管理表如表7所示。
表7 數(shù)據(jù)清洗日志管理表
2.3.2.5 數(shù)據(jù)清洗結(jié)果
本研究對(duì)2021年10月—12月入庫(kù)的1456.86 萬(wàn)條新聞數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,清洗結(jié)果及各輪耗時(shí)統(tǒng)計(jì)如表8所示。能夠看出,經(jīng)過(guò)數(shù)據(jù)清洗后,數(shù)據(jù)量由1456.86 萬(wàn)條降低至8233 條,清洗時(shí)間逐步降低,涉及報(bào)道的媒體來(lái)源也降低至19 家。通過(guò)數(shù)據(jù)清洗后,有效縮減了海量新聞數(shù)據(jù)采集的時(shí)間,大大提高了新聞采編人員的工作效率,為整個(gè)集團(tuán)工作流程高效運(yùn)轉(zhuǎn)奠定了基礎(chǔ)。
表8 數(shù)據(jù)清洗結(jié)果
本研究結(jié)合深圳新聞網(wǎng)實(shí)際采編工作,利用基于模糊綜合評(píng)判的數(shù)據(jù)清洗方法對(duì)1456.86 萬(wàn)條新聞數(shù)據(jù)進(jìn)行了操作,具體步驟包括了數(shù)據(jù)標(biāo)準(zhǔn)化處理、匹配消重處理、補(bǔ)全缺失數(shù)據(jù)以及對(duì)相關(guān)工具管理。通過(guò)本次數(shù)據(jù)清洗,有效摒棄了無(wú)效信息、消除了信息噪聲,合理篩選出了質(zhì)量較高、具有較高研究?jī)r(jià)值的新聞源,同時(shí)優(yōu)化了新聞數(shù)據(jù)清洗和采集流程,提高了采編人員的工作效率。