文/趙振江
公安報業(yè)大數(shù)據(jù),是把公安報歷史資源、各業(yè)務系統(tǒng)生產(chǎn)資源、互聯(lián)網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)有機地整合、存儲與管理在一起,為采編人員進行新聞素材獲取、編輯、服務運營等業(yè)務工作提供共享資源池[1]。利用具有清晰分類導航的資源中心抓取文字稿庫、圖片稿庫、新華社電稿、成品稿、微信、微博等各渠道資源,一鍵獲取公安報內(nèi)外部稿件資源,對各稿件的狀態(tài)進行監(jiān)控,提升公安報的數(shù)據(jù)分析與存儲能力。智能分析的功能是以成熟的大數(shù)據(jù)分析為基礎,利用人工智能技術(shù)進行深度學習,能夠處理分析多種來源、多種形態(tài)數(shù)據(jù),為策采編發(fā)、影響力評價、傳媒及法律知識服務等業(yè)務開展及公安報新媒體運營和內(nèi)容管理提供數(shù)據(jù)分析支撐,為公安機關(guān)提供互聯(lián)網(wǎng)數(shù)據(jù)匯總分析、采編數(shù)據(jù)以及工具支持,方便基層民警使用,提高公安新聞傳播力,提升一線民警的戰(zhàn)斗力。[2]
公安報業(yè)大數(shù)據(jù)包含大數(shù)據(jù)采集、大數(shù)據(jù)管理、大數(shù)據(jù)分析、大數(shù)據(jù)應用四個層面。
利用成熟的互聯(lián)網(wǎng)信息采集工具以及數(shù)據(jù)中心實現(xiàn)實時監(jiān)控和采集目標網(wǎng)站的內(nèi)容,并把最新的網(wǎng)頁及時采集到本地,進行內(nèi)容分析和過濾等操作。[3]采集工具的工作結(jié)果形成了新網(wǎng)頁的全息信息集合,每個網(wǎng)頁的詳細信息被完整記錄下來,包括網(wǎng)頁名稱、大小、日期、標題、文字內(nèi)容、圖片、表格等。
在實現(xiàn)全網(wǎng)數(shù)據(jù)自動化采集匯聚的同時,提供輕量型的指定內(nèi)容一鍵獲取工具。媒體人員在互聯(lián)網(wǎng)上瀏覽到可能與公安報相關(guān)或?qū)懜宸较蛳嚓P(guān)的內(nèi)容時,通過一鍵獲取工具,可以直接將內(nèi)容推送至融媒體大數(shù)據(jù)云支撐系統(tǒng),系統(tǒng)將自動完成頁面內(nèi)容的智能過濾、內(nèi)容的結(jié)構(gòu)化清洗等智能加工環(huán)節(jié)。
上述“人工+智能化”的資源獲取方式將全面而精確地鎖定互聯(lián)網(wǎng)數(shù)據(jù)源。
公安報內(nèi)部資源整合主要包括從各個系統(tǒng)數(shù)據(jù)源中抽取數(shù)據(jù)、加工數(shù)據(jù)、存儲數(shù)據(jù)。內(nèi)部資源包括歷史存量媒體資源、各渠道新生產(chǎn)資源以及第三方資源,主要包括文字、圖片、圖表、音頻、視頻、數(shù)字報刊、新媒體相關(guān)資源格式等,整合后的數(shù)據(jù)可以滿足公安報社進一步數(shù)據(jù)挖掘需要。整合后的數(shù)據(jù)支持本地文件、共享文件、FTP文件、HTTP文件等常見數(shù)據(jù)源,也可根據(jù)具體要求擴展新數(shù)據(jù)源。[4]通過對內(nèi)部數(shù)據(jù)源的整理和分析,便于進行內(nèi)部數(shù)據(jù)資源的鎖定與分析。
大數(shù)據(jù)管理系統(tǒng)的存儲與檢索支撐融媒體內(nèi)容生產(chǎn)、信息服務、運營服務平臺業(yè)務的存儲與檢索服務。[5]由于公安數(shù)據(jù)的特殊性,公安報大數(shù)據(jù)的管理,要具有高可靠的架構(gòu)設計,需采用完全分布式的、多副本機制的、對等的、不共享的大數(shù)據(jù)管理系統(tǒng),每新增加一個節(jié)點能同時增加系統(tǒng)的性能和存儲容量,靈活實現(xiàn)對公安報增量數(shù)據(jù)的存儲與管理。
公安報大數(shù)據(jù)智能分析是基于語義面向內(nèi)容的智能化技術(shù)與大數(shù)據(jù)分析系統(tǒng)的融合,實現(xiàn)公安報數(shù)據(jù)服務的全方位智能支撐體系服務。
大數(shù)據(jù)智能分析系統(tǒng)通過充分利用大數(shù)據(jù)、云計算等前沿技術(shù),結(jié)合自然語言處理技術(shù)與數(shù)據(jù)挖掘技術(shù),融合中文信息處理、人工智能、信息檢索的最新研究成果,以文本挖掘工具的自動分類、自動聚類等基本分析技術(shù)為基礎,構(gòu)建并融合管理大數(shù)據(jù)深度分析模型、警種專用數(shù)據(jù)分析模型,接收上層應用對工具、模型的調(diào)用,為各類應用提供技術(shù)支撐,大數(shù)據(jù)智能分析實現(xiàn)公安報社資源、互聯(lián)網(wǎng)資源價值的最大化。[6]形成基于公安行業(yè)的大數(shù)據(jù)中心,搜集、匯聚、整理、分析和運用公安領(lǐng)域的內(nèi)容大數(shù)據(jù)和用戶大數(shù)據(jù),提高新聞宣傳實效性和滿意度,促進媒體轉(zhuǎn)型融合和增強輿論引導能力,為尋找新的服務模式奠定堅實的數(shù)據(jù)基礎。
選題策劃需要抓住選題的時間深度、空間跨度、內(nèi)涵深度、和傳播廣度。[7]公安報基于大數(shù)據(jù)的云平臺進行數(shù)據(jù)采集、挖掘和分析,對全網(wǎng)新聞信息進行智能化處理,構(gòu)建新聞線索發(fā)現(xiàn)與分析、新聞熱點發(fā)現(xiàn)與分析以及事件深度分析功能,為內(nèi)部業(yè)務人員提供選題線索、選題方向指引。[8]
4.1.1 線索發(fā)現(xiàn)與分析
線索發(fā)現(xiàn)與分析利用線索探測聚類、相關(guān)性分析、重要性分析等算法實現(xiàn)全網(wǎng)實時線索聚焦、網(wǎng)民關(guān)注線索聚焦、微博爆料等功能,[9]覆蓋線索發(fā)現(xiàn)、線索聚合、線索監(jiān)控、線索分析、線索日歷等維度,幫助業(yè)務人員快速獲取全網(wǎng)新聞線索,為報道選題策劃提供支持。
4.1.2 素材發(fā)現(xiàn)與分析
素材發(fā)現(xiàn)與分析利用相關(guān)性分析等算法實現(xiàn)政策法規(guī)新聞、會議新聞、自然災害新聞、安全事故新聞等信息的聚類、分類展示與分析,也可自主訂閱素材。素材發(fā)現(xiàn)與分析利用相關(guān)信息發(fā)現(xiàn)關(guān)聯(lián),形成選題方向,同時為選題提供素材支持。
4.1.3 熱點發(fā)現(xiàn)與分析
熱點發(fā)現(xiàn)與分析利用熱詞挖掘、熱點新聞評價、熱點博客評價等技術(shù),進行全網(wǎng)熱點發(fā)現(xiàn)、地域熱點發(fā)現(xiàn)、微博熱點發(fā)現(xiàn)、頭版頭條聚類、排行榜單分析等,為選題策劃提供數(shù)據(jù)支持。
4.1.4 熱點事件深度分析
通過采用焦點還原、觀點分析、趨勢分析、情感分析等分析方法對熱點事件進行多維度分析,使圍繞該熱點事件的深層次信息表現(xiàn)的更為簡單直觀。
公安報利用融媒體大數(shù)據(jù)云支撐系統(tǒng),獲取原創(chuàng)稿件信息并進行全局統(tǒng)計分析。[10]通過構(gòu)建影響力分析模型和海量互聯(lián)網(wǎng)指標數(shù)據(jù),對全國媒體進行分級管理并獲得傳播力指數(shù),形成覆蓋“地域”“領(lǐng)域”“渠道”“作者”“部門”“欄目”“時間”等多維度的影響力分析,促進公安新聞整體傳播力、影響力、公信力的提升。
4.2.1 稿件傳播全局分析
以公安報全量稿件數(shù)據(jù)以及互聯(lián)網(wǎng)傳播數(shù)據(jù)為基礎,統(tǒng)計分析相關(guān)稿件的發(fā)稿量、轉(zhuǎn)載量和熱議指數(shù)并做全局分析,對于熱點稿件可以天為維度進行數(shù)量、變化趨勢的可視化追蹤。
4.2.2 稿件影響力
稿件影響力分析,具體包括影響力貢獻分析、媒體采用影響力分析、稿件影響力渠道覆蓋、稿件影響力地域分析、稿件影響力路徑分析等。對公安報影響力稿件庫內(nèi)指定時間范圍內(nèi)的稿件可按照影響力指數(shù)進行排序??筛鶕?jù)稿件標題、作者、發(fā)稿日期、部門、分類、影響力指數(shù)、各渠道影響力指數(shù)等多維度進行解讀。
知識體系的建設和管理是公安傳媒及法律知識服務的基礎,利用知識深度加工的技術(shù)和方法,形成人民公安報特有的知識服務平臺,包括法律知識庫、典型案例剖析等,實現(xiàn)對政策法規(guī)、安全防范等知識資源的深加工,為公安媒體信息傳播與應對提供重要的參考。
4.3.1 公安傳媒分析
根據(jù)公安傳媒的業(yè)務特點構(gòu)建公安傳媒資訊服務的多個維度的分類體系,以公安報融媒體的信息資源為基礎,以公安傳媒資訊的分類體系為依據(jù),對相關(guān)事件進行分析,尤其是國家發(fā)布政法相關(guān)的最新政策,提供對最新政策的解讀。
對于公安行業(yè)各子垂直領(lǐng)域的熱點事件可進行專題分析。專題分析是對人民公安報社涉警輿情實時監(jiān)測分析系統(tǒng)和公安警用大數(shù)據(jù)云支撐系統(tǒng)中大數(shù)據(jù)智能分析工具和分析模型的整合利用??筛鶕?jù)設定的條件自動匯聚與此專題相關(guān)的資源和信息,進行必要的統(tǒng)計分析和展現(xiàn)。例如,對“兒童拐賣”主題進行專題分析,可以形成如下形式的展現(xiàn):匯集近年來兒童拐賣相關(guān)的新聞報道、破獲的重大案件分析,以及不同渠道的輿論聚焦;兒童拐賣發(fā)生的地區(qū)形成可視化的地域分析;按時間維度對兒童拐賣案件數(shù)量形成趨勢分析;將與兒童拐賣有關(guān)的法律法規(guī)及相關(guān)條款進行關(guān)聯(lián)顯示,如《未成年人保護法》《收養(yǎng)法》等。
4.3.2 法律法規(guī)知識
以中國特色社會主義法律體系和國家政策法規(guī)的基本分類,為法律法規(guī)知識庫提供基礎依據(jù),并進行資源的梳理和展現(xiàn),完成政策法規(guī)知識庫的建設。法律法規(guī)知識庫以完善、科學的知識分類為引導,為內(nèi)外部用戶提供法律法規(guī)條款條目的逐級瀏覽、查詢服務。
知識庫在對具體法律條款、政策法規(guī)進行展現(xiàn)的同時,也可與相關(guān)資源形成可視化的知識關(guān)聯(lián),包括典型案例剖析、政策解讀、媒體報道等。
建立典型案例庫,從脈絡分析、綜合分析、輿論觀點分析等角度完整刻畫各個案例,圍繞案例提供豐富的知識資源信息,實現(xiàn)對案例縱向和橫向的全面了解。[11]
4.4.1 焦點脈絡分析
以時間為線索,以案例分析時間范圍和時間間隔為條件,同時,根據(jù)時間線上對案例發(fā)展具有重大影響的信息自動匯聚,結(jié)合一些重要時間節(jié)點及信息,形成針對案例案件發(fā)生發(fā)展趨勢的焦點脈絡分析。
4.4.2 案例綜合分析
可利用知識主題標引和關(guān)聯(lián)分析等文本分析技術(shù),結(jié)合知識服務平臺中現(xiàn)有的知識資源,實現(xiàn)對案例的深度分析。具體可從媒體報道、涉案分析、專家解讀和法律依據(jù)等方面進行分析。
4.4.3 輿論觀點分析
圍繞案例進行深度的輿論觀點分析,對比分析官方媒體與民間媒體、社內(nèi)媒體與社外媒體、境內(nèi)媒體與境外媒體關(guān)于該案例產(chǎn)生的子話題,分析國內(nèi)外重要人物、重要媒體、重要機構(gòu)關(guān)于該事件所發(fā)表的觀點評述。[12]
針對一些有爭議的案例提供輿論觀點的情感分析,對比分析各媒體及公眾對案例中某些子話題的正面或負面觀點。
4.4.4 同類案例推薦
利用關(guān)聯(lián)分析、聚類分析等文本挖掘分析技術(shù),在知識服務平臺的案例庫中查找與當前案例具有相似特點的案例進行關(guān)聯(lián)推薦。相似性的分析可以從領(lǐng)域分類、領(lǐng)域主題、發(fā)生時期、發(fā)生地區(qū)、人員、法律法規(guī)等多個角度進行關(guān)聯(lián)分析。
4.5.1 涉案人員分析模型
通過構(gòu)建涉案人員分析模型,圍繞案件嫌疑人及其相關(guān)人員,通過資源庫導入人員檔案信息,包括戶籍、單位、住址等信息,也可以導入外部收集的數(shù)據(jù),例如銀行記錄、話單等,在這些數(shù)據(jù)基礎上,形成涉案人員在時間、空間等維度的關(guān)聯(lián)關(guān)系分析,從而為案件的調(diào)查提供分析材料。
4.5.2 網(wǎng)上活動軌跡挖掘模型
構(gòu)建重點人員網(wǎng)上活動軌跡挖掘指標體系與模型,為監(jiān)測追蹤重點人員的網(wǎng)上活動軌跡提供基礎。以人物、事件為維度構(gòu)建層級清晰的分析指標體系,形成單維度、組合維度的模型構(gòu)建與可視化分析。
4.5.3 網(wǎng)絡炒手分析模型
構(gòu)建網(wǎng)絡炒手分析指標體系與模型,為網(wǎng)絡炒手的多維度分析提供基礎。其指標體系由多層級指標構(gòu)成,包括一級指標發(fā)布人基本信息、二級指標網(wǎng)絡關(guān)系特征,可包括網(wǎng)民、所屬媒體或組織、博客、微博、微博的好友、話題討論關(guān)系。在詞基礎上,構(gòu)建發(fā)布人特征分析、關(guān)聯(lián)分析、影響力分析等模型基礎,綜合形成網(wǎng)絡炒手分析模型。
4.5.4 情報預警模型
構(gòu)建情報預警指標體系與模型,快速發(fā)現(xiàn)互聯(lián)網(wǎng)情報信息。情報預警指標包括互聯(lián)網(wǎng)情報點擊量、回帖量的異常暴增、預設關(guān)鍵詞、重點網(wǎng)民內(nèi)容異常、重點網(wǎng)站內(nèi)容異常等,通過賦予不同指標權(quán)重,通過預設閾值出發(fā)預警信號。
4.5.5 專項模型
為建立警務人員和各平臺之間的聯(lián)系,根據(jù)地方公安機關(guān)的具體需求,對警務人員屬性信息、生活信息、工作信息的分析設立專項模型。
人民公安報社充分運用大數(shù)據(jù)的分析方法進行數(shù)據(jù)挖掘、智能信息處理、知識發(fā)現(xiàn)與管理等先進技術(shù),[13]針對已發(fā)布的公安法規(guī)、政策、規(guī)劃及落實情況、行業(yè)數(shù)據(jù)等信息,以及國家重大戰(zhàn)略規(guī)劃和產(chǎn)業(yè)調(diào)整,財稅、環(huán)保、國土、能源等相關(guān)行業(yè)政策等信息進行深度挖掘和分析,構(gòu)建服務于公安全鏈條的多維度的知識庫,增強對政策評估和理論研究的能力,提升行業(yè)治理能力,善于在多元意見中占據(jù)主動性,爭取引導輿論走向,進一步提升公安新媒體運營和管理的水平,方便基層民警準確及時地處理事件,提升一線民警的戰(zhàn)斗力和服務水平。