邵德奇, 關培培, 石 聰
(科技日報社 技術研發(fā)部,北京 100038)
互聯網的快速發(fā)展,特別是新媒體的發(fā)展,給傳統(tǒng)媒體帶來了巨大的挑戰(zhàn)。一是公眾的需求發(fā)生了變化。面對互聯網繁雜的海量信息,需要快速獲取主題信息,同時需要全面了解與主題內容相關的信息,深度理解主題內容的內涵。二是媒體發(fā)展的需求發(fā)生了變化。近年來新媒體發(fā)展迅速,移動端、微信、微博、抖音號、頭條號、百家號等新媒體對內容呈現差異化的需求,新聞的傳播方式也不再是刻板、固定、一成不變的,而是越來越向連續(xù)、不間斷、實時更新的新型模式方向發(fā)展,媒體需求的這個變化對主題內容的快速反應要求更高。三是主題內容建設的需求發(fā)生了變化。現在對于突發(fā)的重大事件,需要快速形成主題專欄內容且需要對專欄內容進行全方位、實時、高效的維護更新,及時為受眾提供真實可靠的資訊,以便正確地引導輿論,避免謠言、錯誤信息傳播引發(fā)不必要的恐慌。
為了解決上述問題,我們利用智能化信息技術,實現主題內容快速聚合,解決主題內容的缺乏、主題專欄的快建和維護、聚合內容的版權等媒體發(fā)展的痛點。本文通過大數據、AI等技術實現資訊內容的智能主題聚合、精準分類和特征提取,使資訊內容智能化,通過智能算法實現精準主題內容制作與定制主題內容的推送,從而實現內容主題智能化聚合服務的目標。
為了實現主題內容的智能聚合,首先要建立相關領域的智能化資訊數據庫,通過分類、標注、自動聚類、深度學習等信息化技術,將資訊內容智能化,形成智能化資訊數據庫。在智能化資訊數據庫的基礎上,通過主題內容定制與內容加工,實現主題內容聚合服務。主題內容聚合平臺由基礎設施層、系統(tǒng)層、數據中心層和應用層組成。其中,基礎設施層由服務器、存儲、網絡、安全設備組成,系統(tǒng)層由操作系統(tǒng)、中間件、數據庫和虛擬化服務器組成,數據中心層由主題內容采集接入系統(tǒng)、主題內容智能處理系統(tǒng)、主題內容知識加工系統(tǒng)、主題內容數據管理系統(tǒng)4個系統(tǒng)組成,應用層由智能主題內容服務、主題內容加工、主題內容定制服務、主題內容推送組成(如圖1所示)。
圖1 主題內容聚合平臺系統(tǒng)架構Fig.1 System architecture of subject content aggregation platform
數據中心層在主題內容聚合平臺的構建中起著至關重要的作用。數據中心層的任務為完成數據的聚合、語義分析、知識加工、大數據管理等功能,為上層應用提供數據支持與算法能力。
1.1.1 主題內容采集接入系統(tǒng) 主題內容采集接入系統(tǒng)重點解決數據源的接入問題,針對多源異構數據的接入,將推送數據進行多源、多時態(tài)、多尺度的整合。主題內容采集接入系統(tǒng)主要包括以下功能模塊。
1)數據接入和采集功能模塊。數據接入是指將已構建的資訊數據接入進來。數據接入服務功能可提供數據傳輸服務,在統(tǒng)一數據標準及存儲邏輯的基礎上,通過多種數據接入渠道,支持數據文件、數據庫、表、字段及數據內容片段的接入。實現對新聞、報刊、社交媒體、移動客戶端、網站、公眾號等平臺的實時監(jiān)控和自動采集,滿足對海量互聯網信息資源的快速獲取需求。
2)數據清洗和校驗排重功能模塊。實現數據清洗功能,處理字段的殘缺、錯誤和重復等數據問題。實現在接入數據時對數據進行有效性檢驗、數據質量校驗和過濾排重標記等數據預處理工作,確保數據質量。
3)標準化數據轉換和校驗功能模塊。對清洗之后的數據進行標準化處理,實現將不同格式的數據按照統(tǒng)一數據格式規(guī)范轉換后接入系統(tǒng),包括實時數據和離線數據的標準化定義。
1.1.2 主題內容智能處理系統(tǒng) 主題內容智能處理系統(tǒng)通過大數據智能處理技術手段進行自動分詞、關鍵詞提取、信息分類、聚類等。重點解決數據的智能化問題,主要包括以下功能模塊。
1)自動分詞功能模塊。提供基于融合了詞典和CRF1、HMM2分詞模型的文本自動分詞功能,實現對文本的分詞操作,返回正確的處理結果。
2)關鍵詞提取功能模塊。提供文本的關鍵詞提取功能,利用文檔中詞語的統(tǒng)計信息、詞性和位置信息進行權重的綜合計算,將文本中語義最相關的若干核心詞語抽取出來。
3)知識圖譜功能模塊。提供實體識別、事件抽取等功能,可以從半結構化、結構化的文本中識別出與目標相關的實體與事件元素。
4)文本分類模塊。提供基于Word2vec3、BERT4算法的文本分類能力,可實現基于文本內容語義的自動抽取與分類功能。文本分類模塊協(xié)助構建了基于相關領域的內容分類體系,對于文本內容打標、主題內容的快速形成、用戶畫像與用戶個性化推薦提供了關鍵支撐。
應用于水產品加工、保鮮等過程中最重要,也最普遍的生物技術是酶工程技術。通過酶工程技術可以將原本低價值的水產品轉變成高附加值的產品,顯著提高了產品的經濟效益。然而,水產品工業(yè)中酶的選擇取決于其成本、來源、反應條件、穩(wěn)定性和對酶抑制劑或激活劑的敏感性等因素。大多數酶穩(wěn)定性差、對環(huán)境敏感,且來源受限,限制了其在水產品開發(fā)上的應用前景。未來通過基因工程等技術改善酶的性質和提高酶的產量將是酶開發(fā)的主要方向。相信隨著科技和社會的進步,生物技術在水產品開發(fā)中的應用將越來越廣泛。
5)稿件聚類模塊。提供基于新聞熱點、語義、新聞事件的文本聚類能力。通過熱點追蹤、事件識別、語義聚類等算法,自動挖掘熱點新聞、系列事件新聞等,可快速地實現對突發(fā)大事件的新聞主題生成與追蹤報道。
6)熱詞分析功能模塊。在文本預處理的基礎上,提供候選熱詞評估、面向熱點表征的熱詞甄選等算法,利用多機數據交互技術智能分析出可以表征文本內容的短語或短句。
1.1.3 大數據管理子系統(tǒng) 大數據管理子系統(tǒng)主要是解決數據的存儲管理、檢索服務與數據管理,主要包括以下功能模塊。
1)數據存儲功能模塊。數據存儲要求采用分布式存儲框架及分布式數據庫,提供大規(guī)模稀疏數據的存儲方案和技術方法,并實現大規(guī)模稀疏數據的有效存儲。
2)數據管理功能模塊。一是數據質量管理。系統(tǒng)應能夠對整個數據鏈路的數據質量進行管理,從數據的完整性、一致性、唯一性等多個層面輕松實現對數據的全面稽核和預警,提高數據使用質量,指導決策者的決定。二是元數據管理。實現數據服務平臺全局的數據預覽,血緣分析和影響性分析,不同組織的數據共享以及系統(tǒng)數據的健康監(jiān)控。用戶可通過元數據分析直觀了解到數據的來源、數據之間的關系、數據流向、數據被引用次數等重要信息,便于用戶直觀地把握數據資產狀況。三是統(tǒng)一數據生命周期管理。系統(tǒng)應提供數據的采集處理應用和分析服務的各個階段,提供統(tǒng)一處理流程和中間狀態(tài)的調度、管理和監(jiān)控,主要是對數據質量進行檢查和分析,定期形成報告,并管理質量規(guī)則,使數據創(chuàng)建、獲取、加工、使用、維護的全流程質量可控。四是資源調度與任務管理。數據服務平臺通過統(tǒng)一資源調度和任務管理,實現對所有計算和查詢等操作任務管理,實現對任務所需CPU、內存和網絡等資源調度,保障所有任務平穩(wěn)、快速地運行,狀態(tài)可監(jiān)控可管理。五是要求實現數據檢索功能。能夠對文本進行快速切詞,并采用多種索引技術和索引管理、校驗技術,完成對數據文本信息檢索。
3)上傳下載功能模塊。用戶可單個或批量上傳和下載稿件、圖片、視頻、主題內容、音頻、pdf、word、PPT等資訊。一方面滿足各種數據接入管理、主題定制、資源上傳、數據統(tǒng)計等功能的交互要求,另一方面對數據接入管理的內容、主題內容定制的結果、資源上傳的結果進行良好的展示。
1)知識標注和任務管理功能模塊。通過知識圖譜技術實現知識的自動抽取擴充,支持機器自動抽取與人機結合方式形成準確的知識庫構建,支持多人協(xié)同標注;支持對主題內容的屬性進行標注,例如資訊分類、關鍵詞、摘要等。提供知識條目級和屬性級的知識加工功能,實現標注的具體要求與標注內容,支持協(xié)同標注的任務分發(fā),對標注任務實現全流程監(jiān)控與管理。在知識標注的過程中,實現具備知識新鮮度的知識更新功能。
2)粗知識管理功能模塊。提供粗知識管理功能,系統(tǒng)支持已有粗知識的導入,以及導入粗知識的有效管理和協(xié)同標注任務發(fā)布;支持已有結構化知識的導入,對于用戶已有的結構化知識需要導入到知識庫,與現有知識庫進行融合。
3)知識庫管理功能模塊。對知識加工平臺實現系統(tǒng)的配置管理,包括知識庫標注字段配置、用戶管理、關系管理、分類管理、關鍵詞管理。對知識標注任務的結果實現導出,支持批量導出功能。
應用層是主題內容聚合平臺的應用,包括智能主題內容服務、主題內容定制服務、主題內容加工與主題內容推送。平臺通過聚合、眾籌、創(chuàng)作、融合等智能化內容生產方式,匯聚國內外相關主題資訊,利用大數據、AI等技術實現資訊的“智能化”加工,利用知識圖譜、NLP等技術實現資訊的“智慧化”服務。
1.2.1 智能主題內容服務 智能主題內容服務使用事件識別、熱點識別等算法實現熱門事件內容的自動發(fā)現與捕捉功能。通過自動聚類算法,匯聚主題內容,自動聚合、生產相近內容主題。通過深度學習分類模型,構建基于行業(yè)垂類的分類體系,智能計算稿件所屬類別,快速形成各領域專欄與相關主題。
1.2.2 智能內容定制服務 智能內容定制服務支持用戶錄入相關條件(關鍵詞、來源、媒體類型、分類標簽、屬性、發(fā)稿時間等),系統(tǒng)自動啟動數據匯聚工作,支持實時數據與歷史數據的匯聚,支持人工設定匯聚條件,包括是否去重、是否是可信源、匯聚條數、匯聚頻次等,提供主題內容定制服務。
1.2.3 主題內容加工 主題內容加工提供主題內容創(chuàng)建、修改、刪除、檢索等操作。可以錄入主題內容標簽、關鍵詞、起止時間、主題內容文字描述等主題屬性數據??删S護主題中的稿件,按日期、分類進行內容加工。支持主題頁面生成模板,主題制作成功后平臺可實時顯示主題內容列表與詳情。
1.2.4 主題內容推送 主題內容生產完后可推送至全媒體采編系統(tǒng)、網站發(fā)布系統(tǒng)、APP管理系統(tǒng)等其他平臺與系統(tǒng),可實現基于規(guī)定時間段的推送頻次。支持數據查詢接口與推送接口,協(xié)助媒體各環(huán)節(jié)展開主題內容定制工作。
青少年科普主題內容庫是主題內容智能化聚合平臺的應用之一,是為了滿足青少年對科普資訊的個性化要求,建立的涵蓋不同科技主題的科普知識庫。
圖2 青少年科普主題內容庫Fig.2 Youth popular science theme content database
如圖2所示,主題內容數據庫為青少年科普平臺提供了基礎的數據支撐。圍繞青少年科普內容需求,通過自動分類、自動聚類、事件識別、熱點識別等能力挖掘科普主題內容。在此基礎上,通過使用關鍵詞、分類、熱點、事件等組合條件匯聚形成涵蓋定制內容的青少年科普主題內容庫。再通過主題內容加工、推送等技術手段將主題內容推送到中國科普網相關欄目與頻道中,實現自動化主題內容定制服務。
本文得到拓爾思信息技術有限公司的支持,在此謹表感謝。