——關(guān)鍵詞檢測系統(tǒng)解析"/>
王菲達(dá)
(上海文化廣播影視集團有限公司技術(shù)運營中心,上海 200041)
在媒體積極變革融合的大背景下,新聞生產(chǎn)過程中對正確性、權(quán)威性提出了更高要求。因此,關(guān)鍵內(nèi)容的準(zhǔn)確性,成為了在新聞生產(chǎn)環(huán)節(jié)過程中至關(guān)重要的一環(huán)。
上海廣播電視臺作為一個飛速發(fā)展的全媒體機構(gòu)更需要追求內(nèi)容的準(zhǔn)確性。其內(nèi)容生產(chǎn)業(yè)務(wù)流程仍以嚴(yán)格的人工審核為主,輔以新時代智媒體作為生產(chǎn)工具,力求內(nèi)容生產(chǎn)的快速、高效、嚴(yán)謹(jǐn)。而關(guān)鍵詞檢測系統(tǒng)作為輔助工具,可以強化各環(huán)節(jié)文字準(zhǔn)確性的審查力度。
本文從目前正在使用的主流非編制播系統(tǒng)(索貝非編制播系統(tǒng))入手,開發(fā)關(guān)鍵詞檢測軟件,對電視播出相關(guān)的文稿內(nèi)容、字幕內(nèi)容進行自動審核校對,輔助節(jié)目三審流程,達(dá)到助力節(jié)目內(nèi)容得準(zhǔn)確、權(quán)威、安全的目的。
在功能方面,關(guān)鍵詞檢測系統(tǒng)的主要涉及以下三個方面:
檢測不能出錯的內(nèi)容,如重要領(lǐng)導(dǎo)人姓名、職位、重大會議名稱和政治專有名詞等。
檢測需要謹(jǐn)慎對待的詞句,如落馬官員姓名,某些特定稱謂(如“大陸” “內(nèi)地等”),禁用慎用詞匯。
檢測錯別字。
系統(tǒng)對用戶每一次的檢測行為,記錄相關(guān)數(shù)據(jù),并保留日志。
對日志數(shù)據(jù)進行匯總呈現(xiàn),形成系統(tǒng)能力及用戶行為分析報表。
系統(tǒng)需有彈性的詞庫管理功能,為生產(chǎn)平臺新建一套自有詞庫打下基礎(chǔ)。
對涉及用戶權(quán)限的模塊,對用戶行為進行管理。
功能點主要包括以下幾點:
(1) 文稿文字內(nèi)容檢測。包括文字內(nèi)容抓取、文稿文字內(nèi)容關(guān)鍵詞檢測,關(guān)鍵詞檢測結(jié)果通過顏色標(biāo)記的方式反饋出來,并給出修改建議。關(guān)鍵詞包括重要領(lǐng)導(dǎo)人姓名職位、重要會議、國家部委名稱、專有名詞禁用語慎用語、錯別字五大項。
(2) 日志功能。該檢測系統(tǒng)需要提供可追溯的日志功能,每日在每臺客戶端本地及服務(wù)端為每臺客戶端生成一個日志文件,記錄每次點擊校驗的時間、當(dāng)前登錄的用戶名、設(shè)備IP、每次校驗后的檢測結(jié)果及相應(yīng)時間,以及檢出項目。
(3) 報表功能。該系統(tǒng)可以按照時間或用戶在服務(wù)端生成整個系統(tǒng)的審計分析日志,不僅可總結(jié)每臺單機的使用情況,也可對所有用戶的使用習(xí)慣進行全局性分析。
(4) 詞庫更新功能。該系統(tǒng)需要能夠提供在線自動及離線手動更新詞庫的功能,并記錄和體現(xiàn)更新變化的內(nèi)容以便用戶核查。
(5) 詞庫自定義功能。該系統(tǒng)的關(guān)鍵詞庫主要涉及標(biāo)準(zhǔn)用語和禁用語,需對管理員開放詞庫入口,已供輸入用戶自定義的關(guān)鍵詞。可提供管理詞庫的工具,使用戶能夠按照自身的業(yè)務(wù)特點設(shè)置“白名單”和“黑名單”設(shè)置后,在檢測系統(tǒng)中立即生效。
(6) 深度學(xué)習(xí)功能。系統(tǒng)上線初期,使用的是廠商自有詞庫及其根據(jù)各自的原始海量語料編寫的模型,上線后,系統(tǒng)應(yīng)能夠使用定期提供的、脫敏后的、本地化的語料進行模型的離線訓(xùn)練,以通過人工智能手段達(dá)到模型本地化的效果,進一步提升系統(tǒng)檢測準(zhǔn)確率。
(7) 用戶管理功能。頻道用戶的賬號管理跟隨原稿件或制作業(yè)務(wù)系統(tǒng);對于總編室用戶,因涉及詞庫管理工作,系統(tǒng)需提供工具對該用戶賬戶、密碼進行管理;對于管理員用戶,因涉及詞庫優(yōu)先級選擇、報表生成等操作,也將提供工具對該用戶賬戶、密碼進行管理。
文字抓取軟件采用基于C++程序語言開發(fā)的C/S架構(gòu)軟件,在現(xiàn)有新聞業(yè)務(wù)管理系統(tǒng)(基于IE瀏覽器的B/S架構(gòu))的基礎(chǔ)上,開發(fā)一個兼容IE的外殼,在文稿編輯、文稿審核的工作站上安裝該軟件,輔助文稿編輯軟件完成關(guān)鍵詞的檢測。
文字抓取軟件主要包括基于第一財經(jīng)新聞業(yè)務(wù)管理系統(tǒng)的IE瀏覽器套殼軟件,主要負(fù)責(zé)獲取客戶端文稿編輯區(qū)域指定的文字內(nèi)容,并通過接口發(fā)送給后臺檢測系統(tǒng)。
1.文字檢測系統(tǒng)設(shè)計(雙檢測引擎)
(1) 從軟件設(shè)計上,A引擎只提供文字輸入輸出接口,及詞庫自定義入口,其余封裝為黑盒子,不對外部系統(tǒng)所見。
(2) B引擎核心通過積累的4000萬篇高質(zhì)量的文字語料,拆分成1000億詞語語料,采用基于統(tǒng)計算法和深度學(xué)習(xí)框架相融合的方式,實現(xiàn)高質(zhì)量的錯別字檢測功能,檢測算法的流程如下:第一步:利用條件隨機場(Conditional Random Field, CRF)算法對文字進行分詞;第二步:針對分詞后的詞語進行詞向量計算;第三步:使用Seq2Seq的深度學(xué)習(xí)框架計算句子的語言模型;第四步:融合語言模型進行詞語糾錯。
其中,條件隨機場CRF算法是一種機器學(xué)習(xí)技術(shù),最早用于自然語言處理(Natural Language Processing, NLP)技術(shù)領(lǐng)域。CRF算法在NLP技術(shù)領(lǐng)域中主要用于文本標(biāo)注,并有分詞、詞性標(biāo)注、命名實體識別等多種應(yīng)用場景。
詞向量計算,word2vec是2013年,Google開源的一款用于詞向量計算的工具。首先,它可以在百萬數(shù)量級的詞典和上億的數(shù)據(jù)集上進行高效地訓(xùn)練;其次,該工具得到的訓(xùn)練結(jié)果——詞向量(word embedding),可以很好地度量詞與詞之間的相似性。word2vec算法的背后是一個淺層神經(jīng)網(wǎng)絡(luò),主要包含用于計算word vector的CBoW模型和Skip-gram模型。
seq2seq(Sequence-to-sequence)模型,是深度學(xué)習(xí)的技術(shù)應(yīng)用、自然語言的生成和理解等方面的研究成果,是目前自然語言處理技術(shù)中非常重要而且非常流行的一個模型,該技術(shù)突破了傳統(tǒng)的固定大小輸入問題框架,開創(chuàng)了將經(jīng)典深度神經(jīng)網(wǎng)絡(luò)模型運用于翻譯與智能問答這一類序列型任務(wù)的先河,并且被證實在各主流語言之間的相互翻譯以及語音助手中人機短問快答的應(yīng)用中有著非常好的表現(xiàn)。
人工智能錯別字檢測系統(tǒng)基于Docker模式進行軟件分發(fā),可以做到和云平臺、微服務(wù)模式無縫集成,可有效地降低企業(yè)軟件TOC總成本。
2.服務(wù)器子系統(tǒng)設(shè)計(硬件子系統(tǒng))
服務(wù)器包括兩臺物理實體設(shè)備,采用分布式部署方式使得系統(tǒng)具有良好的可擴展性,服務(wù)器同時在線提供服務(wù),之間可以實現(xiàn)數(shù)據(jù)實時和準(zhǔn)實時同步,以“雙活互備”方式保證數(shù)據(jù)的完整性和業(yè)務(wù)的高可用性。兩臺物理服務(wù)器處于不同的業(yè)務(wù)網(wǎng)內(nèi),之間經(jīng)過兩套IPS隔離防護,滿足信息安全管控要求。
服務(wù)器部署架構(gòu)基于KVM虛擬化運行環(huán)境,根據(jù)業(yè)務(wù)需求,分別虛擬出windows server操作系統(tǒng)和Linux操作系統(tǒng),其中Windows操作系統(tǒng)主要部署“黑馬校對”相關(guān)服務(wù)、產(chǎn)品;Linux操作系統(tǒng)采用基于docker的容器封裝技術(shù)實現(xiàn)服務(wù)的統(tǒng)一部署和管理,部署JCJC相關(guān)服務(wù)、產(chǎn)品,及MySQL數(shù)據(jù)庫等。
第一財經(jīng)新聞業(yè)務(wù)管理系統(tǒng)獲取文稿編輯區(qū)域文字內(nèi)容會遇到以下幾個難點:
文稿系統(tǒng)設(shè)定了登錄驗證機制,通過文字爬取的方式進行文字抓取時,很難跳過該驗證機制。
文稿系統(tǒng)文稿編輯區(qū)域基于iFrame框架原理,準(zhǔn)確獲取用戶當(dāng)前編輯的文字內(nèi)容有難度。
通過反復(fù)測試和驗證,最終項目組決定采用基于extjs、jquery-ui的前端技術(shù)框架,不改變現(xiàn)有系統(tǒng)任何代碼實現(xiàn)頁面編輯區(qū)域文字內(nèi)容的抓取。
關(guān)鍵詞檢測系統(tǒng)不單純對錯誤字詞、錯誤名稱等進行判斷檢測,還可以結(jié)合詞庫進行句子的語義語法分析,對新聞宣傳中不適合的敏感詞、慎用詞進行辨別,同時具有深度學(xué)習(xí)的功能,不斷提高關(guān)鍵詞的檢測率。
由于各廠商對關(guān)鍵詞檢測擅長的模塊不同,關(guān)鍵詞檢測系統(tǒng)為了提供系統(tǒng)檢測率,設(shè)計將兩套檢測系統(tǒng)相結(jié)合的方式來完成關(guān)鍵詞的檢測,即客戶端同時將需要檢測的文字內(nèi)容發(fā)給A和B檢測系統(tǒng),將兩套檢測系統(tǒng)檢出的結(jié)果合并呈現(xiàn)出來。并根據(jù)系統(tǒng)的成長性,制定了合理的沖突解決規(guī)則,應(yīng)對不同檢測系統(tǒng)輸出結(jié)果沖突的情況,不斷復(fù)盤系統(tǒng)檢測準(zhǔn)確率,提升系統(tǒng)能力。
關(guān)鍵詞檢測系統(tǒng)包括兩臺服務(wù)器,采用基于“KVM+Docker”的系統(tǒng)架構(gòu),每臺服務(wù)器同時部署兩套的產(chǎn)品,兩臺服務(wù)器之間的數(shù)據(jù)實時或近實時同步。
采用“雙活互備”的架構(gòu)模式,主要實現(xiàn)方式是:兩臺服務(wù)器分別位于上視大廈和廣電大廈業(yè)務(wù)網(wǎng)機房并接入各自業(yè)務(wù)網(wǎng)交換機,第一財經(jīng)關(guān)鍵詞檢測業(yè)務(wù)優(yōu)先訪問位于廣電大廈機房的關(guān)鍵詞檢測服務(wù)器1,一旦該服務(wù)器訪問超時或故障則自動訪問位于上視大廈廣電的關(guān)鍵詞檢測服務(wù)器2。
該項目首次將自動化、智能化的校驗環(huán)節(jié)植入新聞業(yè)務(wù)生產(chǎn)流程中,并在保證該系統(tǒng)對用戶業(yè)務(wù)保障性初衷的前提下,促進其與現(xiàn)有成熟的業(yè)務(wù)流程的融合,并探索該系統(tǒng)提升用戶業(yè)務(wù)能力的有效機制,形成完整的產(chǎn)品形態(tài)。
經(jīng)過調(diào)研和分析,大部分文字檢測系統(tǒng)都是使用單一廠商檢測系統(tǒng)進行內(nèi)容的檢測。但各廠商對關(guān)鍵詞檢測擅長的模塊不同,為提升系統(tǒng)檢測率,設(shè)計將兩套檢測系統(tǒng)結(jié)合的方式來完成內(nèi)容的檢測,即客戶端同時將需要檢測的文字內(nèi)容發(fā)給兩套檢測系統(tǒng),檢出的結(jié)果合并呈現(xiàn),有效地提高了系統(tǒng)的整體檢測率。
系統(tǒng)設(shè)計之初,無論從軟件功能上,還是架構(gòu)設(shè)計上,都沒有局限于電視新聞業(yè)務(wù)。而是站在公共服務(wù)能力平臺布局的層面,充分考慮整個保障系統(tǒng)功能的可移植性,為成長為橫向服務(wù)各業(yè)務(wù)陣地的關(guān)鍵詞檢測系統(tǒng)做準(zhǔn)備,可打包成具有自主知識產(chǎn)權(quán)、具有行業(yè)垂直深度和行業(yè)專業(yè)化詞庫的關(guān)鍵詞檢測產(chǎn)品推向市場。
關(guān)鍵詞檢測系統(tǒng)的松耦合實現(xiàn)方式,詞庫自定義、后臺審核、人工智能深度學(xué)習(xí)等核心功能已逐漸成為融媒體大環(huán)境下的稿件編輯和內(nèi)容審核的基本需求,這對于保證媒體宣傳準(zhǔn)確性和權(quán)威性有著重要的意義。相信隨著智媒體技術(shù)的井噴發(fā)展,在不久即將到來的“4K+5G”時代中也能發(fā)揮其重要性作用。