文/楊更修 孫甲飛 馮恩達 殷琳
新聞稿件的文字校對,是新聞生產(chǎn)發(fā)布過程中必不可少的重要環(huán)節(jié),是保障發(fā)稿安全、維護新聞嚴謹性的關鍵防線。各大媒體出版機構的稿件審核流程雖不盡相同,但在正式發(fā)布之前各家都有一個相同的環(huán)節(jié)——校對。
伴隨著不同時期媒體行業(yè)對文字校對的需求,校對系統(tǒng)先后經(jīng)歷了三代的發(fā)展:第一代系統(tǒng)主要基于計算機的存儲和基本運算,通過積累大量的錯詞庫,對稿件的文字內(nèi)容進行逐字、逐詞匹配,實現(xiàn)詞匯級的檢校;第二代系統(tǒng)采用智能技術來實現(xiàn)整句級別的文字檢查,能夠根據(jù)句子整體表達的語境,識別其中詞匯的不合理搭配問題;第三代檢校系統(tǒng)是一種類人系統(tǒng),在第二代系統(tǒng)的能力基礎之上,通過深度學習實現(xiàn)語義分析,對稿件內(nèi)容進行全面分析和理解。在把握全文的觀點、基調(diào)的基礎上,判斷文稿內(nèi)每句話、每個字詞是否合理,是否存在感情色彩矛盾或者邏輯不通順的地方。
隨著媒體融合進入深水區(qū),新聞的傳播渠道也越來越多元化,時效性要求也越來越高,市場對內(nèi)容生產(chǎn)的速度、廣度、深度、總量都提出了更高的要求,媒體機構內(nèi)容生產(chǎn)的質(zhì)量管控和發(fā)稿安全面臨新的挑戰(zhàn)。全媒體指揮中心項目利用當下語義分析和深度學習的最新發(fā)展成果,在內(nèi)容生產(chǎn)流程中探索引入人工智能檢校,并對檢校效果進行統(tǒng)計評估。
智能檢校的難點在于對情感和語義的分析,在全文的基調(diào)上,判斷每個詞、每句話是否合理。目前主流的文章情感分析包括基于情感詞典的分析和基于機器學習的分析。
大多數(shù)的文章情感分析主要是針對學習詞典的建模分析和機器學習算法進行研究,通過對情感詞典、否定詞詞典、程度副詞詞典、停用詞詞典分析,計算上下文情感傾向的方法。分析新聞主題和詞語修飾成分之間的搭配關系來計算詞語極性,綜合詞典資源用于構建情感詞庫,同時采用加權線性組合方法,以實現(xiàn)判斷文章的情感傾向。
基于機器學習的文章情感分析方法是將情感視作一種多分類問題,屬于有監(jiān)督的學習方法。機器學習方法要經(jīng)過文本的預處理、特征選擇、特征加權、訓練分類器并進行分類等過程。該方法的分類性能要優(yōu)于傳統(tǒng)的特征加權方法TF-IDF(term frequency-inverse document frequency)。
自然語言處理(Natural Language Processing)是信息時代最重要的技術之一,是人工智能的重要組成部分?;贜LP技術衍生出的應用已經(jīng)在各領域得到廣泛運用,包括拼寫檢查、機器翻譯、語音識別、聊天機器人等。
深度學習提供了一個靈活、通用、可學習的框架,它在語音識別和計算機視覺領域取得了突破性的進展。檢校工作主要是跟文字相關,NLP可以讓計算機實現(xiàn)對內(nèi)容的閱讀和理解,對錯誤處給出提示,實現(xiàn)檢校工作的自動化。
針對目前主流的檢校系統(tǒng),通過搜集大量錯誤錄入字詞的典型可以發(fā)現(xiàn),中文檢校系統(tǒng)最常見的錯誤包括字詞級錯誤、語法級錯誤和語義級錯誤。字詞級錯誤主要由錯字、別字、少字、多字、異位引起。通過對稿件的文字內(nèi)容進行逐字、逐詞匹配,將與錯詞庫中內(nèi)容相匹配的詞認定為字詞錯誤,提示給使用者。比如:“倡儀”(倡議)、“國?!保▏遥ⅰ翱偮瘛保偫恚?;語法級錯誤主要指詞語的錯誤搭配或者漏字等情況。通過大量學習正確語料,讓計算機系統(tǒng)自主分析歸納語言的習慣用法、模式等,使機器對句子形成一定的理解和判斷能力,從而實現(xiàn)在一個句子的維度上對字、詞進行分析判斷,識別其中的異常、不合理內(nèi)容,達到檢查校對的目的。
智能檢校系統(tǒng)在全媒體指揮中心的應用不僅實現(xiàn)了詞匯檢查、語句檢查,還能對情感做一定分析,對稿件內(nèi)容進行全面分析和理解。在全文觀點、基調(diào)的基礎上,判斷每句話、每個字詞是否合理,是否存在觀點矛盾或者邏輯不通順的地方。通過基于主題融合的深度學習,用中文文本預處理方法將非結構化或半結構化的信息轉換為計算機能理解的結構化信息,對內(nèi)容進行全面分析和理解,從而自動識別文本的情感類別,實現(xiàn)校驗的智能化。
文章的主題與文章情感通常存在一定的共性,深度學習模型可以通過融合向量提高文章情感分類模型的準確率。檢校系統(tǒng)引入雙向LSTM情感算法,實現(xiàn)詞語的上下文信息融合,既克服了傳統(tǒng)RNN的梯度消失問題,還解決了傳統(tǒng)LSTM只能較好地融合上文信息、缺少下文信息融合的問題。通過融合文本的主題特征,構建更精準的情感分類模型。
傳統(tǒng)的新聞稿檢校工作通常是稿件發(fā)布前的最后一個環(huán)節(jié),檢校的時間緊、任務重,檢出的錯誤需要退回修改然后再檢校。而在媒體深度融合大環(huán)境下,稿件數(shù)量井噴式增加,移動端的實時新聞經(jīng)常追求最快速度發(fā)稿,晚一秒鐘可能就失去了這條新聞最佳的傳播機會。在這樣的環(huán)境下,再把校對工作完全放在發(fā)布前的最后一個環(huán)節(jié)的做法,在實踐中已經(jīng)不能滿足現(xiàn)今媒體新聞稿件多形式、低時間寬容度、零錯誤容忍度的要求,更難以滿足未來建設“四全媒體”的長遠目標。智能檢校系統(tǒng)將主動檢校和自動檢校結合起來,采用SAAS布局模型,使智能檢校系統(tǒng)既可以嵌入稿件編輯系統(tǒng)又能作為獨立的輔助審核模塊使用。
智能檢校工作分布在內(nèi)容生產(chǎn)的各個關鍵環(huán)節(jié),編輯隨時都可以將當前編寫的稿件內(nèi)容發(fā)起人工智能檢校。這樣就將查錯、糾錯的時間分攤到稿件流轉的過程中,減輕最后檢校環(huán)節(jié)的壓力,將因時間過緊和數(shù)量過多引起的檢校差漏降至最低。
系統(tǒng)總體結構
在稿件采編環(huán)節(jié),檢校系統(tǒng)實時參與其中,編輯記者可以點選檢校,系統(tǒng)會對文字稿件進行詞語錯用、語義表述錯誤等提示并給出修改建議,為編輯寫稿把好第一關。同時,通過檢校智能助手與編輯進行互動,編輯點擊右側的每條提示,編輯框中的焦點會隨之定位,節(jié)省了編輯再去原文中找對應點的時間。與此同時,在編輯對所提示錯誤做出修改或忽略的決策時,智能檢校系統(tǒng)會對這一決策進行記錄與學習。
采編環(huán)節(jié)檢校
在稿件簽發(fā)環(huán)節(jié),如果編輯在提交新聞稿件時沒有將稿件中的問題完全修改完善,或者是修改后又引發(fā)了新的錯誤,編輯沒有注意直接提交至了稿庫。在該稿件簽發(fā)時,審核人員可以利用智能檢校系統(tǒng)會再一次對稿件進行重新檢校。通過在流程必經(jīng)節(jié)點上實施二次檢校,盡早將差錯的糾正工作往流程的前面節(jié)點安排。
簽發(fā)環(huán)節(jié)檢校
將智能檢校的環(huán)節(jié)前置并不意味著在稿件發(fā)布之前不再進行檢校,稿件進入簽發(fā)庫后還會進行全庫檢查。為了避免同一個智能檢校系統(tǒng)存在檢校結果上的趨同性定勢,全媒體指揮中心系統(tǒng)引入另一套檢校系統(tǒng)對“終稿庫”的稿件進行批量檢校,并給出錯誤風險提示。
批量交叉檢校錯誤風險提示列表
目前,單個基于語義分析與深度學習的智能檢校系統(tǒng)在現(xiàn)實應用中還會出現(xiàn)一些未能檢測出的錯誤,基于不同的語料庫的學習結果也會出現(xiàn)對詞匯、語義、情感等元素理解判斷上的差異。智能檢校系統(tǒng)除了將檢校工作在流程中分層前移以外,同時引入了兩套不同的智能檢校系統(tǒng),利用兩套系統(tǒng)對新聞稿件進行交叉檢校。第一套系統(tǒng)負責對單個稿件進行檢校,第二套系統(tǒng)負責將通過第一套系統(tǒng)檢校過的稿件再一次全文檢校,并通過統(tǒng)計列表將簽發(fā)庫中稿件的問題形成差錯警示表,并將此結果反饋給智能檢校系統(tǒng)的學習模塊,使系統(tǒng)不斷自我完善。如此一來,就可以充分利用各家所長,最大限度提升智能檢校對稿件質(zhì)量的把控效果。
結合智能檢校系統(tǒng)的應用,通過對內(nèi)容生產(chǎn)流程進行融合再造,將自然語義分析與深度學習的技術成果引入內(nèi)容生產(chǎn)全流程。經(jīng)過一段時間的運行,從采編人員的使用情況調(diào)研和每階段的稿件差錯統(tǒng)計報告來看,比傳統(tǒng)檢校更有優(yōu)勢,檢出了一些傳統(tǒng)檢校不能檢出的關鍵錯誤。
未來,智能檢校系統(tǒng)將進一步在基于私有數(shù)據(jù)學習和基于互聯(lián)網(wǎng)大數(shù)據(jù)學習兩個方面不斷完善,通過本地化學習進一步完善檢校規(guī)則,不斷增強其嚴謹性;通過互聯(lián)網(wǎng)大數(shù)據(jù)學習,跟進行業(yè)龍頭在稿件檢校標準方面的發(fā)展,同時及時了解互聯(lián)網(wǎng)新生表達方式,充分發(fā)揮出全流程檢校和交叉檢校的疊加作用,達到“1 + 1 > 2”的效果。