鞠傳森 張守先 李滿江
[1.大眾報(bào)業(yè)集團(tuán)(大眾日?qǐng)?bào)社),山東 濟(jì)南 250014; 2.半島都市報(bào)社,山東 青島 266071;3.濰坊北大青鳥華光照排有限公司,山東 濰坊 261061]
新聞報(bào)道作為及時(shí)和準(zhǔn)確地傳播信息的重要方式,對(duì)公眾有很大影響力,以前的人工新聞審核方法效率不高,難以滿足大量新聞稿高效準(zhǔn)確審核的需要。人工審核也很難消除審核人員的主觀傾向,使新聞報(bào)道保持高度的客觀性和準(zhǔn)確性。
隨著人工智能和深度學(xué)習(xí)技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)和自然語言處理的新聞審核方法蓬勃發(fā)展。目前已經(jīng)有了一些把人工智能應(yīng)用于實(shí)際生產(chǎn)的場(chǎng)景,騰訊廣泛應(yīng)用自然語言處理技術(shù),實(shí)現(xiàn)棋牌游戲新聞自動(dòng)審核,過濾不良信息,利用AI 技術(shù)輔助微信公眾號(hào)內(nèi)容審核;字節(jié)跳動(dòng)針對(duì)短視頻、直播內(nèi)容的AI 審核系統(tǒng);中國(guó)移動(dòng)研發(fā)新聞自動(dòng)審核系統(tǒng),判斷新聞是否違規(guī),輔助人工審核,這些產(chǎn)品將自然語言處理、深度學(xué)習(xí)等應(yīng)用于新聞審核,實(shí)現(xiàn)了審核效率的大幅提升。
與規(guī)則和統(tǒng)計(jì)方法相比,基于深度學(xué)習(xí)的模型在文本表示和語義理解方面有顯著優(yōu)勢(shì),可以更好地判斷新聞稿的屬性。特別是BERT、GPT-2 和ERNIE 等預(yù)訓(xùn)練語言模型,在長(zhǎng)文本生成和分類等任務(wù)上達(dá)到了接近人工的效果。這為基于深度學(xué)習(xí)的新聞審核方法提供了重要的借鑒和支持。
為實(shí)現(xiàn)新聞審核的高效化、準(zhǔn)確化和客觀化,這個(gè)項(xiàng)目提出一種基于ERNIE 等預(yù)訓(xùn)練語言模型的智能新聞審核方案。通過大量高質(zhì)量新聞數(shù)據(jù)集進(jìn)行訓(xùn)練,構(gòu)建具有比較強(qiáng)判斷能力的審核模型。這個(gè)模型可以準(zhǔn)確判斷新聞稿的主觀性、真實(shí)性和準(zhǔn)確性等屬性,實(shí)現(xiàn)新聞審核過程的自動(dòng)化。這個(gè)方案有較高的審核質(zhì)量和效率,適合應(yīng)用于真實(shí)場(chǎng)景。
這個(gè)項(xiàng)目提出使用AI 技術(shù)實(shí)現(xiàn)智能新聞審核,通過訓(xùn)練獲得判斷新聞屬性的能力。相比人工審核,這個(gè)方法可以更高效和準(zhǔn)確地判斷新聞稿,實(shí)現(xiàn)新聞審核的自動(dòng)化,更符合實(shí)際應(yīng)用的需要。這有助于提高新聞報(bào)道的客觀性和準(zhǔn)確性。
新聞審核旨在判斷新聞稿是否符合發(fā)布標(biāo)準(zhǔn),其研究歷史悠久,早期工作主要基于規(guī)則和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法。如關(guān)鍵詞匹配和主題分類相結(jié)合的規(guī)則方法等。這些方法依賴規(guī)則和特征方程,效果較差。
隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,基于深度學(xué)習(xí)的新聞審核方法快速興起。采用CNN 判斷新聞主觀性,能夠達(dá)到83%的準(zhǔn)確率。應(yīng)用LSTM 判斷新聞屬性,取得較佳效果。這些方法證明,深度學(xué)習(xí)模型可以有效刻畫新聞文本的語義特征,判斷其屬性。
近年來,BERT、GPT-2 和ERNIE 等預(yù)訓(xùn)練語言模型的提出,使模型具備較強(qiáng)的語義表示能力和生成能力。BERT 可用于文本分類和語言判斷,GPT-2 可生成連貫自然的長(zhǎng)文本。隨著預(yù)訓(xùn)練語言模型的發(fā)展,百度提出了面向中文理解的ERNIE(Enhanced Representation through Knowledge Integration)。ERNIE有較強(qiáng)的多樣性與更長(zhǎng)的生成長(zhǎng)度,這有利于新聞審核。基于ERNIE 的文本分類技術(shù)也已廣泛應(yīng)用于新聞審核任務(wù),表現(xiàn)優(yōu)異。利用ERNIE Fine-tune 對(duì)新聞標(biāo)題進(jìn)行情感判斷,實(shí)現(xiàn)正負(fù)面分類,輔助新聞價(jià)值方向的審核。結(jié)果顯示,ERNIE 在該任務(wù)上的準(zhǔn)確率達(dá)92%,優(yōu)于BERT,另外,使用ERNIE 構(gòu)建假新聞檢測(cè)模型ERNIE-DS,實(shí)現(xiàn)自動(dòng)新聞?wù)鎸?shí)性檢測(cè),在多個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果表明,ERNIE-DS 的ROC 曲線優(yōu)于基于LSTM 和BERT 的模型,更適合假新聞的識(shí)別。ERNIE 通過整合詞匯語義和實(shí)體關(guān)系知識(shí),文本表示能力更強(qiáng)。在新聞分類、事實(shí)檢測(cè)等文本分析任務(wù)上,ERNIE 精調(diào)后效果顯著,為構(gòu)建自動(dòng)智能新聞審核系統(tǒng)奠定了基礎(chǔ)。本項(xiàng)目在相關(guān)工作的基礎(chǔ)上,提出一種基于ERNIE 的新聞智能審核方案,通過新聞數(shù)據(jù)集的訓(xùn)練實(shí)現(xiàn)新聞審核的自動(dòng)化。
本項(xiàng)目提出一種基于ERNIE 等預(yù)訓(xùn)練語言模型的新聞智能審核方案。該方案主要由數(shù)據(jù)預(yù)處理、模型訓(xùn)練和新聞審核三部分組成。
數(shù)據(jù)預(yù)處理是模型訓(xùn)練的基礎(chǔ)。需要構(gòu)建高質(zhì)量、標(biāo)準(zhǔn)化的數(shù)據(jù)集供模型學(xué)習(xí),涉及數(shù)據(jù)采集、清洗、標(biāo)注等步驟。數(shù)據(jù)預(yù)處理階段,我們使用包含近3 年幾萬條新聞的大規(guī)模數(shù)據(jù)集。刪除了空文檔,過濾了近似重復(fù)的文章,去除了文檔中的非文本元素,如代碼、圖片等,用校對(duì)軟件糾正一定文字錯(cuò)誤,按照標(biāo)注規(guī)范,手工標(biāo)注了新聞文章的屬性,如類別、情感傾向、真實(shí)性等,或先用程序自動(dòng)標(biāo)注,再人工檢查修正。檢查不同分類、情感屬性的樣本,確保數(shù)據(jù)集覆蓋廣泛,避免樣本分布偏差。對(duì)可能涉及隱私的文本內(nèi)容做脫敏處理。選擇了其中上萬篇高質(zhì)量新聞,并人工標(biāo)注了其主觀性、真實(shí)性、準(zhǔn)確性等屬性。其中部分作為訓(xùn)練集,部分作為驗(yàn)證集,部分作為測(cè)試集。
模型訓(xùn)練是核心環(huán)節(jié)。針對(duì)特定業(yè)務(wù),需要進(jìn)行模型選擇、優(yōu)化、調(diào)試等,最終得到滿足業(yè)務(wù)要求的審核模型。在模型訓(xùn)練階段,我們采用ERNIE-TINY模型,其參數(shù)量較小但生成能力較強(qiáng)。模型輸入為新聞標(biāo)題和內(nèi)容,輸出為新聞屬性判斷,采用二分類交叉熵?fù)p失進(jìn)行訓(xùn)練。
新聞審核是產(chǎn)品交付的環(huán)節(jié)。將訓(xùn)練好的模型集成到新聞編務(wù)流程,進(jìn)行實(shí)時(shí)預(yù)測(cè)和結(jié)果輸出。在新聞審核階段,我們輸入待審核新聞稿的標(biāo)題和內(nèi)容,ERNIE 審核模型自動(dòng)判斷其主觀性、真實(shí)性和準(zhǔn)確性屬性。判斷結(jié)果為“通過”或“不通過”,從而實(shí)現(xiàn)新聞審核的自動(dòng)化。整個(gè)審核過程無需人工干預(yù),大幅提高審核效率。
本方案具有以下三點(diǎn)優(yōu)勢(shì):
(1)利用高質(zhì)量新聞數(shù)據(jù)訓(xùn)練,審核判斷準(zhǔn)確性較高;
(2)基于強(qiáng)大的ERNIE 模型,審核效率顯著提高,實(shí)現(xiàn)自動(dòng)化審核;
(3)支持判斷多種新聞屬性,更全面地實(shí)現(xiàn)新聞審核。
為驗(yàn)證新聞智能審核方案的效果,我們進(jìn)行了一些實(shí)驗(yàn)。具體實(shí)驗(yàn)如下:
數(shù)據(jù)集:使用的數(shù)萬篇高質(zhì)量新聞數(shù)據(jù)集,其中部分作為訓(xùn)練集,部分作為驗(yàn)證集,部分作為測(cè)試集。訓(xùn)練集用于模型的參數(shù)訓(xùn)練,占數(shù)據(jù)集的最大比例(70%左右),通過訓(xùn)練使模型適應(yīng)任務(wù),驗(yàn)證集用于調(diào)優(yōu)超參數(shù),占數(shù)據(jù)集的較小比例(15%左右),訓(xùn)練時(shí)不使用驗(yàn)證集,但會(huì)定期在驗(yàn)證集上評(píng)估模型,指導(dǎo)超參數(shù)選擇,測(cè)試集用于最終測(cè)試模型性能,占數(shù)據(jù)集更小比例(例如15%)。只在訓(xùn)練結(jié)束后使用一次,給出模型在真實(shí)數(shù)據(jù)上的指標(biāo)。要確保三者樣本同分布、相互獨(dú)立,以免過擬合。隨機(jī)采樣劃分同時(shí)考慮不同類別樣本的平衡。
評(píng)價(jià)指標(biāo):采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 分值評(píng)價(jià)模型的審核效果。準(zhǔn)確率(Accuracy)預(yù)測(cè)正確的樣本數(shù)占全部預(yù)測(cè)樣本數(shù)的比例。反映模型判斷正確的概率,精確率(Precision)預(yù)測(cè)正確的正類樣本數(shù)占全部預(yù)測(cè)為正類的樣本數(shù)的比例,反映正類預(yù)測(cè)的可信度,召回率(Recall)預(yù)測(cè)正確的正類樣本數(shù)占全部正類樣本數(shù)的比例。反映模型找出正類樣本的能力。F1 分值綜合考慮精確率和召回率,計(jì)算公式為 F1 = 2PR/(P+R)。P 代表精確率,R 代表召回率。準(zhǔn)確率直觀地反映整體判斷的正確率,召回率反映對(duì)正例的識(shí)別能力,F(xiàn)1 分值兼顧兩者,是對(duì)預(yù)測(cè)性能更全面的評(píng)估,例如當(dāng)準(zhǔn)確率很高時(shí),可能預(yù)測(cè)為負(fù)的樣本過多,則召回率較低。綜合使用準(zhǔn)確率、召回率和F1 評(píng)價(jià),可以比較全面地評(píng)估模型在新聞審核任務(wù)上的表現(xiàn)。
實(shí)驗(yàn)?zāi)康模候?yàn)證模型實(shí)現(xiàn)新聞審核自動(dòng)化的有效性;判斷模型的審核效果是否達(dá)到較高水平。
實(shí)驗(yàn)結(jié)果顯示,本方案的審核效果明顯優(yōu)于規(guī)則匹配和統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,這證明ERNIE 模型在新聞屬性判斷方面具有顯著優(yōu)勢(shì)。
綜上,實(shí)驗(yàn)結(jié)果驗(yàn)證了新聞智能審核方案可實(shí)現(xiàn)新聞審核的高效準(zhǔn)確,達(dá)到較高水平。但個(gè)別屬性判斷仍需提高,需要更大規(guī)模的數(shù)據(jù)和模型優(yōu)化來改進(jìn)。這為模型進(jìn)一步改進(jìn)指明了方向。
實(shí)驗(yàn)結(jié)果表明,本項(xiàng)目提出的基于ERNIE 的新聞智能審核方案可有效實(shí)現(xiàn)新聞審核的自動(dòng)化,審核效果達(dá)到較高水平,較好地彌補(bǔ)了人工審核的不足。該方案具有以下優(yōu)勢(shì):
(1)利用大規(guī)模高質(zhì)量新聞數(shù)據(jù)訓(xùn)練,審核判斷的準(zhǔn)確性較高;
(2)基于ERNIE 等強(qiáng)大語言模型,審核效率顯著提高,實(shí)現(xiàn)自動(dòng)化;
(3)支持判斷多種新聞屬性,更全面地實(shí)現(xiàn)新聞審核;
(4)相比LSTM 等模型,審核效果提高較大,更適合實(shí)際應(yīng)用。
該方案不足之處在于:
(1)某些新聞屬性的判斷精度仍較人工審核差,特別是對(duì)新聞內(nèi)容的理解;
(2)仍需人工干預(yù)新聞審核的結(jié)果,難以完全取代人工審核;
(3)需要更大規(guī)模的數(shù)據(jù)集和計(jì)算資源來進(jìn)一步提高審核質(zhì)量。
預(yù)訓(xùn)練階段需要大規(guī)模集群進(jìn)行模型參數(shù)預(yù)訓(xùn)練,此時(shí)GPU 數(shù)量直接影響訓(xùn)練速度。理想情況下需要數(shù)百甚至數(shù)千個(gè)高端GPU 進(jìn)行并行化訓(xùn)練,才能在合理時(shí)間內(nèi)完成。微調(diào)階段同樣需要相當(dāng)規(guī)模的GPU 集群,才能在大數(shù)據(jù)集上快速迭代優(yōu)化模型。此時(shí)GPU 的并行計(jì)算能力也至關(guān)重要。存儲(chǔ)上需要高速存儲(chǔ)系統(tǒng)來存放大規(guī)模預(yù)訓(xùn)練模型和新聞數(shù)據(jù)集,尤其是I/O 性能直接決定數(shù)據(jù)載入速度。模型服務(wù)階段也需要高性能服務(wù)器進(jìn)行實(shí)時(shí)推理,確保服務(wù)響應(yīng)速度。要實(shí)現(xiàn)新聞審核的產(chǎn)業(yè)化落地,建立具備千萬級(jí)樣本處理能力和高并發(fā)服務(wù)能力的AI 計(jì)算平臺(tái)是必要的,可以大幅提升模型效果和質(zhì)量。此方面投入也是實(shí)現(xiàn)真正自動(dòng)化審核的重要基礎(chǔ)。
綜上,本項(xiàng)目為新聞審核自動(dòng)化和智能化作出積極探索,旨在減輕人工記者的工作壓力,提高新聞生產(chǎn)效率。但人工審核仍是實(shí)現(xiàn)高質(zhì)量新聞審核不可或缺的一環(huán),未來研究的重點(diǎn)將是:
(1)采集和標(biāo)注更大規(guī)模高質(zhì)量的新聞數(shù)據(jù)。構(gòu)建高質(zhì)量的大規(guī)模新聞數(shù)據(jù)集,是推動(dòng)新聞智能審核技術(shù)進(jìn)步的基礎(chǔ)??梢耘c新聞媒體合作,直接獲取第一手新聞稿件作為數(shù)據(jù)集來源,確保質(zhì)量,嚴(yán)格質(zhì)量審查,過濾低質(zhì)量樣本,控制數(shù)據(jù)集質(zhì)量,聘請(qǐng)專業(yè)編輯進(jìn)行人工標(biāo)注,標(biāo)注新聞主題分類、真實(shí)性、情感傾向等多維屬性,對(duì)不同類型新聞的標(biāo)注,如體育、娛樂、金融等垂直領(lǐng)域,確保標(biāo)注覆蓋廣泛,先通過預(yù)訓(xùn)練語言模型進(jìn)行初步自動(dòng)標(biāo)注,再由人工進(jìn)行檢查修正,提高效率。數(shù)據(jù)集要具有一定規(guī)模,理想目標(biāo)是達(dá)到百萬級(jí)甚至千萬級(jí)樣本量,并會(huì)持續(xù)擴(kuò)充。構(gòu)建這樣海量、多域、豐富標(biāo)注的新聞數(shù)據(jù)集,將大幅提升新聞審核模型的訓(xùn)練效果,是智能新聞審核的基石。
(2)增強(qiáng)模型理解新聞?wù)Z義和判斷屬性的能力。當(dāng)前在新聞自動(dòng)審核方面,自然語言處理模型對(duì)文本語義理解和屬性判斷的能力仍然有限,這束縛了審核效果。因此,進(jìn)一步增強(qiáng)模型對(duì)復(fù)雜語義的理解能力,是推進(jìn)新聞智能審核的關(guān)鍵所在。因此要構(gòu)建含豐富語義標(biāo)注的大規(guī)模新聞?wù)Z料庫(kù),提供高質(zhì)量訓(xùn)練數(shù)據(jù),組合不同預(yù)訓(xùn)練語言模型的優(yōu)勢(shì),提升語義表示的穩(wěn)定性,引入外部知識(shí)圖譜,補(bǔ)充實(shí)體關(guān)系知識(shí),增強(qiáng)對(duì)語境的理解,開發(fā)能捕捉文檔級(jí)語義關(guān)系的閱讀理解模型,而不僅是文本分類,加入注釋機(jī)制,支持模型對(duì)自身判斷提出解釋,便于錯(cuò)誤分析與提高,通過這些方式的深入研究,建立對(duì)新聞?wù)Z義和屬性更加穩(wěn)健判斷的智能審核模型,將是推動(dòng)新聞審核自動(dòng)化的重要一環(huán)。
(3)人工審核與機(jī)器審核的有機(jī)結(jié)合,實(shí)現(xiàn)智能化與自動(dòng)化相結(jié)合的高效新聞審核機(jī)制。實(shí)現(xiàn)真正高效且準(zhǔn)確的新聞審核,還需人工智能與人類智慧的協(xié)同共治。將人工審核與機(jī)器審核優(yōu)勢(shì)互補(bǔ),形成有機(jī)配合機(jī)制,是實(shí)現(xiàn)智能化與自動(dòng)化并重的重要途徑。具體來說,可以構(gòu)建一套人機(jī)協(xié)同的新聞審核系統(tǒng)。首先,利用自然語言處理技術(shù)自動(dòng)過濾掉一部分明顯不合規(guī)范的新聞內(nèi)容;其次,人工編輯重點(diǎn)審查機(jī)器篩選出的可疑樣本,檢查誤判情況,同時(shí)標(biāo)注樣本供機(jī)器學(xué)習(xí);最后,利用編輯反饋不斷優(yōu)化機(jī)器審核模型,逐步減少誤判。在該系統(tǒng)中,人工審核發(fā)揮經(jīng)驗(yàn)判斷與語義理解的優(yōu)勢(shì),機(jī)器審核發(fā)揮高效篩選與自動(dòng)學(xué)習(xí)的優(yōu)勢(shì)。兩者相互制約、相互促進(jìn)、共同演化,最終構(gòu)建一個(gè)高質(zhì)量的新聞審核機(jī)制。未來,隨著機(jī)器審核能力的不斷增強(qiáng),人工審核可以逐步減少投入,轉(zhuǎn)為監(jiān)督模型訓(xùn)練和決策核查,人機(jī)協(xié)作模式將不斷優(yōu)化。實(shí)現(xiàn)人機(jī)互補(bǔ)的智能審核系統(tǒng),仍是新聞審核進(jìn)一步智能化和自動(dòng)化的重要路徑。
本項(xiàng)目提出一種基于ERNIE 的新聞智能審核方案。通過大規(guī)模高質(zhì)量新聞數(shù)據(jù)集的訓(xùn)練,構(gòu)建了一種能夠自動(dòng)判斷新聞屬性的審核模型。實(shí)驗(yàn)結(jié)果表明,該方案實(shí)現(xiàn)了新聞審核的自動(dòng)化與高效準(zhǔn)確,達(dá)到較高的審核質(zhì)量,較好地彌補(bǔ)了人工審核的不足。
該方案仍需進(jìn)一步提高模型對(duì)新聞?wù)Z義理解和屬性判斷的能力,需要更大規(guī)模的數(shù)據(jù)與計(jì)算資源來優(yōu)化模型,提高泛化性。人工審核也是實(shí)現(xiàn)高質(zhì)量新聞審核不可或缺的一環(huán),人工參與技術(shù)支持的結(jié)合是未來新聞審核發(fā)展的重要方向。由于當(dāng)前AI 模型對(duì)新聞?wù)Z義理解還存在局限,可能會(huì)出現(xiàn)一定的誤判情況,導(dǎo)致純機(jī)器審核的準(zhǔn)確率難以達(dá)到人工編輯的水平。因此靠全自動(dòng)模式完成審核仍有困難,并且不同新聞單位的審核規(guī)則和偏好存在差異,如果直接應(yīng)用統(tǒng)一的AI 模型,則不太能適應(yīng)這些差異化需求,需要人工制定不同的審核方案, 即使訓(xùn)練非常優(yōu)秀的審核模型,實(shí)際應(yīng)用中仍需人工檢查模型的判斷并核實(shí)誤報(bào)情況,要不斷完善模型,人在其中起監(jiān)督作用。重大公共事件發(fā)生時(shí),新聞報(bào)道具有很強(qiáng)的時(shí)效性和社會(huì)影響力,這時(shí)可能需要更多人工謹(jǐn)慎判斷以確保審核結(jié)果的準(zhǔn)確性。從業(yè)務(wù)角度而言,純機(jī)器審核在公眾接受度上可能還有疑慮,設(shè)置一定人工干預(yù)可以增加結(jié)果公信力。
盡管智能審核技術(shù)取得了長(zhǎng)足進(jìn)展,但要實(shí)現(xiàn)新聞自動(dòng)審核的廣泛應(yīng)用,還面臨一定挑戰(zhàn)。首先是數(shù)據(jù)集規(guī)模不足的問題。高質(zhì)量的標(biāo)注新聞數(shù)據(jù)極為寶貴,目前公開的數(shù)據(jù)集規(guī)模有限,大約在十萬級(jí),這會(huì)制約深度學(xué)習(xí)模型的效果。擴(kuò)充質(zhì)量可控的數(shù)據(jù)是關(guān)鍵所在。其次是對(duì)新聞?wù)Z義理解的能力不足。新聞涉及的主題廣泛,語言表達(dá)復(fù)雜多樣。當(dāng)前AI 模型對(duì)語義的表示與推理還達(dá)不到人類的水平。最后,不同客戶的審核需求各異,如何快速定制模型以適應(yīng)不同場(chǎng)景也是一個(gè)難點(diǎn)。這需要在泛化能力與特定領(lǐng)域適配之間求取平衡。數(shù)據(jù)短板與對(duì)復(fù)雜語義的理解是阻礙新聞智能審核廣泛應(yīng)用的兩大挑戰(zhàn)。業(yè)界仍需持續(xù)努力,才能實(shí)現(xiàn)真正意義上的自動(dòng)化新聞審核。
本項(xiàng)目為新聞審核自動(dòng)化與智能化的研究與應(yīng)用作出有益探索?;趦?yōu)化的數(shù)據(jù)與模型,新聞智能審核技術(shù)將達(dá)到更高水平,進(jìn)一步改革傳統(tǒng)新聞審核模式,實(shí)現(xiàn)新聞生產(chǎn)的高效化與準(zhǔn)確化。這將為構(gòu)建信息時(shí)代的高質(zhì)量新聞報(bào)道機(jī)制提供重要支撐。