国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器寫作在氣象融媒體服務(wù)中的應(yīng)用研究

2022-01-07 12:52胡小羽
電視技術(shù) 2021年11期
關(guān)鍵詞:氣象機器天氣

胡小羽,孫 通,胡 康,王 磊

(1.江西省氣象服務(wù)中心,江西 南昌 330000;2.深圳市國家氣候觀象臺,廣東 深圳 518040)

0 引言

隨著技術(shù)的發(fā)展,新型媒體平臺不斷增多,大眾獲取氣象信息的渠道趨于多樣化,傳統(tǒng)公眾氣象服務(wù)方式難以滿足日漸增長的公眾服務(wù)廣度和深度要求,融媒體氣象服務(wù)成為當前主流的發(fā)展方向。面對多平臺、多需求、多數(shù)量的新要求,融媒體氣象服務(wù)產(chǎn)品在產(chǎn)出速度和數(shù)量上都面臨新的挑戰(zhàn),依靠人力很難快速形成產(chǎn)品的海量輸出。機器寫作的引入可以實現(xiàn)氣象數(shù)據(jù)自動生成圖文和音視頻產(chǎn)品,有利于彌補氣象融媒體服務(wù)人力產(chǎn)能不足的短板。

1 機器寫作技術(shù)的應(yīng)用現(xiàn)狀

機器寫作指的是運用算法收集、處理數(shù)據(jù)并自動生成稿件的計算機程序。理想情況下,寫作機器人可以脫離人力干涉,自動且快速地生成各種題材的文字稿件,包括并不限于新聞資訊、服務(wù)說明、詩歌文學、文字腳本等內(nèi)容,且能夠不斷學習、自我迭代,從而達成輔助或代替人類寫作的目的[1]。

目前,機器寫作技術(shù)已經(jīng)從理論逐步走向?qū)嵺`,在國內(nèi)外多個領(lǐng)域,尤其是傳媒領(lǐng)域獲得了較為廣泛的應(yīng)用。國外已經(jīng)使用機器寫作的媒體有紐約時報(blossom)、美聯(lián)社(WordSmith)、華盛頓郵報(Heliograf)等,國內(nèi)有新華社(快筆小新)、騰訊(dreamwriter)、今日頭條(張小明)、南方都市報(小南)等,寫作內(nèi)容以財經(jīng)、體育、科技新聞以及每日熱點資訊為主。

隨著機器深度學習領(lǐng)域的拓寬,部分新聞寫作機器人涉及了部分天氣資訊的寫作,主要以天氣災(zāi)害和天氣新聞播報為主,但還存在兩點不足:一方面,主流產(chǎn)品以抓取相關(guān)網(wǎng)絡(luò)數(shù)據(jù)為主,在氣象數(shù)據(jù)上的可選范圍小,難以進行更復(fù)雜和詳細的天氣描述,同質(zhì)化程度高;另一方面,產(chǎn)品主要以文本為主,基本沒有常規(guī)運行的音視頻產(chǎn)品,難以適應(yīng)當前的融媒體環(huán)境,大眾覆蓋面較窄[2]。

想要更好地利用氣象數(shù)據(jù),實現(xiàn)多種形式產(chǎn)品的生產(chǎn),就要用機器寫作技術(shù)實現(xiàn)“氣象數(shù)據(jù)-文本”,并以此為基礎(chǔ),引入當下成熟的文字轉(zhuǎn)語音技術(shù)以及氣象數(shù)據(jù)可視化技術(shù),最終以氣象數(shù)據(jù)為基礎(chǔ),自動快速形成氣象融媒體產(chǎn)品。

2 氣象融媒體機器寫作的制作模式

機器寫作技術(shù)模仿或代替人類工作,本質(zhì)上是一種自然語言處理系統(tǒng)(Natural Language Processing,NLP),根據(jù)不同的數(shù)據(jù)來源和產(chǎn)出需求,發(fā)展出了模板式、抽取式及生成式3 種模式。

2.1 抽取式機器寫作

抽取式機器人會對文本進行語義分析,識別冗余信息,抽取重要內(nèi)容,通過摘錄或概括的方法壓縮文本,形成對于既定文字的摘要,再加以計算確保文摘的連續(xù)性,這種技術(shù)廣泛應(yīng)用于新聞內(nèi)容概括和文摘生成[3]。

在氣象融媒體服務(wù)當中,抽取式機器寫作可以以新聞綜述和信息匯總的生成方式,通過抓取已經(jīng)存在的相關(guān)服務(wù)信息和新聞,對某種災(zāi)害性天氣服務(wù)進行匯總型整理,尤其是對于已經(jīng)結(jié)束的天氣過程,讓大眾有更加全面的認識。但由于氣象實況和預(yù)報主要以數(shù)據(jù)為主,該方式難以表達天氣預(yù)報及相關(guān)服務(wù)。

2.2 模板式機器寫作

模板式寫稿機器人主要通過優(yōu)化算法,在預(yù)先存儲的大量寫作模板中,選擇與給定材料相匹配的模板,將信息加以組合生成文本,是目前應(yīng)用最成熟、實現(xiàn)最容易的一種機器寫作方法,但生成的內(nèi)容相對固定化。

模板式機器寫作可以較好地形成氣象融媒體服務(wù)“數(shù)據(jù)-文本”的流程,為了規(guī)避模板固定化、內(nèi)容同質(zhì)化的弊端,可通過加設(shè)氣象數(shù)據(jù)條件判定,即以氣象服務(wù)內(nèi)容特征為依據(jù),設(shè)置數(shù)據(jù)呈現(xiàn)的觸發(fā)機制,篩選當天最為突出的實況內(nèi)容和預(yù)報特征,在文字用語、圖片配色上做差異化分類,能夠在一定程度上規(guī)避產(chǎn)品的大量同質(zhì)化問題[4]。

2.3 生成式機器寫作

生成式主要通過深度學習和增強學習技術(shù)實現(xiàn)。機器通過大量的文學作品樣本進行訓(xùn)練,學習各類寫作風格、建立寫作模型,再根據(jù)輸入的文字片段獲知任務(wù)需求,預(yù)測并生成與需求相匹配的文稿,進行輸出。

在理想情況下,生成式機器寫作是比較好的解決方案,能夠通過深度學習,不斷自我迭代,但在實際操作過程中還面臨大量技術(shù)挑戰(zhàn),如樣本的補充難度、模型訓(xùn)練的復(fù)雜度、同義詞的問題、情感傾向問題、歧義性問題等等,因此距離實際生產(chǎn)應(yīng)用還有不小的距離。

筆者認為,基于氣象數(shù)據(jù)量大的特性,以及重預(yù)報、重防范的服務(wù)特性,模板式機器寫作可以更好地側(cè)重于天氣過程的發(fā)生發(fā)展,可以作為主要的機器寫作方式,從而實現(xiàn)數(shù)據(jù)驅(qū)動、自動生產(chǎn)文本的快速流程,并通過數(shù)據(jù)判定、模板更新、更替圖片配色等方式,彌補內(nèi)容同質(zhì)化缺陷,發(fā)揮特長。

3 氣象融媒體機器寫作的實現(xiàn)方法

3.1 整體架構(gòu)

氣象數(shù)據(jù)自動生產(chǎn)氣象融媒體產(chǎn)品的實現(xiàn)需要4 個模塊,即數(shù)據(jù)管理模塊、文稿生成模塊、語音合成模塊以及視頻合成模塊,如圖1 所示。數(shù)據(jù)管理模塊讀取和保存氣象實況和預(yù)報數(shù)據(jù),文稿生成模塊主要完成將氣象數(shù)據(jù)轉(zhuǎn)化為文本的工作,語音合成模塊采用外鏈文字轉(zhuǎn)音頻技術(shù),形成音頻產(chǎn)品,視頻合成模塊將選用的氣象數(shù)據(jù)生成圖片,最終結(jié)合音頻產(chǎn)品輸出成視頻。通過各個模塊的寫作,可以實現(xiàn)氣象數(shù)據(jù)對文字、音頻、圖片和視頻的自動生成,由一組數(shù)據(jù)形成整套多樣態(tài)的氣象融媒體服務(wù)產(chǎn)品[5]。

圖1 氣象融媒體機器智能寫作結(jié)構(gòu)

機器寫作技術(shù)主要應(yīng)用在文稿生成模塊,該模塊是整個體系的基礎(chǔ)和核心,基于模板式機器寫作方式,該部分主要通過文稿模板素材庫和數(shù)據(jù)觸發(fā)規(guī)則來實現(xiàn),當氣象實況和預(yù)報數(shù)據(jù)滿足觸發(fā)條件,則對該組數(shù)據(jù)進行模板文字匹配。

3.2 機器寫作文稿生成

機器寫作文稿生成部分的主要內(nèi)容由兩大部分組成,一是數(shù)據(jù)觸發(fā)規(guī)則,二是文字模板素材?;跉庀髷?shù)據(jù)的特性和大眾對氣象服務(wù)的主要需求,需要分別對兩者進行細致的設(shè)定。

3.2.1 數(shù)據(jù)觸發(fā)規(guī)則

數(shù)據(jù)觸發(fā)規(guī)則需要判斷是否觸發(fā)描述該天氣,以及如何有區(qū)分、有輕重地描述此類天氣。氣象數(shù)據(jù)包含氣象實況數(shù)據(jù)和預(yù)報數(shù)據(jù),氣象實況數(shù)據(jù)具有氣象要素、時間、不同量級定義、地理位置等復(fù)雜信息,每個時段所有站點擁有的全要素氣象實況數(shù)據(jù),信息量大且龐雜,需要從大量的信息中篩選出對大眾生活有影響的天氣要素,有重點地進行描述。預(yù)報數(shù)據(jù)包含時間、天氣、區(qū)域等信息,同樣也需要從面到點的概括式、聚焦式說明。

數(shù)據(jù)選取規(guī)則需要根據(jù)不同氣象要素分類設(shè)定,一條規(guī)則需要包含規(guī)則的id、觸發(fā)優(yōu)先級、規(guī)則內(nèi)容以及觸發(fā)動作等信息,可以讓大眾更加明確天氣的強度。比如氣溫要素,需要配置“如果文本生成時間>08 時且<14 時,且未觸發(fā)最低氣溫數(shù)據(jù),那么就使用08 時氣溫全省平均值”。而如果是降雨,則需要配置“10 mm 以上站點占10%~30%,觸發(fā)最近24 h 累計雨量,使用降雨站點數(shù)量以及主要量級。當最高量級為大雨以上時(≥25 mm),還需調(diào)取最高量級站點數(shù)量、最高值站點名稱及其數(shù)值。”

地理分布規(guī)則,主要為了更加明確地歸納天氣發(fā)生發(fā)展的地理位置,并使用約定俗成的區(qū)域劃分方式。以江西省為例,可以劃分為贛北、贛中、贛南等區(qū)域,大眾可以更加直觀地認知該天氣的覆蓋面。

3.2.2 模板語料庫

根據(jù)細分的判定規(guī)則,需要對每一種天氣要素的不同強度分類進行細致的模板文字梳理,比如對于高溫,當全省日最高氣溫滿足“30 ℃<全省最高氣溫平均值(c)<35 ℃”這一條件時,在文字內(nèi)容的分類上考慮使用一般表達強度,簡單描述現(xiàn)狀?!白蛱烊∽罡邭鉁仄骄校╟)℃?!倍斎兆罡邭鉁貪M足“30 ℃<全省最高氣溫平均值(c)<35 ℃,且30%以上站點數(shù)值≥35 ℃”時,文字部分需要體現(xiàn)熱的強度升級,如“昨天,全省熱浪席卷,日最高氣溫平均有(c)℃,(c2)個縣區(qū)出現(xiàn)了35 ℃以上的高溫,其中(c3)最為炎熱,高(c4)℃?!?/p>

同時,針對不同天氣對大眾生活影響的方向不同,需要有側(cè)重的服務(wù)關(guān)照提示。比如“氣溫波動大,需要關(guān)注氣溫變化,合理調(diào)整著裝”“氣溫偏高,午后雷雨多發(fā),大家出門的時候記得備一把雨傘,防曬防雨兩不誤”。不僅呼應(yīng)和總結(jié)了未來天氣變化的重點,同時還在一定程度上體現(xiàn)了人文關(guān)懷,使文稿更具有“人味”。

根據(jù)觸發(fā)的規(guī)則,機器會選取合適的模板作為輸入,生成數(shù)據(jù)替換后的最終語句。同一個觸發(fā)規(guī)則有可能對應(yīng)多個文稿模板,此時可以對文稿模板定義優(yōu)先級或者采用隨機、輪詢的方式選擇。

3.2.3 音視頻產(chǎn)品生成

音視頻產(chǎn)品的生成主要通過引入成熟的相關(guān)轉(zhuǎn)換技術(shù)來實現(xiàn)。在機器寫作完成數(shù)據(jù)篩選和文本生成后,音頻產(chǎn)品將會由文字直接轉(zhuǎn)換而來,視頻的畫面部分可以通過對觸發(fā)數(shù)據(jù)的氣象數(shù)據(jù)可視化技術(shù)實現(xiàn),經(jīng)過規(guī)則匹配之后,系統(tǒng)篩選出使用的數(shù)據(jù)種類和時次。根據(jù)這些信息,在素材庫中搜索對應(yīng)的可視化圖片產(chǎn)品。這些圖片產(chǎn)品會作為素材,替換After Effects 模板中的資源,然后進行渲染,最終生成視頻。

4 應(yīng)用前景及缺陷

4.1 應(yīng)用前景

以機器寫作技術(shù)為基礎(chǔ),引入音頻和數(shù)據(jù)可視化技術(shù),可以很好地解決氣象融媒體產(chǎn)品在短時間、大批量、全平臺、多樣態(tài)覆蓋的難題,能夠在一定程度上解放服務(wù)人力。主要有以下優(yōu)勢。

(1)數(shù)量多,極大豐富常規(guī)的氣象融媒體產(chǎn)品數(shù)量,實現(xiàn)多平臺、多時次的氣象融媒體產(chǎn)品投放,節(jié)約服務(wù)人力,可以讓公眾氣象服務(wù)人員投入在創(chuàng)造性內(nèi)容以及重大氣象災(zāi)害的相關(guān)服務(wù)產(chǎn)品上。

(2)速度快,在突發(fā)氣象災(zāi)害,尤其是短時強對流天氣等生命史短暫、影響區(qū)域狹小、時空分布復(fù)雜的天氣過程時,利用機器寫作,可以快速制作并發(fā)送服務(wù)產(chǎn)品,特別是可補充融媒體產(chǎn)品制作欠缺的縣區(qū)一級。

(3)性價比高,一次投入多次使用。由于氣象內(nèi)容的數(shù)據(jù)轉(zhuǎn)產(chǎn)品的特性,只要形成多樣化的邏輯模板、不斷抓取語料庫,后期輔助人工審核即可,可減少大量人力成本和從業(yè)人員的教育時間成本。

4.2 不足及思考

氣象融媒體機器寫作的應(yīng)用能在一定程度上緩解目前氣象融媒體產(chǎn)品的產(chǎn)能不足和供需矛盾,但同樣面臨著一些風險,具體如下。

(1)內(nèi)容同質(zhì)化風險??焖佟⒋罅康哪0鍍?nèi)容出現(xiàn),使得相關(guān)內(nèi)容同質(zhì)化現(xiàn)象明顯,很容易帶來審美疲勞,導(dǎo)致關(guān)注度流失,應(yīng)當更多頻次地更新語言模板和產(chǎn)品樣態(tài)。在重大氣象服務(wù)中,更多專業(yè)且精細化的融媒體服務(wù)產(chǎn)品,還需更多的專業(yè)服務(wù)人員的參與。

(2)海量資訊重點模糊。當大量機器生產(chǎn)的融媒體產(chǎn)品投放時,信息呈現(xiàn)爆炸性的增長,容易使得真正重要的內(nèi)容無法更好地傳達到大眾面前。因此,在使用和投放中應(yīng)當更加慎重,尤其是面對氣象災(zāi)害時,需要更加規(guī)律且克制地使用相關(guān)技術(shù)。

(3)內(nèi)容導(dǎo)向風險。對于災(zāi)害性天氣的描述很可能流于數(shù)據(jù)而缺乏人文關(guān)懷,對于災(zāi)害的用詞的準確性,是否符合災(zāi)情中的情感傾向,需要人工把握和審核。

5 結(jié)語

機器寫作在氣象融媒體服務(wù)中的應(yīng)用具有較好的技術(shù)可行性和良好的使用前景,該技術(shù)的使用將極大地豐富氣象融媒體產(chǎn)品的數(shù)量和更新頻次,但應(yīng)將人機關(guān)系定位在協(xié)同服務(wù)的位置上,補充人力不足,輔助人工服務(wù),形成差異化分工合作,而絕不是代替人工。機器寫作需要不斷由人工審核、審慎投放、更新模板,才能避免內(nèi)容同質(zhì)化、模糊焦點和內(nèi)容導(dǎo)向的風險,更好地為大眾提供氣象服務(wù)產(chǎn)品。

猜你喜歡
氣象機器天氣
機器狗
氣象樹
機器狗
天氣冷了,就容易抑郁嗎?
《內(nèi)蒙古氣象》征稿簡則
誰是天氣之子
盛暑天氣,覓得書中一味涼
Weather(天氣)
未來機器城
大國氣象