人類發(fā)展離不開技術(shù)。但是僅就技術(shù)的有效性而言,人類與其他許多物種相比,很長時期內(nèi)始終是落伍者;僅就工具制造技術(shù)而言,難以證明人類的特殊性。是人類的大腦而不僅僅是雙手,使人類具備了語言符號、審美形象,以及可以在社會群體中傳播和共享的知識,才使人類真正地與眾不同。因此,從本質(zhì)上來說,技術(shù)的工具價值帶來有效性的那部分價值,并不是技術(shù)的全部價值,而其終極價值—人類文明中的根本價值,即帶來知識和智慧的那部分價值,才是突顯人的尊嚴(yán)的。馬克思·韋伯將人的理性行為分為工具理性行為和價值理性行為。工具理性在于在認(rèn)識和改造世界的過程中指導(dǎo)人類“如何去做”,而價值理性在于告訴人類“為什么要做”,二者的有機(jī)統(tǒng)一才能對滿足人類需求的生產(chǎn)實(shí)踐活動進(jìn)行有效指導(dǎo)。人類對生產(chǎn)工具的需求并不像動物一樣出于生存本能,而是存在目的性需求,因此在面臨算法這種新的“生產(chǎn)工具”時,我們需要同時兼顧其工具價值和理性價值,考慮其作為一種技術(shù)或者工具的“工具價值”。但在現(xiàn)實(shí)中,我們會因?yàn)樾录夹g(shù)的效益而歡呼雀躍,而常常忽略了另一面的價值。
智能技術(shù)可謂集人類工具制造能力和知識智慧的最高代表。人工智能就是讓計算機(jī)完成人類心智能做的各種事情。人工智能正在開啟新聞傳播的智能傳播時代,并運(yùn)用于數(shù)據(jù)挖掘與信息采集、自動化寫作、算法式分發(fā)、自動化事實(shí)核查、優(yōu)化產(chǎn)品以及社交機(jī)器人與用戶的互動等各個環(huán)節(jié),引發(fā)了媒體生產(chǎn)與運(yùn)營、媒體人的角色與技能要求的新轉(zhuǎn)變。有學(xué)者斷言:我們已經(jīng)進(jìn)入新聞算法(news algorithms)的時代,自動化和算法已經(jīng)成熟到能夠從事真正的新聞工作。近年來,智能算法在新聞傳播領(lǐng)域的應(yīng)用是學(xué)界的前沿和熱門議題,關(guān)于智能算法運(yùn)用于新聞生產(chǎn),學(xué)者們主要討論了以下幾個方向:一是從新聞生產(chǎn)的過程入手,探討人工智能在新聞內(nèi)容采集、新聞制作與分發(fā)、新聞接收、用戶畫像等層面為新聞業(yè)帶來的全新變革;二是從現(xiàn)實(shí)性、前瞻性的方向探討智能化新聞生產(chǎn)的應(yīng)用現(xiàn)狀及前景,一些學(xué)者還以目前已經(jīng)問世的寫作機(jī)器人或算法推薦的產(chǎn)品為案例去分析其在新聞生產(chǎn)過程中的實(shí)際應(yīng)用與未來發(fā)展;三是從倫理的角度出發(fā)思考算法作為一種新興技術(shù)所帶來的算法黑箱、算法歧視、隱私讓渡與侵犯等問題,并試圖解釋算法倫理問題的成因、影響與對策;四是討論在新聞智能化生產(chǎn)環(huán)境下新聞從業(yè)者的可替代性和再定位,算法僅僅是“搶飯碗”,還是能夠?qū)崿F(xiàn)對行業(yè)的融合與重塑?本文以智能算法運(yùn)用于新聞生產(chǎn)階段為例,通過分析算法運(yùn)用的技術(shù)路徑,探討其價值邏輯及風(fēng)險。
算法(algorithms)指的是為解決問題而進(jìn)行的計算機(jī)操作規(guī)則的一系列步驟。計算機(jī)運(yùn)用的技術(shù)主要是自然語言處理(natural language processing,NLP),主要包括自然語言理解(natural language understanding,NLU)、自然語言生成(natural language generation,NLG)兩個方面。
以新聞文本的生產(chǎn)為主要目的,由機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)為技術(shù)基礎(chǔ)生產(chǎn)和分發(fā)的新聞被稱作算法新聞。算法新聞的流程包括三個階段,也稱為算法新聞的“I-T-O模式”:數(shù)據(jù)輸入(input),即從公開或私人的數(shù)據(jù)庫中抓取信息,作為算法新聞生產(chǎn)的“原材料”;數(shù)據(jù)吞吐(throughput),即通過監(jiān)督式機(jī)器學(xué)習(xí)(人為預(yù)先設(shè)定規(guī)則)或無監(jiān)督式機(jī)器學(xué)習(xí)(機(jī)器自動學(xué)習(xí)形成一套人無法清晰了解的規(guī)則,并運(yùn)用到之后的新聞生產(chǎn)中),根據(jù)既定的語法和句法規(guī)則,經(jīng)過半自動或全自動的NLG,將輸入的數(shù)據(jù)整理成一定的結(jié)構(gòu);新聞產(chǎn)品輸出(output),指的是由NLG生成的新聞產(chǎn)品完成線上和線下的分發(fā)。機(jī)器學(xué)習(xí)是人工智能的核心技術(shù),包括監(jiān)督式和無監(jiān)督式兩種。監(jiān)督式學(xué)習(xí)有固定的模板,輸入和輸出的都是已知信息,將數(shù)據(jù)“喂”給算法后,自動按照給定的規(guī)則填充公式化的表達(dá),生成稿件;無監(jiān)督式學(xué)習(xí)沒有固定的輸入—輸出模板,以大數(shù)據(jù)為基礎(chǔ),主要尋找相關(guān)關(guān)系和趨勢、表面奇異值等,不追究因果關(guān)系,機(jī)器自動從數(shù)據(jù)中抽取知識。
智能機(jī)器已經(jīng)具有在復(fù)雜情境下進(jìn)行語義理解和文本生成的能力,可以同時承擔(dān)簡單的替代性勞動和復(fù)雜的創(chuàng)造性勞動,依托不同的情境進(jìn)行多元靈活的新聞生產(chǎn)。內(nèi)容生成屬于自然語言生成算法領(lǐng)域的一個應(yīng)用分支,其歷史、發(fā)展和自然語言生成基礎(chǔ)算法的發(fā)展基本保持一致。自然語言生成是以模仿人類書寫以及說話的方式來產(chǎn)生有意義的短語和句子的過程,其領(lǐng)域包括內(nèi)容生成、機(jī)器翻譯以及聊天機(jī)器人等應(yīng)用,目的是通過預(yù)測句子中的下一個詞語來傳達(dá)信息,它以每秒數(shù)千頁的速度,自動生成回復(fù)、描述、總結(jié)或者解釋輸入結(jié)構(gòu)化數(shù)據(jù)的敘述性語句。目前有兩類主流的自然語言生成方法:基于模板的靜態(tài)算法和基于上下文的動態(tài)算法。?? 到目前為止,只有后者被認(rèn)為是“真正”的自然語言生成算法。兩種算法在實(shí)際應(yīng)用中各有優(yōu)劣,業(yè)界比較成熟的算法往往是兩類方法的結(jié)合體。
基于模板的靜態(tài)算法主要將模板填空式算法作為主流算法,模板填空式算法可謂最古老最簡單的自然語言生成方法之一。早期的系統(tǒng)代表有Eliza、PARRY、天氣預(yù)報系統(tǒng)以及體育運(yùn)動播報系統(tǒng),其最初主要使用在“預(yù)定義結(jié)構(gòu)”的填充上。預(yù)定義結(jié)構(gòu)俗稱為“模板”,類似于完形填空式的內(nèi)容,對于具有預(yù)定義結(jié)構(gòu)且只需要填充少量數(shù)據(jù)的文本可生成一段完整的描述。例如,天氣預(yù)報播報的預(yù)定義結(jié)構(gòu)是:
明天[城市
][天氣狀況
],最高氣溫[最高氣溫
]攝氏度,最低氣溫[最低氣溫
]攝氏度,[風(fēng)向
][風(fēng)力
]級,最適合[活動類型
],天氣預(yù)報祝您開心每一天。(中括號內(nèi)為填充內(nèi)容)填充相應(yīng)數(shù)據(jù)之后,便可以生成以下兩條天氣預(yù)報的播報內(nèi)容:
明天北京晴,最高氣溫25攝氏度,最低氣溫17攝氏度,東南風(fēng)1—2級,適合戶外運(yùn)動及出游,天氣預(yù)報祝您開心每一天。
明天天津晴轉(zhuǎn)多云,最高氣溫16攝氏度,最低氣溫6攝氏度,北風(fēng)3—4級,適合居家及進(jìn)行室內(nèi)休閑活動,天氣預(yù)報祝您開心每一天。
對于具有預(yù)定義結(jié)構(gòu)且只需要填充少量數(shù)據(jù)的文本,這種方法便可以批量生產(chǎn)出符合人類語言規(guī)則的內(nèi)容,且在內(nèi)容上也可以實(shí)現(xiàn)一定程度的差異化。然而該方法并不被認(rèn)為是“真正”的自然語言生成,主要在于“預(yù)定義結(jié)構(gòu)”上。所謂預(yù)定義結(jié)構(gòu)由句子模板和詞匯模板組合而成,句子模板包括若干個含有變量的句子,詞匯模板則是句子模板中的變量所對應(yīng)的所有可能的內(nèi)容。
靜態(tài)模板運(yùn)用在自動新聞寫作過程中,“規(guī)則”掌握在人的手中,應(yīng)當(dāng)是先有規(guī)則,后有新聞產(chǎn)品。從上面的例子可以了解到,無論是句子模板還是詞匯模板,基本上都來源于人工總結(jié)提取,并形成固定模板,但模板的豐富性和實(shí)時性都很難得到保證。在以往的各類內(nèi)容中存在著大量規(guī)范化的句式,如果能從先前的文本數(shù)據(jù)中自動將這些句式模板提取出來,將極大地減輕人工負(fù)擔(dān)。因此在后來的基于模板的靜態(tài)算法研究過程中,大量的工作集中在如何自動從數(shù)據(jù)中挖掘和生成句子模板,減輕人工負(fù)擔(dān),增加模板的多樣性。例如,使用聚類算法對內(nèi)容進(jìn)行聚類,然后利用先驗(yàn)規(guī)則將抽象的模板挖掘出來,或者使用二步迭代的方式逐步從內(nèi)容中生成句子模板和詞匯模板?;谀0宓撵o態(tài)算法后期加入了邏輯規(guī)則處理可能出現(xiàn)例外情況,這些規(guī)則的加入使得計算機(jī)更容易生成語法正確的文本,編寫更加復(fù)雜的模板。模板填空式算法的優(yōu)點(diǎn)在于簡單、可控和嚴(yán)謹(jǐn),因?yàn)槊恳粋€模板都是人工總結(jié)出來的。
這種算法的缺點(diǎn)也顯而易見,使用場景十分有限且生成內(nèi)容的重復(fù)性高,由于過度依賴人類知識和經(jīng)驗(yàn),模板的豐富性和實(shí)時性都很難得到保證?;谀0宓撵o態(tài)算法只能處理特定場景下的語言生成,且話術(shù)千篇一律,很容易產(chǎn)生審美疲勞,其“智能性”難以體現(xiàn)人類的智慧和能力。
基于模板的靜態(tài)算法由于其單一性和過度依賴人工經(jīng)驗(yàn)的缺點(diǎn),在如今的大數(shù)據(jù)時代已經(jīng)不能夠滿足人類的需求。在此背景下,一種基于上下文的動態(tài)算法逐漸流行起來,該方法通過上下文語法語義結(jié)構(gòu)信息來動態(tài)地創(chuàng)建句子。上下文信息指已經(jīng)完成書寫的段落、開始寫作時輸入的內(nèi)容類別以及內(nèi)容關(guān)鍵詞等信息。動態(tài)創(chuàng)建意味著系統(tǒng)可以在不尋常的情況下自主做出反應(yīng),不需要技術(shù)員為每個邊界情況顯式地編寫模板和規(guī)則。它還允許系統(tǒng)在語言上以多種方式優(yōu)化句子,包括引用、聚合、排序和添加連接詞。同時,相比于基于模板的靜態(tài)算法,基于上下文的動態(tài)算法可以生成篇幅更長的文章,而基于模板的靜態(tài)算法由于編寫模板的限制而在全文生成方面存在困難。基于上下文的動態(tài)算法可以在“微觀層面”生成句子,同時也可以在“宏觀層面”生成與讀者相關(guān)、結(jié)構(gòu)良好的有用的敘事性文檔,能否做到這一點(diǎn)取決于文本的目標(biāo)人群及個性化信息體系是否完整。
自然語言生成從模板生成到動態(tài)生成,經(jīng)過了多年的技術(shù)試驗(yàn)才取得了令人滿意的結(jié)果。作為NLP和AI的一部分,自然語言生成依賴于一些算法來生成文本,近年來主流的基于上下文的動態(tài)算法主要有以下幾種:
(1)馬爾可夫鏈(Markov chain):馬爾可夫鏈?zhǔn)亲钤缬糜谡Z言生成的算法之一,其名稱來源于俄國數(shù)學(xué)家安得雷·馬爾可夫。該模型通過當(dāng)前詞語并考慮每個詞語之間的關(guān)系來計算下一個出現(xiàn)的詞語的概率,從而預(yù)測句子中出現(xiàn)的下一個詞語。這種算法在早期版本的智能手機(jī)輸入法上經(jīng)常使用,在用戶主動輸入一些詞語后,句子中可能出現(xiàn)的下一個詞語會被聯(lián)想出來,從而為用戶生成內(nèi)容建議?;隈R爾可夫鏈的語言模型在數(shù)據(jù)驅(qū)動的自然語言生成中有著重要的應(yīng)用,但研究人員必須為每一個場景以及領(lǐng)域設(shè)計特有的輸入特征,例如為體育領(lǐng)域設(shè)計的輸入特征無法適用于其他領(lǐng)域。
(2)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):神經(jīng)網(wǎng)絡(luò)是試圖模仿人類大腦運(yùn)作的模型。RNN通過前饋網(wǎng)絡(luò)傳遞序列中的每一項(xiàng),并使用模型的輸出作為序列中下一項(xiàng)的輸入,同時儲存著歷史信息。在每次迭代中,模型將前面遇到的詞語存儲在內(nèi)存中,并計算下一個詞語出現(xiàn)的概率。對于字典中的每個詞語,模型根據(jù)前一個詞語分配一個概率,選擇概率最大的詞語并將其存儲在內(nèi)存中。RNN的“記憶”使該模型成為語言生成的理想模型,因?yàn)樗梢噪S時記住對話的背景。然而,隨著序列長度的增加,RNN不能存儲句子中相距太遠(yuǎn)的詞語,只能根據(jù)最近的詞語進(jìn)行預(yù)測。由此,循環(huán)神經(jīng)網(wǎng)絡(luò)很容易忘掉前文生成的內(nèi)容進(jìn)而生成前后邏輯不一致的內(nèi)容。
(3)長短期記憶網(wǎng)絡(luò)(LSTM):為解決遠(yuǎn)程依賴問題,人們引入了RNN的一種變體—長短期記憶網(wǎng)絡(luò)。雖然與RNN相似,但LSTM模型包含三個門信息以及當(dāng)前單元狀態(tài)的神經(jīng)網(wǎng)絡(luò),三個門分別為遺忘門(forget gate)、輸入門(input gate)、輸出門(output gate),它們允許神經(jīng)網(wǎng)絡(luò)在任何時間間隔通過調(diào)整該單元的信息流來記住或忘記單詞。當(dāng)遇到句號時,遺忘門識別出句子的上下文可能發(fā)生變化,可以忽略當(dāng)前單元狀態(tài)信息。這就使得網(wǎng)絡(luò)能夠選擇性地只跟蹤相關(guān)信息,同時最小化梯度消失的問題,模型也能夠在更長的時間內(nèi)記住信息。盡管如此,由于從上一個單元到當(dāng)前單元的固有復(fù)雜的串行路徑,LSTM內(nèi)存的容量被限制在幾百個單詞內(nèi),長度有限。其模型復(fù)雜度導(dǎo)致了高計算需求,這使得LSTM難以訓(xùn)練或并行化,內(nèi)容生成速度慢。
(4)自注意力模型(transformer):2017年谷歌首次提出了一個相對全新的模型,該模型使用了一種名為“自注意力機(jī)制”的新方法。Transformer由處理任意長度輸入的一組編碼器和輸出生成的句子的另一組解碼器組成。與LSTM相比,transformer只執(zhí)行少量的、固定數(shù)量的步驟,同時應(yīng)用了一種自注意力機(jī)制,直接模擬句子中所有單詞之間的關(guān)系。與以前的模型不同,transformer能夠處理較長的句子,同時其計算量并未激增。因?yàn)樽宰⒁饬δP驮谟?xùn)練時可以并行化,所以其內(nèi)容生成速度遠(yuǎn)遠(yuǎn)領(lǐng)先于長短期記憶網(wǎng)絡(luò)。
用于語言生成的transformer中最著名的例子之一是OpenAI,即其GPT-2語言模型,該模型通過關(guān)注先前生成的文章來預(yù)測下一個詞語。GPT-2語言模型是學(xué)界和業(yè)界生成模型中最為領(lǐng)先也最具代表性的一個,其不僅在很多任務(wù)上超越了此前的最高水平,還可以根據(jù)一小段話自動補(bǔ)充大段連貫的文本,并模擬不同的寫作風(fēng)格。同時,GPT-2還被冠以最強(qiáng)假新聞生成器的稱號。OpenAI 設(shè)想,人們可能出于惡意目的利用GPT-2來生成誤導(dǎo)性新聞、在網(wǎng)上假扮他人進(jìn)行欺詐、在社交媒體上自動生產(chǎn)惡意內(nèi)容和偽造內(nèi)容、自動生產(chǎn)垃圾郵件或釣魚郵件等。所以,OpenAI在發(fā)布GPT-2的同時就宣稱“這種強(qiáng)力的模型有遭到惡意濫用的風(fēng)險”,選擇不對其做完整開源。后經(jīng)過一年多的時間,GPT-2謹(jǐn)慎地開源了一部分源代碼以供開發(fā)者嘗鮮。但不可否認(rèn)的是,作為谷歌最新升級的算法,transformer雙向編碼器(BERT)為各種自然語言處理任務(wù)提供了最先進(jìn)的結(jié)果。
基于上下文的動態(tài)算法由于不需要過多的人工干預(yù),克服了基于模板的靜態(tài)算法的諸多缺點(diǎn),已經(jīng)越來越受到業(yè)界的重視。然而基于上下文的動態(tài)算法也有其缺陷:不可控性以及前后邏輯矛盾。不可控性主要體現(xiàn)在生成的內(nèi)容可能會超出人類預(yù)期的一些結(jié)果,比如違背道德和法律的內(nèi)容、種族歧視以及虛假新聞。因其不需要人工干預(yù),完全由上下文來決定要生成的內(nèi)容,所以很容易被訓(xùn)練語料、初始狀態(tài)或在線學(xué)習(xí)算法等過程引導(dǎo)到一個錯誤的方向,進(jìn)而生產(chǎn)大量的垃圾內(nèi)容。前后邏輯矛盾主要受制于當(dāng)前的技術(shù)水平,在目前技術(shù)水平下能回顧的上文長度不宜過長,否則上文信息就會消失,進(jìn)而生成和上文完全沒關(guān)系的內(nèi)容,生產(chǎn)出的內(nèi)容會顯得非常松散甚至出現(xiàn)前后觀點(diǎn)矛盾的情況。這種方式將新聞生產(chǎn)過程推進(jìn)深深的“黑箱”—新聞生產(chǎn)的幕后,人類現(xiàn)有認(rèn)知水平難以判斷其真實(shí)度、可信度、透明度,人們不需要知曉規(guī)則,產(chǎn)品即“不需要推敲”的成品,編輯審稿環(huán)節(jié)(如果還保留的話)很難進(jìn)一步核查事實(shí)、追尋真相邏輯鏈。但是對于基于模板的靜態(tài)算法而言,因?yàn)槠淠0宥际侨斯た偨Y(jié)出來的,所以天然不存在以上兩個問題。
目前,市面上幾乎所有的產(chǎn)品都不只局限于某種單一的技術(shù),而是采用基于動態(tài)算法的多種技術(shù)的集成。例如,今日頭條的新聞寫作機(jī)器人“張小明”(xiaomingbot)可以2秒完成稿件并快速上傳,在里約奧運(yùn)會開始后的13天共撰寫457篇報道,每天生產(chǎn)新聞30篇以上,內(nèi)容涵蓋羽毛球、乒乓球、網(wǎng)球等領(lǐng)域,發(fā)稿速度幾乎可以與現(xiàn)場直播相媲美。“張小明”通過語法合成,結(jié)合最新的自然語言處理、視覺圖像處理和機(jī)器學(xué)習(xí)等技術(shù),不僅可以模仿人類語氣進(jìn)行新聞稿件寫作,還可以自己選擇新聞配圖。在內(nèi)容生產(chǎn)運(yùn)用于新聞生產(chǎn)的領(lǐng)域,國外的主要新聞寫作機(jī)器人和智能編輯審稿機(jī)器人有美聯(lián)社的Wordsmith、《紐約時報》的Blossombot、《華盛頓郵報》的Heliograf、《衛(wèi)報》的Open001、路透社的OpenCalais等;國內(nèi)的除“張小明”外,還有新華社的快筆小新、騰訊的Dreamweiter、第一財經(jīng)的DT稿王等。
語言生成從使用簡單的馬爾可夫鏈生成句子向使用自注意模型生成更大范圍、更連貫的文本演變,再到如今新聞生產(chǎn)機(jī)器人多種算法的技術(shù)集成,這是一個從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的過程。然而,我們正處于生成語言模型的開端,transformer只是邁向真正的自主文本生成的第一步。生成模式也被開發(fā)用于其他類型的內(nèi)容,如圖像、視頻和音頻,這為將音視頻生成模型與文本生成模型集成在一起,開發(fā)出具有音頻及可視界面功能的高級個人助理提供了可能。同時,為了增加可控性以及邏輯一致性,目前大量的研究開始探索如何將人類經(jīng)驗(yàn)和生成模型統(tǒng)一結(jié)合起來,人類只需要提供少量的監(jiān)督信息即可規(guī)避上述問題,這個領(lǐng)域在未來肯定會有更好的發(fā)展。
在人類創(chuàng)造、使用技術(shù)和工具的過程中,技術(shù)和工具也會承載著特定社會中人的價值。隨著算法的逐漸發(fā)展與強(qiáng)大,作為一種技術(shù)或者說工具,算法也不可避免地會陷入技術(shù)倫理價值的善惡之爭之中。算法運(yùn)用于新聞生產(chǎn),涉及人在生產(chǎn)中的創(chuàng)造性和主體性,算法的權(quán)力關(guān)系與道德責(zé)任,以及工具價值與終極價值的矛盾等價值觀問題。
計算機(jī)不可或缺的四大思維,包括精準(zhǔn)的溝通、記憶和計算能力、具有計算的通用性和特定的結(jié)構(gòu),以及能夠按大腦核心算法進(jìn)行創(chuàng)造性思考。運(yùn)用計算機(jī)科學(xué)的基礎(chǔ)概念去求解問題、設(shè)計系統(tǒng)和理解人類的行為,首次從物理空間對人體的延伸、思維的嫁接與嵌入進(jìn)行革新,最終以取代人類大腦為目標(biāo)。算法思維將成為一種空前的技術(shù)思維,推動社會向未來變革。算法的本質(zhì)是抽象和自動化,抽象是人類以理性把握世界的重要方式,而數(shù)學(xué)、計算和邏輯則是抽象思維的最高境界,從20世紀(jì)中期開始,伴隨著生物學(xué)和計算機(jī)科學(xué)的發(fā)展,人們就嘗試著以計算的抽象思維去認(rèn)識和把握世界。
人工智能不僅僅是計算機(jī)科學(xué)發(fā)展的產(chǎn)物,它還是特定媒介文化前提下的人機(jī)混合物。傳統(tǒng)上,人們認(rèn)為人工智能模擬人類功能,并重現(xiàn)人的智力能力,但從控制論的視角來看,人工智能并不是重現(xiàn)人的智力能力,而是通過捕獲人類的認(rèn)知能力將人類嵌入自身,形成混合的人機(jī)設(shè)備。這其中,人的主體性與創(chuàng)造性是值得關(guān)注的重要問題。基于計算機(jī)智能的生產(chǎn)者和研究人員降低了人性。笛卡爾主張的客觀和中立的真實(shí)性、真正的知識是無語境的抽象,基本預(yù)設(shè)了事實(shí)和價值的分離,以為信息技術(shù)是中立的。對于人工智能新時代的傳播理論與實(shí)踐而言,如何保持人的獨(dú)特性是首要問題。
計算思維已經(jīng)大量地運(yùn)用于新聞產(chǎn)品中,而且要設(shè)計得具備智能思維—人類思維的模擬化,這就需要足夠的“新聞的想象力”。不同的算法意味著不同的價值觀考量。僅從上述自動化寫作的技術(shù)之中,我們就可以發(fā)現(xiàn)算法技術(shù)存在的缺陷。首先,寫作模式固定,缺乏舉一反三的創(chuàng)造性。人類的寫作,即使使用“模式”,也是以思維的載體的形式出現(xiàn)的,記者并非按部就班地遵循閉合的規(guī)則來進(jìn)行事實(shí)推敲和文本寫作。而基于數(shù)據(jù)統(tǒng)計的AI在過去的數(shù)據(jù)中進(jìn)行歸納總結(jié),難以出現(xiàn)人類的推理、靈感。目前的AI技術(shù)不會聯(lián)想,是缺少想象力和個性的,但是人類具有靈感。因此自動化寫作仍需要人的創(chuàng)造力的彌補(bǔ),并為文本的發(fā)展和多樣性提供更多的可能。其次,原生創(chuàng)造力缺失,應(yīng)對突發(fā)情況能力差。無論是傳統(tǒng)的基于規(guī)則模板的方法,還是目前的統(tǒng)計學(xué)方法,都缺乏創(chuàng)造力,基于規(guī)則模板的方法也只能創(chuàng)造給定場景和條件下的內(nèi)容?;诮y(tǒng)計學(xué)的方法只能從過去的新聞內(nèi)容中學(xué)習(xí)文法規(guī)則、事件實(shí)體以及已產(chǎn)生的內(nèi)容。一旦遇到全新的新聞,包含大量新的事件、場景以及描述詞語時,目前AI的創(chuàng)造能力基本是不足的。因?yàn)锳I只能模仿以往的新聞寫作習(xí)慣以及用詞,對沒見過的事物基本無法處理,所有的內(nèi)容都來源于海量數(shù)據(jù),不可能產(chǎn)生訓(xùn)練數(shù)據(jù)沒有涉及和覆蓋的內(nèi)容。最后,知識和感知可能無法自洽?;跀?shù)據(jù)的AI,無論是一代的知識型AI還是二代的感知型AI,在知識和邏輯中還未達(dá)到自洽的程度,如果人類沒有提前告訴它人生理構(gòu)造的不同,AI有可能寫出女性得前列腺癌的文章。想要以人工智能完全替代人類的諸如新聞寫作這樣的智力勞動,還是難以實(shí)現(xiàn)的。
這里有兩層權(quán)力關(guān)系。一層是算法對新聞業(yè)的介入引發(fā)的“權(quán)力遷移”,算法使權(quán)力從公共機(jī)構(gòu)遷移到資本驅(qū)動的技術(shù)公司,相比傳統(tǒng)媒體清晰的操作流程,算法使傳播的操作后臺化,資本權(quán)力擴(kuò)張,壟斷傳播資源,內(nèi)容采集、投遞、營銷難以受到公共力量的監(jiān)督,擁有技術(shù)和數(shù)據(jù)的公司反而擁有更多的公共權(quán)力。算法除了在控制信息生產(chǎn)、流通的過程中體現(xiàn)出權(quán)力,還通過制定行業(yè)規(guī)范彰顯統(tǒng)治力。
另一層是在人工智能系統(tǒng)的生產(chǎn)過程中,存在兩種不平衡的權(quán)力關(guān)系—決策權(quán)和技術(shù)知識的聯(lián)手。一方面,管理者首先為人工智能系統(tǒng)運(yùn)行提出要求;另一方面,技術(shù)人員在技術(shù)決策過程中保留必要的自主決定權(quán)。因而,在工程師的職業(yè)想象中,其在法律規(guī)則、組織規(guī)范和用戶要求的基礎(chǔ)上構(gòu)建AI系統(tǒng),人工智能系統(tǒng)的道德責(zé)任是分散的,工程師事實(shí)上扮演著人工智能系統(tǒng)、用戶、決策者之間協(xié)調(diào)者的角色,無法獨(dú)自為人工智能系統(tǒng)的道德狀況負(fù)責(zé)。
內(nèi)容生產(chǎn)中的權(quán)力,與信息分發(fā)中對用戶的“網(wǎng)絡(luò)分層”密切互動,內(nèi)容公司需要全部的用戶行為數(shù)據(jù),特別是用戶的“關(guān)系數(shù)據(jù)”,通過機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、定位服務(wù)等技術(shù),向精細(xì)化導(dǎo)流的方向發(fā)展?,F(xiàn)階段人工智能屬數(shù)據(jù)驅(qū)動型,機(jī)器主要是通過模擬人類的感知進(jìn)行計算的,這代技術(shù)先天地具有不可解釋性、不透明性。算法包含技術(shù)人員的價值觀和意識形態(tài)取向,如果技術(shù)員心術(shù)不正,刻意寫出有問題的算法,那么算法生產(chǎn)出的內(nèi)容就會存在倫理問題。內(nèi)容生產(chǎn)會受到互聯(lián)網(wǎng)信息服務(wù)類公司的控制,在專業(yè)性、獨(dú)立性上向服務(wù)商做出讓步。價值觀和意識形態(tài)一旦被事先嵌入算法之中,就會帶來算法偏見和倫理問題。即使并不存在有意為之的行為,目前通過已有數(shù)據(jù)集決定的算法,已經(jīng)有相當(dāng)多的案例證明其存在偏見,這里包括數(shù)據(jù)集的不全面和先天缺陷,比如關(guān)于少數(shù)族裔的數(shù)據(jù),因?yàn)槠鋽?shù)量的不足常常出現(xiàn)先天性的不公正結(jié)論;也包括以過去的數(shù)據(jù)預(yù)測未來而帶來的價值偏見風(fēng)險,比如關(guān)于美國歷史上犯罪率導(dǎo)致的算法種族偏見;還包括以整體的數(shù)據(jù)集的結(jié)論投射到個體身上的問題,比如美國單個黑人要承受黑人犯罪率被算法夸大標(biāo)記的風(fēng)險。
在新聞選題策劃方面,記者通過大數(shù)據(jù)的方式獲取新聞線索,將語音識別技術(shù)及文本轉(zhuǎn)化技術(shù)作為工具來管理稿件、組織采訪并回復(fù)電子郵件等。以“機(jī)器人記者”代替“人類記者”的自動化新聞寫作技術(shù),使得新聞出稿數(shù)量大幅增加;報道速度大大加快,在一些對時效性要求較高的領(lǐng)域具有顯著優(yōu)勢;形式更加多樣,不僅僅限于文字信息,圖片和視頻的識別、編輯能力也在迅速增強(qiáng)。對于商業(yè)媒體而言,以最有效的方式增加受眾和產(chǎn)出是其重要目標(biāo)。哥倫比亞大學(xué)的專家認(rèn)為,社交媒體和技術(shù)平臺對新聞生產(chǎn)的影響,F(xiàn)acebook、Snapchat、Google和Twitter這樣的技術(shù)平臺在加速全面接管傳統(tǒng)的新聞生產(chǎn)發(fā)行工作,并為之進(jìn)化,以適應(yīng)激烈的同行競爭。社交媒體和互聯(lián)網(wǎng)公司不滿足于只占有新聞內(nèi)容分發(fā)的渠道,他們逐漸掌握了讓你看到什么、感覺到什么、關(guān)注到什么的操縱技能,甚至改變了新聞的格式。此外,監(jiān)控流量的技術(shù)公司、追求精準(zhǔn)導(dǎo)流的媒介運(yùn)營商、外包商協(xié)作網(wǎng)絡(luò)乃至金融資本,都以各種方式參與新聞生產(chǎn),追求效益最大化。其結(jié)果可能是用戶成為被權(quán)力工具宰制的對象,成為機(jī)構(gòu)實(shí)現(xiàn)商業(yè)化目標(biāo)的手段。
智能技術(shù)具有工具價值,即它可以被應(yīng)用于特定的目的。但是技術(shù)的積極意義還在于其使用戶認(rèn)為它代表了一個“良好”社會的價值觀,也就是不只強(qiáng)調(diào)技術(shù)的工具理性,還關(guān)注技術(shù)的價值理性。技術(shù)對于人類而言,其終極價值—關(guān)乎人類生存的意義、生命與宇宙起源等—是極為重要的。從其起源開始,技術(shù)就與人類本質(zhì)屬性互相聯(lián)系—一開始以生命、生存為中心,并非以勞動生產(chǎn)為中心,更不是以權(quán)力為中心,技術(shù)始終是文化整體的一部分。強(qiáng)調(diào)工具價值,其行為是根據(jù)目的、手段和后果作為其行為取向的,目的和后果之間可能是相互競爭和沖突的,是目的至上的;而價值理性行為是人根據(jù)自己的信念(包括義務(wù)、尊嚴(yán)、美、宗教訓(xùn)示、孝順、某事的重要性等)和要求所做出的行為,是價值觀至上的行為。
此外,基于既有數(shù)據(jù)(包括非理性用戶)的智能技術(shù),有時會走向反智的一面,進(jìn)而反人類價值觀。2016年3月23日,微軟公司的智能聊天機(jī)器人Tay上線還不到一天,就被下線了。Tay基于上下文和動態(tài)數(shù)據(jù)的算法,導(dǎo)致其生成不可控的內(nèi)容,被“壞用戶”引入歧途,生成大量反人類倫理的對話:詆毀黑人,發(fā)表/轉(zhuǎn)發(fā)種族歧視、性別歧視和反猶太人的言論。對于機(jī)器人Tay而言,它其實(shí)根本不理解所輸出內(nèi)容的內(nèi)涵。就本質(zhì)而言,技術(shù)對人類的危險來自于人而不是機(jī)器。控制論創(chuàng)始人之一維納曾經(jīng)指出:“作為科學(xué)家,我們一定要知道人的本性是什么,一定要知道安排給人的種種目的是什么……我們一定得知道為什么我們要去控制人”。
算法運(yùn)用于新聞生產(chǎn)的業(yè)界技術(shù)探索和學(xué)界對智能算法的探討方興未艾,而算法與既有社會結(jié)構(gòu)進(jìn)行互動及對新社會秩序具有中介作用,在這個過程中,算法對既有社會秩序的延續(xù)與重構(gòu)、算法與人的復(fù)雜交互過程值得關(guān)注,算法并非僅以技術(shù)工具的角色存在于社會生活中,它已然在人與世界的交互中扮演起重要角色。在智能算法發(fā)展的過程中,人類的主體性與創(chuàng)造性、權(quán)力關(guān)系與道德風(fēng)險,以及工具價值與終極價值的矛盾的解決,都不是可以一蹴而就的。但不管最終結(jié)果如何,我們現(xiàn)在已經(jīng)進(jìn)入了一個智能算法強(qiáng)大到足以引起關(guān)注的時代。
注釋
①芒福德.機(jī)器的神話:技術(shù)與人類進(jìn)化(上)[M].宋俊嶺,譯.北京:中國建筑工業(yè)出版社,2015:3-4.
② 博登.人工智能的本質(zhì)與未來[M].孫詩惠,譯.北京:中國人民大學(xué)出版社,2017:3.
③陳昌鳳,石澤.價值嵌入與算法思維:智能時代如何做新聞[J].新聞與寫作,2021(1):54-59.
④ DIAKOPOULOS N.Automating the news:How algorithms are rewriting the media[M].Cambridge,MA:Harvard University Press,2019:1-2.
⑤ LATZER M,HOLLNBUCHNER K,JUST N,SAURWEIN F.The economics of algorithmic selection on the internet[M/OL].Zurich:University of Zurich,2014[2021-03-15].http://www.mediachange.ch/media//pdf/publications/Economics_of_algorithmic_selection_ WP.pdf.
⑥ 仇筠茜,陳昌鳳.基于人工智能與算法新聞透明度的“黑箱”打開方式選擇[J].鄭州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2018(5):84-88.
⑦ D?RR K.“Mapping the field of algorithmic journalism”[J].Digital Journalis,2015:1-24.
⑧ 仇筠茜,陳昌鳳.黑箱:人工智能技術(shù)與新聞生產(chǎn)格局嬗變[J].新聞界,2018(1):28-34.
⑨ 陳昌鳳,石澤.價值嵌入與算法思維:智能時代如何做新聞[J].新聞與寫作,2021(1):54-59.
⑩ REITER E,DALE R.Building natural—language generation systems[J].Natural Language Engineering,1997,3(1):57-87.
? GATT A,KRAHMER E.Survey of the state of the art in natural language generation:Core tasks,applications and evaluation[J].Journal of Artificial Intelligence Research,2018,61(1):65-170.
? SANTHANAM S,Shaikh S.A survey of natural language generation techniques with a focus on dialogue systems—past,present and future directions[J].2019.In arXiv:1906.00500.
? WEIZENBAUM J.Eliza-a computer program for the study of natural language communication between man and machine[J].Communications of the ACM,1966,9(1):36-45.
? KENNETH M.Artificial paranoia:a computer simulation of paranoid process[M].Oxford:Pergamon Press,1975.
? GABOR A,PERCY L,DAN K.A simple domain-independent probabilistic approach to generation[J].EMNLP 2010:502-512.
? REGINA B,LILLIAN L.Catching the drift:Probabilistic content models,with applications to generation and summarization[J].HLT-NAACL 2004:Main Proceedings,2004:113-120.
? RAVI K,BLAKE H,FRANK S.A statistical NLG framework for aggregated planning and realizationc[J].Proceedings of the Association for Computational Linguistics,2013:1406-1415.
? BLAKE H,RAVIKUMAR K,Frank S.Domain adaptable semantic clustering in statistical NLG[J].International Conference on Computational Semantics,2013.
? LU W,CLAIRE C.Domain independent abstract generation for focused meeting summarization[J].Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:1395-1405.
? SUTSKEVER I,VINYALS O,QUOC L.Sequence to sequence learning with neural networks[J].NIPS 2014:3104-3112
? HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Com putation,1997,9(8):1735-1780.
? VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[J].NIPS 2017:6000-6010.
? ZELLERS R,HOLTZMAN A,RASHKIN H,et al.Defending against neural fake news[J/OL].(2019-05-29)[2021-04-27].https://arxiv.org/abs/1905.12616.
? 仇筠茜,陳昌鳳.黑箱:人工智能技術(shù)與新聞生產(chǎn)格局嬗變[J].新聞界,2018(1):28-34.
? 虞鑫,陳昌鳳.美國“事實(shí)核查新聞”的生產(chǎn)邏輯與效果困境[J].新聞大學(xué),2016(6):27-33+66.
? 陳昌鳳,師文.智能化新聞核查技術(shù):算法、邏輯與局限[J].新聞大學(xué),2018(6):42-49.
? 趙禹橋.新聞寫作機(jī)器人的應(yīng)用及前景展望— 以今日頭條新聞機(jī)器人張小明(xiaomingbot)為例[J].(2017-01-11)[2021-04-27].http://media.people.com.cn/n1/2017/0111/c409691-29014245.html.
? 庫茲韋爾.人工智能的未來[J].盛楊燕,譯.杭州:浙江人民出版社,2016:170-189.
? 李凌.算法人文主義:智能時代信息價值觀的哲學(xué)論綱[J]//陳昌鳳,李凌.算法人文主義:公眾智能價值觀與科技向善(印刷中)[M].北京:新華出版社,2021.
? MüHLHOFF,R.Human-aided artificial intelligence:Or,how to run large computations in human brains? Toward a media sociology of machine learning[J].New Media &Society,2020,22(10):1868-1884.
? 克里斯琴斯.哲學(xué)視野中的人工智能:語言的視角[J]//陳昌鳳.智能傳播:理論、應(yīng)用與治理(印刷中).北京:中國社會科學(xué)出版社,2021.
? STEPHENR.培養(yǎng)數(shù)字時代的新聞記者:新聞學(xué)的想象力[J].全球傳媒學(xué)刊,2017(4):70-74.
? 師文,陳昌鳳.社交分發(fā)與算法分發(fā)融合:信息傳播新規(guī)則及其價值挑戰(zhàn)[J].當(dāng)代傳播,2018(6):31-33.
? 陳昌鳳,霍婕.權(quán)力遷移與關(guān)系重構(gòu):新聞媒體與社交平臺的合作轉(zhuǎn)型[J].新聞與寫作,2018(4):52-56.
? 呂新雨,趙月枝,吳暢暢,等.生存,還是毀滅—“人工智能時代數(shù)字化生存與人類傳播的未來”圓桌對話[J].新聞記者,2018(6):30-44.
? 師文,陳昌鳳.新聞專業(yè)性、算法與權(quán)力、信息價值:2018全球智能媒體研究綜述[J].全球傳媒學(xué)刊,2019(1):82-95.
? ORR W,Davis J L.Attributions of ethical responsibility by artificial intelligence practitioners[J].Information,Communication &Society,2020,23(5):1-17.
? 喻國明,姚飛.試論人工智能技術(shù)范式下的傳媒變革與發(fā)展—一種對于傳媒未來技術(shù)創(chuàng)新邏輯的探析[J].新聞界,2017(1):39-43.
? 師文,陳昌鳳.信息個人化與作為傳播者的智能實(shí)體:聚焦2020智能傳播研究[J].新聞記者,2021(1):90-96.
? HANSEN M,ROCA-SALES M,KEEGAN J,KING G.Artificial intelligence:Practice and implications for journalism[J/OL].Columbia University Academic Commons,2017(2017-09-14)[2021-04-27].https://doi.org/10.7916/D8X92PRD.
? 格倫瓦爾德.技術(shù)倫理學(xué)手冊[M].吳寧,譯.北京:社會科學(xué)文獻(xiàn)出版社,2017:302.
? 芒福德.機(jī)器的神話:技術(shù)與人類進(jìn)化(上)[M].宋俊嶺,譯.北京:中國建筑工業(yè)出版社,2015:11.
? 韋伯.經(jīng)濟(jì)與社會(上卷)[M].林榮遠(yuǎn),譯.北京:商務(wù)印書館,1997:57.
? 維納.人有人的用處[M].陳步,譯.北京:商務(wù)印書館,2019:144-166.
? 師文,陳昌鳳.信息個人化與作為傳播者的智能實(shí)體:聚焦2020智能傳播研究[J].新聞記者,2021(1):90-96.