国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語言模型賦能數(shù)字出版的機遇與挑戰(zhàn)

2023-11-19 22:50:33張寧西蒙·馬奧尼
編輯之友 2023年11期
關(guān)鍵詞:數(shù)字出版出版業(yè)人工智能

張寧 西蒙·馬奧尼

【摘要】以ChatGPT為代表的大語言模型廣泛應(yīng)用于對話生成、文本摘要生成、問答系統(tǒng)等場景,具有文字編輯、知識記憶的顯著優(yōu)勢,能替代重復(fù)性和耗時性工作,為數(shù)字出版領(lǐng)域的寫作、選題策劃、稿件審閱與校對、數(shù)字人語料供給、智能客服與銷售、機構(gòu)管理與決策帶來新機遇。同時,其在邏輯推理、文化關(guān)聯(lián)、意義挖掘等方面的不足凸顯,致使其內(nèi)容生成尚未融通正確出版觀,知識產(chǎn)權(quán)爭議不斷,還擴大了多元群體信息鴻溝,加劇形成“信息繭房”,加大內(nèi)容價值甄別難度,抬高用戶信息素養(yǎng)門檻。

【關(guān)鍵詞】數(shù)字出版 大語言模型 ChatGPT 人工智能 出版業(yè)

【中圖分類號】G230 【文獻標識碼】A 【文章編號】1003-6687(2023)11-045-07

【DOI】10.13786/j.cnki.cn14-1066/g2.2023.11.006

人工智能大語言模型(Large Language Models,LLMs)在生成文本方面表現(xiàn)出卓越優(yōu)勢并掀起了一場智力革命,其廣泛應(yīng)用于對話生成、文本摘要、問答系統(tǒng)等場景,具有文字編輯、知識記憶等優(yōu)勢,已逐步革新產(chǎn)業(yè)范式。2022年11月,美國人工智能企業(yè)OpenAI推出ChatGPT應(yīng)用,其技術(shù)模型是生成式預(yù)訓(xùn)練模型(Generative Pre-Training,GPT),生成式表明其能力是生成內(nèi)容,預(yù)訓(xùn)練表明其能力是預(yù)先訓(xùn)練的。該模型憑借流暢回應(yīng)復(fù)雜問題的能力,上線僅兩月活躍用戶達1億人,成為互聯(lián)網(wǎng)史上用戶增長最快的現(xiàn)象級應(yīng)用程序。其應(yīng)用效果完成了大眾對人工智能聊天機器人(ChatBot)從刻板的“人工智障”到“聰明有趣”的印象改觀。其強大的通用性和邏輯推理能力使其變成一個生產(chǎn)力工具,行業(yè)接受之廣引發(fā)大眾對技術(shù)應(yīng)用的深度思考,部分用戶甚至產(chǎn)生“機器換人”的恐慌。

當前,中外大語言模型開發(fā)競爭激烈,但工具定位各有不同。以ChatGPT為代表的主流模型訓(xùn)練數(shù)據(jù)源以英文居多,優(yōu)勢在于處理英文文本,輸出歐美國家主導(dǎo)下的內(nèi)容,部分答案并不適用于我國用戶;Meta繼發(fā)布Glactica和Blender Bot3大型語言模型之后,于2023年2月宣布推出科研領(lǐng)域?qū)S玫拇笮突A(chǔ)語言模型(Large Language Model Meta AI,LLaMA),即用于生成文本、對話、總結(jié)書面材料、證明數(shù)學(xué)定理、預(yù)測蛋白質(zhì)結(jié)構(gòu)等,服務(wù)科研工作者。中國互聯(lián)網(wǎng)大廠和高校立足國情陸續(xù)布局開發(fā)中國版ChatGPT,如復(fù)旦大學(xué)發(fā)布中國第一個對話式大型語言模型MOSS,可執(zhí)行對話生成、編程、事實問答等任務(wù);百度對標ChatGPT開發(fā)在中國文化的理解和輸出上更具優(yōu)勢的“文心一言”(ERNIE Bot)模型,更符合中國語境與相關(guān)規(guī)范。

大語言模型革新數(shù)字出版領(lǐng)域內(nèi)容創(chuàng)作范式,可縮短出版選題、編輯、加工、審核、校對、銷售、服務(wù)等周期,為出版業(yè)帶來前所未有的機遇,同時也給出版業(yè)帶來了新挑戰(zhàn)。如韓國出版商Snowfox Books發(fā)行了完全由ChatGPT撰寫的《找到人生目標的45種方法》一書,由AI完成英譯韓、校對和插圖工作,整個出版流程從先前的兩至三年壓縮到一周,效率遠超自然人,[1]高自動化水平雖然降低了出版內(nèi)容創(chuàng)作成本,但也存在一定的風(fēng)險。

一、大型語言模型賦能數(shù)字出版的機遇

目前以ChatGPT為代表的大語言模型,定位是為人類提供更加高效和智能化的輔助,而非替代業(yè)務(wù)鏈中的人工角色,其優(yōu)勢在于基于海量數(shù)據(jù)快速生成翔實系統(tǒng)的內(nèi)容,但內(nèi)容質(zhì)量不高,最終采納與否仍需人工干預(yù)。出版業(yè)可考慮將其私有化部署或改造嵌入目前的智能編輯分析系統(tǒng)、知識服務(wù)數(shù)字平臺、出版印刷智能云平臺、圖書銷售系統(tǒng)等,為從業(yè)人員和終端用戶提供更具精準性、時效性的信息支撐,促進數(shù)字出版高質(zhì)量發(fā)展。

1. 輔助選題策劃與內(nèi)容寫作,縮短選題與成稿周期

(1)大語言模型能夠智能挖掘與發(fā)現(xiàn)潛在出版項目,明確市場需求風(fēng)向標,按需規(guī)劃供應(yīng)出版內(nèi)容,全面解決編輯在進行高質(zhì)量內(nèi)容生產(chǎn)時的難題。[2]編輯在定題階段很難充分、全面地掌握相關(guān)領(lǐng)域的熱點,類似ChatGPT的大語言模型學(xué)習(xí)了龐大的在線文本數(shù)據(jù),能有效采集和挖掘主題信息,比對用戶提問信息,提取多個話題中的特點、異同、熱點、動態(tài)等,輸出熱點選題素材,為初始選題方案提供依據(jù)。[3]

(2)協(xié)助作者產(chǎn)生想法與思路,提供寫作素材。用戶通過不斷變換問題讓大語言模型從不同視角生成內(nèi)容,幫助作者從多角度看待問題,為作者的內(nèi)容創(chuàng)作提供線索與思路,也可幫助作者搜集論證所需的數(shù)據(jù)與案例,提供寫作素材。[4]例如,《自然》(Nature)對其672名讀者進行調(diào)研后發(fā)現(xiàn),27%的讀者使用ChatGPT等AI工具進行頭腦風(fēng)暴、輔助內(nèi)容創(chuàng)作。[5]

(3)用于耗時性和重復(fù)性的內(nèi)容生成,為作者留出更多時間從事創(chuàng)造性的知識生產(chǎn)。作者借助大語言模型完成概念性、重復(fù)性、程序性、搜索性等耗時性工作(如導(dǎo)論描述、術(shù)語定義、概念界定、數(shù)據(jù)溯源、要點提取等),[6]若是內(nèi)容不符合預(yù)期,作者也能與其交互從而修正內(nèi)容,獲取更新后的答案。作者還可輸入主題、目標、方法、數(shù)據(jù)等關(guān)鍵信息,利用ChatGPT等工具生成初稿,省去考慮行文風(fēng)格、語句、語法、邏輯,甚至潤色的時間。[7]然而,AI內(nèi)容生成質(zhì)量不高,高品質(zhì)內(nèi)容創(chuàng)作依舊需要作者投入一定的個人創(chuàng)造力。

(4)輔助文本翻譯、編譯和轉(zhuǎn)譯。大語言模型是一個處理各種自然語言任務(wù)并涵蓋不同語言的模型,被視為一個統(tǒng)一的多語言機器翻譯模型,具有較好的穩(wěn)健性與可信性,能夠有效提升作者閱讀外文的效率。[8]例如作者可利用 ChatGPT翻譯多元語言文本,生成連貫性、豐富性、系統(tǒng)性、準確性高的長篇翻譯稿件,也能實現(xiàn)古漢語轉(zhuǎn)譯為現(xiàn)代漢語,有效縮短編譯稿件的時間,提升工作效率。

2. 協(xié)助編輯稿件審閱與校對,提高審稿質(zhì)量與效率

(1)自動執(zhí)行簡單的稿件審閱任務(wù),縮短審稿周期。ChatGPT可依據(jù)設(shè)置的語法和格式規(guī)則分析稿件內(nèi)容、評價稿件質(zhì)量、標記提醒需要編輯處理的疑難問題,使到達編輯手頭的稿件質(zhì)量更高,給作者的反饋更快,也能更快進入排版與編寫階段。[9]

(2)檢測稿件內(nèi)容關(guān)鍵信息的準確性與一致性。ChatGPT能為審稿人提供標準信息參考,可識別數(shù)據(jù)不一致、錯誤或驗證研究結(jié)果的準確性,保證稿件內(nèi)容數(shù)據(jù)、術(shù)語、時間等元信息前后一致,甚至復(fù)現(xiàn)和檢測研究結(jié)論。[10]

(3)提升審稿反饋意見的客觀性。人工審稿會不可避免地將專家個人偏見滲入評審中,影響或干擾作者原始觀點與知識創(chuàng)新,甚至改變作者原始想法,不利于知識進步。大語言模型可檢測和驗證結(jié)構(gòu)化和客觀性強的稿件內(nèi)容,為審稿人提供參考意見,能在一定程度上消除個人偏見,為作者提供更客觀的反饋意見。

(4)輔助稿件校對與潤色,節(jié)省編輯人員校對時間。與Grammarly相比,ChatGPT英文校對效果比原稿好10倍,[11]能解決文本中機械的語法、邏輯和用詞問題,甚至改寫無實際內(nèi)涵的表述內(nèi)容,使文本表達自然通順、內(nèi)涵準確,[3]也可為古籍文本添加標點,提高文本可讀性。然而即便如此,其校對效果依舊存在瑕疵,需人工校對后才能出版。

3. 活化數(shù)字人語料信息供給,增強出版內(nèi)容呈現(xiàn)效果

(1)短視頻與直播數(shù)字虛擬人輸出內(nèi)容的知識容量與思維表述更具思想深度與廣度,而非機械陳述指定文本。服務(wù)型虛擬數(shù)字人核心功能是替代真人為用戶提供服務(wù),常見形態(tài)有虛擬主播、虛擬老師、虛擬陪伴助手等。2021年以來,各企業(yè)陸續(xù)推出用于短視頻和網(wǎng)絡(luò)直播的AI數(shù)字人主播,服務(wù)品牌介紹、知識科普、娛樂表演等,進一步推動知識傳播與知識服務(wù)。在不久的將來,用戶擁有善解人意和無所不知的虛擬老師和陪伴助手將是常態(tài)。[12]

(2)打造嵌入大語言模型應(yīng)用的身份型數(shù)字人,成為連接虛擬與現(xiàn)實的重要“人物”,支撐元宇宙出版產(chǎn)業(yè)落地。身份型數(shù)字人是用于社交、娛樂、傳播類型的虛擬IP/偶像/名人,可以是真人的輔助分身,也可以是個體在虛擬世界的第二分身。例如Meta Media超媒體控股集團旗下《InStyle優(yōu)家畫報》推出全球首位具有“靈魂”的虛擬主編Beatrice,依托ChatGPT擁有極其活躍的AI大腦和驚人的時尚思維,專為“Z世代”傳遞時尚資訊。[13]中華書局推出的“蘇東坡”數(shù)字人是名人在虛擬世界的分身,若集成ChatGPT類語言模型,則更能增強分身的逼真性與人情味,提升大眾對其傳達的中國傳統(tǒng)文化的信任度。

(3)活化游戲NPC對話,強化游戲體驗的真實性。游戲是數(shù)字出版的重要產(chǎn)品之一,用戶與NPC的互動通常需從固定選項中選擇。將ChatGPT接入Unity 3D中,讓AI控制游戲NPC與玩家對話,憑借龐大的語料數(shù)據(jù)庫,通過自動語音識別技術(shù),將聲音轉(zhuǎn)換為文字,對文字進行自然語言處理,并將處理的文字結(jié)果轉(zhuǎn)換為語音,可實現(xiàn)NPC與玩家的對話自由,[14]這使數(shù)量龐大但呆板的NPC“靈魂更加有趣”,可提高用戶沉浸感與交互質(zhì)量。[4]

4. 嵌入智能客服與銷售場景,提升服務(wù)流程精密程度

(1)輔助出版網(wǎng)站管理與運營,提高運營效率。 ChatGPT可用于出版類網(wǎng)站運營和營銷,包含電子郵件營銷、出版物描述生成、消息回復(fù)、個性化推薦、訂單處理與管理等。例如美國數(shù)字媒體公司BuzzFeed與OpenAI合作使用ChatGPT輔助網(wǎng)站內(nèi)容的制作。[15]

(2)根據(jù)用戶畫像定制個性化溝通內(nèi)容,提升智能客服或銷售場景中的用戶滿意度。ChatGPT等模型有多輪對話記憶功能和上下文對話學(xué)習(xí)能力,可持續(xù)學(xué)習(xí)與用戶互動產(chǎn)生的數(shù)據(jù)(如用詞、語氣、風(fēng)格、情緒等),理解用戶需求與偏好,為其提供準確、連貫、符合語境的答案,從而有效提高用戶滿意度。

(3)提升虛擬客服和虛擬銷售人員的可信度,帶動出版物銷售。將大語言模型對話能力與計算機視覺、機器人視覺和物理能力相結(jié)合,能創(chuàng)造出智能對話的人工智能系統(tǒng),賦予其數(shù)字人的外形,使其看起來“有血有肉”,聽起來“靈魂豐富”,可增強用戶信任。[12]

(4)輔助出版物信息推廣、展示與訪問,提高出版物銷量。大語言模型可生成摘要信息,方便經(jīng)銷商和讀者獲取出版物信息,也可根據(jù)分銷商的銷售記錄、盈利狀況、市場定位、市場動向撰寫出版行業(yè)資訊與報告,幫助經(jīng)銷商更好地制定訂購方案,還可根據(jù)讀者閱讀水平、興趣和閱讀歷史為其推薦網(wǎng)站、電子書、雜志、音樂等。

5. 輔助出版機構(gòu)規(guī)劃與運營,推進管理流程精細運作

(1)輔助識別出版產(chǎn)業(yè)發(fā)展方向與任務(wù)。大語言模型基于海量數(shù)據(jù)能分析出人類無法立即識別的趨勢與模式,其可行的分析事項包括:生成關(guān)于數(shù)字出版市場趨勢的報告或摘要、分析讀者消費行為趨勢、分析加大資金投入評估的準確性、分析數(shù)字出版產(chǎn)業(yè)規(guī)劃、分析高質(zhì)量數(shù)字出版產(chǎn)業(yè)發(fā)展測評指標、分析熱點選題等。

(2)輔助撰寫出版單位社交媒體賬號推文,加大推廣力度。當前出版單位對外宣傳和推薦的社交媒體平臺主要有微信、微博、抖音等,須配備專門的運營策劃、撰寫、發(fā)布圖文信息的人員,ChatGPT可在推文策劃、分析、成文方面輔助編輯人員,節(jié)省運營成本。[15]

(3)輔助出版人才培訓(xùn)與測評,提升從業(yè)人員素養(yǎng)。ChatGPT以人機對話方式為出版從業(yè)人員講授課程、解決或回答用戶問題,如推薦出版術(shù)語信息、定制考試內(nèi)容、閱卷評分、反饋考核結(jié)果,為數(shù)字出版從業(yè)人員提供個性、高效、私密的培訓(xùn)體驗;制定出版人才培育和測評的合格標準,輔助出版機構(gòu)人才選拔、評估與考核,提升從業(yè)人員專業(yè)素養(yǎng)。[16]

二、大語言模型賦能數(shù)字出版的挑戰(zhàn)

以ChatGPT為代表的大語言模型自動化程度較高,可替代重復(fù)性較高的數(shù)字出版工作任務(wù),節(jié)約數(shù)字出版所需時間與成本。ChatGPT是AI技術(shù)演進的一小步,但是大語言模型發(fā)展的一大步,其應(yīng)用在內(nèi)容真實性、合規(guī)性、合法性、倫理問題等方面存在諸多不足,距離大范圍落地應(yīng)用還有較長的路要走。大語言模型輔助數(shù)字出版面臨如下挑戰(zhàn)。

1. 人工智能不具人腦意識,尚未融通正確的出版觀

(1)不具備文化與意識形態(tài)概念。人工智能沒有意識,也就不可能有世界觀。大語言模型只是機器學(xué)習(xí)模型,是對語言的處理而非理解與判斷,其智能性是通過數(shù)學(xué)優(yōu)化算法從預(yù)訓(xùn)練數(shù)據(jù)集中整理排序出最優(yōu)答案,不具備站在特定立場輸出內(nèi)容的意識。[10]根植本土的數(shù)字出版產(chǎn)業(yè)具有文化屬性與意識形態(tài)屬性,除考慮出版內(nèi)容價值外,還需兼顧所處環(huán)境的文化與政治意識形態(tài)要素,這種更為高級的內(nèi)容生產(chǎn)要求是ChatGPT尚未達到的;“文心一言”GPT模型具備理解中國本土文化的些許優(yōu)勢,但仍需持續(xù)訓(xùn)練并具備正確的出版觀,這是大語言模型時代出版業(yè)關(guān)注的要點所在。

(2)倫理意識不足。加拿大國家研究委員會的數(shù)字技術(shù)高級研究官斯蒂芬·唐斯說:“現(xiàn)代AI是基于大量數(shù)據(jù)集上的應(yīng)用數(shù)學(xué)函數(shù)。數(shù)學(xué)函數(shù)沒有‘好‘惡之分,數(shù)據(jù)中的偏見也不容易被識別或阻止?!币O(shè)計出能被廣泛采用的生成式大語言模型倫理系統(tǒng)相當困難。[17]大語言模型開發(fā)的初衷是正向賦能人類工作、學(xué)習(xí)與生活,自然語言處理在倫理、價值觀、文化理解層面發(fā)揮的作用有限,不具備情感和道德判斷,可能輸出不合理和不恰當?shù)拇鸢?,容易引發(fā)群體性事故。例如Meta發(fā)布的科研輔助Galactica大語言模型因輸出不恰當?shù)姆N族歧視、文化優(yōu)越性內(nèi)容,上線僅48小時便慘遭下架,有違模型創(chuàng)建初心。因此,作者和編輯都需要警惕大語言模型輸出內(nèi)容存在的潛在倫理問題。

(3)技術(shù)壟斷引發(fā)科技與資本對民眾集中心化的思想與意識形態(tài)控制。ChatGPT的成功得益于巧妙的技術(shù)組合,打造比肩其技術(shù)效果的模型難度較大,某一應(yīng)用長期占領(lǐng)種子用戶市場,容易形成技術(shù)壟斷局面。大語言模型越成功,提供的答案也越精準,當全民都依賴和相信某一模型時,就容易捧出一個無所不知的權(quán)威“上帝”。從搜索引擎的發(fā)展歷程可知,互聯(lián)網(wǎng)大廠掌握核心的預(yù)訓(xùn)練數(shù)據(jù)集,為科技與資本巨頭對全民集中心化的思想與意識形態(tài)控制提供了得天獨厚的便利條件,須采取規(guī)范措施。

2. 預(yù)訓(xùn)練數(shù)據(jù)受質(zhì)量限制,輸出有偏見或錯誤的內(nèi)容

(1)預(yù)訓(xùn)練數(shù)據(jù)集存在數(shù)據(jù)污染現(xiàn)象,輸出內(nèi)容帶有偏見或錯誤。大語言模型的本質(zhì)是依據(jù)預(yù)訓(xùn)練數(shù)據(jù)統(tǒng)計分析,將預(yù)測的答案輸出給用戶,其關(guān)鍵在于數(shù)據(jù)是否正確、完整、全面、有邏輯。[9]而當前訓(xùn)練所用的海量自然語言數(shù)據(jù)多是在線文本數(shù)據(jù),其中不乏謠言、偏見和過時信息。

(2)自然語言處理獎勵模型擇優(yōu)機制,致使內(nèi)容輸出單一有偏見。大語言模型的數(shù)據(jù)統(tǒng)計生成模型通常具有統(tǒng)計顯著性特征,其答案輸出較為單一,缺乏多元性,這種越單一的答案通常越具偏見性,在人文社科領(lǐng)域尤為明顯。[17]

(3)專業(yè)領(lǐng)域數(shù)據(jù)采集力度不足,需平衡數(shù)據(jù)合規(guī)性和全面性之間的矛盾。訓(xùn)練ChatGPT模型所用的數(shù)據(jù)集要符合行業(yè)規(guī)范,需權(quán)衡多元主體與部門要求,以實現(xiàn)經(jīng)濟效益和社會效益的最大化。例如隱私數(shù)據(jù)和部分產(chǎn)業(yè)專用數(shù)據(jù)等未被納入訓(xùn)練數(shù)據(jù)集范圍,否則易導(dǎo)致大范圍信息泄露,影響社會安全。在出版行業(yè),ChatGPT在選題策劃、市場規(guī)模、用戶畫像等方面的預(yù)訓(xùn)練數(shù)據(jù)有限,甚至存在知識盲區(qū),這會降低選題、行業(yè)動態(tài)、用戶行為分析結(jié)果的可信度,甚至出現(xiàn)事實性錯誤。然而,部分數(shù)據(jù)的恒久缺失必然導(dǎo)致相關(guān)回應(yīng)存在偏差與缺陷,平衡這一矛盾是大語言模型推廣應(yīng)用落地要深思的關(guān)鍵問題之一。

(4)大語言模型訓(xùn)練需耗費較長時間與巨大財力,無力實時同步新數(shù)據(jù),具有延遲性。模型會因數(shù)據(jù)殘缺不全生成不相關(guān)的、通用的、重復(fù)的答案,甚至有違常識。[9]例如ChatGPT當前僅能基于2021年的數(shù)據(jù)集做出回應(yīng),對新近話題的回應(yīng)可能還處于空白期,也可能輸出有違事實的創(chuàng)造性答案,這需要作者、編輯、運營人員人工干預(yù),審核內(nèi)容后再出版,否則未經(jīng)審查的答案可能會誤導(dǎo)領(lǐng)域知識薄弱的用戶。

3. 知識產(chǎn)權(quán)問題爭議不斷,用稿質(zhì)量“劣幣驅(qū)逐良幣”

(1)網(wǎng)絡(luò)數(shù)據(jù)爬取具有侵權(quán)風(fēng)險,內(nèi)容生成存在知識產(chǎn)權(quán)之爭。大語言模型應(yīng)用進一步放大了數(shù)字網(wǎng)絡(luò)時代就存在的作品權(quán)屬不明這一問題,[18]文本版權(quán)狀態(tài)不明的情形將成為常態(tài),原因在于預(yù)訓(xùn)練數(shù)據(jù)抓取自網(wǎng)絡(luò)文本,再通過深度學(xué)習(xí)技術(shù)進行加工處理,使得內(nèi)容輸出更有邏輯。數(shù)據(jù)庫、網(wǎng)頁、APP等通常設(shè)置數(shù)據(jù)使用條約,但此類數(shù)據(jù)授權(quán)不一定充分和到位,如對受著作權(quán)保護的素材,直接引用可能會涉及學(xué)術(shù)倫理問題,增加GPT模型侵權(quán)的風(fēng)險,這是數(shù)據(jù)挖掘帶來的潛在知識產(chǎn)權(quán)問題。[19]誠然,該模型可生成受版權(quán)保護的內(nèi)容,但前提是模型的使用符合知識產(chǎn)權(quán)法規(guī)和學(xué)術(shù)倫理規(guī)范,如在必要時須獲得版權(quán)人許可。[16]

為規(guī)避學(xué)術(shù)不端問題,擁抱或絞殺大語言模型應(yīng)用的爭議不斷。持接納態(tài)度的編輯部認為:一方面,ChatGPT不能承擔(dān)法律責(zé)任,出版單位不能賦予其作者資格,對此,全球知名學(xué)術(shù)期刊《自然》(Nature)、《細胞》(Cell)編輯部明確聲明任何大語言模型工具都不能列為論文作者;另一方面,ChatGPT生成的內(nèi)容需在文中標注引用或聲明,大型出版集團如Springer Nature和Taylor&Francis聲明作者需合理利用新工具與新技術(shù),在文獻綜述、致謝、方法論、參考文獻等類似篇幅中聲明其使用結(jié)果與使用時間,而非忽略人工智能的貢獻度。持反對態(tài)度的機構(gòu)認為:大語言模型的內(nèi)容輸出帶有偏見和安全問題,為此需雇傭廉價勞動力人工標注帶有風(fēng)險的數(shù)據(jù),這種勞動剝削有違人權(quán)主義。同時,人類的思考能力與創(chuàng)造能力會被機器替代,造成個體創(chuàng)造力下降。因此荷蘭拉德堡德大學(xué)的計算認知科學(xué)家Iris van Rooij呼吁抵制此類模型,[20]《科學(xué)》(Science)雜志要求所有論文中都不得使用ChatGPT或其他任何人工智能工具生成的文本,中國著名科幻雜志《科幻世界》拒收ChatGPT等的AI投稿。

(2)自動化寫作使得知識創(chuàng)造商品化,出版內(nèi)容呈現(xiàn)單一、機械化特征。自動化內(nèi)容生成意味著寫作不再是知識創(chuàng)造與輸出,而是標準化的任務(wù)流,出版物出版成了純牟利的商品。AI生成的文本(尤其是創(chuàng)造性強的文學(xué)、藝術(shù)等)難以捕捉人類復(fù)雜和細微的情感,難以生成與人類產(chǎn)生情感共鳴和富有洞察力的文本內(nèi)容,出版物的多樣性、原創(chuàng)性、細膩程度降低。[21]

(3)利用大語言模型快速成稿與投稿加大編輯部審稿負荷,稿件質(zhì)量出現(xiàn)“劣幣驅(qū)逐良幣”的不良競爭局面。在大語言模型的加持下投稿數(shù)量猛增,編輯部既要處理大量稿件,還需花費更大成本辨別AI生成的內(nèi)容,工作負擔(dān)增大。例如《科幻雜志》(Clarkesworld Magazine)在收到大量AI生成的投稿后不堪重負暫時關(guān)閉投稿渠道。針對大模型書寫的稿件增多現(xiàn)象,亞馬遜特設(shè)新書籍類別Books about using ChatGPT,即用ChatGPT撰寫的圖書。由此,自動化寫作使得市場上將會流通大量劣質(zhì)出版物,優(yōu)秀原創(chuàng)作品可能喪失發(fā)表機會,部分作家可能面臨失業(yè)。

4. 技術(shù)與數(shù)據(jù)可及性不公,加劇形成信息鴻溝現(xiàn)象

(1)技術(shù)可及性不公,信息供給不均。以復(fù)旦大學(xué)版MOSS為代表的我國大預(yù)言模型最大短板是中文網(wǎng)頁干擾信息較多(如廣告),數(shù)據(jù)清理困難較大,有些回答邏輯不清甚至有違事實,整體上中文處理水平不高,比肩ChatGPT性能還有較長的路要走。國內(nèi)專家預(yù)判ChatGPT從數(shù)據(jù)、算力、模型等維度上領(lǐng)先“文心一言”一至兩年,概括起來為OpenAI第一梯隊、Google第二梯隊、百度第三梯隊。[22]OpenAI的服務(wù)只能采用微軟API接口,即不允許私有化部署,接口單一無法與機構(gòu)業(yè)務(wù)深度關(guān)聯(lián),無論是出于數(shù)據(jù)安全考慮還是使用的便捷性都不利于在中國落地。打造出版業(yè)專用的GPT成本過高,出版機構(gòu)可等待比肩ChatGPT的中國化模型推出后再考慮私有化部署或應(yīng)用改造。

(2)數(shù)據(jù)優(yōu)勢以英文文本為主,中文內(nèi)容生成質(zhì)量則稍顯遜色。用戶獲取信息的平等性受其所用模型和檢索話題、領(lǐng)域、時間等因素影響,ChatGPT所用算力資源大、標注成本高,處理英文數(shù)據(jù)更具優(yōu)勢,LLaMA文本訓(xùn)練重點是拉丁語和西里爾字母,而百度推出的“文心一言”模型預(yù)訓(xùn)練數(shù)據(jù)以互聯(lián)網(wǎng)上的漢語文本數(shù)據(jù)為主,各大語言模型所用的數(shù)據(jù)集質(zhì)量不一。[9]受中文漢字信息復(fù)雜度和在線文本數(shù)據(jù)質(zhì)量影響,我國大語言模型內(nèi)容輸出效果暫時難以比肩ChatGPT。

(3)用戶提問水平不一,答案質(zhì)量不同。大語言模型無論是替代現(xiàn)有搜索引擎還是嵌入搜索引擎都會加劇“信息繭房”現(xiàn)象,嚴重程度遠超推薦系統(tǒng)時代。ChatGPT在輸出答案之前需要拆分理解用戶輸入的問題,提問中的關(guān)鍵信息要素會影響其對內(nèi)置知識的調(diào)用,極端情況下可能出現(xiàn)不同表述的同一個問題的答案天差地別。發(fā)揮其效用要求用戶理解自然語言處理的流程,多角度拆解和重置問題以獲取理想答案,因此用戶既要懂得領(lǐng)域知識,也要了解計算機思維。[9]從實踐來看,若用戶提問用語模糊不清,輸出的答案也似是而非;也可能輸入清晰問題,答案卻模糊不清。除去客觀因素,答案檢索質(zhì)量受信息素養(yǎng)和領(lǐng)域知識差距影響,會不成比例地影響邊緣化群體,將使不同水平用戶之間的信息鴻溝持續(xù)加大,致使用戶認知更加單一,觀點更加頑固,甚至相信謬論。

5. 加大內(nèi)容價值甄別難度,抬高用戶信息素養(yǎng)門檻

(1)極具人情味的對話搜索方式降低用戶甄別信息的警惕心理,對用戶采納正確內(nèi)容的信息素養(yǎng)和領(lǐng)域知識提出了更高要求。ChatGPT的進化成長路徑之一是基于人類反饋進行強化學(xué)習(xí),持續(xù)與其交互才能深入理解用戶意圖,繼而主動輸出用戶偏好的答案。不同于傳統(tǒng)搜索引擎列舉的一條條冷冰冰的鏈接,ChatGPT以極具人情味的對話方式提升用戶對其輸出內(nèi)容的信任程度,降低對信息可信度的警惕心理,[23]這種更高明的騙術(shù)使普通用戶在有限的領(lǐng)域知識指引下默認其回應(yīng)正確合理,而模型因數(shù)據(jù)質(zhì)量有限會輸出帶有偏見或錯誤的答案,也會因為大量用戶濫用該技術(shù)訓(xùn)練模型學(xué)習(xí)錯誤答案而輸出誤導(dǎo)性信息。

(2)生成內(nèi)容難以溯源,參考數(shù)據(jù)不透明,抬高了用戶甄別信息可信度的門檻。不同于傳統(tǒng)搜索引擎列出的鏈接,大語言模型輸出的內(nèi)容是處理、排序后輸出的答案。因ChatGPT類應(yīng)用生成答案的原始數(shù)據(jù)來源不透明,作者難以溯源參考文獻的權(quán)威性和可信性,[8]判斷內(nèi)容可否采納的難度加大。[23]

(3)大語言模型善于擴充或壓縮文本篇幅,或有違作者原意。ChatGPT優(yōu)勢在于創(chuàng)造新文本,有時會遺漏或變相疊加重要細節(jié),例如將一段話壓縮為一句話,或?qū)⒁粋€關(guān)鍵信息擴充為一句話。作者和編輯在利用ChatGPT查詢內(nèi)容,校對、檢測稿件時,須辨別其內(nèi)容改寫是否有必要。[24]

結(jié)語

相較大語言模型對文本的處理與生成效率,人腦的短板在于存儲信息少、算力不足,ChatGPT類模型的出現(xiàn)為從業(yè)人員補充和擴展智能,推動數(shù)字出版高質(zhì)量發(fā)展,而出版業(yè)也要思考如何應(yīng)對上述挑戰(zhàn)。

大語言模型時代,數(shù)字出版從業(yè)人員要放大和強化作為自然人最為本能的優(yōu)勢,要做到擁有正確的出版觀、價值觀與使命感,具備能夠鑒別大語言模型創(chuàng)作內(nèi)容的有效性、客觀性、有用性的專業(yè)素養(yǎng);具備多角度、多元化、多語種問題表述與檢索能力,最大化、多角度、系統(tǒng)性地檢索答案,輔助內(nèi)容生成與編輯;根植具體情境提出重要且有意義的問題,善于從學(xué)科和產(chǎn)業(yè)實踐中發(fā)現(xiàn)問題,再借助人工智能內(nèi)容生成工具獲取答案,在完成個體工作的同時訓(xùn)練優(yōu)化大語言模型;發(fā)揮個體想象力和創(chuàng)造力,創(chuàng)建更為新穎優(yōu)質(zhì)的內(nèi)容,成為大語言模型預(yù)訓(xùn)練數(shù)據(jù)的供給者??傊?,沒有人類創(chuàng)造原始數(shù)據(jù),再強大的人工智能內(nèi)容生成工具也是“巧婦難為無米之炊”,人的角色難以替代。

參考文獻:

[1] 全球首本ChatGPT撰寫、AI翻譯校對的圖書將于下周在韓國出版[EB/OL].[2023-02-20].https://m.jiemian.com/article/8929512.html.

[2] 趙宇佳,姜進章. 智能出版的變革趨勢與策略[J]. 編輯之友,2023(1):64-72.

[3] 毛渝川,蔣慶. 首本由ChatGPT寫的實體書出版,國內(nèi)出版界如何應(yīng)對? [EB/OL].[2023-02-28].https://www.sohu.com/a/647497296_116237.

[4] Aljanabi M. ChatGPT: Future Directions and Open possibilities[J]. Mesopotamian Journal of CyberSecurity, 2023(1): 16-17.

[5] How Nature readers are using ChatGPT[EB/OL].[2023-02-20].https://www.nature.com/articles/d41586-023-00500-8.

[6] 孫美娟,吳楠. ChatGPT給人文社會科學(xué)帶來的機會大于沖擊——訪南京大學(xué)社會學(xué)院教授陳云松[EB/OL].[2023-02-23].中國社會科學(xué)網(wǎng),http://www.cssn.cn/skgz/bwyc/202302/t20230223_5594608.shtml.

[7] 王樹義,張慶薇. ChatGPT給科研工作者帶來的機遇與挑戰(zhàn)[J/OL].[2023-02-23].圖書館論壇,http://kns.cnki.net/kcms/detail/44.1306.G2.20230223.2231.002.html.

[8] Jiao W, Wang W, Huang J, et al. Is ChatGPT a good translator? A preliminary study[EB/OL].[2023-05-19].Cornell University,https://arxiv.org/abs/2301.08745.

[9] Bracey R. ChatGPT: Some uses for editors. CyberText Newsletter[EB/OL].[2023-01-21].https://cybertext.wordpress.com/2023/01/21/chatgpt-some-uses-for-editors/.

[10] Goldrick-Jones A. ChatGPT and the Role of Editors. Editors Toronto[EB/OL].[2023-02-06].https://editorstorontoblog.com/2023/02/06/chatgpt-and-the-role-of-editors/.

[11] Huh S. Emergence of the Metaverse and ChatGPT in Journal Publishing after the COVID-19 Pandemic[J]. Science Editing, 2023, 10(1): 1-4.

[12] 徐賜豪. 給數(shù)字人裝上ChatGPT?多家公司這樣回應(yīng)[EB/OL].[2023-02-22].https://finance.sina.com.cn/blockchain/roll/2023-02-22/doc-imyhpvzy8626660.shtml.

[13] 元宇宙首個時尚IP:全球第一個ChatGPT主編上任![EB/OL].[2023-02-22].https://t.qianzhan.com/caijing/detail/230223-b18a732d.html.

[14] 楊名宜,喻國明. 賦能與“賦魂”:數(shù)字虛擬人的個性化建構(gòu)[J]. 編輯之友,2022(9):44-50.

[15] Bruell A. BuzzFeed to Use ChatGPT Creator OpenAI to Help Create Quizzes and Other Content[EB/OL].[2023-01-26].https://www.wsj.com/articles/buzzfeed-to-use-chatgpt-creator-openai-to-help-create-some-of-its-content-11674752660.

[16] Hern A. AI bot ChatGPT Stuns Academics with Essay-Writing Skills and Usability[EB/OL].[2023-01-04].https://www.theguardian.com/technology/2022/dec/04/ai-bot-chatgpt-stuns-academics-with-essay-writing-skills-and-usability.

[17] 葉妮. 虛實共生:數(shù)據(jù)驅(qū)動時代的算法主體性、中介關(guān)系與治理邏輯[J]. 編輯之友,2023(5):59-65.

[18] 姚鶴徽. 智能時代出版者版權(quán)風(fēng)險與防范之策[J]. 編輯之友,2023(4):84-89.

[19] 叢立先,李泳霖. 聊天機器人生成內(nèi)容的版權(quán)風(fēng)險及其治理——以ChatGPT的應(yīng)用場景為視角[J]. 中國出版,2023(5):16-21.

[20] 賽先生. ChatGPT等新工具,將如何影響科學(xué)的發(fā)展?[EB/OL].[2023-02-23].https://mp.weixin.qq.com/s/VN87ujaEJeyTjZ0dyhLK8w.

[21] Bhattacharjee M. Should publishers fear the industry's next big disrupter? ChatGPT answers. What Is New in Publishing? [EB/OL].[2023-01-04].https://whatsnewinpublishing.com/should-publishers-fear-the-industrys-next-big-disrupter-chatgpt-answers/.

[22] IDC:2022中國大模型發(fā)展[EB/OL].[2023-02-26].https://www.eet-china.com/mp/a198216.html.

[23] Stokel-Walker C. AI Chatbots are Coming to Search Engines-can you Trust the Results?[EB/OL].[2023-05-16].https://www.nature.com/articles/d41586-023-00423-4.

[24] 沈書生,祝智庭. ChatGPT類產(chǎn)品:內(nèi)在機制及其對學(xué)習(xí)評價的影響[J]. 中國遠程教育,2023,43(4):8-15.

基金項目:廣東省教育科學(xué)規(guī)劃項目“面向大學(xué)生傳統(tǒng)文化教育的VR古籍游戲化系統(tǒng)模型與實踐研究”(2022GXJK416)

作者信息:張寧(1990— ),女,陜西渭南人,博士,北京師范大學(xué)文理學(xué)院講師,主要研究方向:數(shù)字出版、古籍文獻活化利用;西蒙·馬奧尼 (1952— ),男,英國倫敦人,博士,北京師范大學(xué)未來教育學(xué)院教授,倫敦大學(xué)學(xué)院信息研究系退休榮譽教師,主要研究方向:數(shù)字人文、數(shù)字出版、圖書營銷等。

猜你喜歡
數(shù)字出版出版業(yè)人工智能
以按需出版為抓手,推動出版業(yè)數(shù)字化轉(zhuǎn)型
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
AR與VR技術(shù)在兒童出版業(yè)中的應(yīng)用
新聞傳播(2016年23期)2016-10-18 00:54:12
學(xué)術(shù)期刊數(shù)字出版的運行模式與市場結(jié)構(gòu)
出版廣角(2016年15期)2016-10-18 00:24:33
淺談新媒體在美術(shù)類圖書出版中的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:34:07
做一個全民閱讀時代的“悅”讀人
今傳媒(2016年9期)2016-10-15 23:11:36
國際圖書出版市場現(xiàn)狀及趨勢分析
今傳媒(2016年9期)2016-10-15 22:36:15
下一幕,人工智能!
顺平县| 昆山市| 永年县| 哈巴河县| 芜湖县| 贵港市| 开江县| 平泉县| 泸溪县| 唐山市| 南阳市| 巫溪县| 托里县| 精河县| 吉林省| 辽中县| 南安市| 斗六市| 含山县| 景德镇市| 三亚市| 崇阳县| 南阳市| 勃利县| 高邑县| 阿克苏市| 宜兰县| 阆中市| 庆安县| 三穗县| 汤原县| 广元市| 临海市| 米泉市| 陈巴尔虎旗| 镇沅| 铜山县| 象山县| 醴陵市| 周口市| 闽清县|