徐麗芳?田崢崢
【關(guān)? 鍵? 詞】人工智能;智能出版;智能閱讀;價(jià)值鏈;協(xié)同數(shù)字出版
【作者單位】徐麗芳,武漢大學(xué)數(shù)字出版研究所,中宣部“可信數(shù)字版權(quán)生態(tài)與標(biāo)準(zhǔn)重點(diǎn)實(shí)驗(yàn)室”;田崢崢,武漢大學(xué)信息管理學(xué)院出版科學(xué)系。
【基金項(xiàng)目】文化名家暨“四個(gè)一批”人才工程項(xiàng)目“中國科技出版國際傳播戰(zhàn)略研究”中期成果。
【中圖分類號(hào)】G230.7 【文獻(xiàn)標(biāo)識(shí)碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2021.13.001
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等信息技術(shù)的發(fā)展,以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)開始飛速發(fā)展?!癆rtificial Intelligence”(AI)由美國計(jì)算機(jī)科學(xué)家約翰·麥卡錫(John McCarthy)在1956年8月的達(dá)特茅斯會(huì)議上正式提出。AI試圖把握智能的實(shí)質(zhì),并讓機(jī)器能夠做出類似人類智能的反應(yīng)。自20世紀(jì)70年代代表AI由理論研究走向?qū)嶋H應(yīng)用的專家系統(tǒng)出現(xiàn)以來[1],其在各行各業(yè)已有不同程度和范圍的應(yīng)用。在醫(yī)療領(lǐng)域,它推動(dòng)了就診流程、醫(yī)學(xué)診斷、藥物研發(fā)等工作和流程的智能化,如利用人工智能系統(tǒng)診斷皮膚癌已經(jīng)達(dá)到專業(yè)醫(yī)生水平;在法律領(lǐng)域,它幫助實(shí)現(xiàn)法律條文及判決書智能檢索、類案智能推送等;在金融領(lǐng)域,它帶來無人銀行、智能客服與智能風(fēng)控等服務(wù)。而在出版領(lǐng)域,AI催生了“智能出版”“智能閱讀”等新型出版與閱讀模式,正在重塑傳統(tǒng)出版價(jià)值鏈及其價(jià)值增值環(huán)節(jié)。
一、價(jià)值鏈視角下的智能出版與智能閱讀
從傳統(tǒng)出版價(jià)值鏈角度來看,閱讀是出版的消費(fèi)環(huán)節(jié)。而智能技術(shù)背景下,智能出版與智能閱讀在新價(jià)值鏈中呈現(xiàn)互融、互動(dòng)的一體化態(tài)勢,于是實(shí)現(xiàn)兩者的協(xié)同發(fā)展成為一個(gè)十分必要和緊迫,也更為復(fù)雜的問題。
1.智能出版與智能閱讀
縱觀人類出版與閱讀發(fā)展史可以發(fā)現(xiàn),每一次技術(shù)變遷都帶來了出版與閱讀構(gòu)成要素、發(fā)展模式、實(shí)踐路徑等或緩慢或劇烈的變革。因此,或可從技術(shù)邏輯出發(fā)來理解智能出版與智能閱讀。在供給端“出版”一側(cè),智能技術(shù)的發(fā)展與漸趨成熟在機(jī)器參與內(nèi)容創(chuàng)作、大數(shù)據(jù)輔助選題決策、自動(dòng)編校以及定向推廣和傳播等方面為出版提供支撐,改變了傳統(tǒng)出版的內(nèi)部景觀與外在形式,使出版流程、產(chǎn)品與服務(wù)呈現(xiàn)自動(dòng)化、系統(tǒng)化乃至智能化的特點(diǎn)。在需求端“閱讀”一側(cè),智能技術(shù)的不斷革新與累積性發(fā)展賦予機(jī)器某種程度的“智能”并使之成為新閱讀主體;與此同時(shí),機(jī)器強(qiáng)大的計(jì)算能力不斷拓展人類閱讀能力和水平的邊界。值得注意的是,智能閱讀的直接主體是能夠處理大信息量、高復(fù)雜度內(nèi)容,擁有一定智能水平的機(jī)器——計(jì)算機(jī),而不是人類。
機(jī)器并非第一次參與出版,但是,以往無論是用紙張復(fù)制文字以實(shí)現(xiàn)文字產(chǎn)品高速生產(chǎn)與傳播的印刷機(jī),還是復(fù)制電子信號(hào)推動(dòng)音像制品傳播的錄像機(jī)、錄音機(jī)等,抑或復(fù)制數(shù)字信號(hào)使文化大眾化達(dá)到新水平的早期計(jì)算機(jī)與互聯(lián)網(wǎng),機(jī)器所發(fā)揮的作用多可借助德國哲學(xué)家瓦爾特·本雅明(Walter Benjamin)所提出的“機(jī)械復(fù)制”(Mechanical Reproduction)來概括。機(jī)器也用于出版活動(dòng)的管理,如以系統(tǒng)化管理思想為指導(dǎo),借助計(jì)算機(jī)為出版企業(yè)決策層和員工提供決策手段的企業(yè)資源計(jì)劃系統(tǒng)(Enterprise Resource Planning, ERP)[2],以及人機(jī)(計(jì)算機(jī))集成的能進(jìn)行信息收集、傳遞、儲(chǔ)存、加工、維護(hù)和使用并利用計(jì)算機(jī)輔助人類決策的管理信息系統(tǒng)(Management Information System, MIS)等[3]。但是,無論機(jī)械復(fù)制還是輔助管理決策,機(jī)器的每一次啟動(dòng)和運(yùn)行都需要得到人類的指令。如今,由于智能技術(shù)已進(jìn)入自動(dòng)模仿人類思維的機(jī)器學(xué)習(xí)階段[4],擁有智能的機(jī)器能夠在出版活動(dòng)中進(jìn)行某種程度的“創(chuàng)造”。因此,所謂智能出版,即應(yīng)用人工智能技術(shù)使出版業(yè)務(wù)、管理和決策等活動(dòng)更加智能化的新型出版業(yè)態(tài)[5-6]。所謂智能閱讀,即應(yīng)用人工智能技術(shù)(的機(jī)器)從任意編碼系統(tǒng)解讀所掌握數(shù)據(jù)、信息所含意義的過程。在2018年由斯坦福大學(xué)發(fā)起的文本閱讀理解挑戰(zhàn)賽中,微軟亞洲研究院和阿里巴巴所開發(fā)的人工智能閱讀產(chǎn)品的測試成績甚至超過了人類選手的得分。但是,無論智能出版還是智能閱讀,當(dāng)前無疑還處在智能化發(fā)展的初期階段。
智能出版與智能閱讀都是人工智能技術(shù)應(yīng)用于相應(yīng)活動(dòng)后的產(chǎn)物,因此兩者具備一些共性特點(diǎn)。首先,其直接主體都是具備一定智能水平的機(jī)器或程序;其次,迄今為止兩者應(yīng)用一系列相似的人工智能技術(shù),并遵循一套類似的底層運(yùn)行邏輯。目前,這些人工智能技術(shù)主要包括使機(jī)器能夠使用人類語言交流的自然語言處理技術(shù);幫助機(jī)器表示、存儲(chǔ)所掌握信息的知識(shí)表示技術(shù);使機(jī)器運(yùn)用所存儲(chǔ)信息回答問題甚至得出新結(jié)論的自動(dòng)推理技術(shù);作為人工智能核心技術(shù)與實(shí)現(xiàn)手段、賦能機(jī)器適應(yīng)新情況,并可進(jìn)行檢測和預(yù)測活動(dòng)的機(jī)器學(xué)習(xí)技術(shù)[7]。而當(dāng)下人工智能主要的運(yùn)行邏輯是依托神經(jīng)網(wǎng)絡(luò)等新技術(shù),模擬人腦運(yùn)行機(jī)制讓機(jī)器對(duì)大量數(shù)據(jù)進(jìn)行挖掘與分析,從中總結(jié)特征與規(guī)律,以進(jìn)一步掌握智能行為方式并不斷迭代。這也被稱為深度學(xué)習(xí)(Deep Learning),它作為當(dāng)前新一波的人工智能潮流[8],有力地推進(jìn)著各領(lǐng)域智能化的步伐。
2.價(jià)值鏈分析
無論是早期的企業(yè)價(jià)值鏈理論,還是后來國際分工現(xiàn)象所催生的全球價(jià)值鏈理論,其核心觀點(diǎn)都在于:一個(gè)產(chǎn)品的生產(chǎn)過程,可以劃分為多個(gè)增值環(huán)節(jié),其中創(chuàng)造價(jià)值、決定企業(yè)經(jīng)營成敗和效益的可以是位于上游的產(chǎn)品研發(fā)、創(chuàng)意設(shè)計(jì),也可以是中游的產(chǎn)品制造、質(zhì)量控制,或是下游的品牌推廣、售后服務(wù)等[9]。
那么,智能出版和智能閱讀在價(jià)值鏈中是何關(guān)系?在傳統(tǒng)出版價(jià)值鏈中,閱讀作為消費(fèi)環(huán)節(jié)雖然是價(jià)值實(shí)現(xiàn)的重要指標(biāo),但是對(duì)企業(yè)而言并不產(chǎn)生價(jià)值增值,因此并不在以出版社為代表的出版企業(yè)價(jià)值鏈、以印刷商為代表的復(fù)制企業(yè)價(jià)值鏈、以書店為代表的發(fā)行企業(yè)價(jià)值鏈之中?;蛘哒f,閱讀作為消費(fèi)者價(jià)值鏈的重要環(huán)節(jié),雖然牽引或者推動(dòng)著出版行業(yè)、企業(yè)的價(jià)值鏈運(yùn)行,但本身并非后者的組成部分。但是,智能技術(shù)引入出版和閱讀后使得兩者的關(guān)系發(fā)生了變化。人類的生產(chǎn)器官主要包括體力與智力兩種要素,機(jī)器的生產(chǎn)器官也與此類似:動(dòng)能自動(dòng)化標(biāo)志著機(jī)器“體力”器官的發(fā)育成熟;人工智能標(biāo)志著其“智力”器官也開始發(fā)育并走向成熟[10]。在智能技術(shù)背景下,機(jī)器部分地成為出版和閱讀的主體。而且,智能閱讀幾乎滲入每一個(gè)智能出版的價(jià)值增值環(huán)節(jié),并作為后者的必要條件之一而存在;尤其在創(chuàng)作環(huán)節(jié),智能閱讀可謂機(jī)器創(chuàng)作的先決條件;同時(shí),智能閱讀作為新增的智能出版增值環(huán)節(jié),提供獨(dú)立的產(chǎn)品或工具,幫助人類讀者更高效地閱讀。這意味著,智能閱讀成了智能出版價(jià)值鏈的有機(jī)構(gòu)成要素甚至獨(dú)立價(jià)值增值環(huán)節(jié)(見圖1)。
最近的千年之交,已經(jīng)運(yùn)行、演化了1500余年的印刷出版系統(tǒng)達(dá)到了其歷史發(fā)展的巔峰并開始走向衰落。所謂日中則昃,月盈則食,天地盈虛,與時(shí)消息(出自《易·豐》)。而印刷出版系統(tǒng)面對(duì)人類社會(huì)新一輪信息爆炸左右支絀的窘狀,則早在20世紀(jì)40年代中期計(jì)算機(jī)問世開啟全世界范圍內(nèi)的第一次信息革命時(shí)就已注定。以圖書出版和消費(fèi)為例,年度出書品種飛漲、單品種印量持續(xù)下降、圖書庫存高企、人均年度圖書閱讀量卻徘徊不前——這在很多國家成為普遍的現(xiàn)象。這種種并非孤立的混亂現(xiàn)象,是在信息傳播技術(shù)沖擊下,全球出版業(yè)乃至整個(gè)內(nèi)容產(chǎn)業(yè)舊系統(tǒng)、舊范式開始崩解而新系統(tǒng)、新范式尚未建立之時(shí)的征象。用協(xié)同學(xué)(Synergetics)的觀點(diǎn)來看,人類的出版系統(tǒng)已經(jīng)遠(yuǎn)離平衡態(tài);當(dāng)下和未來,整個(gè)系統(tǒng)必須通過與外部物質(zhì)、能量的交換,以及內(nèi)部的協(xié)同作用,來重新達(dá)成時(shí)空結(jié)構(gòu)和功能上的有序性。協(xié)同論的創(chuàng)始人,聯(lián)邦德國斯圖加特大學(xué)教授、著名物理學(xué)家赫爾曼·哈肯(Hermann Haken)認(rèn)為,當(dāng)一個(gè)系統(tǒng)的子系統(tǒng)之間關(guān)聯(lián)運(yùn)動(dòng)比較弱,無規(guī)則獨(dú)立運(yùn)動(dòng)占據(jù)主導(dǎo)地位時(shí),整個(gè)系統(tǒng)就會(huì)處于無序狀態(tài);一旦關(guān)聯(lián)運(yùn)動(dòng)占據(jù)主導(dǎo)地位,整個(gè)系統(tǒng)便會(huì)出現(xiàn)由關(guān)聯(lián)運(yùn)動(dòng)決定的協(xié)同運(yùn)動(dòng),從而呈現(xiàn)宏觀有序的結(jié)構(gòu)。其中,子系統(tǒng)之間的關(guān)聯(lián)被看作“使一切事物有條不紊地組織起來的無形之手”[11],也被稱為決定系統(tǒng)有序結(jié)構(gòu)的“序參數(shù)”[12]。而AI技術(shù),很可能是出版系統(tǒng)重歸平衡態(tài)的序參數(shù)之一。在生產(chǎn)環(huán)節(jié),面臨海量、多元、異構(gòu)數(shù)據(jù)和信息,需要借助AI搜索、序化組織和分析信息,發(fā)現(xiàn)潛藏的規(guī)律和規(guī)則,以促進(jìn)出版業(yè)務(wù)、管理、決策的高效運(yùn)行,從而出版附加值更高的出版物;在閱讀環(huán)節(jié),面臨信息過載壓力的讀者同樣需要利用AI技術(shù)、產(chǎn)品或服務(wù)來規(guī)避無效閱讀、提高閱讀效率。結(jié)果是,各業(yè)務(wù)環(huán)節(jié)和閱讀作為出版的子系統(tǒng),由于部分地?fù)碛泄餐黧w(智能計(jì)算機(jī))并共享相似的底層運(yùn)算邏輯,它們之間就有了連接、協(xié)同的可能性;而要消化并利用AI,以創(chuàng)造最大價(jià)值為目標(biāo)重塑傳統(tǒng)出版價(jià)值鏈,進(jìn)而實(shí)現(xiàn)整個(gè)出版業(yè)態(tài)的智能化升級(jí),則各智能化價(jià)值增值環(huán)節(jié)的協(xié)同就成為迫切需要解決的問題。就智能閱讀和智能出版兩者而言,主要通過兩種途徑來實(shí)現(xiàn)前述目標(biāo):一是智能閱讀深度嵌入出版價(jià)值鏈各環(huán)節(jié)發(fā)揮基礎(chǔ)作用;二是智能閱讀延伸出版價(jià)值鏈,成為其新增的價(jià)值增值環(huán)節(jié)。
二、智能閱讀:價(jià)值鏈的滲透
從智能出版價(jià)值鏈來看,智能閱讀作為基礎(chǔ)要素幾乎已嵌入、滲透于每一個(gè)價(jià)值增值環(huán)節(jié)。其在每個(gè)環(huán)節(jié)中的作用也許不易覺察,更沒有被冠以“智能與閱讀”之名;但是,這些“隱而不顯”“有實(shí)無名”的活動(dòng),其實(shí)質(zhì)是智能閱讀,即機(jī)器對(duì)數(shù)據(jù)、信息、內(nèi)容及其所含意義的掌握、解讀——以此為基礎(chǔ),出版各環(huán)節(jié)的智能化才有可能實(shí)現(xiàn)。其中,協(xié)同發(fā)展主要表現(xiàn)為智能閱讀嵌入智能出版各環(huán)節(jié),以幫助實(shí)現(xiàn)流程與所提供產(chǎn)品或服務(wù)智能化的過程。
1.選題策劃環(huán)節(jié)
選題策劃位于出版價(jià)值鏈的前端,在把控出版方向與保證出版質(zhì)量等方面發(fā)揮著重要作用。傳統(tǒng)選題策劃多依賴編輯的個(gè)人經(jīng)驗(yàn)、知識(shí)儲(chǔ)備與預(yù)見能力等,具有明顯的個(gè)人主觀傾向。因此,許多原本可以暢銷的選題,很可能因?yàn)榫庉嬈玫纫蛩乇缓鲆?,如《哈利·波特與魔法石》曾被12家出版商拒絕,《暮光之城》在出版前也遭到14次拒稿,《飄》更是被連拒38次。
基于大數(shù)據(jù)的智能技術(shù)一定程度上可減輕編輯主觀性帶來的不良影響:通過收集并分析讀者個(gè)人數(shù)據(jù),從中得出讀者偏好,描繪讀者期望閱讀的圖書,并據(jù)此展開選題策劃;或通過閱讀以往海量暢銷出版物、近期社會(huì)熱點(diǎn)事件、產(chǎn)業(yè)政策文件等,總結(jié)當(dāng)下最有可能暢銷的主題、風(fēng)格、基調(diào)等,進(jìn)而策劃符合讀者喜好、市場趨勢和政策引導(dǎo)的選題。2016年美國出版《暢銷書密碼》一書。作者朱迪·阿徹(Jodie Archer)和馬修·L·喬克斯(Matthew L Jockers)用名為“暢銷零距離”的算法讓機(jī)器“閱讀”過去30年間出版的20000個(gè)小說文本后,得出影響小說暢銷的2799個(gè)通行元素。阿徹和喬克斯坦承,這“會(huì)讓部分人很開心,部分人很氣惱,還有不少人持懷疑態(tài)度”[13]。但是,《衛(wèi)報(bào)》的評(píng)論仍然認(rèn)為:“這可能徹底改變出版業(yè)。”[14]
2.內(nèi)容創(chuàng)作環(huán)節(jié)
智能閱讀是智能化內(nèi)容創(chuàng)作的重要前提:一方面,機(jī)器智能閱讀后的結(jié)果將成為輔助人類作者創(chuàng)作的工具;另一方面,海量“閱讀”和在此基礎(chǔ)上的有效分析也是機(jī)器創(chuàng)作的先決條件。
此環(huán)節(jié)中的智能閱讀極度依賴深度學(xué)習(xí)技術(shù)。這也是目前機(jī)器學(xué)習(xí)研究中的熱點(diǎn)。傳統(tǒng)機(jī)器學(xué)習(xí)的效果很大程度上取決于人工設(shè)計(jì)數(shù)據(jù)表示和輸入特征的有效性;而深度學(xué)習(xí)則試圖通過建立深度神經(jīng)網(wǎng)絡(luò)來自動(dòng)完成數(shù)據(jù)表示和特征提取工作,且強(qiáng)調(diào)最終提取出不同程度與維度的有效表示以提高對(duì)數(shù)據(jù)的解釋力[15]。同時(shí),機(jī)器也掌握了一些角色設(shè)置與情節(jié)推進(jìn)的技巧,從而既為人類寫作提供參考,又支撐機(jī)器創(chuàng)作。如為圖書出版、電影和電視行業(yè)提供服務(wù)的平臺(tái)StoryFit在應(yīng)用深度學(xué)習(xí)技術(shù)后,從文本中提取大量故事關(guān)鍵特征,并量化情緒、語氣和性格等要素,為人類作者提供豐富數(shù)據(jù)[16],幫助其完成內(nèi)容創(chuàng)作。此外,機(jī)器在“閱讀”大量內(nèi)容的基礎(chǔ)上,也已具備文本生成能力。谷歌大腦(Google Brain)便是通過閱讀、學(xué)習(xí)、吸收上萬部小說中遣詞造句的精華,來生成流利與熟練的句子[17]。目前,機(jī)器不但能夠撰寫簡單的新聞報(bào)道,還能夠創(chuàng)作詩歌、小說等文學(xué)作品。如微軟小冰寫作的被稱為“人類史上首部人工智能靈思詩集”的《陽光失了玻璃窗》[18];又如,由機(jī)器創(chuàng)作的《電腦寫小說的那一天》《真愛》等。
3.內(nèi)容編校環(huán)節(jié)
智能技術(shù)下的編校環(huán)節(jié)同以往相比也發(fā)生了變化。20世紀(jì)末出現(xiàn)的“工智通”“黑馬”等自動(dòng)校稿軟件能夠識(shí)別錯(cuò)字、漏字、標(biāo)點(diǎn)錯(cuò)誤等問題,但很難有效識(shí)別數(shù)字符號(hào)、圖表公式等專業(yè)領(lǐng)域問題[19],也無法在上下文語境中處理語句問題。人工智能由于賦予了機(jī)器自然語言處理和深度學(xué)習(xí)的能力,機(jī)器在“閱讀”“學(xué)習(xí)”大量文本內(nèi)容、語料庫、詞庫以及規(guī)則庫后,可擁有較強(qiáng)的語義分析和詞匯聯(lián)系能力,因而能夠更智能地實(shí)現(xiàn)機(jī)器自動(dòng)查錯(cuò)與糾錯(cuò)。另外在學(xué)術(shù)出版領(lǐng)域,當(dāng)前許多判定抄襲、剽竊的算法都是逐字匹配的。比如抄襲者換用同義詞、近義詞便可以規(guī)避被判定為抄襲的風(fēng)險(xiǎn),但擁有語義分析與詞匯聯(lián)系能力的機(jī)器可以識(shí)別整個(gè)句子或段落的組成部分,從而更好地判定是否為抄襲[4]。
4.內(nèi)容推廣和傳播環(huán)節(jié)
僅2019年我國便出版了22.5萬種新版圖書,加上重印書,年出書品種達(dá)到50.6萬種[20]。在這樣規(guī)模的圖書市場上,讀者往往難以找到最合適的圖書,圖書也很難找到合適的讀者。但智能閱讀可以幫助更好地解決這個(gè)問題,實(shí)現(xiàn)“為人找書”“為書找人”的平衡。智能化的機(jī)器“閱讀”圖書后,會(huì)對(duì)圖書文本進(jìn)行處理,隨后從中提煉關(guān)鍵元素;再借助大數(shù)據(jù)分析讀者個(gè)人信息,將讀者從群體中剝離出來,成為單個(gè)具有異質(zhì)性需求的“顆?!?,然后在此基礎(chǔ)上實(shí)現(xiàn)圖書與讀者的精準(zhǔn)匹配,幫助出版商實(shí)現(xiàn)“我所給的正是你想要的”這一目標(biāo)[21]。比如為媒體和出版行業(yè)提供推廣服務(wù)的人工智能平臺(tái)英特羅格(Intellogo)通過機(jī)器對(duì)內(nèi)容的“閱讀”,判定內(nèi)容主題、類型、情感等,同時(shí)結(jié)合讀者行為數(shù)據(jù),預(yù)測讀者需求并為其推薦內(nèi)容。Intellogo創(chuàng)始人尼爾·巴爾薩澤(Neil Balthaser)堅(jiān)信:“平臺(tái)能夠?yàn)閭鹘y(tǒng)和獨(dú)立出版商提供洞察內(nèi)容的新視角和圖書銷售的新機(jī)會(huì)?!盵22]
三、智能閱讀:價(jià)值鏈的延伸
信息自互聯(lián)網(wǎng)產(chǎn)生以來就呈現(xiàn)爆炸式增長態(tài)勢,預(yù)計(jì)到2035年全球數(shù)據(jù)產(chǎn)生量將達(dá)到2142 ZB[23]。這使得人們?cè)谏?、學(xué)習(xí)和工作中普遍面臨信息過載的壓力。在大眾出版領(lǐng)域,內(nèi)容平臺(tái)往往向用戶提供基于智能閱讀的服務(wù),主要表現(xiàn)為內(nèi)容的個(gè)性化推薦。在教育出版和泛知識(shí)服務(wù)領(lǐng)域,在信息推送之外還發(fā)展出智能問答系統(tǒng)、智能導(dǎo)師等新興產(chǎn)品和解決方案。而在科技出版領(lǐng)域,智能閱讀的需求尤甚,僅2010—2020年,美國便發(fā)表了421萬篇論文,排在第2位的中國發(fā)表了302萬篇論文[24]。如此浩繁的文獻(xiàn),不只是數(shù)量,其復(fù)雜程度與邏輯關(guān)聯(lián)也都遠(yuǎn)在個(gè)人的處理和解讀能力之外,僅依靠人類自身已無法完全了解、吸收哪怕是單個(gè)學(xué)科領(lǐng)域的信息和知識(shí)。于是,“遙讀(Distant Reading,又譯作“遠(yuǎn)距離閱讀”“遠(yuǎn)讀”)”“策略性閱讀(Strategic Reading)”等新智能閱讀形態(tài)應(yīng)運(yùn)而生,并作為獨(dú)立的增值環(huán)節(jié)延伸了科技出版價(jià)值鏈。
1.遙讀
斯坦福大學(xué)弗蘭科·莫雷蒂(Franco Moretti)教授于2000年在《關(guān)于世界文學(xué)的猜想》中提出遙讀概念。他對(duì)遙讀的定義是:“通過聚合和分析大量數(shù)據(jù)來理解文學(xué),而不是研讀特定的文本。”[25]現(xiàn)在,遙讀通常指在面對(duì)信息量大、復(fù)雜度高的文本內(nèi)容時(shí),利用機(jī)器計(jì)算、聚類、分析文本,從中檢索和提取代表文本主題的詞句、短語以得到文章主題的快速閱讀方法。遙讀不需要人類讀者來閱讀文本;閱讀實(shí)際上被“外包”給了機(jī)器[26];通過機(jī)器閱讀歸納人工無法總結(jié)出的模式特征與規(guī)律,幫助人類讀者提高信息獲取和處理效率。盡管遙讀被一些研究者指為會(huì)在一定程度上導(dǎo)致文字被機(jī)械化切割,并粗暴地重組為自動(dòng)聚類的短信流和維基詞條一般的快讀素材[27],忽視甚至破壞文本的完整性,但是,它仍然預(yù)示了廣闊的應(yīng)用前景。
遙讀使個(gè)人得以消化體量龐大的文本內(nèi)容,并對(duì)這些內(nèi)容有一個(gè)宏觀和全局層面的把握。莫雷蒂利用計(jì)算機(jī)分析1740—1850年出版的7000本英國小說標(biāo)題,發(fā)現(xiàn)隨時(shí)間推移,標(biāo)題越來越短,由此提出“短標(biāo)題有何吸引力?”“作者為何逐漸需要采用更短的標(biāo)題?”等問題,結(jié)果發(fā)現(xiàn)這與圖書數(shù)量增加導(dǎo)致的市場競爭加劇密切相關(guān)。如果沒有以計(jì)算機(jī)為主體的遙讀,這些研究問題可能永遠(yuǎn)不會(huì)被提出,更遑論得到研究發(fā)現(xiàn)。此外,約旦國王學(xué)院專設(shè)了一門遙讀課程,讓學(xué)生使用Wolfram語言對(duì)大規(guī)模文本進(jìn)行計(jì)算分析,從中總結(jié)出可能存在的特征與規(guī)律。而由歐盟“地平線2020”計(jì)劃所資助的歐洲文學(xué)史遙讀項(xiàng)目(Distant Reading for European Literary History)通過分析大量文學(xué)文本,創(chuàng)建歐洲文學(xué)文本集語料庫;開發(fā)適合歐洲多語言文學(xué)傳統(tǒng)的文本分析方法;基于以上資源和方法,重新評(píng)估文學(xué)史中的關(guān)鍵定義和概念,甚至幫助作者改變歐洲文學(xué)史的寫作方式。事實(shí)上,遙讀已經(jīng)超越其所起源的文學(xué)領(lǐng)域,進(jìn)入歷史、歷史地理、考古學(xué)等更廣闊的學(xué)科研究領(lǐng)域,成為數(shù)字人文中極有價(jià)值的研究手段。如萊比錫大學(xué)和貝魯特美國大學(xué)的兩位學(xué)者創(chuàng)建了名為“中世紀(jì)地名可視化”(Visualizing Medieval Places)的項(xiàng)目,他們以中世紀(jì)法語文本語料庫為基礎(chǔ),將其中所提及的地名投射到地圖上,以實(shí)現(xiàn)文本中地理空間信息的可視化(見圖2)。又如,佐治亞理工學(xué)院數(shù)字人文實(shí)驗(yàn)室對(duì)文獻(xiàn)中托馬斯·杰斐遜(Thomas Jefferson)的社會(huì)網(wǎng)絡(luò)關(guān)系進(jìn)行分析并進(jìn)行了可視化表示(見圖3)。
2.策略性閱讀
2009年,伊利諾伊大學(xué)厄巴納—香檳分校信息科學(xué)學(xué)院的艾倫·雷尼爾(Allen Renear)教授和卡羅爾·帕爾默(Carol Palmer)教授在《科學(xué)》雜志上發(fā)表《策略性閱讀、本體和科學(xué)出版的未來》一文,探討科學(xué)研究中的策略性閱讀,即學(xué)者同時(shí)對(duì)多篇論文進(jìn)行搜索、篩選、瀏覽、鏈接、注釋和分析內(nèi)容片段,以高效收集信息的行為[29-30]。這并非是新出現(xiàn)的閱讀活動(dòng)。專業(yè)讀者在閱讀過程中往往采取一系列策略,根據(jù)閱讀目的和具體任務(wù)隨時(shí)調(diào)整閱讀,與文本互動(dòng)并建構(gòu)意義。但是,以往這種策略性閱讀多以人工方式展開,而雷尼爾和帕墨則強(qiáng)調(diào)它必須依靠機(jī)器進(jìn)行,借助機(jī)器的強(qiáng)大計(jì)算能力以及文本挖掘、語義分析等技術(shù)從大量文獻(xiàn)中找到符合需求的信息,目的是幫助學(xué)者避免不必要的閱讀。
PubMed、WOS、CiteSeer、Scopus、谷歌學(xué)術(shù)等數(shù)字索引、檢索和導(dǎo)航資源的主要功能之一就是幫助研究者無須閱讀單篇文章就可利用大量相關(guān)信息;而在許多學(xué)科領(lǐng)域,正在廣泛地構(gòu)建、開發(fā)和應(yīng)用學(xué)科相關(guān)的本體和科學(xué)數(shù)據(jù),兩者結(jié)合而生的策略性閱讀,將會(huì)引發(fā)更加快速、更加間接的文獻(xiàn)閱讀和使用行為。策略性閱讀功能的實(shí)現(xiàn),需要出版商或圖書館將之作為一個(gè)功能插件嵌入應(yīng)用程序,或者作為獨(dú)立的工具或產(chǎn)品提供給學(xué)者使用。如Textpresso,這是一個(gè)基于本體的生物科學(xué)文獻(xiàn)文本挖掘系統(tǒng),其在已有基因本體(Gene Ontology, GO)的基礎(chǔ)上構(gòu)建了33個(gè)類別的生物本體[31]。對(duì)于機(jī)器閱讀文獻(xiàn)后從中提取的題名、摘要、引言等純文本信息,Textpresso根據(jù)所構(gòu)建本體用XML進(jìn)行標(biāo)注;再與所提取出的作者、機(jī)構(gòu)、參考文獻(xiàn)、文獻(xiàn)鏈接等信息共同存入數(shù)據(jù)庫中,從而實(shí)現(xiàn)強(qiáng)調(diào)語義的知識(shí)檢索,提高文獻(xiàn)檢索的查全率和查準(zhǔn)率,幫助學(xué)者減輕閱讀負(fù)擔(dān)。又如iHOP同樣是提供文獻(xiàn)挖掘服務(wù)的系統(tǒng),通過機(jī)器對(duì)數(shù)百萬個(gè)PubMed文檔的閱讀,自動(dòng)提取關(guān)鍵句,以基因和蛋白質(zhì)作為連接句子的中介建立起信息網(wǎng)絡(luò),將其中的文檔轉(zhuǎn)換為配備強(qiáng)大導(dǎo)航功能的信息資源[32]。研究人員輸入基因或蛋白質(zhì)名稱,iHOP便可顯示所有相關(guān)文章,極大節(jié)省了學(xué)者搜尋文獻(xiàn)的時(shí)間。未來隨著文本挖掘、自然語義處理等技術(shù)水平的提高,借助本體的策略性閱讀工具必然會(huì)更加完善。
四、結(jié)語
技術(shù)的更迭總會(huì)引起出版領(lǐng)域的變革。造紙術(shù)和印刷術(shù)使知識(shí)大范圍傳播成為可能,促使在場聽讀和朗讀行為隱退,使默讀行為廣為流行。而印刷文化默讀的孤獨(dú)性和理性思考,有助于建構(gòu)“理性的自主的自我”,或者說,發(fā)揮人類理性主體建構(gòu)功能[33]。電子技術(shù)讓出版告別鉛與火,走向光與電[19],人類社會(huì)的出版和閱讀行為有了前所未有的變化。智能技術(shù)介入出版領(lǐng)域后,智能出版與智能閱讀產(chǎn)生,傳統(tǒng)出版價(jià)值鏈被重塑:一方面,智能閱讀深深地嵌入智能出版價(jià)值鏈中,并在幾乎每一個(gè)價(jià)值增值環(huán)節(jié)發(fā)揮作用;另一方面,智能閱讀作為獨(dú)立的增值環(huán)節(jié)延展了出版價(jià)值鏈,使出版商在內(nèi)容產(chǎn)品交付形態(tài)和解決方案上有了更大的余地。無疑地,智能閱讀是實(shí)現(xiàn)智能出版的重要前提,而兩者在價(jià)值鏈中緊密、錯(cuò)綜的交融關(guān)系使得協(xié)同發(fā)展變得尤為緊迫和重要。所謂協(xié)同,即兩個(gè)或兩個(gè)以上不同主體、事物通過協(xié)調(diào)或合作方式共同完成某一目標(biāo)的過程[34]。這種協(xié)同,既是智能閱讀與智能出版增值環(huán)節(jié)合作實(shí)現(xiàn)智能化的協(xié)同,又是智能閱讀融入并延展智能出版價(jià)值鏈的協(xié)同,最終指向?yàn)檎麠l出版價(jià)值鏈創(chuàng)造最大化價(jià)值這一共同目標(biāo)。
|參考文獻(xiàn)|
[1]王君,廖華杰,宋澤生,等. 淺析人工智能技術(shù)在5G時(shí)代的發(fā)展與應(yīng)用[J]. 科技與創(chuàng)新,2021(7):172-173+175.
[2]張曉靜. 人力資源管理在事業(yè)單位中的應(yīng)用探究[C]//北京科學(xué)技術(shù)情報(bào)學(xué)會(huì). 創(chuàng)新發(fā)展與情報(bào)服務(wù). 北京:北京科學(xué)技術(shù)情報(bào)學(xué)會(huì),2019:5.
[3] 柳克勛,金光熙. 工業(yè)工程實(shí)用手冊(cè)[M]. 北京:冶金工業(yè)出版社,1993.
[4]趙樹旺,付佳. 人工智能在美國出版業(yè)中的應(yīng)用、問題與啟示[J]. 出版發(fā)行研究,2019(10):81-85.
[5]胡玉璽,王雨薇,程海威. 智能出版:智媒時(shí)代傳統(tǒng)出版業(yè)務(wù)的轉(zhuǎn)型升級(jí)方向[J]. 科技與出版,2020(11):56-63.
[6] 張新新. 智能出版:現(xiàn)代出版技術(shù)原理與應(yīng)用[M]. 北京:人民出版社,2021.
[7]STUART J. RUSSELL, PETER NORVIG. 人工智能:一種現(xiàn)代的方法[M]. 殷建平,祝恩,劉越,等,譯,北京:清華大學(xué)出版社,2013.
[8]孫克,魯澤霖. 人工智能在電子商務(wù)中的應(yīng)用發(fā)展趨勢研究[J]. 貴州社會(huì)科學(xué),2019(9):136-143.
[9]什么是價(jià)值鏈[EB/OL]. (2019-10-24)[2021-07-15]. http://tjsmep. ezweb2-2. 35. com/qiyechengchangzaz
hi-131732-18894-item-86719. html.
[10]劉方喜. 當(dāng)機(jī)器成為藝術(shù)生產(chǎn)主體:人工智能引發(fā)文論生產(chǎn)工藝學(xué)轉(zhuǎn)向[J]. 江海學(xué)刊,2019(3):119-128.
[11]赫爾曼·哈肯. 協(xié)同學(xué):大自然構(gòu)成的奧秘[M]. 凌復(fù)華,譯. 上海:上海譯文出版社,2005.
[12]郭治安,等. 協(xié)同學(xué)入門[M]. 成都:四川人民出版社,1988.
[13]暢銷書“密碼”[EB/OL]. (2016-09-12)[2021-07-
15]. http://ent. chinadaily. com. cn/2016-09/12/content_2677
3976. htm.
[14]KELTON REID. How the Author of “The Bestseller Code” Jodie Archer Writes: Part One[EB/OL]. (2016-11-07)[2021-07-15]. https://rainmaker. fm/audio/writer/jodie-archer-file-one/.
[15]奚雪峰,周國棟. 面向自然語言處理的深度學(xué)習(xí)研究[J]. 自動(dòng)化學(xué)報(bào),2016(10):1445-1465.
[16]MOLLY FLATT. StoryFit offers AI insights to drive publishers decisions about books[EB/OL]. (2019-04-17)[2021-07-15]. https://www. thebookseller. com/futurebook/storyfit-offers-ai-insights-drive-publishers-decisions-about-books-992766.
[17]李祖平. 穿透靈魂:深閱讀與智能出版?zhèn)鞑パ芯縖M]. 北京:科學(xué)技術(shù)文獻(xiàn)出版社,2019.
[18]宋偉,劉禹希,王金金. 智能出版:開啟后數(shù)字出版新業(yè)態(tài)[J]. 傳媒觀察,2018(8):24-29.
[19]范軍,陳川. AI出版:新一代人工智能在出版行業(yè)的融合創(chuàng)新[J]. 中國編輯,2019(5):64-71.
[20]2019年新聞出版產(chǎn)業(yè)分析報(bào)告[EB/OL]. (2020-11-04)[2021-07-15]. https://www. chinaxwcb. com/uploads/1/file/public/202011/20201104095548_wwrm2mol4a. pdf.
[21]黃曉新. 5G時(shí)代數(shù)字閱讀智能化變革[J]. 中國出版,2020(4):16-20.
[22]GUEST CONTRIBUTOR. Curation, Discovery, and Marketability: Intellogo Provides Tools for Self-Publishing Platforms[EB/OL]. (2016-01-07)[2021-07-15]. https://publishingperspectives. com/2016/01/intellogo-tools-for-self-publishing-platforms/.
[23]大數(shù)據(jù)白皮書(2020年)[EB/OL]. (2020-12-31)[2021-07-15]. https://pdf. dfcfw. com/pdf/H3_AP202012311
445567246_1. pdf?1609409589000. pdf.
[24]中國科學(xué)技術(shù)信息研究所. 中國科技論文統(tǒng)計(jì)結(jié)果[EB/OL]. (2020-12-29)[2021-07-15]. http://conference.
istic. ac. cn/userfiles/2/files/page/20201230/1609336361628046806. pdf.
[25] KATHRYN SCHULZ. Whatis distant reading?[EB/OL]. (2011-06-26)[2021-07-15]. https://www. nytimes. com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-reading. html.
[26]VAN DE VEN I. Creative Reading in the Information Age: Paradoxes of Close and Distant Reading[J]. The Journal of Creative Behavior, 2019(2):156-164.
[27]劉石,李飛躍. 大數(shù)據(jù)技術(shù)與傳統(tǒng)文獻(xiàn)學(xué)的現(xiàn)代轉(zhuǎn)型[J]. 中國社會(huì)科學(xué),2021(2):63-81+205-206.
[28]J?NICKE S, et al. On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges[C]//The Eurographics Association. Eurographics Conference on Visualization (EuroVis) – STARs 2015. Italy: The Eurographics Association. 2015: 83-103.
[29]RENEAR A H, PALMER C L. Strategic reading, ontologies, and the future of scientific publishing[J]. Science, 2009(325): 828-832.
[30]RENEAR A H, PALMER C L. Strategic reading and scientific discourse[J]. Science, 2009:1.
[31]M?LLER H M, et al. Textpresso: an ontology-based information retrieval and extraction system for biological literature[J]. PLoS biology, 2004(11):e309.
[32]HOFFMANN R, VALENCIA A. A gene network for navigating the literature[J]. Nature genetics, 2004(7):664-664.
[33]周憲. 從“沉浸式”到“瀏覽式”閱讀的轉(zhuǎn)向[J]. 中國社會(huì)科學(xué),2016(11):143-163+208.
[34]尹萍. 跨境電商供應(yīng)鏈協(xié)同評(píng)價(jià)研究[D]. 鎮(zhèn)江:江蘇科技大學(xué),2018.