□文│徐麗芳 鄒 青 王洪濤
自進入21世紀以來,我國教育信息化發(fā)展迅猛,為大規(guī)模推行和使用數(shù)字教材提供了沃土。隨著“中教云”“粵教祥云”“鳳凰數(shù)字教材”等大型數(shù)字教育資源平臺的建成和投放使用,數(shù)字教材在課堂教學(xué)中的地位不斷提升。作為教育現(xiàn)代化的重要抓手之一,大中小學(xué)數(shù)字教材的核心價值集中體現(xiàn)在落實國家教育戰(zhàn)略、促進信息化環(huán)境下的教育公平、引領(lǐng)課程教學(xué)發(fā)展變革3個方面。[1]數(shù)字教材在各級各類教育教學(xué)中的推廣普及,無疑將從根本上影響我國教育現(xiàn)代化戰(zhàn)略的實施。2019年2月,中共中央、國務(wù)院頒布《中國教育現(xiàn)代化2035》對充分利用現(xiàn)代信息技術(shù),豐富并創(chuàng)新課程教材體系,增強教材的思想性、科學(xué)性、民族性、時代性、系統(tǒng)性,建立數(shù)字教育資源共建共享機制等提出了要求。2022年4月,國家新聞出版署發(fā)布《數(shù)字教材術(shù)語》等9項行業(yè)標準立項計劃。[2]這些舉措都透露出國家管理層對數(shù)字教材審核管理工作的重視。
與紙質(zhì)教材相比,數(shù)字教材的媒體形式與功能更加復(fù)雜,需要遵循教育性、科學(xué)性、思想政治性、教材出版與技術(shù)性等多個維度的標準與規(guī)范,審核難度遠遠超過紙質(zhì)教材和普通電子出版物。[3]實際操作時,往往需要聯(lián)合多個領(lǐng)域的專家并借助一定技術(shù)手段,以確保教材內(nèi)容合規(guī)無誤和教材功能正常運行。近年來,大數(shù)據(jù)、人工智能、自然語言處理(Natural Language Processing,NLP)等技術(shù)的進步催生出一批功能強大的智能機器審核系統(tǒng),促進了機器內(nèi)容審核的多模態(tài)、智能化和專業(yè)化發(fā)展。阿里巴巴、騰訊、百度等互聯(lián)網(wǎng)企業(yè)將云計算技術(shù)、海量用戶與內(nèi)容數(shù)據(jù)、機器學(xué)習(xí)結(jié)合起來,為用戶提供圖文和音視頻內(nèi)容違規(guī)檢測服務(wù);[4]人民網(wǎng)基于傳統(tǒng)媒體把關(guān)的豐富經(jīng)驗對外提供人工審核服務(wù),并自主研發(fā)了一套企業(yè)級內(nèi)容審核風控系統(tǒng),現(xiàn)已成為增長最快的業(yè)務(wù);[5]出版領(lǐng)域則有方正智能輔助審校系統(tǒng)、黑馬校對、鳳凰智能校對等審核系統(tǒng)利用大規(guī)模語料庫和漢字快速高精度切分、敏感詞監(jiān)控等技術(shù),能夠校對漢語文本中的拼寫錯誤、成對標點缺失、異形詞、專業(yè)術(shù)語等多類錯誤和大部分政治性問題。[6]若合理使用,這些系統(tǒng)能大幅縮短數(shù)字教材審核時間,將之更快推入消費環(huán)節(jié),為廣大師生和教育出版企業(yè)創(chuàng)造更多價值。
但是,上述基于當前大數(shù)據(jù)和人工智能技術(shù)不同程度應(yīng)用而開發(fā)的機審系統(tǒng)在應(yīng)用于數(shù)字教材時還存在諸多問題:一是學(xué)科針對性不足,難以從專業(yè)、學(xué)科的角度對教材內(nèi)容進行知識性判斷,削弱了審核的精準性;二是教學(xué)情境感知與推理能力較弱,比如容易將“法醫(yī)尸表檢驗虛擬仿真實驗教學(xué)”“產(chǎn)科護理綜合實訓(xùn)虛擬仿真實驗教學(xué)”“犯罪現(xiàn)場勘查”等課程中的手術(shù)演示、刑偵勘查等教學(xué)演示畫面、視頻判定為血腥暴力或情色畫面,出現(xiàn)誤報現(xiàn)象,降低了審核的準確性;三是各機審系統(tǒng)功能各有千秋,有些以文字審校見長,有些則更擅長捕捉違規(guī)圖像,以致審核人員時常需要組合使用不同系統(tǒng)并來回跳轉(zhuǎn),平添了審核的復(fù)雜性和技術(shù)學(xué)習(xí)成本??梢灶A(yù)見,在當前的技術(shù)條件下,數(shù)字教材的審核工作在相當長的時期內(nèi)必將采用“軟件系統(tǒng)+人工把關(guān)”的方式。因此,就數(shù)字教材審核而言,今后的發(fā)展方向是:①不斷吸納最新技術(shù),優(yōu)化現(xiàn)有數(shù)字出版物審核系統(tǒng),條件成熟時開發(fā)數(shù)字教材專用審核系統(tǒng),以提高機審性能;②明確人工審核在數(shù)字教材審核中的地位、標準和手段;③以效率和效度為工作目標,建立和優(yōu)化數(shù)字教材人機協(xié)同審核機制,包括審核的工作方式、流程與標準等。縱觀國內(nèi)外教育出版領(lǐng)域,迄今尚未產(chǎn)生成熟的數(shù)字教材實踐模式,也缺乏足夠的理論可資借鑒。因此,本文主要從工作流管理視角,對數(shù)字教材人機協(xié)同審核機制的核心要素與運行邏輯展開探討,以期為將來實踐和研究提供參考。
關(guān)于數(shù)字教材,迄今國內(nèi)外還沒有準確、權(quán)威的定義。為方便論述,本文將紙質(zhì)教材的數(shù)字化版本稱為狹義數(shù)字教材,這是數(shù)字教材的過渡形式;廣義數(shù)字教材則在狹義數(shù)字教材之外,還包含其他圖文、音視頻、課件等配套數(shù)字教學(xué)資源,并往往通過APP、網(wǎng)站等平臺形式提供使用,如我國由教育部管理、高等教育出版社負責建設(shè)和運營的國家虛擬仿真實驗教學(xué)課程共享平臺iLab-X以及人民教育出版社數(shù)字教材垂直服務(wù)平臺、培生SuccessNet平臺等。這些平臺包含狹義數(shù)字教材及其不可或缺的支撐或擴展材料,往往具有資源海量、類型多樣、更新動態(tài)等特點,離開它們,數(shù)字化教育教學(xué)活動將無法進行,勉強進行也將是徒有虛名。目前,我國關(guān)于數(shù)字教材的管理辦法尚未出臺,但其審核仍應(yīng)落實《中小學(xué)教材管理辦法》《職業(yè)院校教材管理辦法》《普通高等學(xué)校教材管理辦法》《學(xué)校選用境外教材管理辦法》等一系列國家教材管理辦法的要求,做到“凡編必審”“凡選必審”“管建結(jié)合”。具體實踐中,狹義數(shù)字教材仍可沿用傳統(tǒng)出版的“三審三?!敝贫龋瑢嵤┵|(zhì)量和合規(guī)性控制,其審核工作目標、方式、流程相對成熟。但在當前條件下,廣義數(shù)字教材純?nèi)斯徍藦乃柰度氲臅r間和工作量來看,都是“不可能完成的任務(wù)”;而純機審,目前在審核的精準性上又遠遠達不到要求。因此,人機協(xié)同審核將是未來廣義數(shù)字教材審核的主流工作模式;而新型人機協(xié)同審核的實施,面臨的關(guān)鍵問題之一是構(gòu)建科學(xué)、合理的工作流。
工作流(Workflow,也譯作工作流程)概念源自生產(chǎn)組織和辦公自動化領(lǐng)域,工作流聯(lián)盟(Workflow Management Coalition,WFMC)將之定義為“一類能夠全自動或半自動化執(zhí)行的業(yè)務(wù)過程”。對工作流的管理必須依靠人與計算機共同組成的一整套計算系統(tǒng)(Computing System)來完成與工作相關(guān)的感知、推理和決策活動;二者的互動與協(xié)同則要借助經(jīng)過設(shè)計的人機交互界面(Interface)來實現(xiàn)。[7]就數(shù)字教材協(xié)同審核而言,人機交互界面具體可特指某個審核軟件的用戶操作界面和定制化應(yīng)用程序編程接口(Application Programming Interface,API),廣義上還可以指人工審核和機審兩個子系統(tǒng)之間的交接點,它涉及審核主體、模式和狀態(tài)的轉(zhuǎn)換。因此,它們一端連接著能夠模擬專家審核行為,協(xié)助專家進行審核決策的機器系統(tǒng);另一端連接著數(shù)字教材編輯審核人員、一線教師、科研人員、教育行政管理部門等掌握具體審核標準和要求的相關(guān)群體。數(shù)字教材人機協(xié)同審核系統(tǒng)的核心構(gòu)件包括:含有教材審核相關(guān)概念、事實和狀態(tài)的數(shù)據(jù)庫;包含教材審核規(guī)則、指令等因果或函數(shù)關(guān)系集合的規(guī)則庫;集中實現(xiàn)教材審核推理的算法引擎等;涵蓋教材審核任務(wù)分解、評價、搜索等過程和步驟集合的方法庫;[8]以及適當?shù)娜斯そ槿霗C制,如允許人為調(diào)整審核系統(tǒng)參數(shù)、結(jié)束后復(fù)核機審結(jié)果等。這些構(gòu)件均構(gòu)筑在一定的軟件、硬件及人的互動基礎(chǔ)之上,其研發(fā)、部署、使用和維護都是數(shù)字教材審核需要考慮的事項。在這些構(gòu)件之間,數(shù)字教材審核的相關(guān)數(shù)據(jù)、文檔、信息和任務(wù)按照一定規(guī)則流動,以便協(xié)調(diào)系統(tǒng)成員之間的工作。[9]
一般來說,工作流管理系統(tǒng)的實現(xiàn)包含“組織”和“任務(wù)”兩層邏輯:[10]組織邏輯優(yōu)先基于生產(chǎn)組織結(jié)構(gòu)和關(guān)系考慮角色分工與權(quán)限問題。以數(shù)字教材出版為例,我國教材出版單位普遍實行的三審制便是一種按編輯職級由低到高依次推進的審核流程,各級教材編輯的能力、任務(wù)和握有的審核權(quán)限各不相同。任務(wù)邏輯主要基于工作性質(zhì)與內(nèi)容考慮審核任務(wù)的順序和因果關(guān)系、權(quán)重和優(yōu)先級等問題。盡管人腦賴以處理信息和解決問題的神經(jīng)網(wǎng)絡(luò)及其工作機制比計算機系統(tǒng)復(fù)雜得多,可勝任的推理類型也更豐富,但是,二者從事數(shù)字教材審核的工作原理大致相同,都是根據(jù)教材審核標準,基于過去積累的教材審核經(jīng)驗和知識,按照教材審核任務(wù)的特定要求和流程方法,對接收到的教材文件進行內(nèi)容識別和推理分析,判斷是否存在錯誤違規(guī)情況,進而決定教材是否通過審核,并以審核報告、待修訂數(shù)字教材文件等形式輸出工作成果。因此,二者的審核活動都可沿“確定審核目標→分配審核任務(wù)→目標內(nèi)容識別→審核推理與分析→審核決策和成果輸出”的主干展開。
那么,機審和人審這兩條工作流分支又如何相互協(xié)同呢?機審系統(tǒng)由于有限性能的特點,必須要接受適當?shù)娜斯そ槿?。首先,機審要鑒別的目標教材內(nèi)容和所依循的鑒別標準、規(guī)范需要人工確定和輸入。常用教材審核標準與規(guī)范中存在許多概括和抽象的表述,如《網(wǎng)絡(luò)視聽內(nèi)容審核標準細則》規(guī)定不能出現(xiàn)“調(diào)侃、諷刺、反對、謾罵中國特色社會主義道路、理論、制度和文化以及國家既定重大方針政策”“涉及領(lǐng)土和歷史事件的描寫不符合國家定論的”內(nèi)容,[11]就需要人工“轉(zhuǎn)譯”成可操作性更強的規(guī)范,再轉(zhuǎn)換成機器程序語言,從而使機審在大方向上與相關(guān)教材標準與規(guī)范保持一致。此外,機審實施和結(jié)果輸出都需要人為選擇和設(shè)置相關(guān)參數(shù),并需要人工復(fù)核與采用反饋,方能持續(xù)提升機審系統(tǒng)教材審核的適用性(見圖1)。因此,人機協(xié)同審核最終的決策權(quán)仍舊掌握在人手中。而當下的數(shù)字教材人工審核無疑也離不開機審的幫助,以更快識別潛在問題,或為審核決策提供更多依據(jù)。因此,架構(gòu)和利用數(shù)字教材人機協(xié)同審核系統(tǒng)的關(guān)鍵在于,把握好人審和機審各自的長處和短處,在特定技術(shù)環(huán)境和數(shù)字教材審核情境的規(guī)定下,通過科學(xué)合理的角色分工和流程部署將兩者有機結(jié)合起來。
圖1 數(shù)字教材人機協(xié)同審核系統(tǒng)工作流框架
狹義數(shù)字教材的審核仍可沿用“三審三?!钡瘸霭嫔鐑?nèi)審校程序,并落實國家、地方、機構(gòu)等各級各類教材管理辦法關(guān)于教材審核的要求;角色分工也可以效仿傳統(tǒng)紙質(zhì)教材出版審核的做法。而廣義數(shù)字教材人機協(xié)同審核無疑需要建立新型的角色系統(tǒng)和分工機制。
數(shù)字教材審核可分為教材內(nèi)容、呈現(xiàn)形式與功能審核3個部分。教材內(nèi)容審核是重中之重,須從教材內(nèi)容的思想政治性、教育性、科學(xué)性、合規(guī)性等維度全面把關(guān),確保教材能夠體現(xiàn)國家意志和主流社會價值觀,遵循教育教學(xué)規(guī)律和學(xué)生認知水平,符合客觀事實和科學(xué)規(guī)范,遵守數(shù)字教材出版與管理的相關(guān)政策與法規(guī)。[12]形式審核指對教材版式、目錄、圖表、題注、引文等要素展開審核,確保教材內(nèi)容呈現(xiàn)的完整性、準確性和規(guī)范性。功能審核指對數(shù)字教材的搜索、標注等使用功能進行技術(shù)測試,確保在主流操作系統(tǒng)和網(wǎng)絡(luò)環(huán)境下能夠順利運行。
對上述教材審核業(yè)務(wù),機審的優(yōu)勢在于能夠記憶大量的教材審核數(shù)據(jù)、知識和規(guī)則,按照預(yù)先設(shè)置的詞表與圖像庫快速識別和統(tǒng)計敏感字詞、商標水印、圖文亂碼、失效超鏈接等內(nèi)容并進行一定的規(guī)則推理,且執(zhí)行速度快、執(zhí)行過程的持續(xù)性和耐久性較強,不存在因生理疲勞降低工作效率的問題。人工審核的優(yōu)勢在于,合格的審核人員具備審核工作需要而機器尚未能完全模擬和擁有的邏輯與形象思考、教學(xué)情境感知、情感分析與價值判斷等高階能力,更多體現(xiàn)在制定審核規(guī)則和標準、流程和方案,判斷和干預(yù)機審結(jié)果等創(chuàng)造性活動中。
基于此,教材的教育性和科學(xué)性仍舊要聘用或委托學(xué)科專家進行重點把關(guān),而隨著機審系統(tǒng)廣泛、深入的應(yīng)用,教材內(nèi)容的正誤與合規(guī)性審核、教材的形式與功能審核等則將越來越多地交給機器承擔(見圖2)。不同機審系統(tǒng)在不同審核項目上有著各自的長處和短處。比如,阿里云媒體AI系統(tǒng)能夠精準識別教學(xué)視頻與課件中的政治人物、血腥畫面、商品廣告和商標等敏感內(nèi)容,卻容易遺漏PPT課件中的大面積空白、圖文遮擋、圖片序號錯誤等問題;方正智能審校、黑馬校對更擅長文字審核。對此解決辦法有兩個:一是組合使用多個機審系統(tǒng),充分發(fā)揮各機審系統(tǒng)的長處;二是加強人工復(fù)審,通常以教材內(nèi)容與形式審核為主,同時不排除在教材數(shù)量少、功能較為簡單的情況下以人工操作檢測教材功能的可能。
圖2 數(shù)字教材協(xié)同審核的核心業(yè)務(wù)
廣義數(shù)字教材人機協(xié)同審核的參與者眾多。教材出版單位作為最主要的執(zhí)行者,在整個審核工作組織中發(fā)揮著樞紐和協(xié)調(diào)作用;教育、出版等有關(guān)行政管理部門和行業(yè)組織通過制定和實施一系列政策法規(guī)來為教材審核管理指明方向,規(guī)定必要的審核標準和流程,在審核中發(fā)揮指導(dǎo)者和監(jiān)督者的作用;學(xué)術(shù)/教學(xué)單位從學(xué)科發(fā)展、教學(xué)實踐和教材使用需求的角度提供專業(yè)意見;機審服務(wù)商則整合前述相關(guān)機構(gòu)和人員的要求開發(fā)和優(yōu)化審核系統(tǒng),通過可視化操作界面支持教材內(nèi)容批量上傳和部分技術(shù)參數(shù)定制化配置,以實現(xiàn)大規(guī)模數(shù)字教育內(nèi)容資源的高效審核。
角色分工方面,機審的采用催生出機審系統(tǒng)操作員這一新角色,職責是在機審系統(tǒng)研發(fā)和維護人員的支持下,執(zhí)行機審系統(tǒng)操作步驟、調(diào)試機審參數(shù)以及對機審結(jié)果進行技術(shù)性解讀。內(nèi)容審核員的工作亦隨之分化出兩個部分:一是機審結(jié)果人工復(fù)核;二是實施機器無法進行的內(nèi)容審核項,如一些極為考驗專業(yè)功底的術(shù)語和知識審核。鑒于教材審核對教材內(nèi)容的思想政治性、教育性和科學(xué)性要求十分特殊與嚴格,可分別設(shè)立思政審核專員和學(xué)科審核專員進行專項審核。對一些專業(yè)性較強的教材審核業(yè)務(wù),如教材版權(quán)審核、地圖內(nèi)容審核,也可設(shè)立專員審核。余者如字詞、語法表述、標點符號等狹義內(nèi)容審核和教材形式審核,則交由普通內(nèi)容審核員通過抽檢、復(fù)核機審結(jié)果加以完成。此外,還可設(shè)立教材審核執(zhí)行主管(以下簡稱“執(zhí)行主管”)的角色,主要負責調(diào)控審核進度、溝通審核情況、向上級匯報等工作。
為了更好地組織和協(xié)調(diào)教材審核活動,參與機構(gòu)(尤其是教材審核責任單位)可指派代表組成教材審核領(lǐng)導(dǎo)小組(以下簡稱“領(lǐng)導(dǎo)小組”),結(jié)合審核任務(wù)需求和現(xiàn)實條件部署審核團隊的角色分工,再由參與機構(gòu)選派人員承擔相應(yīng)角色。其中,執(zhí)行主管作為連接領(lǐng)導(dǎo)小組和教材審核團隊的關(guān)鍵角色,通常由教材出版單位職級較高的編輯部門管理人員擔任。機審系統(tǒng)操作員主要來自教材出版單位的技術(shù)部門或者教材編輯;機審服務(wù)商一般只提供機審系統(tǒng)軟件和技術(shù)咨詢、培訓(xùn)、維修等服務(wù)。內(nèi)容審核專員由學(xué)科專家和具有對應(yīng)職稱的教材編輯承擔。
在確定了角色部署及承擔者之后,領(lǐng)導(dǎo)小組或執(zhí)行主管依據(jù)各人能力分派審核任務(wù),賦予相應(yīng)的組織協(xié)作和機審系統(tǒng)權(quán)限(見圖3)。此二者作為審核工作的領(lǐng)導(dǎo)者,需要掌握和利用好兩類權(quán)限:一是教材審核組織的人事管理權(quán),包括增加/剔除成員、績效審計等;二是教材審核工作流的控制權(quán),包括發(fā)起/分配/終止審核任務(wù)、限定任務(wù)時間、驗收審核成果、修改審核狀態(tài)和終審權(quán)等。而它分配給內(nèi)容審核員的權(quán)限主要包括登錄數(shù)字教材平臺、查詢/瀏覽/檢索數(shù)字教材內(nèi)容、錄入和提交審核結(jié)果、機審軟件使用權(quán)限等。機審系統(tǒng)操作員的權(quán)限則包括機審系統(tǒng)界面操作和API調(diào)用權(quán)限,如設(shè)置教材審核范圍和類型、獲取教材審核任務(wù)編號、創(chuàng)建媒體機審列表等。[13]對第三方審核團隊的授權(quán)可以以角色組和權(quán)限組的形式進行,在保證領(lǐng)導(dǎo)小組核心控制和滿足工作保密性要求的前提下,允許其自行部署角色和賦予權(quán)限。
圖3 數(shù)字教材協(xié)同審核角色分工
數(shù)字教材人機協(xié)同審核須依次經(jīng)歷教材審核方案制定、教材審核任務(wù)執(zhí)行、教材審核決策與教材審核結(jié)果輸出4個階段;同時,須跨越教材出版行政管理部門、教材出版單位、審核技術(shù)服務(wù)提供商等多個角色或職能部門,因此需要完善的部署方案來優(yōu)化協(xié)同審核流程。
無論審核技術(shù)如何發(fā)展,內(nèi)容審核始終是數(shù)字教材審核的第一要義,是審核方案最重要的主體部分,主要涉及6個方面:①內(nèi)容安全,包括政治和意識形態(tài)、暴力與恐怖主義、情色、吸毒、賭博、民族宗教、社會倫理和道德等問題;②語言文字,包括錯字語病、禁用語、標點符號缺誤以及專業(yè)術(shù)語、專有名詞、中外翻譯及其他規(guī)范用語問題等;③版式和內(nèi)容可讀性,包括內(nèi)容缺失與空白、顯示清晰度低、圖文遮擋、亂碼、目錄/序號/題注錯誤等問題;④版權(quán)問題,包括確保以合法手段獲得數(shù)字教材網(wǎng)絡(luò)傳播等使用授權(quán),檢查教材對他人成果的引用是否符合《中華人民共和國著作權(quán)法》關(guān)于合理引用的規(guī)定,注意防范教輔和用戶上傳資源背后潛藏的侵權(quán)風險等;[15]⑤商業(yè)廣告,包括教材正文、配圖、課件、水印、二維碼、鏈接等所有教材內(nèi)容中潛藏的商品宣傳信息和購買鏈接;⑥地圖,包括地圖的科學(xué)性、規(guī)范性和政治性審核。除了內(nèi)容審核,教材審核工作有時還會包含技術(shù)方面的審核,主要是對教材資源的可獲取性和功能有效性進行測試,如教材內(nèi)容在線瀏覽、下載、交互和頁面跳轉(zhuǎn)等功能是否正常以及鏈接的有效性等。除了內(nèi)容審核外,數(shù)字教材協(xié)同審核方案還需包括對審核軟件系統(tǒng)操作和審核流程實施的具體說明。
隨著大數(shù)據(jù)、云計算和人工智能等技術(shù)的發(fā)展,針對數(shù)字內(nèi)容的機審系統(tǒng)取得了長足發(fā)展。按照硬件與網(wǎng)絡(luò)部署方式,這些系統(tǒng)一般可分為兩類:一是本地審核系統(tǒng),其安裝和使用不依賴互聯(lián)網(wǎng),但是可通過內(nèi)部聯(lián)網(wǎng)實現(xiàn)協(xié)同審核,聯(lián)網(wǎng)用戶可以實現(xiàn)共同維護和同步使用自定義詞庫等功能;二是云審核系統(tǒng),即在高性能云服務(wù)器上完成審核推理和計算、審核數(shù)據(jù)傳輸和存儲,能夠更好地支持移動和異地協(xié)同審核,但是有一定的教材文件和審核數(shù)據(jù)泄露風險。
機審軟件系統(tǒng)一般采用如下功能架構(gòu):最底層為實施機審所需要的計算、存儲、網(wǎng)絡(luò)與數(shù)據(jù)庫資源等基礎(chǔ)設(shè)施層;第二層是面向?qū)徍斯ぷ髂繕说亩嗄B(tài)信息識別、自然語言處理(Natural Language Processing,NLP)引擎、圖像分類、人臉識別和場景識別等核心技術(shù)層;第三層是圖文、音視頻審核應(yīng)用管理與服務(wù)管理層,涉及用戶管理、任務(wù)管理、交易服務(wù)和API調(diào)用等多方面后臺管理功能;最上層是直接面向?qū)徍斯ぷ鞯臋C審系統(tǒng)客戶端。客戶端目前有兩種主流形式:一是審核插件,可直接在Word、Acrobat PDF等常用字處理或編排軟件用戶界面上操作,方便用戶快速定位與修改;二是機審平臺客戶端,無需安裝多個插件且能同時執(zhí)行多項教材審核任務(wù)。平臺型客戶端既可能是直接下載至本地運行的客戶端,如黑馬校對單機/多機版;[16]也可能是無需額外下載的網(wǎng)絡(luò)審核平臺,如方正智能輔助審校系統(tǒng),阿里云媒體AI、騰訊安全天御等;將來也可能無需借助第三方系統(tǒng)而是直接在數(shù)字教材出版平臺上實施機審(見圖4)。[17]
圖4 機審系統(tǒng)通用技術(shù)架構(gòu)
對數(shù)字教材而言,若只是少量紙質(zhì)教材的數(shù)字化版本審核工作,尚能以使用插件為主加以完成;若廣義數(shù)字教材,審核任務(wù)量一般較大,因此一般更適合在平臺客戶端上集中處理。具體審核工作要經(jīng)過“注冊/登錄審核平臺賬號→部署審核任務(wù)→上傳教材文件→運行機審程序→查詢機審結(jié)果”等操作步驟。一些審核系統(tǒng)還包含任務(wù)量估算和計費環(huán)節(jié)。
在正式開始機審前,要先對數(shù)字教材文件進行格式轉(zhuǎn)化和文件編碼,尤其是將之與機審ID對應(yīng)起來,使其能夠被機器讀取和準確識別,同時便于內(nèi)部統(tǒng)計與管理。當審核任務(wù)較為復(fù)雜,如待審教材數(shù)量較多、結(jié)構(gòu)較復(fù)雜和審核項較多時,可采取預(yù)審核測試的方法,對經(jīng)過預(yù)處理的數(shù)字教材文件進行適量與合理的抽樣,按照初步定下的方案對教材樣本進行審核;對審核工具的適用性、個體成員的工作效率、團隊協(xié)作方式等要素進行評估,將發(fā)現(xiàn)的問題進行匯總,據(jù)此對審核方案進行調(diào)整,直到能夠達到較滿意的審核效果。
機審任務(wù)的人工部署有兩種方式:一是較為簡單的可視化面板部署。以方正智慧出版云服務(wù)平臺為例,教材編輯選擇字詞符號、敏感內(nèi)容、上下文查重、文章邏輯檢查、參考文獻格式檢查和紀年、引文、地名、標準和法規(guī)等知識性檢查項;相應(yīng)地設(shè)置最少查重字數(shù)、參考文獻格式標準和敏感詞檢查嚴格程度等參數(shù)后,上傳符合格式要求的教材文件,啟動審核任務(wù);最后可下載單獨的教材審核報告文件。[18]二是需要專業(yè)技術(shù)人員操作的API/SDK部署。以阿里云媒體AI為例,技術(shù)人員提交教材審核作業(yè)時,需要 在 OpenAPI Explorer中 運 行SubmitMediaCensorJob接口,依次設(shè)置待審教材文件運營支撐系統(tǒng)(Operation Support System,OSS)地址、用于綁定消息通知的管道ID和并發(fā)數(shù)、視頻審核配置(包括截圖輸出OSS地址、輸出模式、審核模板、檢測場景等)、視頻URL鏈接、異步通知消息等參數(shù)。[19]
機審實施過程中,與人工活動存在“串聯(lián)”和“并聯(lián)”兩種流程部署邏輯?!按?lián)”指對機器能夠完成的審核任務(wù)優(yōu)先安排機審,再由內(nèi)容審核員進行復(fù)核。這樣既可對機器報誤做進一步評判;保險起見,也可對機器未曾報誤或報誤較少的教材進行抽審?!安⒙?lián)”指機審運行時可同時進行非機審項的審核工作。其中,對機審的人工干預(yù)主要是在機審程序運行結(jié)束后,審核小組對機審運行效率和機審結(jié)果的適用性進行評估,以確認是否還要實施新一輪機審;若需要,則進一步確認待機審數(shù)字文件目錄,并對機審參數(shù)進行一定調(diào)整。如果機審已經(jīng)達到工作預(yù)期或可操作性范圍內(nèi)的功能極限,則終止機審工作。
最后,待所有人機協(xié)同審核活動結(jié)束后進行審核成果輸出,包括撰寫審核報告、匯報審核成果和更新教材審核自定義詞庫、圖像庫與規(guī)則等(見圖5)。
圖5 數(shù)字教材協(xié)同審核流程部署機制
審核對數(shù)字教材的質(zhì)量和合規(guī)性保障都至關(guān)重要。對于傳統(tǒng)紙質(zhì)教材的簡單數(shù)字化版本,審核工作可以沿用傳統(tǒng)教材審核的方式、方法,在原來的業(yè)務(wù)和管理流程基礎(chǔ)上做少量調(diào)整即可。對于廣義數(shù)字教材,則必須采用機器加人工協(xié)同審核的方式,以提升工作效率和質(zhì)量。其中數(shù)字教材的機審工作通用機審軟件系統(tǒng)通常能解決大部分問題,但審核水平和質(zhì)量都有待提高。一種可能的發(fā)展路徑是,有實力的教育出版企業(yè)利用深諳教材審核工作內(nèi)在邏輯與要點的優(yōu)勢,通過自建數(shù)字教育資源平臺或第三方教育平臺搜集教育內(nèi)容與用戶數(shù)據(jù),用于研發(fā)和訓(xùn)練自己的教材審核算法,構(gòu)建自己的智能教材審核系統(tǒng)。如同人民網(wǎng)立足于傳統(tǒng)媒體把關(guān)的專業(yè)優(yōu)勢尋求技術(shù)與服務(wù)創(chuàng)新,這些教育出版企業(yè)也可以將智能審核系統(tǒng)打造成為新的核心競爭力和盈利增長點。另一種可能的發(fā)展路徑,則是通用機審系統(tǒng)吸納教材出版企業(yè)的專業(yè)經(jīng)驗和特殊需求,研發(fā)面向數(shù)字教材和數(shù)字教育內(nèi)容資源審核的算法,形成價值共生與互惠的關(guān)系。
此外,用戶甚至大眾參與也將是數(shù)字教材審核的一大趨勢。首先,面對水漲船高的審核工作量和難度系數(shù),教材出版能夠且愈發(fā)需要利用Web 2.0技術(shù)將審核任務(wù)進行眾包(Crowdsourcing)。這方面中外已積累了一定的實踐經(jīng)驗,尤以開放教材和開放教育領(lǐng)域居多,如維基教科書(Wikibooks)、全球教科書計劃(Global Textbook Project)等教材項目都通過網(wǎng)絡(luò)招募教材審核員,對教材內(nèi)容進行層層把關(guān);“美樂”(MERLOT)、“英屬哥倫比亞省校園”(BCcampus)等教材平臺向用戶開放教材評價和糾錯功能,[20]大幅提升了數(shù)字教材的審核效率。其次,機器學(xué)習(xí)作為智能審核的內(nèi)核,在很多情況下都需要借助人工標注以使教材文本能夠更好地為機器識別和理解。其中,小范圍的專家標注雖然完成質(zhì)量較高,但是效率上有所欠缺,且許多標注任務(wù)實際上并不需要深厚的學(xué)科知識和經(jīng)驗功底,如簡單的概念和圖像識別等,完全可交由更多經(jīng)過一定培訓(xùn)的普通人完成。屆時,數(shù)字教材審核將需要更多的機器輔助和人機協(xié)同,審核分工和工作流無疑也將變得更為復(fù)雜。因此,成熟的人機協(xié)同審核機制將成為數(shù)字教育出版的必要條件,為相關(guān)技術(shù)研發(fā)和業(yè)務(wù)實施提供行動框架與準則。本文拋磚引玉,期待未來有更多研究人員和實踐工作者對相關(guān)問題做出深入探討。