胡玉枝
謝海華及他的研發(fā)團(tuán)隊協(xié)同方正IT旗下方正電子、北大醫(yī)信、方正阿帕比等企業(yè),在出版、媒體、教育、醫(yī)療等領(lǐng)域規(guī)劃了一系列技術(shù)上可行且有行業(yè)應(yīng)用前景的應(yīng)用方向。
對面這位溫文爾雅,沉穩(wěn)靦腆的像在校大學(xué)生的男孩,就是謝海華博士。若不是事先有些了解,很難將他與高級技術(shù)專家聯(lián)系起來,但正是這樣一個大男孩,承擔(dān)起北大方正集團(tuán)數(shù)字出版技術(shù)國家重點實驗室知識服務(wù)方向的科研重任。
正在嚴(yán)重感冒的海華博士,很耐心地解答了所有問題。他厚厚的鏡片下,一雙深沉的眼睛,透著學(xué)者的嚴(yán)謹(jǐn)和誠懇。雖然他的思緒和敘述,不時地被他壓抑的從胸口而出的咳嗽打斷。
說起今天的成就,謝海華謙虛地說是團(tuán)隊共同努力的結(jié)果。
海外求學(xué)
謝海華,典型的80后,出生于江西上饒。在清華大學(xué)獲得碩士學(xué)位后,他進(jìn)入美國愛荷華州立大學(xué)就讀計算機(jī)科學(xué)博士,并在美國留學(xué)深造五年多。
說起五年多的留學(xué)感受,謝海華停頓了一下,好像在運用他的理科思維整理那幾年的求學(xué)軌跡。他最深切的感受是,開闊了視野,接觸到世界領(lǐng)先的計算機(jī)科學(xué)與技術(shù),對大數(shù)據(jù)、人工智能以及自然語言處理等專業(yè)技術(shù)的認(rèn)知有了不同維度的提升。國外的學(xué)術(shù)氛圍、教學(xué)模式、管理體系不同于國內(nèi),非常自由和開放,并且學(xué)術(shù)交流十分方便。謝海華非常珍惜這個學(xué)習(xí)機(jī)會,十分刻苦地學(xué)習(xí)和研究,并且取得了出色的成果。
有關(guān)海外求學(xué)的經(jīng)歷,謝海華講了一個有趣的故事。美國的宗教氛圍特別強(qiáng)烈,經(jīng)常有人直接去住的地方傳教。有一次傳教士來敲門的時候,謝海華讓他的室友跟他們說自己不在,但他在說這句話的時候,被傳教士們聽到了,一時有點尷尬。雖然之后傳教士沒有再來,但是謝海華的心里卻很過意不去。雖然他是由于學(xué)習(xí)緊張,對別的活動都沒有興趣,但是當(dāng)謝海華一本正經(jīng)地說出這些話時,讓你覺得他特別善良。
留學(xué)期間,讓謝海華最難忘的是第一次寫論文的經(jīng)歷。大部分研究生的導(dǎo)師會親自指導(dǎo)學(xué)生的論文,不過他的博士導(dǎo)師并沒有。在整個過程中,導(dǎo)師基本沒有過問,只是一個師兄在與謝海華溝通。謝海華很認(rèn)真地、下了很大功夫地撰寫論文,夜以繼日地寫了十多頁,就在準(zhǔn)備投稿的時候,請導(dǎo)師過目把關(guān)。沒想到,導(dǎo)師拿過論文來,基本上全部否定了,并且把十多頁的論文刪減到最后只剩下四頁。雖然論文最終發(fā)表出來了,但它本來是一篇很有分量的論文,卻最終變成分量很輕的了。浪費很多時間和精力,謝海華感到很郁悶。但是這次的經(jīng)歷,也給謝海華之后的論文撰寫提供了經(jīng)驗。他認(rèn)識到要多跟導(dǎo)師溝通,爭取導(dǎo)師的指導(dǎo),后來寫出了好幾篇很有分量的專業(yè)論文,發(fā)表在權(quán)威雜志上。
學(xué)成歸來
2015年5月,謝海華在愛荷華州立大學(xué)完成畢業(yè)論文,獲得計算機(jī)博士學(xué)位。當(dāng)時有幾家著名的科研單位向他伸出了橄欖枝,但是在留與歸之間,他沒懸念地回到了祖國。因為他的根在中國,家在中國,最重要的是父母早就希望他回來了。其實,當(dāng)初他剛?cè)ッ绹魧W(xué)時,父母就很不舍得讓他去。美國太遙遠(yuǎn),來去很不方便,而且與國內(nèi)有十幾個小時的時差,這樣的時空距離無法逾越,父母和姐姐非常希望他留在身邊。但是作為計算機(jī)專業(yè)的研究生,謝海華認(rèn)為很有必要走出去,看看世界先進(jìn)的計算機(jī)技術(shù)。
回國后,2015年10月,謝海華進(jìn)入海淀園博士后工作坊北大方正集團(tuán)分站,成為與北京大學(xué)計算機(jī)科學(xué)技術(shù)研究所合作培養(yǎng)的企業(yè)博士后,從事知識服務(wù)和自然語言處理技術(shù)相關(guān)研究。博士后期間,謝海華的研究方向涉及領(lǐng)域知識體系構(gòu)建、知識庫構(gòu)建及準(zhǔn)確性校驗,媒體&出版行業(yè)文本資源分析和處理等。其相關(guān)的研發(fā)成果應(yīng)用于方正公司的“中華數(shù)字書苑”和“學(xué)知搜索系統(tǒng)”等產(chǎn)品和服務(wù),以及紡織出版社的“中華服飾文化云平臺”等項目?;谘芯砍晒?,他發(fā)表了3篇論文,申請5項專利。博士后期間的工作經(jīng)歷、經(jīng)驗和成績,對于謝海華現(xiàn)在及以后的學(xué)術(shù)研究方向的深入和廣闊,以及學(xué)術(shù)眼界的開闊和提升,都起到了極為重要的影響。
“中華數(shù)字書苑”是方正阿帕比推出的專業(yè)優(yōu)質(zhì)華文數(shù)字內(nèi)容整合服務(wù)平臺,收錄了建國以來大部分的圖書全文資源、全國各級各類報紙及年鑒、工具書、圖片等特色資源產(chǎn)品,旨在為圖書館、學(xué)校、企業(yè)、政府等客戶及其所屬讀者提供在線閱讀、全文檢索、離線借閱、移動閱讀、下載、打印等數(shù)字內(nèi)容和知識服務(wù)?!爸腥A數(shù)字書苑”,還多次作為國禮贈送國際友人。
在談及這些項目時,謝海華做了詳細(xì)講解,以及他在項目當(dāng)中擔(dān)負(fù)的責(zé)任。
謝海華在中華數(shù)字書苑和中華紡織文化云平臺(華服志)等項目中,負(fù)責(zé)了知識庫置信度評估這個任務(wù),設(shè)計算法評估知識庫中的三元組的置信度,實體的置信度,以及知識庫本身的置信度。并根據(jù)置信度的評估結(jié)果,選出置信度較低的三元組和實體進(jìn)行人工校驗,以去除錯誤的三元組和實體,提高知識庫的數(shù)據(jù)質(zhì)量。另外,他還負(fù)責(zé)設(shè)計算法計算實體與資源、實體之間、資源之間的關(guān)系強(qiáng)度。根據(jù)關(guān)系強(qiáng)度,可以在檢索階段,返回關(guān)系強(qiáng)度較大的相關(guān)資源,以提高檢索質(zhì)量。在由國家新聞出版署指導(dǎo)、中國新聞出版研究院主辦的第八屆中國數(shù)字出版博覽會上,“華服志”平臺作為知識服務(wù)的旗艦項目,舉辦了專門的平臺發(fā)布活動。
2017年,由于方正集團(tuán)在數(shù)字出版和知識服務(wù)領(lǐng)域的技術(shù)積累和行業(yè)優(yōu)勢,特別是方正旗下的數(shù)字出版技術(shù)國家重點實驗室的濃厚學(xué)術(shù)氛圍以及崇尚自由探索的技術(shù)精神,謝海華在博士后出站之后選擇留在數(shù)字出版技術(shù)實驗室,并以技術(shù)負(fù)責(zé)人的身份,帶領(lǐng)研發(fā)團(tuán)隊進(jìn)行知識服務(wù)關(guān)鍵技術(shù)的研究,深耕數(shù)字出版行業(yè)的應(yīng)用技術(shù)的研發(fā)。實驗室重點研究數(shù)字出版領(lǐng)域中普適性文檔技術(shù)、自動排版技術(shù)、數(shù)字出版內(nèi)容的自適應(yīng)重組技術(shù)等關(guān)鍵技術(shù),促進(jìn)數(shù)字出版產(chǎn)業(yè)的技術(shù)進(jìn)步,通過產(chǎn)學(xué)研合作在數(shù)字內(nèi)容的生產(chǎn)、發(fā)行和服務(wù)等領(lǐng)域,進(jìn)行技術(shù)創(chuàng)新和產(chǎn)業(yè)化應(yīng)用、推廣,并推動數(shù)字出版產(chǎn)業(yè)相關(guān)標(biāo)準(zhǔn)的制定。他們還將結(jié)合人工智能、VR/AR等新興技術(shù),研究對未來數(shù)字出版發(fā)展具有重要影響的前沿技術(shù)、數(shù)字出版領(lǐng)域的關(guān)鍵應(yīng)用基礎(chǔ)技術(shù),形成公共技術(shù)平臺,并促進(jìn)成果轉(zhuǎn)化。
2018年5月30日,根據(jù)《依托企業(yè)建設(shè)國家重點實驗室管理暫行辦法》,科技部組織對99個企業(yè)國家重點實驗室進(jìn)行了評估,依托方正集團(tuán)建設(shè)的數(shù)字出版技術(shù)國家重點實驗室順利通過科技部組織的評估。
從2017年擔(dān)任國家數(shù)字出版技術(shù)重點實驗室技術(shù)負(fù)責(zé)人以來,謝海華及他的研發(fā)團(tuán)隊已與方正IT旗下方正電子、北大醫(yī)信、方正阿帕比等企業(yè)開展深入合作,在出版、媒體、教育、醫(yī)療等領(lǐng)域規(guī)劃了一系列技術(shù)上可行且有行業(yè)應(yīng)用前景的應(yīng)用方向。這個團(tuán)隊在媒體大數(shù)據(jù)分析、用戶行為大數(shù)據(jù)分析、學(xué)術(shù)知識庫構(gòu)建等領(lǐng)域已開展專項研究,探索自然語言處理領(lǐng)域各種技術(shù)、算法和工具在工業(yè)界的應(yīng)用和改進(jìn),以及在“人工智能+”新的技術(shù)發(fā)展階段,對各個業(yè)務(wù)領(lǐng)域拓展起到積極的推動作用。
在這些產(chǎn)品和項目中,謝海華團(tuán)隊研發(fā)的成果涉及核心及基礎(chǔ)性技術(shù)研究,包括機(jī)器寫作、信息抽取、語義分析、智能審校等。這些基礎(chǔ)技術(shù)的研究支持了各個企業(yè)與出版社、高校和圖書館的合作,以及企業(yè)自身的知識服務(wù)和大數(shù)據(jù)分析等方向的技術(shù)探索。
學(xué)以致用
踐行王選院士“科技頂天,市場立地”的精神,并依照企業(yè)國家重點實驗室的產(chǎn)學(xué)研結(jié)合的模式,謝海華及其團(tuán)隊在許多研究方向上取得了大量產(chǎn)學(xué)研成果,或者規(guī)劃了可行而且詳實的研究方案。主要的方向和成果有以下這些方面:
第一,在學(xué)術(shù)大數(shù)據(jù)平臺建設(shè)方面,他們已經(jīng)構(gòu)建了一個學(xué)術(shù)大數(shù)據(jù)平臺,包含學(xué)術(shù)會議庫,學(xué)術(shù)論文庫,學(xué)者信息庫,并含有知識提取和信息挖掘功能。學(xué)術(shù)大數(shù)據(jù)平臺可以作為知識挖掘和信息提取研究的基礎(chǔ)數(shù)據(jù)庫?;趯W(xué)術(shù)大數(shù)據(jù)平臺的學(xué)者影響力預(yù)測、學(xué)者科研興趣分析、學(xué)者參會信息分析等,可以為公司或者科研機(jī)構(gòu)提供信息咨詢服務(wù),例如:為高校引進(jìn)人才時提供候選人的科研能力和學(xué)術(shù)潛力評估。
在2017年8月至10月間,謝海華和他的同事們,代表數(shù)字出版技術(shù)國家重點實驗室知識服務(wù)團(tuán)隊,參加了“2017開放學(xué)術(shù)精準(zhǔn)畫像大賽”, 并在400支參賽隊伍中取得第一階段第二,第二階段第五的佳績。這次大賽,是基于學(xué)術(shù)數(shù)據(jù)挖掘系統(tǒng)提供的原始數(shù)據(jù)集,設(shè)計準(zhǔn)確高效的方法提取學(xué)者的個人描述信息,分析學(xué)者的研究興趣,以及預(yù)測學(xué)者的論文引用情況,從而更好地面向?qū)W術(shù)界提供專家信息、評估學(xué)者研究成果、介紹科學(xué)研究進(jìn)展、展示學(xué)術(shù)發(fā)展動態(tài)。在比賽中,他們運用機(jī)器學(xué)習(xí)和自然語言處理的專業(yè)知識,探索并試驗學(xué)者信息挖掘和影響力預(yù)測的算法和技術(shù),提升了信息檢索、文本信息處理和數(shù)據(jù)挖掘方面的能力,積累了大規(guī)模數(shù)據(jù)分析和計算方面的經(jīng)驗,展示了實驗室的技術(shù)水平。
第二,在機(jī)器寫作方面,他們運用生成式和抽取式相結(jié)合的方法,實現(xiàn)新聞文本摘要的生成。包括:單篇文檔自動摘要(100字左右)生成,而且摘要的語句通順;多篇文章的自動標(biāo)題(20字左右)生成;多篇文章的自動摘要(150字左右)生成。現(xiàn)在,這項成果已在公司內(nèi)部的新聞部門應(yīng)用,并得到廣泛好評。
第三,在智能問答方面,他們與集團(tuán)子公司的具體業(yè)務(wù)部門溝通討論應(yīng)用場景,并實施了客服領(lǐng)域的自動問答。另外,他們還積極探索基于知識庫的智能問答、多輪對話等領(lǐng)域的最新技術(shù),努力將問答系統(tǒng)領(lǐng)域的學(xué)術(shù)成果,轉(zhuǎn)化為數(shù)字出版技術(shù)實驗室的工程成果。
第四,在智能審校方面,在出版行業(yè)里,待出版的文檔中往往存在很多語法和語義錯誤,需要耗費審校人員大量的時間來進(jìn)行校對?,F(xiàn)有的自動審校工具,例如黑馬校對,只能找出文檔中的簡單語法錯誤,比如錯別字,拼音錯誤等。然而,目前沒有成熟的技術(shù)能夠自動檢查出文檔中的復(fù)雜語法和語義錯誤,例如:語句中的主語和謂語等成分殘缺、主謂搭配不當(dāng)、褒貶顛倒等。而這些錯誤的校對,也恰恰是審校人員工作的重點和難點。因此,審校工作業(yè)界對審校的效率和準(zhǔn)確率的提升有強(qiáng)烈的需求。而智能審校這項研究,主要針對的就是,待出版文檔中的復(fù)雜語法錯誤和語義錯誤,進(jìn)行自動識別和糾錯,以節(jié)省審校人員的工作量,并提高出版物的質(zhì)量。
智能審校作為知識服務(wù)方向今明兩年的重點工作,謝海華傾注了大量的時間和精力推動該項目相關(guān)技術(shù)的研究。2018年12月27日,謝海華參加了方正電子與中國出版協(xié)會編校工作委員會、數(shù)字出版技術(shù)國家重點實驗室舉辦的智能輔助審校專家研討會,探討在人工智能時代,如何運用自然語言理解等前沿技術(shù)為編輯人員減負(fù)增效。
當(dāng)前,我國正在從出版大國向出版強(qiáng)國發(fā)展,出版物內(nèi)容編校質(zhì)量一直是出版行業(yè)關(guān)注的重點。人工智能技術(shù)、自然語言理解技術(shù)、機(jī)器深度學(xué)習(xí)技術(shù)的發(fā)展,為出版行業(yè)提升出版物編校智能化程度、降低人工勞動強(qiáng)度、提高工作效率提供了新的解決方案。在此背景下,方正電子聯(lián)合中國出版協(xié)會編校工作委員會、數(shù)字出版技術(shù)國家重點實驗室,邀請出版行業(yè)專家和技術(shù)專家就人工智能技術(shù)如何運用在內(nèi)容編校領(lǐng)域進(jìn)行研討。會議當(dāng)中,謝海華博士介紹了人工智能技術(shù)在文檔審校修改中的應(yīng)用,以及自然語言理解基礎(chǔ)技術(shù)、語言模型、機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型在文檔審校修改方面的應(yīng)用情況,分享了人工智能技術(shù)在單位格式自動校核和標(biāo)點符號審校修改方面取得的進(jìn)展。他還介紹了方正電子在圖表公式序號檢查、上下文內(nèi)容查重、全半角、規(guī)范用語等十一項檢查項的產(chǎn)品情況,向與會專家概括了智能輔助審校產(chǎn)品下一步研發(fā)的重點工作。
出版社的專家們充分肯定了方正集團(tuán)致力于新聞出版行業(yè)的技術(shù)創(chuàng)新的初哀和出發(fā)點,需要從行業(yè)的角度解決行業(yè)的共同需要,認(rèn)為智能輔助審校的產(chǎn)品方向、目標(biāo)和定位是正確的,技術(shù)路線是清晰的。與會專家建議,方正電子和數(shù)字出版實驗室應(yīng)該充分考慮內(nèi)容編校的復(fù)雜性、艱巨性和難度,進(jìn)一步明確產(chǎn)品的邊界。明確在內(nèi)容“審”的方面哪些是機(jī)器能解決的問題,哪些是編輯人員人工解決的問題,立足為編輯“減負(fù)”,同時與國內(nèi)專業(yè)權(quán)威機(jī)構(gòu)建立長期的合作關(guān)系。
謝海華認(rèn)為智能輔助審校專家研討會的召開,為方正電子智能輔助審校產(chǎn)品的研發(fā)明確了定位與發(fā)展方向,大力推動了方正電子基于新聞出版行業(yè)的技術(shù)創(chuàng)新。他說,面對出版業(yè)的發(fā)展和需求,方正電子和數(shù)字出版技術(shù)國家重點實驗室將繼續(xù)致力于出版行業(yè)的技術(shù)創(chuàng)新,通過運用人工智能等前沿技術(shù),提升出版行業(yè)編校水平,為編輯人員減負(fù)增效。
第五,在媒體大數(shù)據(jù)分析方面,他們計劃構(gòu)建一個媒體大數(shù)據(jù)分析系統(tǒng),包含新聞文本的轉(zhuǎn)載、侵權(quán)和同題檢測,新聞線索發(fā)掘和新聞影響力分析。該項研究的創(chuàng)新點是基于新聞文本特點和媒體業(yè)務(wù)場景的知識服務(wù)應(yīng)用研究。中國人民大學(xué)新聞學(xué)院作為國內(nèi)新聞傳播學(xué)的頂尖研究機(jī)構(gòu),也和謝海華團(tuán)隊合作,為這項研究提供專業(yè)的媒體傳播理論分析。因此,這項研究的應(yīng)用前景非常廣闊。
不久的將來,謝海華和他的團(tuán)隊在已有的技術(shù)成果以及行業(yè)前沿的探索的基礎(chǔ)上,將致力于不斷發(fā)展方正集團(tuán)在人工智能領(lǐng)域的技術(shù),推動現(xiàn)有產(chǎn)業(yè)革新,并努力開拓新的產(chǎn)業(yè)發(fā)展方向,助力公司在當(dāng)今人工智能的大潮當(dāng)中不斷前進(jìn),成為國內(nèi)領(lǐng)先的創(chuàng)新科技企業(yè)。對此,謝海華博士充滿了信心。
鏈接
謝海華,1983年生,博士畢業(yè)于美國愛荷華州立大學(xué)計算機(jī)系。2015年進(jìn)入海淀園北大方正集團(tuán)企業(yè)博士后工作分站(與北京大學(xué)聯(lián)合培養(yǎng)),出站后留站,現(xiàn)任數(shù)字出版技術(shù)國家重點實驗室高級算法研究員,知識服務(wù)方向技術(shù)負(fù)責(zé)人。博士后期間主持多項數(shù)字出版行業(yè)關(guān)鍵應(yīng)用技術(shù)創(chuàng)新項目,運用人工智能技術(shù)探索并實現(xiàn)了專業(yè)出版領(lǐng)域的數(shù)字資源大數(shù)據(jù)云平臺,已取得數(shù)千萬經(jīng)濟(jì)效益;發(fā)表EI論文14篇,申請發(fā)明專利14項;2018年入選北京市海聚工程青年項目,獲得“北京市特聘專家”榮譽稱號,并獲評方正集團(tuán)高級技術(shù)專家。