楊松
“2023年,我覺得是人工智能進(jìn)入新階段的一個(gè)起點(diǎn)。”
提及當(dāng)下大熱的ChatGPT,達(dá)觀數(shù)據(jù)董事長(zhǎng)、CEO陳運(yùn)文興奮地告訴《21CBR》記者,其寫出來的內(nèi)容,相較之前的計(jì)算機(jī)寫作有了質(zhì)的飛躍,寫作能力已經(jīng)超過了普通人。
陳運(yùn)文覺得,ChatGPT與自己的創(chuàng)業(yè)項(xiàng)目,有“非常強(qiáng)的相關(guān)性。”達(dá)觀對(duì)文本進(jìn)行智能化處理,與ChatGPT本質(zhì)上是一致的,都使用到了自然語言處理技術(shù)。
人工智能技術(shù)主要應(yīng)用在三個(gè)方面,語音識(shí)別、圖像識(shí)別、自然語言處理。前兩個(gè)領(lǐng)域進(jìn)展迅速,已經(jīng)上市的商湯、科大訊飛等公司,業(yè)務(wù)均集中在圖像、語音方面。
2008年從復(fù)旦大學(xué)博士畢業(yè)后,陳運(yùn)文的工作一直圍繞著“人工智能”和“文本”,先后擔(dān)任盛大文學(xué)首席數(shù)據(jù)官、騰訊文學(xué)高級(jí)總監(jiān)、百度核心技術(shù)研發(fā)工程師等職務(wù)。
2015年,陳運(yùn)文創(chuàng)辦了專注于智能文本機(jī)器人公司達(dá)觀數(shù)據(jù)。創(chuàng)業(yè)初期,他組建了一個(gè)算法團(tuán)隊(duì),參加全球算法競(jìng)賽,兩次獲得世界冠軍。
自然語言處理技術(shù)(NLP)因其復(fù)雜和高難度,被業(yè)內(nèi)稱為“人工智能皇冠上的明珠”。陳運(yùn)文覺得團(tuán)隊(duì)的技術(shù)實(shí)力并不比海外同行差,一頭扎進(jìn)了自然語言處理技術(shù)這個(gè)頗具挑戰(zhàn)的領(lǐng)域。
經(jīng)過7年技術(shù)研發(fā),達(dá)觀首創(chuàng)了國(guó)內(nèi)第一套文本智能處理IDP處理平臺(tái),行業(yè)無錨點(diǎn)OCR文字提取系統(tǒng),以及獨(dú)家開發(fā)RPA(機(jī)器人流程自動(dòng)化)文字元素自適應(yīng)穿透捕獲算法。
產(chǎn)品應(yīng)用方面,達(dá)觀的業(yè)務(wù)已遍布金融、制造、政務(wù)等細(xì)分領(lǐng)域,陳運(yùn)文透露,國(guó)內(nèi)排名前30的券商公司,均是達(dá)觀的客戶。
天眼查數(shù)據(jù)顯示,2022年3月,達(dá)觀數(shù)據(jù)完成C輪5.8億元融資,投資方包括中信證券、招商證券、廣發(fā)證券、中信建投等券商,累計(jì)融資額超過10億元。這4家券商,投資前均是達(dá)觀多年的客戶。
在陳運(yùn)文看來,AI文本領(lǐng)域的市場(chǎng)規(guī)模,并不比視覺領(lǐng)域小。隨著ChatGPT類似技術(shù)應(yīng)用到各個(gè)領(lǐng)域,將是千億甚至萬億級(jí)別的市場(chǎng)。
達(dá)觀數(shù)據(jù)也迎來了文本AI的春天。陳運(yùn)文透露,今年公司的營(yíng)收有望超過歷史上任何一年,預(yù)計(jì)會(huì)完成新一輪融資。
ChatGPT 大火,其運(yùn)用的技術(shù)原型,在2017年就誕生了,我們叫做Transformer模型,既可以用來做文檔資料的閱讀理解,也可以用來寫作。
我印象中人工智能上一次這么熱,還是2016年AlphaGo下圍棋。6年之后又有一個(gè)非常巨大的技術(shù)突破,挺鼓舞人心的。
行業(yè)內(nèi)有句話,自然語言理解,是人工智能皇冠上的明珠。我之前估計(jì),人工智能的水平超過人類,需要5-10年,現(xiàn)在時(shí)間進(jìn)程大大加快。2023年人工智能進(jìn)入一個(gè)新的階段,標(biāo)志著新時(shí)代的開始。
ChatGPT背后的大模型技術(shù),是通過海量文檔資料進(jìn)行深度學(xué)習(xí),智能程度已經(jīng)達(dá)到非常高的水平。不僅能直接給出選擇題的答案,還可以幫用戶寫代碼、找bug,寫各種各樣的文檔資料。
大家對(duì)人工智能的未來前景也越來越樂觀,以前覺得人工智能做不了的事情,接下來會(huì)一點(diǎn)一點(diǎn)實(shí)現(xiàn),超過人類的相應(yīng)能力。
達(dá)觀所從事的研究領(lǐng)域,是文檔資料的智能處理,與ChatGPT的工作原理類似。達(dá)觀的產(chǎn)品則應(yīng)用在企業(yè)級(jí)領(lǐng)域,面向更為垂直的行業(yè)。
不過,通用大語言模型與專用模型,有很大差異。如果用戶問ChatGPT一些專業(yè)性問題,會(huì)發(fā)現(xiàn)它的回答可能東拉西扯,說不到重點(diǎn)或不夠深刻。
我曾問過關(guān)于自然語言處理領(lǐng)域特別專業(yè)的技術(shù)知識(shí),它的回復(fù)不太好。在垂直領(lǐng)域,還是需要類似達(dá)觀所提供的專用語言模型。
在自然語言處理領(lǐng)域,OpenAI(ChatGPT背后的公司)的模式已經(jīng)走通,我們可以跟隨,并在垂直領(lǐng)域做得更好,未來會(huì)有非常優(yōu)秀的國(guó)產(chǎn)語言大模型。
達(dá)觀在2021年建立了一個(gè)專家工作站,與復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授黃萱菁合作,她也是國(guó)內(nèi)自然語言處理領(lǐng)域的知名專家。
今年,達(dá)觀和復(fù)旦大學(xué)聯(lián)合實(shí)驗(yàn)室的重點(diǎn)任務(wù),在AIGC(AI Generated Content,利用人工智能技術(shù)生成內(nèi)容)領(lǐng)域,爭(zhēng)取推出優(yōu)秀的成果。
ChatGPT的大熱,也給我們研發(fā)團(tuán)隊(duì)更大的壓力。以前覺得技術(shù)沒那么快成熟,而美國(guó)同行做出了這么優(yōu)秀的產(chǎn)品,我們需要加速研發(fā)進(jìn)度。
我自己是研發(fā)出身,現(xiàn)在也是管研發(fā)更多一些。時(shí)不我待,近期研發(fā)同事都在加班。我對(duì)達(dá)觀今年的研發(fā)期望很大,希望在專用語言模型和知識(shí)圖譜方面均有所突破。
過去幾年,我們圍繞文檔資料處理,研發(fā)了很多相關(guān)技術(shù)和產(chǎn)品。
比如,針對(duì)文檔掃描環(huán)節(jié),我們開發(fā)了達(dá)觀OCR(文字掃描)相關(guān)平臺(tái);推出模擬重復(fù)性操作文檔資料的RPA功能模塊,不管是紙質(zhì)還是電子版的文檔資料,達(dá)觀平臺(tái)都能處理。
針對(duì)不同行業(yè),我們?cè)谘邪l(fā)產(chǎn)品時(shí),需要行業(yè)內(nèi)大量專有語料數(shù)據(jù),對(duì)系統(tǒng)進(jìn)行強(qiáng)化訓(xùn)練。達(dá)觀招聘了很多垂直行業(yè)的業(yè)務(wù)專家,也跟行業(yè)領(lǐng)先的公司合作。
比如,和很多金融行業(yè)的頭部銀行、證券公司合作,將業(yè)務(wù)專家的專業(yè)知識(shí)引入語音模型中,讓系統(tǒng)擁有專家能力。
在金融行業(yè),達(dá)觀產(chǎn)品實(shí)現(xiàn)大規(guī)模落地。金融行業(yè)的文書工作很多,比如各種信貸報(bào)告、招股書、研報(bào)等,需要大量的文檔處理工作,且對(duì)準(zhǔn)確率要求高,AI系統(tǒng)非常有優(yōu)勢(shì)。
這個(gè)領(lǐng)域的人才成本比較高,期望利用AI系統(tǒng)提高效率,達(dá)觀產(chǎn)品內(nèi)嵌到金融公司內(nèi)部的作業(yè)系統(tǒng)中,幾乎是員工日常工作的標(biāo)配工具。
比如銀行的流水核查,甚至更復(fù)雜的財(cái)報(bào)中數(shù)據(jù)出現(xiàn)矛盾,通過系統(tǒng)都能鑒別出來。
計(jì)算機(jī)處理文字資料的效率,大概是普通白領(lǐng)員工的100倍。在持續(xù)工作狀態(tài)下,準(zhǔn)確率保持一致,可以24小時(shí)工作,對(duì)很多行業(yè)來說是非常有價(jià)值的。
例如進(jìn)出口企業(yè),海外訂單可能是半夜才到,需要系統(tǒng)立即處理,而不是等到第二天員工上班才去處理。
而在證券領(lǐng)域,目前,前30大券商都是達(dá)觀的客戶。其中4家頭部企業(yè)在幾年前已經(jīng)使用產(chǎn)品,后來也成為了我們公司的股東。
行業(yè)類產(chǎn)品,從研發(fā)到成熟到大規(guī)模復(fù)制普及,整個(gè)過程需要一定周期性。所以,達(dá)觀會(huì)對(duì)行業(yè)有所選擇,看潛在客戶在文檔資料領(lǐng)域的需求,是否有行業(yè)普適性。
我們通常從市場(chǎng)容量高的行業(yè)優(yōu)先切入,目前布局了金融、制造等板塊。
在自然語音處理領(lǐng)域,國(guó)內(nèi)外有很多大平臺(tái),比如百度、谷歌都有多年積淀。相較這些巨頭,達(dá)觀的優(yōu)勢(shì)在于垂直領(lǐng)域。
達(dá)觀團(tuán)隊(duì)通過與行業(yè)客戶合作,可以積累很多專用的語料大數(shù)據(jù),即便是搜索引擎也是很難獲得的。
就整個(gè)行業(yè)來看,互聯(lián)網(wǎng)巨頭未來可能會(huì)推出面向個(gè)人用戶端的通用語言大模型,而類似達(dá)觀這類TOB初創(chuàng)公司,則專注于垂直領(lǐng)域的專用大模型,會(huì)有一個(gè)差異化發(fā)展路徑。
在文檔資料領(lǐng)域,除了審核還有寫作環(huán)節(jié)。智能化寫作將是達(dá)觀重要的技術(shù)突破點(diǎn),完成之后就能形成產(chǎn)品閉環(huán)。
在去年的艱難環(huán)境中,我們是AI行業(yè)增長(zhǎng)最快的公司,團(tuán)隊(duì)做了很多努力,挺不容易的。
今年整個(gè)經(jīng)濟(jì)形勢(shì)及市場(chǎng)信心回暖得非???,我覺得今年的收入和業(yè)務(wù)發(fā)展,應(yīng)該超過公司歷史上任何一年。
我今年更關(guān)注產(chǎn)品研發(fā),有了優(yōu)秀的產(chǎn)品,可以迅速帶動(dòng)業(yè)務(wù)。
年內(nèi)我們會(huì)推出國(guó)產(chǎn)的語言大模型,并且會(huì)用于幾個(gè)垂直領(lǐng)域,比如工業(yè)制造、零售供應(yīng)鏈、金融等。
未來,人工智能并不是完全替代人力,而是變成“人機(jī)協(xié)同”。
寫作也是很多客戶的痛點(diǎn)之一,人寫作的速度是非常慢的,我們做過測(cè)算,一個(gè)人平均寫1000字左右的文檔,A4紙大概一頁半紙,差不多需要2到3個(gè)小時(shí)。
如果用AI系統(tǒng)去寫作,這個(gè)時(shí)間可以縮短到一分鐘之內(nèi),對(duì)效率的提升是非常巨大的。我相信未來AI工具和人結(jié)合,能夠讓各行各業(yè)的專業(yè)文書寫作更為高質(zhì)高效。
我們預(yù)估過,把所有文本文字資料處理的工作加起來,未來有AI滲透進(jìn)去的話,將是一個(gè)萬億級(jí)市場(chǎng)。
目前,市場(chǎng)上有相關(guān)技術(shù)能力的創(chuàng)業(yè)公司并不多,行業(yè)門檻挺高的,需要很強(qiáng)的研發(fā)能力,并在行業(yè)中有很深的技術(shù)積淀,才敢啃自然語言處理這塊“硬骨頭”。
隨著ChatGPT大熱,近期想找達(dá)觀投資的機(jī)構(gòu)挺多的,我們考慮今年推進(jìn)新一輪的融資。
科創(chuàng)板目前還沒有自然語言處理或者文本語義處理的上市公司。圖像、文字、語音是人工智能的三個(gè)大賽道,圖像已經(jīng)有幾家公司上市了,語音有科大訊飛,文字則沒有。
所以,我們有機(jī)會(huì)扛起這面大旗,做科創(chuàng)板文字AI“第一股”。