房曉楠
近年來,隨著深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,AI在加速落地。在這個過程中,作為人工智能技術(shù)的底層支撐,以數(shù)據(jù)采集與標(biāo)注為主的AI數(shù)據(jù)服務(wù)行業(yè)也在進(jìn)行著日新月異的變化。技術(shù)更硬核、準(zhǔn)確率更高的專業(yè)化AI訓(xùn)練數(shù)據(jù)提供商開始成為行業(yè)主流。
人類創(chuàng)造了AI,AI正在改變?nèi)祟?/p>
2020年,新冠肺炎疫情呼嘯全球。
人工智能利用其優(yōu)勢在對疫情的動態(tài)監(jiān)控、防疫信息的及時公布,以及病毒研究的技術(shù)支持方面發(fā)揮了積極作用,以科學(xué)技術(shù)為武器的“科技抗疫”行動引發(fā)廣泛關(guān)注。不僅如此,由于受到疫情的影響,線下商業(yè)面臨的多重困境更讓企業(yè)意識到人工智能在其業(yè)務(wù)中的重要作用。今年6月,在澳鵬(Appen)全球發(fā)布的2020年AI現(xiàn)狀年度報告《AI與機(jī)器學(xué)習(xí)的現(xiàn)狀》中,近四分之三的被調(diào)研企業(yè)、組織表示AI對他們的業(yè)務(wù)而言至關(guān)重要,越來越多的企業(yè)開始將負(fù)責(zé)任的AI作為其實現(xiàn)業(yè)務(wù)成功的因素之一。
實際上,近年來隨著技術(shù)的不斷成熟,AI在不斷地落地,與各行各業(yè)進(jìn)行深度融合,如金融、醫(yī)療、零售、教育、安防等,AI商業(yè)化在不斷加速。而在這個過程中,作為AI技術(shù)的底層支撐,數(shù)據(jù)采集與標(biāo)注相較算法研究、算力提升、數(shù)據(jù)挖掘等方面,似乎一直以來都處在一個隱秘的角落,并沒有得到太多關(guān)注目光。盡管在通常情況下,人工“喂養(yǎng)”數(shù)據(jù)的質(zhì)量往往直接影響著算法的精度。
艾瑞咨詢發(fā)布的2020年《中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)發(fā)展報告》顯示,“目前人工智能商業(yè)化在算力、算法和技術(shù)方面基本達(dá)到階段性成熟,想要加速落地,解決行業(yè)具體痛點,需要大量經(jīng)過標(biāo)注處理的相關(guān)數(shù)據(jù)做算法支撐,可以說數(shù)據(jù)決定了AI的落地程度,是商業(yè)化過程中重要的一環(huán)”。
算法為車,數(shù)據(jù)為油
如果把AI中的算法比作是車,那么數(shù)據(jù)便是油,想要車跑得更快、更好,該“喂”它什么樣的油?這就是數(shù)據(jù)服務(wù)商在不斷思考的問題,而作為成立于1996年,在數(shù)據(jù)服務(wù)行業(yè)探索了近24年的澳鵬(Appen)來說,對于這一問題有著自己的看法。
澳鵬(Appen)全球副總裁、大中華區(qū)總經(jīng)理田小鵬博士在接受采訪時表示,隨著技術(shù)的不斷發(fā)展,傳統(tǒng)企業(yè)一定會走向AI的道路,在這條道路上,他們對于數(shù)據(jù)的需求相較于以往提出了更高的要求。
“第一是需要大量高質(zhì)量的數(shù)據(jù)”。
田小鵬博士認(rèn)為,當(dāng)一個新技術(shù)開始從實驗室走向商用,所需要的數(shù)據(jù)將呈現(xiàn)幾何模式增長。而對于算法模型來說,當(dāng)?shù)搅似脚_期的時候,如果想進(jìn)一步提升準(zhǔn)確率,就需要“喂養(yǎng)”更多的數(shù)據(jù)?!鞍涅i(Appen)曾經(jīng)做過一個研究,比方說當(dāng)你使用1倍的數(shù)據(jù),模型誤差率可能是13%;使用2倍的數(shù)據(jù),誤差率就可以降到8%;使用4倍的數(shù)據(jù),誤差率可以降到5%以下?!币欢ㄇ闆r下,算法模型的誤差率高并不代表算法有問題,而是沒有足夠的訓(xùn)練數(shù)據(jù),因此想要對算法進(jìn)行大幅提升,需要大量的無偏見、準(zhǔn)確的高質(zhì)量數(shù)據(jù),田小鵬博士解釋道。
第二是數(shù)據(jù)的安全性、保密性、私密性及無歧視要求。
第三是要求采標(biāo)一體化。
對于數(shù)據(jù)需求方來說,他們希望“一個公司不僅能夠采集所需要的數(shù)據(jù),還能夠把數(shù)據(jù)很好地標(biāo)注,在過程中不斷地和算法工程師進(jìn)行交流,應(yīng)用‘小、快、靈方式不斷滿足客戶的修正需求是客戶的核心訴求也是澳鵬(Appen)的成功秘訣?!碧镄※i博士認(rèn)為,這個要求對AI的數(shù)據(jù)提供了非常廣闊的要求,同時從某種意義上來說是對數(shù)據(jù)提供方所必需具備哪些超然品質(zhì)提出了要求。
在不同的場景中對于數(shù)據(jù)的采集與標(biāo)注要求是不一樣的,“定制化”需求成為主流,數(shù)據(jù)提供方針對特定的場景要能提供特定的解決方案。田小鵬博士表示,澳鵬(Appen)作為一家全方位的AI訓(xùn)練數(shù)據(jù)服務(wù)商,能夠提供文本、語音、圖像以及內(nèi)容相關(guān)性分析等服務(wù),但這四類是不一樣的。比如語音,市場上的智能音箱、自動駕駛中的智能語音交互等,這些都需要人通過語音與機(jī)器進(jìn)行交互,因此在進(jìn)行數(shù)據(jù)處理中首先需要知道該如何識別語言,然后是如何理解語言,最后還要考慮到語言的多樣性。因為世界上不僅有各種語種,在中國還涉及到各種方言,比如蘇州話、上海話、東北話等,以及每個方言中還分為各個分支。此外,在采集過程中還要考慮到采集的環(huán)境、采集的方式、機(jī)器采集時所需要的參數(shù)等,這些都需要針對特定場景中特定客戶的需求“定制化”進(jìn)行,因為這是獲得最終的高質(zhì)量數(shù)據(jù)的基本保障,是與算法的性能相關(guān)的。
“當(dāng)你的數(shù)據(jù)越來越貼近真實的算法所需要的東西時,你的算法準(zhǔn)確率就更高,AI就更容易實現(xiàn)與落地?!?/p>
用安全的數(shù)據(jù)擁抱負(fù)責(zé)任的AI
技術(shù)是一把雙刃劍,AI也不例外。AI確實帶來了便捷,但如果將其濫用,用在非法、錯誤的地方,將帶來各種社會問題,特別是數(shù)據(jù)方面,這涉及到個人隱私以及各種安全問題。因此,我們希望AI是安全的、是可以信賴的,這需要多方面的共同維護(hù)。那么,從數(shù)據(jù)的角度出發(fā),我們該如何用安全的數(shù)據(jù)擁抱負(fù)責(zé)任的AI?
在田小鵬博士看來,AI確實帶來了便捷,但我們不可以濫用AI知識,尤其是用到非法、不健康的地方,“我覺得無論是在任何一個社會、任何一個國家,都要堅持的原則?!?/p>
一直以來,澳鵬(Appen)在數(shù)據(jù)的安全性、保密性、隱私性、無歧視方面,都希望能夠做到業(yè)界標(biāo)桿,而且也在引導(dǎo)業(yè)界不停地精進(jìn)。田小鵬博士表示,澳鵬(Appen)在采集任何一個數(shù)據(jù)的時候,都是完全符合當(dāng)?shù)胤ㄒ?guī)、制度要求的,而且都會征求數(shù)據(jù)被采集人員的同意,獲得每一個人的承諾書。澳鵬(Appen)會告知對方,所采集的數(shù)據(jù)會被哪個客戶應(yīng)用?應(yīng)用在什么地方?對方本人是否同意?只有在取得對方的同意時才會應(yīng)用這個數(shù)據(jù),否則是絕對不會用的,這是一種基本的個人隱私和數(shù)據(jù)保護(hù)原則。
另外,在進(jìn)行內(nèi)部數(shù)據(jù)處理的時候,澳鵬(Appen)會對接到的項目進(jìn)行慎重考慮,當(dāng)涉及到一些數(shù)據(jù)敏感性、隱私性,或者從商業(yè)道德角度來說是不對的時候,“我們就選擇不做。”
田小鵬博士認(rèn)為,數(shù)據(jù)的安全不僅僅涉及安全性、保密性、隱私性,還有很重要的一點就是對于數(shù)據(jù)來說,更要注重?zé)o歧視要求。
例如,最近外國媒體報道了一則新聞,在一些人臉識別軟件中存在種族歧視,無法識別黑種人面孔。當(dāng)把一個黑種人面孔輸入進(jìn)去之后,發(fā)現(xiàn)識別出來的是白種人,甚至連對美國前總統(tǒng)奧巴馬進(jìn)行面部識別時出現(xiàn)的也是白種人,這可以說是識別有問題,又或者可以說是白人更容易識別,而黑人不容易識別。其實,這些都反映出背后的訓(xùn)練數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不足,AI最主要的基石就是大量的、高質(zhì)量的數(shù)據(jù)。如果識別模型達(dá)不到高識別率,就不能將輸入的面部圖片真實地識別出來,而這些都是AI還需要不斷提升、改進(jìn)的地方。
“ 用AI來服務(wù)AI ”
2019年,全球人工智能行業(yè)發(fā)展依舊火熱,由此而產(chǎn)生出的數(shù)據(jù)需求量也十分龐大。根據(jù)國際數(shù)據(jù)公司(IDC)2018年末的測算,2018年至2025年,全球的數(shù)據(jù)總量將由33ZB增加至175ZB。其中,中國的數(shù)據(jù)增長量將保持30%的增長速度,可以說是所有地區(qū)中增長速度最快的。同樣,數(shù)據(jù)量的激增也催生出了數(shù)據(jù)服務(wù)行業(yè)這一龐大的市場。
艾瑞咨詢2020年《中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)發(fā)展報告》中的數(shù)據(jù)統(tǒng)計顯示,“2019年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)??蛇_(dá)30.92億元,其中圖像類、語音類、NLP類數(shù)據(jù)需求規(guī)模占比分別為42.5%、46.3%和11.2%;根據(jù)需求方投入情況和供應(yīng)方營收增長情況推算,預(yù)計2025年市場規(guī)模將突破100億元,年增長率為21.8%”。
面對不斷火爆的市場,數(shù)據(jù)服務(wù)商又該如何提高自身競爭力,脫穎而出?善于使用AI技術(shù)是關(guān)鍵。
數(shù)據(jù)是油,助力人工智能這一加速數(shù)字化革命的發(fā)動機(jī)不斷向前,同時,AI技術(shù)也在反哺數(shù)據(jù)行業(yè)。
AI在數(shù)據(jù)標(biāo)注領(lǐng)域主要應(yīng)用于數(shù)據(jù)采集后的處理環(huán)節(jié),在數(shù)據(jù)采集中無論是圖像還是語音數(shù)據(jù)都會出現(xiàn)重復(fù)樣本或不合格的樣本,如果單純依靠人工進(jìn)行抽查或是遍歷每一個樣本進(jìn)行校驗,那么在成本、準(zhǔn)確率和時效性方面都會造成不足,通過使用計算機(jī)視覺和語音識別技術(shù)對采集到的樣本進(jìn)行初步識別,可在短時間內(nèi)到達(dá)較高的校驗正確率,實現(xiàn)幾倍于人力的工作效率。
這正是澳鵬(Appen)的強(qiáng)項之一。
田小鵬博士表示:“目前澳鵬(Appen)基本上不會用純?nèi)斯みM(jìn)行數(shù)據(jù)標(biāo)注,而是采用‘平臺+人工的方式進(jìn)行?!?/p>
例如在3D點云標(biāo)注領(lǐng)域,如果一輛車在路上一直跑,最笨的辦法是把100幀的數(shù)據(jù)逐個選出來,可能需要選1萬張圖片,然后對這1萬張圖片進(jìn)行人工標(biāo)注。假如標(biāo)注1張圖片需要100塊錢,那么完成整個工作就需要100萬,成本非常高。但澳鵬(Appen)可以做到在技術(shù)的加持下進(jìn)行自動標(biāo)注。因為這100幀都是對這輛車進(jìn)行標(biāo)注,我們可以找到第一幀進(jìn)行標(biāo)注,再在最后選一幀進(jìn)行標(biāo)注。比如對第1幀和第100幀進(jìn)行標(biāo)注,所以只需要標(biāo)兩幀。對于這100張圖片,只需要對2張圖片進(jìn)行標(biāo)注,然后用算法和平臺自動地查找從第1幀到第99幀,自動實現(xiàn)對圖片的標(biāo)注?!斑@不是提升1%的生產(chǎn)效率,基本上是98%的生產(chǎn)效率。本來需要標(biāo)100幀,現(xiàn)在只需要標(biāo)2幀,實際上這是一個大幅度的提升。”
“我們澳鵬(Appen)本身也有很多AI科學(xué)家,他們本身就是在研究怎么樣可以通過AI技術(shù)、機(jī)器學(xué)習(xí)(Machine Learning)技術(shù)、深度學(xué)習(xí)(Deep Learning)技術(shù),讓我們的平臺用AI來服務(wù)AI,這個正是我們所做的?!碧镄※i博士解釋道。
從2017年進(jìn)入中國,澳鵬(Appen)便決定在中國大規(guī)模發(fā)展。對于未來在中國發(fā)展的戰(zhàn)略目標(biāo),田小鵬把它總結(jié)為兩個方面。
“第一個是我們的五年規(guī)劃,希望在2025年的時候可以做到10億美元的收入,這就意味著我們會做到將近上萬人規(guī)模的公司。真正開始在大中華區(qū)的市場,中國大陸、中國香港、中國臺灣等提供各種各樣的AI數(shù)據(jù)服務(wù)。”
第二個方面是不斷擴(kuò)大公司規(guī)模。澳鵬中國是一家獨立管理、獨立運(yùn)營的公司。去年10月,澳鵬中國首個數(shù)據(jù)服務(wù)交付中心——澳鵬科技(無錫)有限公司正式成立,投資200萬美元;今年5月,澳鵬數(shù)據(jù)科技(上海)有限公司正式成立,投資200萬美元。“我們不斷地在中國進(jìn)行投資、進(jìn)行發(fā)展?!苯酉聛砉疽?guī)模將向哪個城市擴(kuò)展,也許是在大連。田小鵬博士透露,今年剛剛建成大連的服務(wù)交付站點,希望將來可以提供更多的面向日語、韓語、俄羅斯語,包括覆蓋東北領(lǐng)域的公司。
目前,“中國AI幾乎所有的頭部客戶,都是澳鵬中國的客戶。包括你可以想到的大型Internet公司,全是澳鵬的客戶?!倍谖磥?,田小鵬表示,澳鵬還將向更多的行業(yè)邁進(jìn),不斷砥礪前行,深耕細(xì)作。
處在技術(shù)大爆發(fā)與數(shù)字洪水的AI時代,誰掌握了更多、更精準(zhǔn)的數(shù)據(jù),誰的算法精度就會更領(lǐng)先一步。而作為高質(zhì)量數(shù)據(jù)提供者的數(shù)據(jù)服務(wù)行業(yè)市場也已開始洗牌,競爭悄然開始。田小鵬博士覺得未來中國的AI數(shù)據(jù)服務(wù)行業(yè)也許出現(xiàn)行業(yè)“三巨頭”,“那個時候我希望澳鵬(Appen)會是其中的一個?!?/p>