張陽
目前,人工智能商業(yè)化在算力、算法和技術(shù)方面基本達(dá)到階段性成熟,想要更加落地并解決行業(yè)具體痛點,需要大量經(jīng)過標(biāo)注處理的相關(guān)數(shù)據(jù)做算法訓(xùn)練支撐,可以說,數(shù)據(jù)決定了AI的落地程度。對比中國與世界的發(fā)展情形來看,人工智能行業(yè)發(fā)展前景良好,而作為強關(guān)聯(lián)性的AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)受其發(fā)展紅利的影響,未來市場仍有不小的上升空間。“品牌數(shù)據(jù)服務(wù)商” 在這1-2年內(nèi)應(yīng)該“居安思?!?,注重品牌認(rèn)可度塑造、提高規(guī)?;a(chǎn)能力、大力發(fā)展如預(yù)標(biāo)注、項目進度可視化等精細(xì)化運營方式,最終追求單位價格的利潤最大化。
中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模:2025年市場規(guī)模將突破100億元,年化增長率為21.8%。
艾瑞通過對中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)中主要需求方、品牌數(shù)據(jù)服務(wù)商、主要中小型數(shù)據(jù)供應(yīng)商等多方調(diào)研描繪市場情況。根據(jù)數(shù)據(jù)顯示,2019年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)??蛇_(dá)30.9億元,其中圖像類、語音類、NLP類數(shù)據(jù)需求規(guī)模占比分別為49.7%、39.1%和11.2%;根據(jù)需求方投入情況和供應(yīng)方營收增長情況推算,預(yù)計2025年市場規(guī)模將突破100億元,年化增長率為21.8%,該行業(yè)核心業(yè)務(wù)與當(dāng)下以監(jiān)督學(xué)習(xí)為主的人工智能市場具有強相關(guān)聯(lián)系,市場發(fā)展前景向好。
從需求方角度看市場增速的話,整體增速平穩(wěn)向上,增量市場將替代存量市場成為主要拉力。AI基礎(chǔ)數(shù)據(jù)服務(wù)市場從需求角度看可以分為存量市場和增量市場。存量市場中巨頭互聯(lián)網(wǎng)科技公司和AI創(chuàng)業(yè)公司為主要需求方,項目落地所需要的采集、標(biāo)注數(shù)據(jù)逐漸成為需求核心,存量市場仍是目前AI基礎(chǔ)數(shù)據(jù)服務(wù)市場的需求主體。增量市場是相對于存量市場而存在的,以海外市場、國內(nèi)新需求方市場、國內(nèi)新興業(yè)務(wù)拓展和國內(nèi)新成立的AI創(chuàng)業(yè)公司需求為主。增量市場雖然近些年對于整體市場規(guī)模的貢獻(xiàn)率不夠明顯,但隨著中國人工智能技術(shù)的不斷深入與國際化,在未來將成為主要的拉動力量。從短期來看,AI基礎(chǔ)數(shù)據(jù)服務(wù)市場增速仍然與存量市場增速緊密相關(guān),主要依賴于已有客戶常規(guī)業(yè)務(wù)委托,以及如語音識別業(yè)務(wù)中方言、小語種數(shù)據(jù)需求增加等內(nèi)容更新需求支撐發(fā)展,隨著存量市場需求逐漸長尾化,供應(yīng)方將會更加關(guān)注增量市場的拓展,來減輕對已有客群的依賴,達(dá)到良性的可持續(xù)發(fā)展。
從供應(yīng)方角度看市場格局的話,CR5(前五大企業(yè)市場份額)為26.2%,處于低集中競爭階段,中小企業(yè)占比仍較大。
品牌數(shù)據(jù)服務(wù)商、中小數(shù)據(jù)供應(yīng)商和需求方自建團隊是市場中的主要供應(yīng)方。在2019年AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模中的份額占比分別為30.4%、47.0%和22.6%,可見中小型數(shù)據(jù)供應(yīng)商仍然是市場中的主要供應(yīng)力量。通過對行業(yè)頭部公司進行集中度計算,可知2019年AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR5為26.2%,處于低集中競爭階段,行業(yè)活力充足,發(fā)展空間良好。
從供應(yīng)方的發(fā)展來看,行業(yè)內(nèi)部處于“洗牌”階段,雖然中小型數(shù)據(jù)供應(yīng)商的整體體量仍然可觀,但隨著業(yè)務(wù)門檻提升、客戶需求多樣化、價格戰(zhàn)中利潤被壓縮等情況成為常態(tài),越來越多的中小型數(shù)據(jù)供應(yīng)商在苦惱生存問題,加之業(yè)務(wù)斷檔期人員成本的壓力,該群體在未來1-2年內(nèi)將迎來一陣“倒閉潮”。通過數(shù)據(jù)顯示,2019年中小型數(shù)據(jù)供應(yīng)商份額比預(yù)期值縮小了20.8%,而這部分份額按7:3的比例,向品牌數(shù)據(jù)服務(wù)商和需求方自建團隊釋放,作為行業(yè)的頭部陣營品牌數(shù)據(jù)服務(wù)商在這一階段受益最多,不僅營收方面得以增長,也逐步穩(wěn)固了自身領(lǐng)頭羊的地位。而根據(jù)增量市場的特征,品牌數(shù)據(jù)服務(wù)商在品牌效益、團隊建設(shè)、資質(zhì)、服務(wù)意識、業(yè)務(wù)能力等方面均有優(yōu)勢,在未來增量市場成為主要拉動力的競爭階段將占有更大的主動性。從這兩方面看,未來品牌數(shù)據(jù)服務(wù)商陣營將替代中小型供應(yīng)商陣營,占有市場的主要份額。
由于目前AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)對于勞動力存在密集性需求,所以人力輸送和項目轉(zhuǎn)包等服務(wù)形式會持續(xù)存在,因此中小型數(shù)據(jù)供應(yīng)商仍會占有一定的市場份額,不過大部分玩家將逐漸遠(yuǎn)離“利潤中心”。
以中小型數(shù)據(jù)供應(yīng)商份額縮小的速度看,未來1-2年內(nèi)“紅利份額”將釋放完畢,所以該階段對于品牌數(shù)據(jù)服務(wù)商而言是行業(yè)窗口期,品牌之間不需要產(chǎn)生太強的競爭,就會帶來較為可喜的營收增長。
這一時期過后,品牌數(shù)據(jù)服務(wù)商陣營將占有市場的主要份額,各家品牌商都經(jīng)過不同階段的打磨,具備了較強的競爭力,市場進入充分競爭時代,出現(xiàn)價格戰(zhàn)幾乎成為必然。
因此在這一階段中,能夠利用精細(xì)化運營、提高單位價格利潤的公司將具有更強的價格承受能力,可以在激烈的市場競爭中勝出。
為了在后續(xù)的競爭中占據(jù)先發(fā)優(yōu)勢,品牌數(shù)據(jù)服務(wù)商在這1-2年內(nèi)應(yīng)該“居安思?!?,面對存量市場時注重品牌認(rèn)可度塑造、增加技術(shù)投入提高規(guī)?;a(chǎn)能力、提高技術(shù)壁壘發(fā)展精細(xì)化運營方式、增加如語音合成(TTS)數(shù)據(jù)處理等差異化服務(wù),最終追求單位價格的利潤最大化。
增量市場尚未形成充分的競爭環(huán)境,應(yīng)注重打造品牌影響力,增加曝光度、提高服務(wù)意識,增加自身對AI算法的理解能力,積極主動配合客戶的探索性需求、重視培養(yǎng)海外營銷團隊,將業(yè)務(wù)出海視作重要戰(zhàn)略、增加數(shù)據(jù)采集能力,快速迭代自身業(yè)務(wù)以適應(yīng)需求變化,最終追求打造品牌與實力的雙重口碑效應(yīng),擴大市場影響力。
AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)的產(chǎn)品形式主要為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù),二者在業(yè)務(wù)流程方面基本相同,都按照數(shù)據(jù)庫設(shè)計→數(shù)據(jù)采集(或需求方提供)→數(shù)據(jù)處理→質(zhì)檢的步驟執(zhí)行, AI基礎(chǔ)數(shù)據(jù)服務(wù)商憑借多年的服務(wù)經(jīng)驗,在各環(huán)節(jié)中均可建立壁壘,以鞏固行業(yè)地位。通過對需求方和供應(yīng)方樣本的調(diào)研分析,發(fā)現(xiàn)擁有對計算機視覺、智能語音、NLP等算法訓(xùn)練需求的深刻理解能力、擁有更專業(yè)的數(shù)據(jù)庫設(shè)計能力、擁有更具前瞻性的數(shù)據(jù)集產(chǎn)品設(shè)計能力,以及參與過更多探索型項目的公司在獲取新客戶和新任務(wù)時具有明顯優(yōu)勢;擁有更豐富的方言、小語種、全球各地人臉采集渠道、場景搭建能力,特殊場景數(shù)據(jù)采集能力和如語音合成、3D點云等高門檻數(shù)據(jù)標(biāo)注能力的公司業(yè)務(wù)更加穩(wěn)定;擁有穩(wěn)定的供應(yīng)鏈團隊、實時量化的可視化管理系統(tǒng)以及AI算法加持的公司在精細(xì)化管理和利潤把控方面更具優(yōu)勢。
集數(shù)據(jù)標(biāo)注、項目管理和質(zhì)量把控于一身,以平臺管理替代人員管理,是該行業(yè)科技化轉(zhuǎn)型的關(guān)鍵一步。
隨著AI基礎(chǔ)數(shù)據(jù)需求多樣化,以及復(fù)雜程度的提升,以往項目經(jīng)理“人管人”的管理方式和使用單一工具應(yīng)對單一需求的執(zhí)行方式在能力和效率上都顯得捉襟見肘,尤其對于品牌數(shù)據(jù)服務(wù)商而言,客戶類型豐富、數(shù)據(jù)需求多樣、并發(fā)項目眾多,仍使用傳統(tǒng)方式,將會因產(chǎn)能天花板的壓力,而限制發(fā)展規(guī)模。如單純擴大人員團隊又會陷入重資產(chǎn)運營和邊際效益低的漩渦,難以快速確立行業(yè)地位以面對下一階段的競爭。因此,擁有一套自主研發(fā)貫通數(shù)據(jù)庫設(shè)計、數(shù)據(jù)采集、數(shù)據(jù)處理、質(zhì)量檢測、質(zhì)量控制和數(shù)據(jù)安全管理等各環(huán)節(jié)于一體,并且能對圖像、文本、語音、視頻以及點云數(shù)據(jù)做到一站式加工處理的管理和執(zhí)行一體化平臺,提升人機協(xié)作效率、擴大產(chǎn)能、靈活可變地增加標(biāo)注能力,準(zhǔn)確地把控每一環(huán)節(jié)的數(shù)據(jù)安全和質(zhì)量問題,才可將全公司綜合實力集中體現(xiàn),這也是實現(xiàn)人力驅(qū)動向技術(shù)驅(qū)動的關(guān)鍵一步。
在數(shù)據(jù)采集和處理環(huán)節(jié)中應(yīng)用感知智能,進行人機協(xié)作,能降低標(biāo)注難度,提升生產(chǎn)力。如果說人工智能是加速數(shù)字化革命的發(fā)動機,那數(shù)據(jù)資源服務(wù)行業(yè)就在為其生產(chǎn)汽油,同時這臺發(fā)動機也在反哺行業(yè)。
AI在數(shù)據(jù)標(biāo)注領(lǐng)域主要應(yīng)用于數(shù)據(jù)采集和數(shù)據(jù)處理環(huán)節(jié),在數(shù)據(jù)采集中無論是圖像或是語音數(shù)據(jù)都會出現(xiàn)重復(fù)樣本和不合格樣本,人工通過抽查或是遍歷每一個樣本的方式校驗,在準(zhǔn)確率、成本把控和時效性方面都大有不足,而通過使用計算機視覺和語音識別技術(shù)對采集到的樣本進行初步識別,可以在短時間內(nèi)達(dá)到90%以上的校驗正確率,實現(xiàn)幾倍于人力的工作效率,更有如海天瑞聲的應(yīng)用案例,將其研發(fā)的語音識別設(shè)備直接用于聲音收錄階段,省去了校驗后的返工流程,進一步減少執(zhí)行阻力。在數(shù)據(jù)處理環(huán)節(jié)中,標(biāo)注員需要對圖像數(shù)據(jù)中每一個目標(biāo)元素進行拉框或標(biāo)點,目標(biāo)邊界需要勾描得十分精準(zhǔn),進行語音標(biāo)注時需要聆聽每一個詞語的發(fā)音,判斷并轉(zhuǎn)寫其語義,這對于標(biāo)注員在長時間多任務(wù)下的專注力有極高要求,在此環(huán)節(jié)應(yīng)用人工智能可以對圖像數(shù)據(jù)進行場景分割、人臉和物體識別,對于語音數(shù)據(jù)進行語音識別、文字轉(zhuǎn)寫和自然語言理解的預(yù)處理操作,自動完成標(biāo)注后,再由人工進行校對,不僅降低了標(biāo)注難度還變相增加了生產(chǎn)力。目前人工智能尚不能取代人力,清楚認(rèn)識其價值,并積極應(yīng)用到人機協(xié)作中,將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)精細(xì)化管理中鮮明的競爭壁壘。
語音合成技術(shù)已經(jīng)廣泛應(yīng)用于人們的日常生活中,如手機助手、智能客服、智能音箱、語音導(dǎo)航都是其應(yīng)用場景。目前語音合成的主流方式可以分為波形拼接合成和參數(shù)合成兩種。
其中參數(shù)合成是利用文本參數(shù)和聲學(xué)參數(shù)間形成映射模型,從而完成文本內(nèi)容向語音轉(zhuǎn)化的過程,所以在有限樣本數(shù)據(jù)的情況下,參數(shù)合成語音成為了眾多智能語音算法團隊的首選。
隨著深度學(xué)習(xí)在語音領(lǐng)域的突破,利用神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)映射建模的參數(shù)合成方式,在合成效果上更進一步,逐漸減少了合成語音的機械感。
在語音合成中AI公司著重于映射模型算法的創(chuàng)建和訓(xùn)練,而語音片段數(shù)據(jù)和相應(yīng)的聲學(xué)參數(shù)標(biāo)注則交由數(shù)據(jù)服務(wù)商提供,其間數(shù)據(jù)服務(wù)商需要對錄制的發(fā)音人語音片段進行音素、韻律、音節(jié)邊界、音素邊界、詞性、重音、聲調(diào)等內(nèi)容進行標(biāo)注,然后切分、截取音素邊界;并且在項目初期需要向客戶展現(xiàn)合成demo,在項目交付時需校驗合成效果,這就要求數(shù)據(jù)服務(wù)商不僅要掌握專業(yè)的聲學(xué)知識、數(shù)據(jù)標(biāo)注經(jīng)驗,還要擁有語音合成的算法能力。未來隨著物聯(lián)網(wǎng)的普及,將會有更多交互設(shè)備出現(xiàn),語音合成需求將會持續(xù)增長,在此趨勢下,擁有語音合成數(shù)據(jù)處理能力,將成為具有排他性的競爭壁壘。
下游利好和洗牌紅利期將推動品牌公司發(fā)展壯大,但競爭已悄然開始。結(jié)合報告上述分析內(nèi)容,目前人工智能行業(yè)仍以有監(jiān)督學(xué)習(xí)的模型訓(xùn)練方式為主,對于標(biāo)注數(shù)據(jù)有著強依賴性需求,但隨著AI商業(yè)化進程的演進,更具有前瞻性的數(shù)據(jù)集產(chǎn)品和高定制化服務(wù)成為了AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)的主要服務(wù)形式。
從全球角度來看,人工智能發(fā)展依舊火熱,逐漸形成以北美、歐洲和東亞為代表的發(fā)展集群,產(chǎn)學(xué)研各方人才向其中涌入,世界范圍內(nèi)的產(chǎn)業(yè)交流與合作逐漸形成規(guī)模,并日趨常態(tài)化。對比中國與世界的發(fā)展情形來看,中國正處于補全短板、豐富產(chǎn)業(yè)、培養(yǎng)人才進而向外輸出技術(shù)能力的快速發(fā)展階段,人工智能行業(yè)發(fā)展前景良好,而作為強關(guān)聯(lián)性的AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè),受其發(fā)展紅利的影響,未來市場仍有不小的上升空間。
著眼行業(yè)內(nèi)部,伴隨著上一輪AI創(chuàng)業(yè)熱潮的平息,行業(yè)經(jīng)過了一輪洗牌,脫穎而出的品牌數(shù)據(jù)服務(wù)商和中小型數(shù)據(jù)供應(yīng)商形成了主要的供應(yīng)方力量,但隨著需求方市場由粗獷向精細(xì)化過渡,項目要求提高、利潤壓縮、管理成本上升等問題,迫使了一眾中小型廠商提前離場,在未來一到兩年內(nèi)行業(yè)將再次迎來洗牌。
這于對品牌公司的生產(chǎn)力、精細(xì)化管理能力、利潤把控能力、營銷能力和品牌影響力都帶來了巨大的考驗。為應(yīng)對競爭,品牌公司應(yīng)在紅利期就早早布局,以技術(shù)應(yīng)用和研發(fā)為驅(qū)動力,產(chǎn)生更多行業(yè)壁壘換取更多主動性。
責(zé)任編輯:王昊
wanghao@staff.ccidnet.com