安欣賞
第四次工業(yè)革命正在來臨,而人工智能已經(jīng)從科幻逐步走入現(xiàn)實。隨著核心算法的突破、計算能力的迅速提高、海量互聯(lián)網(wǎng)數(shù)據(jù)的支撐,人工智能在21世紀(jì)的第二個十年里迎來質(zhì)的飛躍,成為全球矚目的科技焦點。對于中國而言,人工智能的發(fā)展是一個歷史性的戰(zhàn)略機(jī)遇,對緩解未來人口老齡化壓力、應(yīng)對可持續(xù)發(fā)展挑戰(zhàn)、促進(jìn)經(jīng)濟(jì)結(jié)構(gòu)轉(zhuǎn)型升級至關(guān)重要。
人工智能發(fā)展歷程與現(xiàn)狀
人工智能已經(jīng)成為國際競爭的新焦點,世界上主要發(fā)達(dá)國家均把發(fā)展人工智能作為提升國家競爭力、維護(hù)國家安全的重大戰(zhàn)略,加緊出臺規(guī)劃和政策,力圖在新一輪國際科技競爭中掌握主導(dǎo)權(quán)。我國在2017年7月發(fā)布《新一代人工智能發(fā)展規(guī)劃》,明確我國新一代人工智能發(fā)展的戰(zhàn)略目標(biāo):2020年達(dá)到國際先進(jìn),2025年實現(xiàn)部分領(lǐng)先,2030年完成總體領(lǐng)先。
回顧全球人工智能的發(fā)展歷史,歷經(jīng)三個階段,跨度62年(1956年至今):
1956-1976,基于符號邏輯的推理證明階段;
1977-2006,基于人工規(guī)則的專家系統(tǒng)階段;
2007-至今,大數(shù)據(jù)驅(qū)動的深度神經(jīng)網(wǎng)絡(luò)階段。
從2007年開始,人工智能進(jìn)入大數(shù)據(jù)驅(qū)動的深度神經(jīng)網(wǎng)絡(luò)階段,這階段人工智能發(fā)展的三大要素:數(shù)據(jù) +算法+ 算力。
中國工程院院士、新一代人工智能技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟理事長高文院士總結(jié)了我國人工智能發(fā)展的幾大優(yōu)勢:一是強(qiáng)有力的戰(zhàn)略引領(lǐng)和政策支持,二是海量的數(shù)據(jù)資源,三是豐富的應(yīng)用場景,四是具有潛力的青年人才快速成長聚集。
我國發(fā)展人工智能既有很好的基礎(chǔ)和優(yōu)勢,也面臨巨大挑戰(zhàn),需要探索一條適合國情的發(fā)展道路??梢越Y(jié)合當(dāng)前人工智能應(yīng)用驅(qū)動的顯著特征,依托我國在大數(shù)據(jù)、應(yīng)用場景、政策環(huán)境等方面的巨大優(yōu)勢,推動我國人工智能的深度應(yīng)用。
人工智能數(shù)據(jù)發(fā)展現(xiàn)狀與存在問題
在我國人工智能的發(fā)展應(yīng)用過程中,三大要素中的數(shù)據(jù)要素居于首位,這歸結(jié)于我國互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)、移動互聯(lián)網(wǎng)快速發(fā)展、網(wǎng)絡(luò)應(yīng)用爆發(fā)增長、物聯(lián)網(wǎng)技術(shù)成熟。
與此同時,在當(dāng)前,數(shù)據(jù)還存在以下問題:
第一,數(shù)據(jù)成本支出高,花費周期長。數(shù)據(jù)從采取、標(biāo)注到最終能夠訓(xùn)練使用,需要經(jīng)過較長周期,費時費力。大的人工智能公司,一年僅在數(shù)據(jù)標(biāo)注上的支出就有數(shù)千萬。
第二,數(shù)據(jù)獲取難,共享難。除了人臉數(shù)據(jù)之外,與視覺相關(guān)的其他數(shù)據(jù)非常分散,不易批量獲取。而各類專業(yè)數(shù)據(jù)都掌握在互聯(lián)網(wǎng)頭部公司,或者政府手中,受商業(yè)利益和用戶隱私等影響,這些數(shù)據(jù)一般企業(yè)或者科研團(tuán)隊都很難使用到。
第三,標(biāo)準(zhǔn)化和自動化有待提升。數(shù)據(jù)集質(zhì)量和數(shù)據(jù)標(biāo)注質(zhì)量對訓(xùn)練的準(zhǔn)確度影響很大。數(shù)據(jù)集里普遍存在著噪音、干擾,在數(shù)據(jù)訓(xùn)練前要進(jìn)行數(shù)據(jù)清洗,往往需要專業(yè)人員去除影響訓(xùn)練的雜質(zhì),另一方面,數(shù)據(jù)標(biāo)注的質(zhì)量也對訓(xùn)練有很大的影響,需要訓(xùn)練熟練的標(biāo)注工人對大量數(shù)據(jù)進(jìn)行標(biāo)注,而市面上的標(biāo)注公司大多質(zhì)量參差不齊,標(biāo)注標(biāo)準(zhǔn)不一樣,對訓(xùn)練的準(zhǔn)確度產(chǎn)生很大的干擾。自動化的平臺或者工具可以有效提升數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)標(biāo)注效率。
第四,隱私及保密性。數(shù)據(jù)在使用、傳遞過程中,往往存在泄密,隱私暴露的可能。需要專業(yè)的數(shù)據(jù)公司通過嚴(yán)格的制度控制,減少數(shù)據(jù)泄密和隱私暴露的風(fēng)險。
國內(nèi)外公共數(shù)據(jù)平臺的基本情況
當(dāng)前,在國內(nèi)外比較知名的公共數(shù)據(jù)平臺中,有以下幾種類型和典型代表:
一、政府及組織公共數(shù)據(jù)平臺
https://www.data.gov是美國的一個綜合性公開數(shù)據(jù)網(wǎng)站,發(fā)展至今提供超過25萬個數(shù)據(jù)集,涵蓋氣候、教育、能源、金融等多個領(lǐng)域的數(shù)據(jù),類似的還有加拿大、印度等國家的政府公共數(shù)據(jù)網(wǎng)站,世界銀行的開放數(shù)據(jù)等。
二、大型公司公共數(shù)據(jù)平臺
亞馬遜公共數(shù)據(jù)平臺目前已包含114個大型數(shù)據(jù)集,這些數(shù)據(jù)集包括完整的安然電子郵件數(shù)據(jù)集、Google Booksn-gram、NASA NEX數(shù)據(jù)集、百萬歌曲數(shù)據(jù)集等。Google BigQuery公開數(shù)據(jù)集是存儲在BigQuery中且可供公眾使用的任何數(shù)據(jù)集,其本質(zhì)是一種數(shù)據(jù)托管服務(wù),第三方通過google云與公眾分享數(shù)據(jù)集。YouTube數(shù)據(jù)集https://research.google.com/youtube8m/,google研究小組發(fā)布的基于YouTube視頻的數(shù)據(jù)集,由大量視頻以及標(biāo)簽組成,最近還增添了分割標(biāo)注。
三、數(shù)據(jù)競賽型公共數(shù)據(jù)平臺
Kaggle數(shù)據(jù)競賽網(wǎng)站https://www.kaggle.com/datasets,是一個數(shù)據(jù)建模和數(shù)據(jù)分析競賽平臺,企業(yè)和研究者可在其上發(fā)布數(shù)據(jù),AI研究人員、統(tǒng)計學(xué)者和數(shù)據(jù)挖掘?qū)<铱稍谄渖线M(jìn)行競賽以產(chǎn)生最好的模型。目前該網(wǎng)站已有較多數(shù)據(jù)集和開發(fā)者論壇提供的很多數(shù)據(jù)分析方法。
阿里天池https://tianchi.aliyun.com/home/,性質(zhì)和kaggle相近,提供了很多國內(nèi)企業(yè)應(yīng)用場景相關(guān)的數(shù)據(jù)集,具有較大實用價值,但是由于很多是第三方企業(yè)組織提供的數(shù)據(jù)集和算法競賽目標(biāo),某些數(shù)據(jù)集質(zhì)量無法得到保證。
以政府?dāng)?shù)據(jù)為基礎(chǔ)
行業(yè)應(yīng)合力建設(shè)公共數(shù)據(jù)平臺
政府部門在履行行政職能、管理社會公共事務(wù)的過程中采集和儲存了大量數(shù)據(jù),在保障國家秘密、商業(yè)秘密和個人隱私的前提下,如果將政府?dāng)?shù)據(jù)最大限度地開放出來,讓社會進(jìn)行充分融合和利用,合力構(gòu)筑數(shù)據(jù)基礎(chǔ)設(shè)施,營造全社會尊重數(shù)據(jù)、保護(hù)數(shù)據(jù)、善用數(shù)據(jù)的氛圍,有利于釋放數(shù)據(jù)能量,激發(fā)技術(shù)創(chuàng)新活力。
除了政府公共數(shù)據(jù)作為基礎(chǔ)的數(shù)據(jù)來源之外,還有其他途徑進(jìn)行數(shù)據(jù)的補(bǔ)充。
一是產(chǎn)業(yè)數(shù)據(jù)協(xié)同。依靠各種協(xié)會聯(lián)盟的行業(yè)影響力,與產(chǎn)業(yè)鏈下游創(chuàng)業(yè)公司/行業(yè)公司或產(chǎn)業(yè)鏈上游的數(shù)據(jù)/平臺型公司建立合作,以此獲取所需數(shù)據(jù)資源;
二是自籌數(shù)據(jù)。通過投入大量人力進(jìn)行數(shù)據(jù)采集,或者投入大量資金,向普通用戶提供特定領(lǐng)域免費應(yīng)用的策略快速積累數(shù)據(jù),如Madits、Clarifai等圖像識別公司均推出了免費的照片應(yīng)用程序,以便為圖像識別核心業(yè)務(wù)積累更多圖像數(shù)據(jù);
三是開源開放平臺數(shù)據(jù)交換。將數(shù)據(jù)平臺的數(shù)據(jù)進(jìn)行分享交換,提供第三方的數(shù)據(jù)集鏈接或交換分享服務(wù),增加平臺數(shù)據(jù)集規(guī)模;
四是通過大賽機(jī)制完善數(shù)據(jù)集或利用虛擬環(huán)境產(chǎn)生數(shù)據(jù)等。數(shù)據(jù)平臺舉辦競賽可要求協(xié)辦方提供數(shù)據(jù)資源,促進(jìn)數(shù)據(jù)共享。此外,利用計算機(jī)虛擬環(huán)境也可產(chǎn)生數(shù)據(jù)資源。如斯坦福大學(xué)在訓(xùn)練遠(yuǎn)程遙控深海作業(yè)機(jī)器人OceanOne時,使用了很多由模擬場景(虛擬環(huán)境)產(chǎn)生的大量訓(xùn)練數(shù)據(jù)。
在獲取到以上數(shù)據(jù)后,將這些數(shù)據(jù)建立成單獨的數(shù)據(jù)集還要作如下處理:
首先要進(jìn)行數(shù)據(jù)的脫敏處理。比如文本記錄數(shù)據(jù)中敏感地名、人名以及車牌號等隱私記錄的處理,視頻中人臉、車牌號以及一些敏感畫面的處理等,根據(jù)法律法規(guī)及數(shù)據(jù)用途的不同需要做不同的脫敏處理,保證數(shù)據(jù)的公開使用沒有用戶隱私或其他法律糾紛。
其次是數(shù)據(jù)前處理,初步收集的數(shù)據(jù)在存儲格式、壓縮率以及完整性上都可能存在各種問題,在建立數(shù)據(jù)集前需要進(jìn)行預(yù)處理。對于存儲格式,比如圖片或者視頻,應(yīng)該優(yōu)先選擇通用的數(shù)據(jù)格式,同時保證同一數(shù)據(jù)集中同類型數(shù)據(jù)格式一致。另外由于數(shù)據(jù)平臺所需存儲數(shù)據(jù)量巨大,因此,選擇合適的數(shù)據(jù)壓縮方式非常重要,在多媒體數(shù)據(jù)中選擇合適的格式不僅能夠保證相對較好的數(shù)據(jù)存儲質(zhì)量,同時也能充分壓縮其數(shù)據(jù)存儲大小。
最后是缺失和異常數(shù)據(jù)的處理,原始數(shù)據(jù)不可避免存在某些數(shù)據(jù)缺失不完整或者采集異常情況,對于這些非正常數(shù)據(jù),如果同一批次相同類型數(shù)據(jù)量較多,缺失數(shù)據(jù)占比很小,則可以選擇刪除這些數(shù)據(jù)或缺失的數(shù)據(jù)屬性。如果這些數(shù)據(jù)占比較大,該類型數(shù)據(jù)總體較少,可采取人工補(bǔ)全、均值插補(bǔ)、極大似然估計或者聚類回歸等方法進(jìn)行完善。
公共數(shù)據(jù)平臺的建設(shè)可以充分利用政府?dāng)?shù)據(jù)作為基礎(chǔ),同時成立專業(yè)的第三方數(shù)據(jù)機(jī)構(gòu),做好產(chǎn)業(yè)協(xié)同服務(wù)和支撐,為愿意使用公共數(shù)據(jù)、愿意交換和共享數(shù)據(jù)的人工智能領(lǐng)域研究機(jī)構(gòu)與公司提供發(fā)展能量,加速研發(fā)進(jìn)程,降低數(shù)據(jù)使用成本,提升我國人工智能研究水平和應(yīng)用水平。
公共數(shù)據(jù)平臺可以在數(shù)據(jù)采集、自動化標(biāo)注平臺及工具等方面加大投入,在保證訓(xùn)練數(shù)據(jù)質(zhì)量的同時,提升數(shù)據(jù)的獲取速度,降低數(shù)據(jù)使用成本,保護(hù)數(shù)據(jù)隱私。
公共數(shù)據(jù)集建設(shè)對人工智能的重大意義
建立公共數(shù)據(jù)平臺,對我國人工智能發(fā)展具有重大意義。
首先,通過數(shù)據(jù)平臺建立自己的公共數(shù)據(jù)集,可以適應(yīng)國際競爭需要,擺脫國外對AI公開數(shù)據(jù)集的壟斷,建立中國自己的公開數(shù)據(jù)集,大幅度降低人工智能企業(yè)的入門門檻,帶動人工智能企業(yè)的孵化和創(chuàng)新以及傳統(tǒng)企業(yè)的智能化應(yīng)用。
其次,開源數(shù)據(jù)集項目+開源算法項目+開源應(yīng)用項目,形成人工智能開源社區(qū),不斷產(chǎn)生新的算法,不斷優(yōu)化算法,不斷產(chǎn)生應(yīng)用場景,形成算法的知識圖譜,從而推動人工智能成果轉(zhuǎn)化,促進(jìn)人工智能產(chǎn)業(yè)的發(fā)展。
再次,在公共數(shù)據(jù)平臺基礎(chǔ)上,企業(yè)可以提供特定的專用數(shù)據(jù)集+機(jī)器學(xué)習(xí)平臺+應(yīng)用算法商店+支持培訓(xùn)等一攬子服務(wù),降低人工智能產(chǎn)業(yè)應(yīng)用的技術(shù)門檻,促進(jìn)人工智能產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)的融合發(fā)展。
最后,在公共數(shù)據(jù)平臺的基礎(chǔ)上,能夠及時制定國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和團(tuán)體標(biāo)準(zhǔn),規(guī)范產(chǎn)業(yè)發(fā)展,促進(jìn)行業(yè)合作,提高行業(yè)整體水平。
(作者單位:深圳龍崗智能視聽研究院)