祁國晟
我們公司成立于2005年,那時(shí)我就讀于清華大學(xué),在學(xué)校宿舍成立這個(gè)公司。11年來我們主要業(yè)務(wù)是數(shù)據(jù)處理、數(shù)據(jù)分析,為企業(yè)服務(wù)。2007年開始公司所有產(chǎn)品和解決方案都以saas和云計(jì)算方法向社會和機(jī)構(gòu)提供服務(wù)。我們服務(wù)約600家企業(yè),其中大多為世界五百強(qiáng)企業(yè),包括司法、行政、政府部門、國家機(jī)關(guān)和電視臺都是我們服務(wù)對象。
公司2016年9月23日在納斯達(dá)克上市。過去中國很多知名企業(yè)在美國上市,都是消費(fèi)互聯(lián)網(wǎng)企業(yè),主要面向消費(fèi)者,或互聯(lián)網(wǎng)用戶。而我們是第一家大數(shù)據(jù)企業(yè),我們非常榮幸能夠成為一種新興力量。
目前公司申請發(fā)明專利共1728件,其中583件與大數(shù)據(jù)相關(guān),148件與人工智能相關(guān)。過去兩年我們公司是中關(guān)村發(fā)明專利前十強(qiáng),其他九家都是五千人以上的大型互聯(lián)網(wǎng),或科技巨頭企業(yè)。而我們是唯一一家公司規(guī)模在千人左右的企業(yè),所以我們公司在大數(shù)據(jù)時(shí)代下發(fā)展人工產(chǎn)業(yè)AI和產(chǎn)業(yè)人工智能很有信心。
我們公司名為國雙,名字是來源于2003年我在大二時(shí)所開發(fā)的程序。我試想未來計(jì)算機(jī)是被設(shè)計(jì)用來做加法運(yùn)算,因數(shù)據(jù)量大,需要多臺計(jì)算機(jī)一起做加法。所以2003年時(shí)我自己開發(fā)了一個(gè)程序,可以把四則運(yùn)算變成加法,由計(jì)算機(jī)去選擇連接多臺計(jì)算機(jī)一起運(yùn)算。把這樣的觀點(diǎn)和數(shù)據(jù)運(yùn)用在為企業(yè)服務(wù)之中。
在大學(xué)期間,我人工智能這門功課成績不錯(cuò)。2003年一個(gè)作業(yè)使我印象深刻,實(shí)現(xiàn)A星搜索。在它的運(yùn)用領(lǐng)域里,是效率最高的一種算法。但是它有一個(gè)缺陷,當(dāng)你在解決復(fù)雜問題時(shí),會占用大量內(nèi)存。在十年前,內(nèi)存是一個(gè)很大的限制,很多程序員寧愿放棄這個(gè)算法。我們需要找到一個(gè)可以節(jié)省內(nèi)存的方法,并放在產(chǎn)業(yè)應(yīng)用中。
如果把A星算法當(dāng)作一個(gè)游戲沒問題,因?yàn)閿?shù)據(jù)量很大,放在產(chǎn)業(yè)應(yīng)用中非常復(fù)雜。當(dāng)時(shí)還是學(xué)生的我想過,可不可以用我們做的分布式求和算法,在內(nèi)存有限的條件下,與多臺計(jì)算機(jī)連接,內(nèi)存是否會變的更大一些,便可以有更大空間使用類似的完美算法,但當(dāng)時(shí)沒有時(shí)間實(shí)踐。
在看2011年第三版人工智能教材中,看這兩個(gè)版本教材之間有什么區(qū)別。唯一不同是從2003年開始至2011年數(shù)據(jù)的巨大變化。從2011年后我們使用巨量數(shù)據(jù),運(yùn)用多臺計(jì)算機(jī)協(xié)同工作來解決問題。
在大數(shù)據(jù)時(shí)代下產(chǎn)業(yè)AI,用大數(shù)據(jù)方法,把AI放在多臺計(jì)算機(jī)去運(yùn)作產(chǎn)業(yè)。過去十多年來我們公司是從事廣告效果監(jiān)測最早的行業(yè),在過去廣告點(diǎn)擊作弊非常嚴(yán)重,普遍使用鼠標(biāo)點(diǎn)擊的方法。
我們用熱力圖方法,抓到每個(gè)鼠標(biāo)點(diǎn)擊大多點(diǎn)在一處。在報(bào)警信息中,查看是否有某種渠道發(fā)來多少無效的作弊流量。今天監(jiān)測已不再需要人工等條件來發(fā)現(xiàn)問題。依靠人工智能方法發(fā)現(xiàn)問題。
我們每天有37.4億行為數(shù)據(jù),實(shí)時(shí)反應(yīng)互聯(lián)網(wǎng)用戶行為。根據(jù)數(shù)據(jù)我們反點(diǎn)擊欺詐能力很強(qiáng),任何一個(gè)廣告公司,媒體,如果知道用戶在使用國雙產(chǎn)品,是不會想要給用戶放任何的有問題的流量。
第二我們公司今年已進(jìn)入司法行業(yè)。一年前中國最高法院公開所有判決文書,一份判決文書約為5K,而庭審過程中所記錄下來文件可能約50兆?,F(xiàn)在已經(jīng)公開了判決文書有1600萬份。舉一個(gè)例子,在訴訟中大多官司相似,這造成法官、法院,要承擔(dān)很大的工作量。而案件的共性不該花費(fèi)法官大量時(shí)間。而智能庭前調(diào)節(jié)輔助系統(tǒng),可通過人工智能和海量的司法后臺數(shù)據(jù)連接,告知這種情況屬于那種法律法規(guī)。而且還會顯示統(tǒng)計(jì)結(jié)果,比如這種情況,在其他地區(qū)有多少起類似案件,勝訴數(shù)和平均訴請金錢和賠償金額等數(shù)據(jù)等,今年我們開始在幫助一些法院去運(yùn)作,并有很好的社會效應(yīng)。
第三則是信息安全。最近關(guān)于信息安全事故頻發(fā)。而傳統(tǒng)信息安全靠防火墻和硬件抵擋攻擊。但傳統(tǒng)防御并非萬能,例如黑客可通過一部手機(jī),從手機(jī)防火墻共性一臺服務(wù)器并把信息偷走。如果用大數(shù)據(jù)方法,所有服務(wù)器的智能設(shè)備數(shù)據(jù)都會被云記錄。有一個(gè)“大腦”去分析這些行為,自動發(fā)現(xiàn)異常數(shù)據(jù)背后可能存在的危險(xiǎn),解決硬件所不能解決的問題。
做一個(gè)總結(jié),什么是產(chǎn)業(yè)AI的方法論?首先計(jì)算機(jī)通過數(shù)據(jù)發(fā)現(xiàn)異常數(shù)據(jù)。而結(jié)果會反饋到計(jì)算機(jī)并形成了人工智能,這個(gè)人工智可不斷迭代。我們公司做各種商業(yè)、業(yè)務(wù)、營銷、銷售、審判流程、在線服務(wù)等自動化,而自動化運(yùn)作會產(chǎn)生數(shù)據(jù),如果把這些海量數(shù)據(jù)用人工智能方法“訓(xùn)練”起來,絕對不止是業(yè)務(wù)流程情況和關(guān)鍵節(jié)點(diǎn)的思考決策。
我們公司真實(shí)數(shù)據(jù)量從2005年至2016年9月成線性逐漸增長。每年TB存儲費(fèi)用,下降速度較快,而所有數(shù)據(jù)處理的成本變化差異相似。另外我國在這件事情上有一個(gè)彎道超車機(jī)會。第一,因?yàn)槲覈髽I(yè)軟件發(fā)展嚴(yán)重滯后。第二,消費(fèi)互聯(lián)網(wǎng)和智能手機(jī)終端發(fā)展比美國更先進(jìn)。我國沒有遺留信息系統(tǒng)問題,而美國20年一直使用遺留數(shù)據(jù)。很難解決數(shù)據(jù)提取和數(shù)據(jù)一致問題,在AI系統(tǒng)中的無效數(shù)據(jù)無法產(chǎn)生真正AI,而我國還有很多機(jī)會。