牛祿青
隨著萬物互聯(lián)時代到來,以語音為主、鍵盤觸摸為輔的人機(jī)交互正逐漸成為剛需,人工智能會像水和電一樣成為我們生活的必需品
如果你坐在車?yán)?,對著空氣說,“我想在附近找個地方吃飯”。你的車會立即回應(yīng)說“已為您找到附近10個餐廳”。你接著說:“我想吃火鍋,還想看場電影?!逼嚂Y選出周邊有電影院的海底撈王府井店。如果你說現(xiàn)在前往,導(dǎo)航就會立即開始線路規(guī)劃。
注意,這不是說夢話,這是千真萬確。整個過程,你不需要打招呼,也不需要動手進(jìn)行任何操作。對于開車的司機(jī)來說,這套由科大訊飛研發(fā)的“飛魚助手”語音操作系統(tǒng)簡直是夢寐以求的行車神器。
現(xiàn)在,訊飛、百度等企業(yè)的人工智能已經(jīng)把科幻片一樣的黑科技變成了現(xiàn)實。汽車、電視機(jī)、電冰箱、電燈,任何你能想到的電器都能跟你愉快地聊天,并按照語音指令完成各種操作。
這些都是基于深度神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)來實現(xiàn)的。語音識別技術(shù),簡單說就是讓計算機(jī)“聽懂”人類的語音,將語音中包含的文字信息提取出來。該項技術(shù)在智能計算機(jī)系統(tǒng)中扮演著重要角色,相當(dāng)于給計算機(jī)裝上了“耳朵”,使其實現(xiàn)人機(jī)通信和交互。目前語音識別準(zhǔn)確率可達(dá)到97%。
“隨著萬物互聯(lián)時代到來,以語音為主、鍵盤觸摸為輔的人機(jī)交互正逐漸成為剛需。未來5到10年,人工智能會像水和電一樣成為我們生活的必需品,深刻改變我們的世界。”科大訊飛董事長劉慶峰說。
如今,以智能語音技術(shù)為主的人工智能已在手機(jī)、教育、家具、汽車、醫(yī)療、服務(wù)機(jī)器人等多個領(lǐng)域顯示出巨大的應(yīng)用潛力。
事件
國內(nèi)首個動漫IP定制兒童智能語音燈在京東眾籌
國內(nèi)首個結(jié)合《蟲蟲派》動漫IP進(jìn)行深度定制的智能家居產(chǎn)品——蟲蟲派系列智能語音燈已在京東火熱開啟眾籌。據(jù)悉,蟲蟲派系列智能語音燈是輕生活科技根據(jù)中國領(lǐng)導(dǎo)力學(xué)術(shù)帶頭人楊思卓的作品《蟲蟲派》3D動漫進(jìn)行IP深度整合定制的智能語音燈,是給12歲以下的小朋友特別定制的成長玩伴。
楊思卓長期致力于領(lǐng)導(dǎo)力研究和少兒教育,非常關(guān)注兒童成長,其漫畫圖解領(lǐng)導(dǎo)力的《蟲蟲派》用寓教于樂的形式,依據(jù)現(xiàn)代心理學(xué)特點,塑造了6個生動活潑的動漫形象,通過他們的成長故事來引導(dǎo)小朋友提升面對困難和人際關(guān)系的處理能力,而蟲蟲派系列智能語音燈正好對應(yīng)了這6個動漫形象。
動漫IP與智能語音燈完美結(jié)合。每臺智能語音燈那膚如凝脂又亭亭玉立的陶瓷燈身上都有與之相對應(yīng)的動漫形象,并在靈動的寬檐帽上搭配有與動漫形象性格相匹配的色彩,還動用了《蟲蟲派》原班聲優(yōu)為角色對應(yīng)的智能語音燈進(jìn)行聲音錄制,希望通過動漫IP整合和人機(jī)交互的形式,將《蟲蟲派》積極向上的思想理念潛移默化的傳遞出來,陪伴每一位小朋友更健康快樂的成長。
離線智能語音技術(shù)強(qiáng)大又有趣。作為主打“智能語音”的燈,蟲蟲派系列智能語音燈的語音操控功能是核心亮點。依托輕生活科技對于智能語音交互、物聯(lián)網(wǎng)技術(shù)和云服務(wù)軟件技術(shù)的超強(qiáng)整合能力,推出了處于行業(yè)前沿的離線智能語音技術(shù),即無需聯(lián)網(wǎng)和下載手機(jī)App,只需對著智能語音燈喊話就能與《蟲蟲派》中的動漫角色交談,并按你的語音指令進(jìn)行開/關(guān)燈、亮度調(diào)節(jié)、延遲關(guān)燈、歌曲播放等的操作。
另外,經(jīng)過超1W條錄音樣本的檢測調(diào)教,蟲蟲派系列智能語音燈的語音識別正確率高達(dá)到95%,真正做到了讓小朋友與智能語音燈溝通無阻礙、玩得更盡興。
設(shè)計細(xì)節(jié)有更多人性化考量。蟲蟲派系列智能語音燈造型婀娜,通體曲線優(yōu)雅柔和,觸感溫潤不硌手,該設(shè)計還斬獲了紅帆工業(yè)設(shè)計大獎,小朋友可以放心使用。
此外,智能語音燈采用了壽命超過5W小時的LED燈,光線柔和,不傷眼睛,可調(diào)節(jié)光線強(qiáng)弱來適應(yīng)不同生活氛圍對光線的要求,還可通過喊話自動設(shè)置5~20分鐘的熄燈時間,為了不驚醒淺睡眠的小朋友,智能語音燈采用了漸進(jìn)熄燈方式自然過渡到睡眠環(huán)境。
當(dāng)小朋友困了或者睡眼惺忪,不想說話的時候,可以用手掌輕壓寬檐帽來調(diào)節(jié)開關(guān)和亮度,也可以通過關(guān)閉智能語音燈底部語音交互按鍵,進(jìn)入到手摸觸控模式。
背景 人工智能迎來第三次浪潮
人工智能(AI)是2016年除了共享自行車(摩拜、OFO等)外最火的投資主題了,特別是自去年3月份阿爾法狗(AIphago)戰(zhàn)勝韓國圍棋高手李世石的世紀(jì)之戰(zhàn)開始,很多投資者及創(chuàng)業(yè)者的目光都聚焦于人工智能,資本跑馬圈地,創(chuàng)業(yè)BP(商業(yè)計劃書)言必稱AI+,不時冒出機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等炫酷概念,就像幾年前的團(tuán)購、O2O、P2P、共享經(jīng)濟(jì)的創(chuàng)投浪潮一樣。
實際上,人工智能不是新鮮事物,這已經(jīng)是人工智能的第三次高潮,第一波高潮是源于1956年的達(dá)特茅斯會議,人工智能概念初出茅廬就得到各界的吹捧,然而,人工智能并不如人們所想象的那樣樂觀,1970年左右,研究幾乎停滯,熱情消退。
上世紀(jì)80年代,日本提出雄心勃勃的“人工智能電腦”計劃,該計劃隨著1987年Lisp機(jī)器商業(yè)化的失敗,AI再次進(jìn)入低迷期,人們意識到人工智能的問題不僅僅是硬件,更多的是軟件及算法層面得不到突破。
第三次浪潮源于上世紀(jì)90年代,由于摩爾定律所到來的產(chǎn)業(yè)變革,人工智能得到長足發(fā)展,代表性事件如1997年IBM的深藍(lán)在國際象棋比賽中戰(zhàn)勝世界冠軍卡斯帕羅夫,Geoff Hinton在2006年發(fā)現(xiàn)了訓(xùn)練高層神經(jīng)網(wǎng)絡(luò)的有效算法,并且在2012年的ImageNet評測領(lǐng)域大大突破了以前的算法。深度學(xué)習(xí)算法的應(yīng)用使得語音識別、圖像識別取得長足進(jìn)步,圍繞語音、圖像、機(jī)器人、自動駕駛等人工智能技術(shù)的創(chuàng)新企業(yè)大量涌現(xiàn)。
長石資本LongCapital合伙人袁皓認(rèn)為,這次人工智能浪潮興起的原因取決于幾個關(guān)鍵變量:
1、云計算。云計算技術(shù)這些年已經(jīng)發(fā)展成為大眾化的服務(wù)平臺,這為人工智能技術(shù)的實現(xiàn)和應(yīng)用落地提供了強(qiáng)大的后臺保障。云計算技術(shù)降低了IT資源使用門檻,為數(shù)據(jù)集中化創(chuàng)造了基礎(chǔ),極大地促進(jìn)了大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。
2、大數(shù)據(jù)。大數(shù)據(jù)是智能的基礎(chǔ)和土壤,沒有數(shù)據(jù)就沒有智能,所有的智能都是建立在數(shù)據(jù)的基礎(chǔ)上。近幾年,移動互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的普及使得大數(shù)據(jù)技術(shù)迅猛發(fā)展,從而也助推了人工智能的長足進(jìn)步,這是因為人工智能技術(shù)使用統(tǒng)計模型來進(jìn)行數(shù)據(jù)的概率推算,只有把這些模型經(jīng)過大數(shù)據(jù)海洋中的不斷優(yōu)化或者“訓(xùn)練”,深度學(xué)習(xí)算法輸出的結(jié)果才更加準(zhǔn)確。
從市場規(guī)模來看,全球大數(shù)據(jù)總量仍不斷擴(kuò)大,2015年數(shù)據(jù)總量達(dá)到8ZB(1ZB=1萬億GB),2020年將達(dá)到44ZB,今后五年預(yù)計仍將維持141%的年復(fù)合增長率。
3、GPU及計算能力。近幾年計算能力的指數(shù)級增長、成本急劇下滑是人工智能得以迅速發(fā)展的前提,而GPU的崛起則是重要突破點。GPU圖像核心處理器是吳恩達(dá)團(tuán)隊于2009年發(fā)現(xiàn)的,GPU芯片相比于CPU擁有更多的計算單元,GPU實現(xiàn)了并行計算架構(gòu),可一次執(zhí)行多個指令,從而可以迅速解決計算問題。
同時微軟及Intel也在力推FPGA(現(xiàn)場可編程邏輯門陣列),相對于GPU來說,F(xiàn)PGA在峰值處理上較弱,但架構(gòu)靈活性方面更為突出,尤其在處理小計算量大批次的運(yùn)算時也更有效率,F(xiàn)PGA主要來自一家名為Altera的公司,由于錯過GPU,Intel不惜以167億美金的代價豪賭將Alter收入囊中。
4、深度學(xué)習(xí)算法。2006年Hinton提出“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)是人工智能的重大突破,學(xué)術(shù)上對神經(jīng)網(wǎng)絡(luò)區(qū)分為DNN(深度神經(jīng)網(wǎng)絡(luò)),CNN(卷積神經(jīng)網(wǎng)絡(luò))、RNN(遞歸神經(jīng)網(wǎng)絡(luò)),CNN最初用來處理圖像,RNN最早用來處理語音。在實際應(yīng)用中,CNN、RNN等并不是獨(dú)立使用,需要與不同算法及策略相結(jié)合,AIphago即是結(jié)合了增強(qiáng)深度學(xué)習(xí)和相關(guān)搜索的綜合。深度學(xué)習(xí)的發(fā)展大大加速了人工智能的發(fā)展。
5、人才。AI的爆發(fā)離不開頂尖的科學(xué)家,需要有能力部署人工智能技術(shù)并且使之產(chǎn)品化的資深工程師,讓我們先看看深度學(xué)習(xí)的四劍客;Geoff Hinton,多倫多大學(xué)的特聘教授,Google AI團(tuán)隊領(lǐng)軍人,Hinton是將BP算法應(yīng)用到神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的主導(dǎo)者。Yann LeCun,紐約大學(xué)終身教授,F(xiàn)acebook AI實驗室負(fù)責(zé)人,LeCun最負(fù)盛名的是在CNN(卷積神經(jīng)網(wǎng)絡(luò))領(lǐng)域的杰出貢獻(xiàn)。YoushuaBenqio,蒙特利爾大學(xué)終身教授,CIFAR項目負(fù)責(zé)人,Bengio的主要貢獻(xiàn)在于他對RNN領(lǐng)域研究的推動,現(xiàn)任ElonMusk主導(dǎo)的Open AI首席顧問。Andrew Ng(吳恩達(dá)),斯坦福大學(xué)教授,曾就職于谷歌,現(xiàn)任百度首席科學(xué)家。在線教育平臺Coursera的聯(lián)合創(chuàng)始人,是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一。
人工智能的產(chǎn)業(yè)鏈一般分為“基礎(chǔ)層-技術(shù)層-應(yīng)用層”,基礎(chǔ)層多為數(shù)據(jù)源、計算平臺、芯片及傳感器等人工智能運(yùn)營的基礎(chǔ)設(shè)施;數(shù)據(jù)工廠提供海量信息并通過數(shù)據(jù)挖掘及搜索算法進(jìn)行分類與關(guān)聯(lián),提供給機(jī)器學(xué)習(xí),GPU并行計算及高性能計算機(jī)芯片構(gòu)成超級運(yùn)算平臺。目前基礎(chǔ)層多為IBM、Intel、Google等巨頭公司的主戰(zhàn)場。
技術(shù)層依托基礎(chǔ)層的運(yùn)算平臺及數(shù)據(jù)源進(jìn)行機(jī)器學(xué)習(xí)建模,開發(fā)面向不同領(lǐng)域的應(yīng)用技術(shù),包含感知智能和認(rèn)知智能兩個階段。感知智能包括語音識別、圖形識別、生物識別及自然語言處理等;認(rèn)知智能主要是利用深度學(xué)習(xí)等類人腦進(jìn)行預(yù)測、判定等,技術(shù)層有大量創(chuàng)業(yè)公司,像視覺識別領(lǐng)域的Megvii、Sensetime、格靈深瞳、依圖科技等,自然語言處理領(lǐng)域有云知聲、思必馳等,其中語音識別是目前最為成熟的人工智能技術(shù),目前全球排名靠前的有Nuance、Google、蘋果,以及來自國內(nèi)的科大訊飛和百度。
應(yīng)用層主要基于基礎(chǔ)層及技術(shù)層實現(xiàn)人工智能的各行業(yè)的場景化應(yīng)用,諸如智能硬件、工業(yè)及服務(wù)機(jī)器人、智能駕駛、智能醫(yī)療、智能客服、智能投顧、BI、個人助理等。應(yīng)用層因為技術(shù)門檻較低,吸引到眾多創(chuàng)業(yè)公司的涌入。
焦點 人工智能在語音領(lǐng)域商業(yè)化應(yīng)用提速
人工智能發(fā)展條件的成熟催生了大量人工智能創(chuàng)業(yè)企業(yè)。據(jù)長石資本統(tǒng)計,截至2016年11月,Venture Scanner 將1485 家人工智能公司劃分為13 個細(xì)分行業(yè),包括深度學(xué)習(xí)/ 機(jī)器學(xué)習(xí)(通用)、深度學(xué)習(xí)/ 機(jī)器學(xué)習(xí)(應(yīng)用)、自然語言處理、計算機(jī)視覺/ 圖像識別(通用)、計算機(jī)視覺/ 圖像識別(應(yīng)用)、手勢控制、虛擬私人助手、智能機(jī)器人、視頻內(nèi)容識別、內(nèi)容感知計算、語音識別、推薦引擎、語音到語音翻譯13個細(xì)分行業(yè)。其中深度/機(jī)器學(xué)習(xí)(應(yīng)用)分類以約436家企業(yè)的數(shù)量遙遙領(lǐng)先,自然語言處理公司數(shù)量232家位列第二。
AI商業(yè)化前景看好。據(jù)美國銀行報告,到2020年,人工智能可能形成700億美元規(guī)模的市場。元大證券研報認(rèn)為,2015年至2020年,中國AI行業(yè)預(yù)期年復(fù)合增長率達(dá)50%。從融資情況來看,人工智能的資本投入仍保持每年42%的增長,2016年VC投資也達(dá)到了創(chuàng)紀(jì)錄的25億美元。
隨著人工智能技術(shù)的迅猛發(fā)展,智能語音、智能圖像、自然語言處理等技術(shù)的成熟應(yīng)用,以及VC資本助推的水漲船高,這或許預(yù)示著,一個人工智能投資及創(chuàng)業(yè)的黃金時代的到來。
目前,以科大訊飛、百度、阿里、騰訊、搜狗、網(wǎng)易為代表的中國企業(yè)正以語音為入口,實現(xiàn)人工智能商業(yè)化應(yīng)用??拼笥嶏w在語音合成、語音識別、口語評測、自然語言處理等多項技術(shù)上擁有國際領(lǐng)先的成果,已經(jīng)在聲音、輸入、交流、電視、教育、汽車、機(jī)器人等七個領(lǐng)域推進(jìn)人工智能的實際應(yīng)用。
2015年,科大訊飛推出的訊飛聽見產(chǎn)品,實時將語音轉(zhuǎn)寫成文字,速度和準(zhǔn)確率遠(yuǎn)超人工速記,現(xiàn)場識別正確率達(dá)到99%以上,標(biāo)志著科大訊飛在業(yè)界率先實現(xiàn)了演講和會議場景下的語音轉(zhuǎn)寫技術(shù)突破。
2016年,訊飛聽見在實時中文語音轉(zhuǎn)寫的基礎(chǔ)上,融合全新的多語種翻譯技術(shù),可以實時將中文演講翻譯成英語、維吾爾語、日語、韓語,并同步展示在大屏幕上。這也是是全球首次基于人工智能技術(shù)的實時機(jī)器多語種翻譯技術(shù)在大型活動上的展示,準(zhǔn)確率比肩同傳翻譯。目前,此項技術(shù)已實際應(yīng)用于上海高院。
而在汽車領(lǐng)域,科大訊飛推出了汽車智能車載系統(tǒng)——飛魚助理。通過接入多種內(nèi)容渠道,飛魚助理可以在復(fù)雜的行車環(huán)境中輕松進(jìn)行通訊和導(dǎo)航操作。目前,科大訊飛已與30多個汽車廠商建立了長期合作,并已在100多款量產(chǎn)車型中搭載產(chǎn)品。
教育領(lǐng)域一直是科大訊飛技術(shù)的重要應(yīng)用領(lǐng)域。據(jù)新東方董事長俞敏洪在其個人公眾號上透露,新東方和科大訊飛共同投資成立了一家名叫“東方訊飛”的公司,科大訊飛的智能語音、 AI 技術(shù),加上新東方的教育資源,兩家公司將一起探索“教育+科技”新形式。
中國工程院院士、中國人工智能學(xué)會理事長李德毅看來,人工智能讓我們生活得更加愉快?!霸谌诉B網(wǎng)的時代,人工智能應(yīng)該更多地關(guān)注交互認(rèn)知,研究人與人,人與機(jī)器人,機(jī)器人與機(jī)器人,或者混合的認(rèn)知主體之間的交互認(rèn)知?!?/p>
賽富投資基金創(chuàng)始合伙人閻焱指出,現(xiàn)在做的車聯(lián)網(wǎng)、機(jī)器人以及智能家居等等,語音交互都成了第一入口。更重要的是,國內(nèi)研究語音交互的企業(yè)比如科大訊飛,不僅在語音語義,甚至是后方大數(shù)據(jù)方面,某些領(lǐng)域都超過了國際大牌公司,這是非常了不起的?!霸谡Z音領(lǐng)域,中國人工智能商業(yè)化應(yīng)用率先提速?!?/p>
啟示 未來將是人工智能美妙世界
在12月23日舉行的“2016中國信息產(chǎn)業(yè)經(jīng)濟(jì)年會”上,賽迪智庫信息化中心的助理研究員劉鵬宇發(fā)布了2017年智能技術(shù)發(fā)展趨勢,包括人腦仿生、機(jī)器學(xué)習(xí)、智能語音助手、機(jī)器視覺、AR、區(qū)塊鏈、數(shù)字孿生和人工智能等8個領(lǐng)域,讓現(xiàn)場觀眾“腦洞大開”。人工智能已不是好萊塢大片,正悄然來到我們身邊。
AI時代,中國與美國或?qū)⒉Ⅰ{齊驅(qū)。創(chuàng)新工場創(chuàng)始人李開復(fù)在接受《華爾街日報》采訪時表示,中國在AI技術(shù)人才、工程教育和AI應(yīng)用市場領(lǐng)域的優(yōu)勢,將使中國成為AI技術(shù)領(lǐng)導(dǎo)者。據(jù)公開數(shù)據(jù),中國在AI的兩個核心領(lǐng)域“深度學(xué)習(xí)”和“深度神經(jīng)網(wǎng)絡(luò)”方面發(fā)表的論文數(shù)量超過美國。中國擁有世界領(lǐng)先的語音和視覺識別技術(shù),正在成為人工智能的主要市場和技術(shù)發(fā)源地之一。
就如何打造人工智能產(chǎn)業(yè)生態(tài)、促進(jìn)人工智能產(chǎn)業(yè)有序發(fā)展的話題,劉慶峰表示,人工智能的發(fā)展不會是一蹴而就的。2016年,科大訊飛牽頭發(fā)布了中國人工智能《深圳宣言》,倡導(dǎo)人工智能產(chǎn)學(xué)研用各界聯(lián)手共同推進(jìn)中國人工智能產(chǎn)業(yè)發(fā)展。劉慶峰指出,未來誰掌握了人工智能產(chǎn)業(yè)的主導(dǎo)權(quán),誰就將擁有全球話語權(quán)。
據(jù)此前發(fā)布的《烏鎮(zhèn)指數(shù):全球人工智能發(fā)展報告2016》顯示,2015年全球新增人工智能企業(yè)數(shù)量806家,平均每10.9個小時就有一家人工智能企業(yè)誕生。美國在人工智能行業(yè)占據(jù)領(lǐng)先地位,但歐洲和中國的人工智能產(chǎn)業(yè)發(fā)展也在迎頭趕上,“我們認(rèn)為,中國制造2025一定要跟人工智能匹配在一起?!眲c峰表示,改革開放30年,我們創(chuàng)造了經(jīng)濟(jì)上的奇跡,但在全球產(chǎn)業(yè)鏈上,我們?nèi)蕴幱趦r值鏈的底端。未來30年,如果我們抓住了人工智能產(chǎn)業(yè)機(jī)遇,將會在全球的價值鏈中有擁有更大的話語權(quán)和影響力。
中國移動通信集團(tuán)公司副總裁李正茂則認(rèn)為,“如果2016作為人工智能的元年,2018將是奇點的開始?!彼硎荆磥韺⑹且环N人工智能美妙世界。目前,中國移動和科大訊飛有著多方合作,比如在客服領(lǐng)域嵌入了科大訊飛的技術(shù),未來希望與科大訊飛在更多領(lǐng)域深入合作。
根據(jù)業(yè)內(nèi)預(yù)測,未來三年左右時間內(nèi),全球移動智能終端90%以上將配備語音功能,可穿戴設(shè)備、智能家居、企業(yè)級服務(wù)、汽車智能化等將成為智能語音的重要應(yīng)用場景。正是看到這塊巨大的“蛋糕”,科大訊飛試圖打造基于語音為入口的生態(tài)鏈。
在科大訊飛市場部總經(jīng)理任萍萍看來,未來語音必將成為人機(jī)交互、萬物互聯(lián)的基礎(chǔ),這是科大訊飛現(xiàn)在的機(jī)會,也是科大訊飛有望觸碰到的未來。“未來我們要成為人工智能領(lǐng)域的產(chǎn)業(yè)領(lǐng)導(dǎo)者,我們對未來的期待就是讓機(jī)器能聽會說,能理解會思考,用人工智能建設(shè)美好世界。”