陳孝良和團(tuán)隊(duì)一直在聲學(xué)領(lǐng)域悉心耕耘,讓聲智科技走出了自己的發(fā)展曲線。
假如你在國外戴上AI耳機(jī),它不僅能幫你翻譯菜單,還能教你實(shí)時用外語問路……你會為這樣一款耳機(jī)買單嗎?從Walkman、CD播放器、MP3、iPod、Siri、智能音箱,到今天的AI手機(jī)、AI耳機(jī)……聲學(xué)技術(shù)一直以來都是消費(fèi)電子產(chǎn)品發(fā)展的關(guān)鍵點(diǎn)之一。如今,隨著AI技術(shù)的快速發(fā)展,聲音正成為人機(jī)界面交互的新前沿,在聆聽和對話之間,重塑我們和世界的互動方式。
誕生于2016年5月的北京聲智科技有限公司(以下簡稱“聲智科技”),便是一直在“聲學(xué)+AI”交叉領(lǐng)域的探索者。創(chuàng)始人兼董事長陳孝良博士畢業(yè)于中國科學(xué)院聲學(xué)研究所,曾擔(dān)任中科院聲學(xué)研究所副研究員和信息化辦公室主任,聲智科技的創(chuàng)始團(tuán)隊(duì)全部來自中國科學(xué)院聲學(xué)研究所。
這是一家典型的科學(xué)家創(chuàng)業(yè)型公司。
在聲音交互領(lǐng)域迅速成長
聲學(xué)在全球范圍內(nèi)都屬于比較小眾的學(xué)科,過去主要服務(wù)于國防和軍工領(lǐng)域,比如潛艇聲吶和魚雷等相關(guān)技術(shù)。在軍事上,聲學(xué)的一個關(guān)鍵應(yīng)用就是如何用聲吶更好地探測,以及如何避免被別人用聲吶探測到。
采訪中,陳孝良介紹,水下環(huán)境中聲波是唯一能夠保持信號長距離傳輸且不快速衰減的通信和傳感手段。光學(xué)信號和電磁波在空氣中是主要通信手段,但在水中它們的信號由于水體的吸收和散射會快速衰減。這就是為什么當(dāng)你潛水的時候會發(fā)現(xiàn),在10米以下的水域,基本上漆黑一片,因?yàn)楣鈺焖偎p?!霸谙M(fèi)領(lǐng)域,我們也用到了許多聲學(xué)技術(shù),包括錄播客用到的麥克風(fēng)、音響,在電影院聽到的音效、聽歌的MP3格式等,這些都是聲學(xué)領(lǐng)域的典型應(yīng)用。”
陳孝良和團(tuán)隊(duì)一直在聲學(xué)領(lǐng)域悉心耕耘,讓聲智科技走出了自己的發(fā)展曲線。2016年3月,隨著人工智能AlphaGo圍棋對弈戰(zhàn)勝李世石,全球人工智能行業(yè)迎來了一波新的高潮。圍棋長久以來被視為棋牌運(yùn)動中“人類智慧的最終堡壘”,而AlphaGo的勝利,讓社會大眾重新認(rèn)識到人工智能發(fā)展的潛力和前景。此后,人工智能、深度學(xué)習(xí)、自動駕駛等一系列前沿技術(shù)引發(fā)廣泛關(guān)注。
聲智科技正是誕生于這樣的熱烈氛圍之中。在人工智能大潮中,聲智科技創(chuàng)始團(tuán)隊(duì)結(jié)合自身在聲學(xué)所的積累,以智能語音作為未來人機(jī)交互的切入點(diǎn)。陳孝良和團(tuán)隊(duì)發(fā)現(xiàn),世界不是聲音或圖像的單一維度,而是多感官融合的場景,聲光電熱力磁等都會成為人機(jī)交互的入口。未來所需要的真正的服務(wù)體驗(yàn),不光是單一技術(shù)維度的領(lǐng)先與突破,更需要一個融合的狀態(tài)。這也構(gòu)成了聲智科技從語音角度向多技能、多模態(tài)融合角度的成長路徑轉(zhuǎn)變。
2018年,聲智科技推出SoundAI Azero(壹元人工智能開發(fā)框架),并在2019年進(jìn)一步升級。據(jù)介紹,該框架是基于聲智科技的遠(yuǎn)場聲光融合、多模態(tài)識別(聲音、文字、圖像、手勢等)、推理和翻譯、推薦搜索等技術(shù)的AioT(人工智能物聯(lián)網(wǎng))基礎(chǔ)開發(fā)框架,也是聲智科技得以迅速發(fā)展的核心技術(shù)。2019年,成立僅4年的聲智科技被工業(yè)和信息化部評為第二批國家級專精特新“小巨人”企業(yè),可謂發(fā)展勢頭迅猛。
聲智科技在業(yè)內(nèi)快速成長主要得益于兩方面:一是企業(yè)長期對自主研發(fā)能力的注重,二是其核心技術(shù)在重點(diǎn)場景的落地應(yīng)用。
“小模塊”切入大場景
“技術(shù)的領(lǐng)先性是企業(yè)必須追求的,否則就會失去競爭的最大優(yōu)勢。我們認(rèn)為,技術(shù)的窗口期只有3~6個月,隨后就會更新迭代。”聲智科技聯(lián)合創(chuàng)始人兼首席知識官常樂說。
聲智科技成立以來,持續(xù)加大研發(fā)投入?;诙嗄B(tài)人工智能操作系統(tǒng)和核心算法,目前聲智科技已具備遠(yuǎn)場人機(jī)交互、聲紋采集分析、數(shù)字接觸追蹤、多模態(tài)感知、小樣本決策、多技能數(shù)字人等一系列核心技術(shù)。
技術(shù)從來都不應(yīng)該是空中樓閣。目前,大量人工智能企業(yè)還處于虧損狀態(tài),其自身的“造血”能力也備受關(guān)注。常樂認(rèn)為,人工智能企業(yè)的底層技術(shù)需要與真實(shí)場景相結(jié)合,從而在市場空間實(shí)現(xiàn)“造血”。值得注意的是,在開拓應(yīng)用場景的過程中,聲智科技往往能夠在大場景中發(fā)現(xiàn)“小模塊”的切入點(diǎn)。例如,在健康領(lǐng)域,疫情期間,聲智科技先以核酸檢測信息化作為切入點(diǎn),基于SoundAI Azero人工智能開發(fā)框架開發(fā)出北京核酸檢測信息統(tǒng)一平臺、一站式疫情防控健康管理平臺等,大大提升了核酸檢測效率。此后,聲智科技相繼推出“零接觸”AI電梯系統(tǒng)、AI數(shù)字人紅外測溫系統(tǒng),并依托SoundAI Azero人工智能開發(fā)框架承擔(dān)了包括北京、云南全省以及河北、河南部分地級市的防疫數(shù)字平臺建設(shè),包含大規(guī)模核酸檢測、新冠疫苗接種、多點(diǎn)疫情監(jiān)測預(yù)警、社區(qū)聯(lián)防聯(lián)控等功能。
也正是在前期的持續(xù)積累下,2022年北京冬奧會期間,聲智科技承擔(dān)了包括“冬奧核酸應(yīng)檢盡檢決策系統(tǒng)”“冬奧核酸‘聲智門’”“冬奧賽事綜合保障組指揮調(diào)度平臺”以及“冬奧大腦——冬奧人員信息分析系統(tǒng)”在內(nèi)的4項(xiàng)冬奧基礎(chǔ)設(shè)施,為賽事提供了相關(guān)綜合保障服務(wù)。
通過這些服務(wù),聲智科技的AI技術(shù)不斷向外延展,找到了更多的應(yīng)用場景。
大模型帶來新交互
陳孝良介紹,目前,聲智科技已經(jīng)實(shí)現(xiàn)了三個目標(biāo):一是,他們解決了復(fù)雜場景下的聲學(xué)問題,成功讓智能音箱脫離手臂距離的束縛,成為真正的遠(yuǎn)場交互設(shè)備。二是聲智科技構(gòu)建了完整的AI聲學(xué)處理架構(gòu),從聲學(xué)處理到語音識別、語言處理,再到內(nèi)容服務(wù)和TTS(Text-to-Speech,文本轉(zhuǎn)語音)合成,整個鏈條被打通了,為后續(xù)的智能設(shè)備迭代奠定了基礎(chǔ)。同時,聲智科技提高了語音識別的精度。三是聲智科技成功將延遲控制在用戶可以接受的范圍內(nèi),保證了精度、延遲和距離的平衡。
“我們要確保對話服務(wù)的延遲在1.5秒左右,比如說用戶發(fā)出命令后,音箱開始播放音樂的時間不能超過2秒,否則用戶就會感到明顯的延遲,影響體驗(yàn)。”陳孝良說。
7月31日,聲智科技在北京舉行了一場AI媒體溝通會,以“大模型·新交互”為主題。會議現(xiàn)場,聲智科技公布了AzeroGPT 的算法技術(shù)升級成果,并發(fā)布了兩款新品——AI交互新品“千面智語”和國內(nèi)首款“AI 配飾”——“FairyClip 聲智珍珠耳夾式耳機(jī)”。
這款耳機(jī)證明了AI大模型在可穿戴設(shè)備上落地應(yīng)用的可能。耳機(jī)內(nèi)置的專屬AI助理,能夠隨時響應(yīng)用戶的指令,不僅可以實(shí)現(xiàn)轉(zhuǎn)寫、翻譯、內(nèi)容生成等針對辦公學(xué)習(xí)場景的功能,還針對運(yùn)動健康、日常生活需求,提供健康數(shù)據(jù)檢測、助眠音頻以及生活事項(xiàng)提醒等功能。
“未來人工智能與聲學(xué)技術(shù)的結(jié)合,將會創(chuàng)造出更完美的交互智能體。”陳孝良說。智能耳機(jī)可以無時無刻地陪伴在你的身邊,它足夠全能,讓你的學(xué)習(xí)工作更高效;它還極具同理心,對你的了解甚至超過你身邊的任何人,能幫助你解決生活中遇到的各種問題……
“用智慧科技改變生活?!薄诼曋强萍嫉钠髽I(yè)展廳,處處能夠體會到這句話的魅力,而它正是這家企業(yè)的愿景。
延伸
閱讀
創(chuàng)新音頻產(chǎn)品市場蓬勃發(fā)展
在新技術(shù)的發(fā)展浪潮下,適于特定人群和使用場景的創(chuàng)新音頻品類應(yīng)運(yùn)而生。這使用戶與智能音頻產(chǎn)品之間的交互更加智能化。目前,創(chuàng)新音頻產(chǎn)品的主要應(yīng)用領(lǐng)域包括智能音箱、交互式產(chǎn)品、智能穿戴產(chǎn)品等。
在智能音箱領(lǐng)域,隨著大語言模型的發(fā)展,智能音箱可以視作以語音交互為界面的新型家用計(jì)算設(shè)備和智力生產(chǎn)力的載體。2022年全球智能音箱市場規(guī)模達(dá)161億美元,預(yù)計(jì)2027年市場規(guī)模將增長至259億美元。用戶獲取音頻內(nèi)容的方式由傳統(tǒng)的線下播放逐漸轉(zhuǎn)變?yōu)樵诰€流媒體播放,播放終端也由收音機(jī)、MP3等傳統(tǒng)音頻產(chǎn)品逐漸演化為智能手機(jī)、智能音箱等交互式產(chǎn)品。根據(jù) Statista 數(shù)據(jù),在線音頻市場包括音樂、電臺(含在線電臺)及播客,預(yù)計(jì)2027年市場規(guī)模將達(dá)到1140億美元。另外,智能穿戴式產(chǎn)品市場保持蓬勃發(fā)展,預(yù)計(jì)2028年全球智能穿戴式設(shè)備市場規(guī)模將達(dá)到220 億美元。
(編輯 周靜 charm1121@sina.com)