【內(nèi)容提要】在萬物互聯(lián)的大趨勢下,智能音頻也邁入全場景時代,如何利用場景化思維,思考智能音頻未來的發(fā)展和運(yùn)用是值得關(guān)注的問題。本文以智能音頻的場景化運(yùn)用為出發(fā)點(diǎn),探討在當(dāng)前的媒體環(huán)境下,智能音頻的新特點(diǎn),并運(yùn)用場景化思維分析智能音頻在現(xiàn)實場景、虛擬場景、增強(qiáng)現(xiàn)實場景中的具體運(yùn)用,以期為智能音頻的未來發(fā)展提供借鑒。
【關(guān)鍵詞】智能音頻 場景化 媒體融合 運(yùn)用
近年來,隨著人工智能技術(shù)在各領(lǐng)域應(yīng)用的不斷深化,智能音頻市場獲得廣泛關(guān)注。音頻搭載人工智能技術(shù),使得音頻市場從傳統(tǒng)的、固定的單向傳播向移動化、智能化、社交化等方向轉(zhuǎn)變,行業(yè)內(nèi)也開始了智能音頻技術(shù)及其適用場景的探索,從硬件技術(shù)、內(nèi)容生產(chǎn)到智能終端等各個方面都有了一定的創(chuàng)新突破。中國網(wǎng)絡(luò)音頻的發(fā)展歷程可分為播客時代、移動時代和全場景時代三個階段。從早期需要定點(diǎn)、固定收聽的播客時代,到互聯(lián)網(wǎng)發(fā)展下用戶能夠借助手機(jī)移動收聽,近年來,借助智能音頻技術(shù),用戶在不同場景能夠自主選擇個性化的收聽內(nèi)容,甚至能夠進(jìn)行社交互動。在全場景時代下,如何充分運(yùn)用場景化思維深度挖掘智能音頻的應(yīng)用,是未來智能音頻發(fā)展需要考慮的問題。
2019年6月6日,工業(yè)和信息化部經(jīng)履行法定程序,已向中國電信、中國移動、中國聯(lián)通、中國廣電四家企業(yè)發(fā)放了5G商用牌照。②今后,隨著5G技術(shù)的深入發(fā)展,智能音頻的應(yīng)用挖掘也將會擁有更強(qiáng)的技術(shù)支撐和更廣闊的發(fā)展前景。
一、現(xiàn)今智能音頻產(chǎn)品的特點(diǎn)探析
相比于傳統(tǒng)的音頻產(chǎn)品、廣播電臺,智能音頻背后是人工智能、深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的共同支撐,它使得音頻內(nèi)容不再只是單一的信息傳播,而具備了互動交流、沉浸式體驗以及生活工作服務(wù)等多方面的作用,較傳統(tǒng)的音頻產(chǎn)品而言也涌現(xiàn)出許多新的特點(diǎn)。
(一)聲音伴隨,提升服務(wù)便利性
隨著移動互聯(lián)網(wǎng)時代的到來,移動化轉(zhuǎn)型成為智能音頻創(chuàng)新發(fā)展的一個方向,新型智能音頻產(chǎn)品力求在日常生活場景中隨時隨地為用戶提供信息或服務(wù),便利性大大增加。
此前,智能音頻產(chǎn)品或服務(wù)多附著于其他智能產(chǎn)品之上,如將語音控制技術(shù)嵌入智能家居系統(tǒng)、將語音助手植入智能手機(jī)等,這一階段的服務(wù)多是單一指令、簡單控制,智能化特性未被充分挖掘。
如今,得益于人工智能技術(shù)的不斷革新和人機(jī)交互技術(shù)的發(fā)展,許多獨(dú)立存在的智能音頻產(chǎn)品先后亮相,智能語音手環(huán)、車載智能語音系統(tǒng)和便攜智能音箱等逐漸走入人們的生活,只要向這些產(chǎn)品發(fā)出語音指令,用戶便可得到他們想要的信息或服務(wù),不僅簡化了操作流程,還能縮減用戶獲取信息所花費(fèi)的時間,使人們的生活更便利、更智能。
(二)網(wǎng)絡(luò)疊加,增強(qiáng)音頻社交屬性
事實上,移動互聯(lián)網(wǎng)包含內(nèi)容、社交、服務(wù)三大領(lǐng)域,移動互聯(lián)網(wǎng)的發(fā)展使得內(nèi)容、社交、服務(wù)三種平臺的交融更加深層。于智能音頻產(chǎn)品而言,為用戶提供內(nèi)容或服務(wù)或許不是其全部目標(biāo),目前也開始出現(xiàn)了社交化的轉(zhuǎn)向。
隨著網(wǎng)絡(luò)音頻的興起,各種音頻社交類軟件應(yīng)運(yùn)而生,不同于以往的文字或圖片社交軟件,音頻社交類軟件的使用形式更加生動有趣,用戶的情感表達(dá)也更真切直接。以“嗷嗚”這款聲音社交軟件為例,用戶在上傳自己的聲音后,系統(tǒng)會對聲音做出智能鑒定,并為用戶發(fā)放聲音標(biāo)簽,用戶可通過聲音標(biāo)簽在線匹配認(rèn)識好友。
在這類軟件中,智能音頻的作用顯然是社交化的,音頻不僅成為用戶交友時的一個匹配相識方式,也是用戶在后續(xù)交往中的一個交流方式。從這種意義上來說,智能音頻改變了人與人連接相識的傳統(tǒng)方式,一定程度上也推動了社會關(guān)系網(wǎng)絡(luò)向一種更為開放、散落的形式轉(zhuǎn)變。
(三)算法推薦,內(nèi)容適配精準(zhǔn)化
在大數(shù)據(jù)和算法推薦等技術(shù)背景之下,用戶本位的理念得到強(qiáng)化,提供個性化、定制化服務(wù)成為各類產(chǎn)品競相追求的目標(biāo)甚至是制勝的法寶。這在智能音頻領(lǐng)域,便體現(xiàn)為智能音頻產(chǎn)品試圖更多地去關(guān)注用戶的實際需求,在特定場景下為用戶提供個性化的信息與服務(wù)。
與早期的智能音頻產(chǎn)品不同,當(dāng)下許多智能音頻產(chǎn)品不再僅從制作者的角度出發(fā),去為用戶提供固定化、模式化的音頻內(nèi)容,而更多的是從用戶的角度出發(fā),試圖將用戶在特定場景下的特定需求納入產(chǎn)品設(shè)計之中,從而為用戶提供有針對性的服務(wù)。
目前,這在應(yīng)用服務(wù)類智能音頻產(chǎn)品中更為多見,例如當(dāng)用戶下達(dá)語音指令后,智能運(yùn)動手環(huán)可以語音播報運(yùn)動數(shù)據(jù),車載智能語音系統(tǒng)可以完成路線導(dǎo)航、調(diào)控車內(nèi)溫度等操作,智能音箱設(shè)備則能夠播報天氣、播放音樂等,以滿足用戶的個性化需求。
二、基于場景的智能音頻運(yùn)用
“場景”一詞本身是一個泛空間化的概念,羅伯特·斯考伯在《即將到來的場景時代》中首次對場景概念做出辨析,他提出以移動設(shè)備、社交媒體、大數(shù)據(jù)、傳感器和定位系統(tǒng)為代表的五種原力構(gòu)成場景傳播的核心技術(shù),被稱為“場景五力”。彭蘭在對場景的研究中提到,場景不僅是一種空間指向,同時也包含著與特定空間和行為相關(guān)的環(huán)境特征,以及在此環(huán)境中的人的行為模式和互動模式。總體而言,場景化思維的運(yùn)用是一個動態(tài)的過程,它不僅僅指現(xiàn)實的環(huán)境,還包括人與人、人與信息互動的情境。因此,在運(yùn)用場景化思維思考智能音頻的使用時,不應(yīng)該僅僅局限于其現(xiàn)實的使用空間,還應(yīng)該思考智能音頻在構(gòu)建虛擬場景、現(xiàn)實增強(qiáng)場景中的意義。
(一)輔助現(xiàn)實場景,滿足日常服務(wù)需求
目前對于智能音頻的開發(fā)主要集中于輔助現(xiàn)實場景層面,以智能音箱、車載智能系統(tǒng)等為代表,其構(gòu)想和運(yùn)用都是基于現(xiàn)實生活場景,運(yùn)用智能音頻技術(shù)為日常生活提供服務(wù)。
第一類是基于技術(shù)工具性的創(chuàng)新使用。這一類應(yīng)用中,通常將智能音頻技術(shù)作為其整體構(gòu)成中的一環(huán),借助聲音信息輸入的便利、直接、快速以及大數(shù)據(jù)分析等優(yōu)勢,提升用戶的使用體驗。如在音樂制作中利用智能音頻技術(shù)的大數(shù)據(jù)聲音采樣分析,使得非專業(yè)人士也能快速掌握專業(yè)的音樂生產(chǎn);或是利用智能音頻的聲紋識別技術(shù),來進(jìn)行有效的安全保障。此外,智能音頻技術(shù)在新聞傳播領(lǐng)域中也獲得了創(chuàng)新性的運(yùn)用,在2019年的兩會報道中,記者創(chuàng)新性使用智能音頻技術(shù)即時將語音轉(zhuǎn)換成文字,極大地提升了新聞采寫的工作效率。這類運(yùn)用將智能音頻技術(shù)與實際的生活、工作需求緊密結(jié)合,充分探索智能音頻技術(shù)在實際使用中的可能性,形成優(yōu)勢互補(bǔ)。
其次是基于智能終端的開發(fā)運(yùn)用。這類應(yīng)用主要考量智能音頻使用的環(huán)境要素,關(guān)注不同場景下智能音頻終端的需求,由此進(jìn)行相關(guān)的研發(fā)。如以天貓精靈、小米AI音箱為代表的智能音箱,通過對話反饋的方式,滿足人們的日常服務(wù)需求;或是以“羅技”為代表,一些服務(wù)開始基于工作中的辦公會議需求,推出商務(wù)智能音視頻會議系統(tǒng),以滿足遠(yuǎn)程會議、會議記錄、資料整合等多方面的需求。
(二)構(gòu)建虛擬場景,增強(qiáng)用戶互動交流
對于智能音頻的開發(fā)不能只集中在對現(xiàn)實空間的開發(fā)應(yīng)用上,在萬物互聯(lián)的時代下,智能音頻在構(gòu)建新的社交關(guān)系等方面也發(fā)揮著重要的作用。這里所強(qiáng)調(diào)的虛擬場景構(gòu)建,更指向于人與人之間的連接,強(qiáng)調(diào)場景中人與人之間互動模式的呈現(xiàn),從而使用戶沉浸其中。即通過虛擬場景的構(gòu)建,營造用戶的“在場”體驗。
首先從技術(shù)開發(fā)層面來說,行業(yè)內(nèi)越來越意識到僅依靠終端的開發(fā)是不夠的,如何運(yùn)用互聯(lián)網(wǎng)、大數(shù)據(jù)通過智能音頻將人與人聯(lián)系起來,從而真正促進(jìn)人際問的交流互動才是進(jìn)一步發(fā)展的方向。以K-radio為例,它搭建了國內(nèi)第一個車載音頻運(yùn)營開放平臺,通過定制化、個性化、主動化的用戶運(yùn)營,滿足不同用戶的收聽需求,極大地提升了用戶的體驗;同時,目前還涌現(xiàn)出一批聲音社交類APP,通過聲音識別,為不同的聲音貼上標(biāo)簽或是通過音頻進(jìn)行交友。這都是在不斷探索智能音頻的社交功能,加強(qiáng)人與人之間的新型社交聯(lián)系。
其次,從內(nèi)容生產(chǎn)層面來說,智能音頻設(shè)備的發(fā)展也要求有更多適應(yīng)不同場景的、垂直細(xì)分的高質(zhì)量音頻內(nèi)容。在這樣的背景下,音頻內(nèi)容的創(chuàng)新與智能設(shè)備的契合便顯得尤為重要。今后,在智能音頻市場化發(fā)展的趨勢下,音頻內(nèi)容提供者也要緊跟形勢變化,不斷探索在不同場景下、不同語境中的音頻內(nèi)容表達(dá)。同時,音頻內(nèi)容也不能只是傳統(tǒng)的單向陳述,應(yīng)當(dāng)思考音頻內(nèi)容在不同使用場景中的對象感、貼近性以及針對不同主體的個性化。
(三)增強(qiáng)現(xiàn)實場景應(yīng)用,提供多元化體驗
目前,在增強(qiáng)現(xiàn)實場景中的智能音頻應(yīng)用還相對較少。此類應(yīng)用主要是利用音頻技術(shù)以還原現(xiàn)場的真實音效,從而使用戶獲得身臨其境式的體驗。Bose正在研究的智能眼鏡便是借助聲音來增強(qiáng)用戶對周邊世界的觀察。這類眼鏡配有檢測用戶動作的傳感器,并能通過藍(lán)牙連接用戶的手機(jī)以獲得定位數(shù)據(jù),從而確定用戶的方位和周邊信息,最終根據(jù)用戶的行動方向?qū)⒃摲较虻穆曇魝鬟f到用戶的耳中,增強(qiáng)用戶的沉浸感。
不過,這類智能音頻產(chǎn)品的開發(fā)還需要解決終端的問題,只有真正研發(fā)出優(yōu)質(zhì)、價格適宜、易于普及的增強(qiáng)現(xiàn)實性智能音頻終端,才能進(jìn)一步考慮內(nèi)容生產(chǎn)的問題,以探索如何將虛擬場景中的音頻與現(xiàn)實的環(huán)境相結(jié)合,真正使虛擬場景與現(xiàn)實場景交融,最大化地方便人們的生活。
三、關(guān)于智能音頻場景化運(yùn)用的思考
目前,智能音頻仍處于發(fā)展初期,其在各領(lǐng)域的應(yīng)用還在探索和試錯階段,因此,在智能音頻的未來發(fā)展中,以下方面還需進(jìn)一步探索:
(一)技術(shù)局限仍待突破
一方面,受制于人工智能的學(xué)習(xí)能力不足,當(dāng)前許多智能音頻產(chǎn)品在學(xué)習(xí)能力上存在局限,基本只能在原本設(shè)定好的程序功能內(nèi)為用戶提供信息和服務(wù),還沒有做到真正的“智能化”。有分析指出,與人類學(xué)習(xí)的方式不同,人工智能模型難以將他們的經(jīng)驗從一套環(huán)境轉(zhuǎn)移到另一套環(huán)境。因此,面對場景的轉(zhuǎn)換,當(dāng)前的智能音頻產(chǎn)品還不能很好地跟隨用戶需求的轉(zhuǎn)變,也很難滿足用戶在程序設(shè)定之外的需求。
另一方面,就我國的情況而言,智能音頻在諸多領(lǐng)域的應(yīng)用中,交互性不足問題較為明顯。無論是傳統(tǒng)的廣播電臺,還是新興的移動音頻平臺或有聲讀物APP,大多還處于追求為用戶提供豐富的音頻內(nèi)容或多樣的音頻效果的傳受階段,用戶的自主發(fā)揮空間十分有限。然而,國際上一些傳統(tǒng)廣播電臺早已將目光投向了智能音頻領(lǐng)域:美國國家公共廣播電臺NPR與亞馬遜、谷歌、蘋果等公司合作,成為其智能語音的新聞默認(rèn)提供商,用戶只需連接設(shè)備,便可獲取實時更新的個性資訊;美國有線電視新聞網(wǎng)CNN也搭載亞馬遜Echo設(shè)備,智能化播放新聞及娛樂信息,滿足用戶自主收聽需求,隨時隨地知曉全球新聞。這都是可供國內(nèi)各大音頻平臺學(xué)習(xí)借鑒的經(jīng)驗,爭取為用戶帶來更好的場景體驗。
最后,隨著智能音頻的深入發(fā)展,未來的探索在克服“雞尾酒效應(yīng)”、提高人聲分離技術(shù)以及克服無線傳輸音質(zhì)不穩(wěn)定等方面也需要更多的努力。
(二)隱私保障不容忽視
2019年是5G元年,5G具有更加豐富和多樣化的場景,它不僅僅是高帶寬、大流量,它還是“萬物互聯(lián)”,會有更多種類型設(shè)備的接入。而對于安全問題,新的應(yīng)用場景將帶來新的挑戰(zhàn),有關(guān)究竟是“萬物互聯(lián)”還是“萬物泄露”的話題討論熱度一直居高不下。
在智能音頻領(lǐng)域,隱私泄露一直是人們廣泛關(guān)注的問題,尤其是在智能音箱的使用中。作為一款能夠收集用戶語音和位置信息的智能設(shè)備,信息搜集和處理環(huán)節(jié)都可能發(fā)生隱私泄露。雖然就目前的設(shè)備設(shè)置來說,大多數(shù)智能音箱設(shè)備在開始錄制之前,都必須由用戶說出特定的喚醒詞來喚醒設(shè)備,但實際應(yīng)用情況卻不盡然。2019年7月,谷歌智能助理就被指出有監(jiān)聽用戶隱私的嫌疑。據(jù)VRT NWS發(fā)布的報告顯示,雖然谷歌在用戶說“嘿,谷歌”或“好的,谷歌”之類的短語之前或之后不會進(jìn)行錄制,但這些設(shè)備有時會誤聽其他單詞或短語并錄制他們本不應(yīng)收聽的對話,其中一些談話最終還會被公司雇用的“語言專家”轉(zhuǎn)錄。此前亞馬遜也曾被指出會有專門人士來審查和轉(zhuǎn)錄其Echo設(shè)備收集的音頻。
在未來智能音頻的發(fā)展中,智能生活與個人隱私的邊界不應(yīng)被忽視或模糊處理,如何保護(hù)智能音頻設(shè)備自身的安全,如何防范智能音頻設(shè)備竊取、泄露用戶數(shù)據(jù),都是亟待解決的問題。
(三)行業(yè)標(biāo)準(zhǔn)亟需規(guī)范
近年來,“智能音頻+社交”市場愈發(fā)火爆。據(jù)《2019年中國網(wǎng)絡(luò)視聽發(fā)展研究報告》顯示,截至2018年12月底,我國網(wǎng)絡(luò)音頻用戶數(shù)量突破3億,其中新一線城市的網(wǎng)民對網(wǎng)絡(luò)音頻的使用率最高,達(dá)到44.5%。
各大應(yīng)用商店中的聲音社交APP頻頻“上新”,為人們提供了一個情感寄托的渠道,但有些應(yīng)用軟件在實際運(yùn)行中卻偏離了正確軌道。例如多數(shù)聲音社交APP并未對用戶的下載年齡做出限制,注冊登錄方式也很隨意,幾乎沒有任何對未成年人的限制及保護(hù)措施。低俗、色情、詐騙等不良內(nèi)容在一些應(yīng)用軟件的文字介紹或內(nèi)部聊天室內(nèi)也較為常見,行業(yè)亂象頻出。
如今,“社群陪伴+音頻互動”式的聲音社交成為新的熱點(diǎn),行業(yè)規(guī)范也需盡快跟進(jìn)。不僅要對聲音社交軟件內(nèi)良莠不齊的內(nèi)容進(jìn)行監(jiān)管和處理,加快制定統(tǒng)一的行業(yè)內(nèi)容標(biāo)準(zhǔn)、維護(hù)聲音社交網(wǎng)絡(luò)空間的風(fēng)清氣正也尤為重要。今后,隨著智能語音識別技術(shù)的發(fā)展,各大軟件平臺也可以和人工智能語音企業(yè)合作,嘗試緩解音頻內(nèi)容監(jiān)管審核難度大、效果差的問題。
四、結(jié)語
總體而言,目前有關(guān)智能音頻的場景化探索仍集中于現(xiàn)實場景中的終端普及階段,發(fā)展?fàn)顟B(tài)還不成熟,也面臨諸多方面的考驗,但智能音頻的多場景運(yùn)用可以說是未來發(fā)展的重要趨勢。
智能音頻的發(fā)展終究是要為人服務(wù)的。因此,在其探索和創(chuàng)新的過程中要充分運(yùn)用場景化思維,思考不同場景中用戶的具體需求,也不能只看到現(xiàn)實場景的層面,還應(yīng)注意到虛擬場景和增強(qiáng)現(xiàn)實場景中智能音頻的作用。此外,動態(tài)地看待場景的概念也很有必要。不僅要看到用戶“此時”的需求,更要看到用戶“過去”和“未來”的需求,全面考慮用戶行為的情境。
任何事物的發(fā)展都經(jīng)歷過從野蠻生長到逐漸規(guī)范的過程。智能音頻在發(fā)展中面臨的隱私保障、行業(yè)規(guī)范等問題絕不容輕視,只有當(dāng)創(chuàng)新發(fā)展與持續(xù)改善形成合力,智能音頻的場景化運(yùn)用才能朝著更好的方向發(fā)展。