牛祿青
當(dāng)前,視聽產(chǎn)業(yè)正面臨制造大升級、應(yīng)用大升級和消費大升級的良好發(fā)展機遇;同時,也面臨消費者過度聚焦小屏、遠離大屏的困境,以及由此帶來的大屏更新?lián)Q代周期過長、超齡服役等問題。
解決這個問題要從滿足“人民日益增長的美好生活需要”出發(fā),主動打破“低質(zhì)低價低效”的惡性循環(huán),通過落實供給側(cè)改革,加快人工智能、4K超高清和環(huán)繞立體聲技術(shù)的普及,并盡快補齊4K內(nèi)容的短板,吸引用戶重新回流客廳。
視聽產(chǎn)業(yè)是電子信息產(chǎn)業(yè)的“火車頭”,通過國家產(chǎn)業(yè)政策的支持和市場主體的創(chuàng)新競爭,通過產(chǎn)業(yè)鏈上下游協(xié)同努力,中國有望從視聽產(chǎn)業(yè)制造大國、消費大國,發(fā)展為技術(shù)創(chuàng)新強國和品牌服務(wù)強國。
事件
國內(nèi)首款視聽機器人誕生
2017年12月12日,由海美迪、騰訊云小微、騰訊視頻、哈曼卡頓、海思共同打造的中國智慧家庭領(lǐng)域首個視聽機器人正式面世。作為在各自領(lǐng)域占有舉足輕重地位的巨擘,將各自在人工智能領(lǐng)域探索的技術(shù)融合到了視聽機器人身上,它所蘊含的諸多功能突破了用戶對于人工智能產(chǎn)品的固有印象。
海美迪視聽機器人完整接入騰訊云小微智能語音服務(wù)平臺,陪護老人、陪伴兒童、娛樂家庭等功能一應(yīng)俱全,是一名正兒八經(jīng)的家庭智能語音小助手。騰訊云小微負責(zé)人毛華表示,作為騰訊云全力打造的智能服務(wù)開放平臺,騰訊云小微可以讓硬件快速具備聽覺、視覺感知能力。同時,小微的Skill內(nèi)容生態(tài)將賦予硬件更多的能力擴展,如娛樂、物聯(lián)、助手等,從而構(gòu)建一個從云到端的“智能云生態(tài)”。
從功能上看,海美迪視聽機器人集攝像頭、音箱、機頂盒于一體,涵蓋了視頻通話、家庭看護、超高清4k播放、智能音箱、家庭物聯(lián)中控的功能,這種新型產(chǎn)品形態(tài)在國內(nèi)還是第一次出現(xiàn)。
此外,海美迪視聽機器人集成海思Hi3798高級多媒體處理芯片方案以及哈曼卡頓音效。海思全4K芯片解決方案,以高效的運行效率和開放的開發(fā)接口能力,為視聽機器人帶來極佳的語音識別速度和優(yōu)秀的音頻處理效果。同時,海美迪視聽機器人支持4K HDR高動態(tài)范圍技術(shù),運算速率達到15000DMIPS,為用戶提供超凡4K畫質(zhì)。每一種類型的電影大片,視聽機器人都能帶給用戶身臨其境的觀影體驗。在音效方面,由哈曼卡頓專業(yè)團隊根據(jù)箱體特性量身定做五大揚聲器單元,采用美國德州儀器原廠功放。在同類產(chǎn)品中,視聽機器人的音箱容積最大、低音最強。
海美迪視聽機器人也有一雙靈敏的耳朵,采用科勝訊經(jīng)典雙麥克風(fēng)陣列,結(jié)合專業(yè)硬件DSP音頻處理系統(tǒng),抗干擾和靈敏度極高。5M半徑精準拾音范圍,用戶可在客廳的任意角度,語音指揮這個小助手。
在內(nèi)容上,視聽機器人搭載騰訊云小微智能語音服務(wù)平臺,同時內(nèi)容上齊集騰訊視頻、QQ音樂、企鵝FM等海量音視頻資源。不僅能與用戶進行全方面的交互體驗,還能夠擔(dān)任全能家庭語音助手,實現(xiàn)遠場語音點播影視、點播音樂、視頻通話、智能看護、生活助手、物聯(lián)家電等多種功能。
想看電視劇、電影大片、娛樂節(jié)目、少兒節(jié)目,不需要拿著遙控器搜索尋找了,那樣太麻煩?,F(xiàn)在,將海美迪視聽機器人連接電視,坐在沙發(fā)上,只需說一句:“你好小微,我想看人民的名義”,電視屏幕立刻就跳到播放畫面,并且能夠直接跳到上一次觀看的那一集、那一段,斷點續(xù)播就這么方便!這種追劇體驗是不是很神奇?
寶寶在房間里睡覺了,年輕媽媽忙里偷閑想追個劇,又擔(dān)心寶寶會踢被子,一定要帶個ipad守在孩子身邊嗎?NO!放心坐在客廳里追劇吧,只要對視聽機器人說:“你好小微,打開寶寶看護攝像頭。”在追劇的同時就能小窗口實時觀看寶寶的睡態(tài)。
年邁的父母遠在家鄉(xiāng),想看孫子,又不會用智能手機,怎么辦?海美迪視聽機器人同時也是一臺視頻通話機。無需下載輔助軟件,也不需要購買兩臺相同的設(shè)備,通過海美迪視聽機器人,家里的電視大屏就可以直連手機QQ。以后父母想看孫子了,直接說:“你好小微,給兒子打電話”,即刻就能通過電視與孩子視頻。視聽機器人的攝像頭有大廣角鏡頭,客廳情況一覽無余。寶寶可以一邊在客廳玩耍,一邊跟奶奶或媽媽撒嬌聊天。
忙碌了一天,晚上回到家中,很累,就對海美迪視聽機器人訴說吧。無論是“你好小微,心情不好來首歌”,還是“你好小微,放我喜歡的歌”,它都能投其所好,為每一位用戶推送適合的音樂。海美迪視聽機器人內(nèi)置QQ音樂,1700萬正版音樂曲庫任你點播,隨心操縱,想聽的流行樂、輕音樂、古風(fēng)、英語、粵語應(yīng)有盡有,享受高品質(zhì)正版音樂,聽你想聽的歌。
個性電臺、有聲讀物、聽新聞、查天氣、英語翻譯、鬧鐘提醒、趣味聊天等功能一應(yīng)俱全。海美迪視聽機器人身上還有許多可以幫助孩子們學(xué)習(xí)的少兒應(yīng)用。視聽機器人可以為孩子講述繪聲繪色的童話故事,借助騰訊云小微百科,海美迪視聽機器人還能為孩子們解答生活中的各種百科問題。
背景
人工智能風(fēng)口下的視聽產(chǎn)業(yè)
2017年7月,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》(以下簡稱《規(guī)劃》),這是首部國家層面的人工智能發(fā)展規(guī)劃。《規(guī)劃》明確了中國新一代人工智能發(fā)展的戰(zhàn)略目標:到2020年,人工智能總體技術(shù)和應(yīng)用與世界先進水平同步,人工智能產(chǎn)業(yè)成為新的重要經(jīng)濟增長點,人工智能技術(shù)應(yīng)用成為改善民生的新途徑,有力支撐進入創(chuàng)新型國家行列和實現(xiàn)全面建成小康社會的奮斗目標。
到2025年,人工智能基礎(chǔ)理論實現(xiàn)重大突破,部分技術(shù)與應(yīng)用達到世界領(lǐng)先水平,人工智能成為中國產(chǎn)業(yè)升級和經(jīng)濟轉(zhuǎn)型的主要動力,智能社會建設(shè)取得積極進展。
到2030年,人工智能理論、技術(shù)與應(yīng)用總體達到世界領(lǐng)先水平,成為世界主要人工智能創(chuàng)新中心,智能經(jīng)濟、智能社會取得明顯成效,為躋身創(chuàng)新型國家前列和經(jīng)濟強國奠定重要基礎(chǔ)。
當(dāng)前,新一代人工智能正進入產(chǎn)業(yè)化應(yīng)用階段,智能家居并呈加速發(fā)展態(tài)勢。2017年OTT大屏智能終端在家庭的覆蓋率達到45%,據(jù)預(yù)測在2020年大屏智能終端的覆蓋率將達到72%,終端數(shù)量將突破4億,為家庭互聯(lián)網(wǎng)時代帶來扎實的基礎(chǔ)。
科技部戰(zhàn)略研究院副研究員李修全在2017(第十三屆)中國音視頻產(chǎn)業(yè)技術(shù)與應(yīng)用趨勢論壇(AVF)論壇上表示,人工智能具有高度交叉的技術(shù)和產(chǎn)業(yè)屬性,將與各技術(shù)領(lǐng)域深度融合。通過培育發(fā)展人工智能新興產(chǎn)業(yè),促進產(chǎn)業(yè)智能化升級,將為我國經(jīng)濟發(fā)展注入新動能,開拓出新的廣闊的經(jīng)濟增長空間。
在AVF論壇上,廠商以人工智能、認知計算等新技術(shù)運用為支撐,提升語音操控技術(shù),讓交互變得更加智能。隨著語音搜索、自動推薦及視覺圖像識別等技術(shù)的應(yīng)用,人工智能與家庭終端設(shè)備的結(jié)合也日漸普及。
TCL發(fā)布的人工智能電視新品,圍繞著更加“懂你”的科技變革,電視在智能化和人性化方面不斷提升,以至于現(xiàn)階段智能電視賣點都聚焦在人機交互、語音識別、智能互聯(lián)等功能上,進入以人工智能電視為核心賣點的新階段。TCL多媒體產(chǎn)品中心X線產(chǎn)品總經(jīng)理卜海峰表示,目前整機廠商所使用的底層AI技術(shù)不盡相同,因此企業(yè)需要做的,是根據(jù)使用場景來進行調(diào)度,實現(xiàn)用戶的差異化體驗。
自2016年長虹推出全球首款人工智能電視后,長虹智能轉(zhuǎn)型也步入人工智能新階段。作為全球首款聲紋識別人工智能電視,長虹Q5K應(yīng)用國際前沿的I-vector技術(shù)為聲紋建模,識別率超過90%。長虹Q5K采用集成式陣列麥克風(fēng),實現(xiàn)5米范圍內(nèi)的遠場語音采集,通過13萬個語義關(guān)鍵詞詞條,實現(xiàn)角色搜片、精準糾錯等模糊搜片,為用戶提供更流程的交互體驗。
隨著家庭視頻、游戲、社交服務(wù)的快速增長,對于電視直播視頻的解決方案以及視頻內(nèi)容的分發(fā)能力提出了更高的要求。早在2016年,Yi+就針對這一難題給出了解決方案,基于對圖片視頻圖像識別、大數(shù)據(jù)、用戶畫像等信息獲取、學(xué)習(xí)與分析,為用戶提供更具人性化與個性化內(nèi)容推薦等擴展內(nèi)容的一系列定制化增值服務(wù)——大屏AI助理,取得了較多的成果轉(zhuǎn)化和商業(yè)運用,成功吸引如阿里、華數(shù)等眾多視頻平臺和廣電、OTT市場等深度合作,服務(wù)了海量用戶。
2017年12月1日,在第五屆全國網(wǎng)絡(luò)視聽大會短視頻高峰論壇上,阿里大文娛集團聯(lián)合阿里巴巴達摩院共同發(fā)布了鯨觀全鏈路數(shù)字版權(quán)服務(wù)平臺。
據(jù)悉,鯨觀平臺將為視頻行業(yè)提供全鏈路數(shù)字版權(quán)服務(wù),這也是達摩院技術(shù)首次在文娛行業(yè)落地的成果。未來,鯨觀將在視頻智能編目、版權(quán)保護和商業(yè)變現(xiàn)等各個環(huán)節(jié)上,盤活行業(yè)存量并創(chuàng)造行業(yè)增量。
阿里大文娛移動事業(yè)群輪值總裁黃浩表示,短視頻全球化的風(fēng)口非常迫切,將是中國企業(yè)與全球玩家的競爭。但是,在短視頻行業(yè)增長迅猛的同時,也存在一系列瓶頸待解,如產(chǎn)能不匹配、盜版嚴重、商業(yè)模式單一等。
而鯨觀平臺搭載的達摩院iDST(數(shù)據(jù)科學(xué)技術(shù)研究院)人工智能技術(shù),實現(xiàn)了視頻智能編輯,通過對視頻內(nèi)容各個維度的分析,打上兩萬余種標簽,同時利用知識圖譜對標簽進行多維度編目。有了標簽,視頻素材就容易被檢索。這樣一來,數(shù)億行業(yè)閑置的視頻資源將被重新激活,實現(xiàn)二次甚至多次使用價值。
智能編輯在打標的同時,還會在音視頻素材上抽取“指紋”,讓音視頻素材在全網(wǎng)范圍可追溯,且實現(xiàn)毫秒級速度支持百億級指紋檢索,侵權(quán)盜版無處可逃。音視頻指紋技術(shù)不僅大大降低了視頻版權(quán)監(jiān)控取證的成本,還可被用于廣告分成等多種業(yè)務(wù)場景,助力宣發(fā)。
據(jù)阿里巴巴達摩院iDST首席科學(xué)家和副院長任小楓介紹,目前,5分鐘時長的視頻經(jīng)過上述全鏈路處理可在10秒內(nèi)完成。基于達摩院技術(shù),鯨觀未來還將在視頻AI上進一步發(fā)展,實現(xiàn)視頻素材通過創(chuàng)作交互平臺快速智能生成新內(nèi)容。
焦點
內(nèi)容安全是視聽產(chǎn)業(yè)首要挑戰(zhàn)
近年來,網(wǎng)絡(luò)視聽技術(shù)迅速發(fā)展壯大,廣播電視媒體與互聯(lián)網(wǎng)新興媒體融合發(fā)展,經(jīng)過多年探索和實踐,虛擬現(xiàn)實、大數(shù)據(jù)、人工智能等新技術(shù)正驅(qū)動網(wǎng)絡(luò)視聽行業(yè)深刻變化、快速發(fā)展,確立差異化市場地位的同時,滿足了廣大人民多元化的精神文化需求。但是,網(wǎng)絡(luò)視聽行業(yè)目前也存在一些突出的問題:淫穢色情現(xiàn)象、網(wǎng)絡(luò)暴力、網(wǎng)絡(luò)謠言、侵犯公民個人隱私等迫切需要各方通力協(xié)作來解決。
當(dāng)下,安全播控內(nèi)容審核的范圍擴展到文字、語音、圖片、視頻、直播等,幾乎覆蓋了移動互聯(lián)網(wǎng)時代的所有產(chǎn)品。一個顯著的特征就是人工智能在內(nèi)容審核領(lǐng)域的應(yīng)用。
視聽行業(yè)聚集了大量的內(nèi)容和用戶,特別是具有實時互動特點的直播、短視頻、在線音視頻,安全問題是繞不過去的一個坎兒。沒有信息內(nèi)容、用戶數(shù)據(jù)的安全保障,良好的互動和用戶體驗也就無從談起。
網(wǎng)易云副總經(jīng)理周森指出,視聽產(chǎn)品在研發(fā)中通常會遇到3個挑戰(zhàn):一是成本方面,研發(fā)很貴,網(wǎng)絡(luò)帶寬很貴,在內(nèi)容安全上的投入也很大,成本很高;二是交互方的需求多樣化,產(chǎn)品要快速迭代升級,對技術(shù)要求高;三是在呈現(xiàn)效果上,畫面要流暢,交互體驗要好,內(nèi)容安全保障要好。這都有賴于通過結(jié)合人工智能、大數(shù)據(jù)、云計算等相關(guān)技術(shù)去實現(xiàn)。
據(jù)網(wǎng)易杭州研究院執(zhí)行院長汪源介紹,在內(nèi)容安全領(lǐng)域,網(wǎng)易云做了非常多的防護措施,比如文本的識別、圖像的鑒黃、視頻的過濾、暴恐信息的識別等,同時最大化地保護用戶隱私?!坝脩魯?shù)據(jù)在網(wǎng)易里是沒有任何一個人能夠獲取的,即便基于我們業(yè)務(wù)的需要訪問用戶數(shù)據(jù),也需要經(jīng)過多個部門的多重加密解密,以防范任何情況下出現(xiàn)問題。”
網(wǎng)易云針對視聽行業(yè)的技術(shù)性解決方案,除了在互動功能層面提供直播、點播、聊天室、在線音視頻技術(shù)外,重中之重是依托強大的云計算基礎(chǔ)設(shè)施,借助人工智能過濾有害信息,保障內(nèi)容安全。
“網(wǎng)易云在視聽內(nèi)容安全方面提供了非常豐富的場景,包括新聞內(nèi)容、聊天室、評論、直播、彈幕、短信、簽名等,利用網(wǎng)易運營團隊和內(nèi)容安全、審核團隊的專業(yè)審核標準和分控體系,我們將有害信息分成八大類20多個場景,并重點研發(fā)了人工電視墻系統(tǒng)?!敝苌f。該系統(tǒng)針對以往通過截圖審核難以識別一些違法違規(guī)場景的問題,增加了人工智能識別技術(shù),可對有嫌疑的直播間進行智能排序?!耙坏┳R別出來將對這些直播間重點標注,以便審核人員重點關(guān)注,發(fā)現(xiàn)違規(guī)行為馬上進行處罰?!?/p>
以秒拍、小咖秀、一直播三款熱門產(chǎn)品在移動視頻領(lǐng)域形成產(chǎn)品矩陣生態(tài)的一下科技,與網(wǎng)易云合作正是看中了其20多年的運營經(jīng)驗及海量數(shù)據(jù)。一下科技總裁陳太鋒表示,反垃圾、有害信息是一個不斷抗衡的過程,目前一下科技已建立了近800多人的團隊,視頻方面也建立了自己的AI團隊,通過視頻識別、視頻指紋等方式對色情暴恐等內(nèi)容進行實時監(jiān)管?!耙幌驴萍疾扇∵@樣的方式包括實行最嚴格的實名認證體系,就是希望把真正有價值的內(nèi)容留下來。”
圖普也是一家基于深度學(xué)習(xí)技術(shù)、多維度解讀圖片和視頻信息、將圖像識別技術(shù)應(yīng)用于企服務(wù)領(lǐng)域的公司?!拌b黃”是圖普最為人熟知的標簽,即通過對海量圖片、視頻的分析學(xué)習(xí)后,代替人工自動審核色情內(nèi)容,這可以為企業(yè)節(jié)省巨額成本。
在電視內(nèi)容審核方面,Yi+是國內(nèi)首家應(yīng)用人工智能技術(shù)實現(xiàn)電視、OTT視覺識別交互的公司,2017年同中信國安廣視達成合作,Yi+成為國內(nèi)第一家實現(xiàn)毫秒級完成實時視頻直播內(nèi)容識別的公司。Yi+視頻圖像分析識別是基于人工智能計算機視覺技術(shù),對媒資庫內(nèi)選定視頻“黃”“暴”特定信息自動進行識別,生成標注信息供安播團隊篩選;特別標注“露點”“血腥”鏡頭;對特定敏感人物(如恐怖分子頭目)在毫秒級中快速自動識別,供安播團隊篩選。
比如當(dāng)兒童獨自觀看視頻時,電視機鏡頭識別兒童后,開啟“安全播控”模式,自動屏蔽黃暴內(nèi)容;在此基礎(chǔ)上,基于識別不同年齡層的人群會推薦相關(guān)內(nèi)容,當(dāng)識別到兒童之后,電視會推送動畫或者兒童教學(xué)相關(guān)的內(nèi)容,家長可以通過語音/體感喚起AI助理幫助識別場景相關(guān)內(nèi)容介紹。
啟示
人工智能為視聽產(chǎn)業(yè)帶來新動能
人工智能作為新一輪產(chǎn)業(yè)變革的核心驅(qū)動力,將進一步釋放歷次科技革命和產(chǎn)業(yè)變革積蓄的巨大能量,并創(chuàng)造新的強大引擎,重構(gòu)生產(chǎn)、分配、交換、消費等經(jīng)濟活動各環(huán)節(jié),催生新技術(shù)、新產(chǎn)品、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式,引發(fā)經(jīng)濟結(jié)構(gòu)重大變革,深刻改變?nèi)祟惿a(chǎn)生活方式和思維模式,實現(xiàn)社會生產(chǎn)力的整體躍升。
愛奇藝創(chuàng)始人、CEO龔宇表示,人工智能技術(shù)的崛起,將在未來對流量、收視或者票房預(yù)測、內(nèi)容審核、廣告投放等視聽領(lǐng)域多方面產(chǎn)生重要影響。同時,在新使命方面,龔宇強調(diào),用符合主流價值觀的網(wǎng)絡(luò)原創(chuàng)作品滿足人民日益增長的美好生活需要,是視聽行業(yè)未來非常重要的使命和任務(wù),并認為,優(yōu)秀人才、加大投入和突破性的創(chuàng)新力三大要素,會成為加快視聽行業(yè)完成使命的關(guān)鍵。
比如流量、收視或者票房預(yù)測對創(chuàng)作階段有非常重要的現(xiàn)實意義。指紋植入視聽作品,在防止盜版、追查盜版、排除重復(fù)性的視頻等方面,可以大幅提高工作效率。再比如審核,按照國家的法律法規(guī),有些內(nèi)容是不能向公眾傳播的,互聯(lián)網(wǎng)的海量信息對于人工審核來講,整合起來不但成本高,更大的麻煩是準確率很差,會丟掉一些不應(yīng)該放棄的內(nèi)容。通過人臉識別、情景識別等辦法可以幫助管理者提高審核的效率和準確率。還有剪輯、縮略圖、標簽標注等方面,都能提高準確率和效率。
大數(shù)據(jù)標簽主要用于短視頻和直播平臺,系統(tǒng)會通過對海量的標注過的數(shù)據(jù)的學(xué)習(xí),根據(jù)主播的行為、場景、人物風(fēng)格、年齡、性別等,自動為當(dāng)前直播建立標簽。例如,一個喜歡做嘟嘴表情的年輕女孩,會有很大可能被打上“萌妹子”的標簽。而通過對人工標注的系統(tǒng)的學(xué)習(xí),人工智能甚至可以判斷主播的顏值。
通過應(yīng)用人工智能技術(shù),分發(fā)和播放可以實現(xiàn)個性化推薦,廣告可以實現(xiàn)精準投放、情景化投放。對于做視頻推薦來說,這些基本符合主流審美標準的標簽已經(jīng)足夠了:新用戶注冊后,直播平臺可以根據(jù)該用戶選擇關(guān)注的標簽,在他的首頁呈現(xiàn)相應(yīng)的直播;直播平臺還可以根據(jù)顏值和熱門等綜合因素,在首頁推薦直播內(nèi)容;另外,當(dāng)用戶關(guān)注的主播不在線時,系統(tǒng)還可以推薦一些和他關(guān)注的直播類型相似的主播。
此外,用戶可以直接根據(jù)標簽去搜索。例如用戶喜歡唱歌的、場景在KTV里的直播,都可以根據(jù)相應(yīng)標簽搜索。圖普科技CEO李明強表示,僅這個推薦功能,應(yīng)用比較好的平臺,可以使新用戶的留存增加一倍以上;對老用戶,也能使其停留時長至少增加30%~40%。對短視頻和直播平臺來說,留存增加意味著用戶體驗的提升,更重要的是,廣告、打賞等收入會得到顯著提升。如果說之前的內(nèi)容審核是節(jié)約人力成本,為企業(yè)省錢的話,視頻推薦則是實打?qū)嵉貛推髽I(yè)賺錢。
在新時代背景下,視頻化是大勢所趨,網(wǎng)絡(luò)視頻也不再是單純的內(nèi)容生產(chǎn)與傳播,而更是一種融合各產(chǎn)業(yè)的媒介與渠道。在第五屆中國網(wǎng)絡(luò)視聽大會上,從VR、AI、無人機到智能設(shè)備的視頻連接,視頻+電商、視頻+投資、視頻+教育、視頻+大數(shù)據(jù)、視頻+云服務(wù)等,無一不預(yù)示著“智慧視聽”將在未來經(jīng)濟社會中發(fā)揮著重要角色。