在劉慈欣的《鄉(xiāng)村教師》中,人類因“令人難以置信的每秒1至10比特” 的交流速率而備受高級文明“鄙夷”,以致懷疑其文明的真實(shí)性。而最新科學(xué)研究給出了一個(gè)“失望”的答案——人類語言傳輸速率相同,為每秒39.15比特。這一答案可能還會(huì)使更多問題失效,比如,語言、文明有高下之分嗎?
2019世界人工智能大會(huì),馬云和馬斯克對話引發(fā)熱議。2017年,馬斯克成立神經(jīng)科技公司Neuralink,其目的即為“開發(fā)超高帶寬的腦機(jī)接口”,人類可以像電腦一樣存儲(chǔ)信息
研究語音的“帶寬”,即信息速率,最核心的問題是計(jì)算不同語言單音節(jié)的信息量。早在1951年,信息論創(chuàng)始人香農(nóng)就已經(jīng)開始研究英語書面文字的信息熵問題。
里昂大學(xué)在2011年發(fā)表論文,統(tǒng)計(jì)世界上幾種主流語言的信息密度和語速,最后將二者相乘算出傳輸速率。最近,他們把研究范圍擴(kuò)展到9個(gè)語系17種語言,包括越南語、英語、德語、意大利語、法語、日語、韓語、漢語普通話和粵語等。
研究人員收集了上述17種語言的170名當(dāng)?shù)爻赡耆说匿浺簦謩e以正常速率閱讀一組語義相似的標(biāo)準(zhǔn)化文本,總共大約24萬個(gè)音節(jié)。演講者會(huì)事先閱讀熟悉文本,最大限度減少閱讀錯(cuò)誤。如此全面地統(tǒng)計(jì)研究17種主流語言的信息密度,這還是第一次。
研究人員發(fā)現(xiàn),日語只有643個(gè)音節(jié),每個(gè)音節(jié)的信息密度約為5比特;英語的音節(jié)數(shù)量為6949,每個(gè)音節(jié)的密度為7比特;越南語最為復(fù)雜,平均每個(gè)音節(jié)包含8比特的信息,為所有語言之首。
統(tǒng)計(jì)后的結(jié)論是:信息速率(IR)的平均值為39.15bit/s,標(biāo)準(zhǔn)差為5.10bit/s,音節(jié)速率(SR)的平均值為6.63音節(jié)/s,標(biāo)準(zhǔn)差為1.15音節(jié)/s。
但音節(jié)信息密度越高的語言,語速就越慢。17種語言每個(gè)音節(jié)的信息密度和音節(jié)速率,二者呈高度的負(fù)相關(guān)關(guān)系,系數(shù)達(dá)-0.89。
里昂大學(xué)的語言學(xué)家弗朗索瓦?佩萊格里諾說:“由于語言科學(xué)長期關(guān)注語法復(fù)雜性等問題,信息傳輸速率被忽略了。”而這一速率恰恰說明:盡管語言的編碼策略差異很大,但在提供信息時(shí),沒有哪一種語言比另一種語言更高效。
那么,為何有這樣的巧合?以及,信息密度更高的語言可以再提高語速加快傳輸嗎?
研究人員推測,人類的大腦結(jié)構(gòu)是類似的,發(fā)音器官也很接近,那么我們對語言的理解能力也相似。作者之一,丹?德迪烏猜測,可能與腦電波頻率有關(guān)。
而語音受到大腦處理瓶頸的限制。最近一篇神經(jīng)科學(xué)論文提出,在美式英語中人類聽覺上限是每秒9個(gè)音節(jié)。這也解釋了提高語言速率并不能顯著提高傳輸速率,一般人可以聽錄音大約只能加速到120%,這是瓶頸所在。
(來源_量子位、Deeptech深科技)