国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

虛擬環(huán)境下的智能語音聊天機(jī)器人設(shè)計(jì)?

2019-11-12 06:39:00
關(guān)鍵詞:圖靈后臺(tái)助手

張 林

(商洛學(xué)院數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院 商洛 726000)

1 引言

隨著人工智能和語音處理技術(shù)的發(fā)展,人與機(jī)器的交互變得越來越智能化,而且應(yīng)用的領(lǐng)域也越來越廣泛,從智能家居、智能電器到無處不在的智能語音提示,都體現(xiàn)了智能機(jī)器人的存在。就目前來看,人工智能的場景化應(yīng)用主要有三類:一類是語音助手,比如我們常見的通用型語音助手;另一類是智能客服,中小型賣家,通過自己的自定義知識(shí)庫創(chuàng)建屬于自己的智能客服來回答客戶的一些基本問題;還有一類是虛擬伴侶,比如在虛擬眼鏡里,機(jī)器人可以以虛擬伴侶的形象出現(xiàn),也可以在文字交互的基礎(chǔ)上實(shí)現(xiàn)語音的交互[1~2]。

目前語音助手的應(yīng)用很普及,各大手機(jī)運(yùn)營商都在自己的手機(jī)平臺(tái)上加入語音助手,以實(shí)現(xiàn)讓用戶只動(dòng)口不動(dòng)手的目標(biāo)。比較有名的語音助手有蘋果的Siri、三星的bixby以及我國圖靈機(jī)器人創(chuàng)始人俞志晨等推出的蟲洞語音助手,它們?nèi)诤狭耸澜缟献铍y語音識(shí)別、語音合成、語義理解等技術(shù)。在2013 年底的時(shí)候,蟲洞語音助手就有了驚人的使用量,用戶數(shù)超過4000 萬,當(dāng)時(shí)這些語音助手還不夠成熟,至少缺少了現(xiàn)在機(jī)器人的智能化功能,無法和用戶在語音交互的時(shí)候?qū)崿F(xiàn)智能化。隨著圖靈機(jī)器人的出現(xiàn),給機(jī)器人裝上了一個(gè)聰明的人工智能大腦,而且是可以理解中文語義的大腦。本文設(shè)計(jì)了一款聊天機(jī)器人,通過圖靈機(jī)器人平臺(tái)來搭建,用戶可以通過文本或者語音兩種方式實(shí)現(xiàn)與機(jī)器人的智能交互,聊天的內(nèi)容不再單調(diào)。為了克服語音助手界面單一的缺點(diǎn),采用虛擬現(xiàn)實(shí)技術(shù),打造一個(gè)讓用戶身臨其境的3D 聊天環(huán)境,增強(qiáng)了用戶體驗(yàn)的主動(dòng)性[3]。

2 圖靈機(jī)器人

圖靈機(jī)器人是目前中文語境下智能化程度最高的機(jī)器人大腦,也是全球最為領(lǐng)先的中文語言識(shí)別與計(jì)算平臺(tái)。圖靈機(jī)器人對(duì)中文語義的理解準(zhǔn)確率一直在90%以上,為智能化軟硬件產(chǎn)品提供中文語義分析、自然語言對(duì)話、深度問答等人工智能技術(shù)服務(wù)。2014 年11 月,圖靈機(jī)器人第一款產(chǎn)品正式發(fā)布,到目前為止,它已經(jīng)為為超過23 萬家企業(yè)和開發(fā)者提供服務(wù),累計(jì)響應(yīng)請(qǐng)求量超1462 億次。在家用服務(wù)機(jī)器人、商用服務(wù)機(jī)器人、兒童陪伴機(jī)器人、智能客服系統(tǒng)、智能車載系統(tǒng)以及智能家居控制系統(tǒng)等軟硬件領(lǐng)域占有絕對(duì)性優(yōu)勢(shì)[4]。通過圖靈機(jī)器人的官方網(wǎng)站,企業(yè)及個(gè)人開發(fā)者可輕松為自己的軟硬件產(chǎn)品接入圖靈機(jī)器人,圖靈機(jī)器人的API端口調(diào)用完全免費(fèi),每個(gè)人都可以通過官網(wǎng)創(chuàng)建屬于自己的智能機(jī)器人產(chǎn)品[5~6]。

其實(shí)圖靈機(jī)器人并不是一款機(jī)器人產(chǎn)品,用CEO俞志晨的話說,他是要做成一套在人工智能領(lǐng)域的操作系統(tǒng),把技術(shù)提供給各個(gè)領(lǐng)域的開發(fā)者,做免費(fèi)平臺(tái),以最大程度地降低個(gè)人開發(fā)者及企業(yè)合作方的成本;另一方面,想以開放的方式與個(gè)人與企業(yè)合作,以推動(dòng)人工智能技術(shù)在生活場景中的應(yīng)用[7]。

3 虛擬技術(shù)

虛擬現(xiàn)實(shí)技術(shù)(Virtual Reality,VR)[8]是一種可以創(chuàng)建和體驗(yàn)虛擬世界的計(jì)算機(jī)仿真系統(tǒng),它利用計(jì)算機(jī)生成一種模擬環(huán)境,是一種多源信息融合的交互式的三維動(dòng)態(tài)視景和實(shí)體行為的系統(tǒng)仿真,使用戶沉浸到該環(huán)境中。虛擬現(xiàn)實(shí)技術(shù)是仿真技術(shù)的一個(gè)重要方向,是仿真技術(shù)與計(jì)算機(jī)圖形學(xué)、人機(jī)接口技術(shù)、多媒體技術(shù)、傳感技術(shù)、網(wǎng)絡(luò)技術(shù)等多種技術(shù)的集合,是一門富有挑戰(zhàn)性的交叉技術(shù)前沿學(xué)科和研究領(lǐng)域。虛擬現(xiàn)實(shí)技術(shù)(VR)主要包括模擬環(huán)境、感知、自然技能和傳感設(shè)備等方面。模擬環(huán)境是由計(jì)算機(jī)生成的、實(shí)時(shí)動(dòng)態(tài)的三維立體逼真圖像。感知是指理想的VR應(yīng)該具有一切人所具有的感知。除計(jì)算機(jī)圖形技術(shù)所生成的視覺感知外,還有聽覺、觸覺、力覺、運(yùn)動(dòng)等感知,甚至還包括嗅覺和味覺等,也稱為多感知。自然技能是指人的頭部轉(zhuǎn)動(dòng),眼睛、手勢(shì)、或其他人體行為動(dòng)作,由計(jì)算機(jī)來處理與參與者的動(dòng)作相適應(yīng)的數(shù)據(jù),并對(duì)用戶的輸入作出實(shí)時(shí)響應(yīng),并分別反饋到用戶的五官。傳感設(shè)備是指三維交互設(shè)備[9~10]。

目前語音交流識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中已經(jīng)占有一定的比例,社會(huì)生活中廣泛流傳著移動(dòng)終端聊天軟硬件——功能完善的語音助手,但大多數(shù)語音助手都過于虛擬化,只有聊天框等UI 設(shè)計(jì),自主智能尚不完善。我們采取整合虛擬與現(xiàn)實(shí)的手法,打造一款虛擬環(huán)境下的語音助手,將結(jié)合新型VR 技術(shù),將原有的大眾體會(huì)不到聊天真切感的處境轉(zhuǎn)化為身臨其境的沉浸式3D聊天環(huán)境。

4 語音識(shí)別與語音合成技術(shù)

語音合成和語音識(shí)別技術(shù)是實(shí)現(xiàn)人機(jī)語音通信,建立一個(gè)有聽和講能力的口語系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話能力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競爭市場。和語音識(shí)別相比,語音合成的技術(shù)相對(duì)說來要成熟一些,并已開始向產(chǎn)業(yè)化方向成功邁進(jìn),大規(guī)模應(yīng)用指日可待。

與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢(mèng)寐以求的事情。中國物聯(lián)網(wǎng)校企聯(lián)盟形象地把語音識(shí)別比做為“機(jī)器的聽覺系統(tǒng)”。語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。

語音合成是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。TTS 技術(shù)(又稱文語轉(zhuǎn)換技術(shù))隸屬于語音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)[11]。

語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機(jī)器像人一樣開口說話。我們所說的“讓機(jī)器像人一樣開口說話”與傳統(tǒng)的聲音回放設(shè)備(系統(tǒng))有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機(jī),是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)“讓機(jī)器說話”的。這種方式無論是在內(nèi)容、存儲(chǔ)、傳輸或者方便性、及時(shí)性等方面都存在很大的限制。而通過計(jì)算機(jī)語音合成則可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開口說話”。

5 系統(tǒng)設(shè)計(jì)

5.1 系統(tǒng)總體設(shè)計(jì)

本聊天機(jī)器人是基于科大訊飛語音開放平臺(tái)與圖靈機(jī)器人API,并結(jié)合VR 技術(shù)來設(shè)計(jì)的。希望給用戶提供一個(gè)友好的親切的真實(shí)的交互聊天氛圍,讓用戶擁有更好的聊天體驗(yàn)。整體涉及五個(gè)模塊,將各自的功能結(jié)合起來,形成整個(gè)系統(tǒng)的核心技術(shù)。項(xiàng)目流程包括五個(gè)部分,分別是語音合成、語音識(shí)別、圖靈后臺(tái)交互、虛擬場景搭建、VR顯示功能。整體的流程圖如圖1所示。

圖1 整體流程圖

5.2 功能模塊設(shè)計(jì)

5.2.1 語音識(shí)別

在語音識(shí)別模塊中,程序會(huì)自動(dòng)打開手機(jī)的錄音模塊,進(jìn)行錄音,然后調(diào)用科大訊飛SDK 包中的函數(shù)將音頻信息發(fā)送到科大訊飛后臺(tái)進(jìn)行處理,經(jīng)過后臺(tái)處理,得到回復(fù)的內(nèi)容為文本信息,具體流程圖如圖2所示[12~13]。

圖2 語音識(shí)別

語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。在我們項(xiàng)目中的語言識(shí)別技術(shù),就是一個(gè)簡單的聽寫數(shù)據(jù)的錄入,將語音轉(zhuǎn)換成文字的模式,先將語音轉(zhuǎn)換成文本文字存儲(chǔ)在后臺(tái),再由后臺(tái)進(jìn)行統(tǒng)一回復(fù)。

此部分功能主要通過三步來完成:1)錄音;2)C#覆寫科大訊飛語音識(shí)別c++dll;3)語音識(shí)別。

其中語音識(shí)別部分代碼如下:

wave.Start();

wave.Stop();

string c1 =“server_url=dev.voicecloud.cn,appid=56eada3a,timeout=10000”;

string c2 =“sub=iat,ssm=1,auf=audio/L16;rate=16000,aue=speex,ent=sms16k,rst=plain”;

string request;

try

SR asr=new SR(c1,c2);

request = asr.Audio2Txt(AppDomain.Current-Domain.BaseDirectory+“aaa.wav”);

//識(shí)別

catch(Exception)

request=“無法識(shí)別”;

5.2.2 語音合成

在語音合成模塊中,程序會(huì)自動(dòng)調(diào)用科大訊飛SDK的包函數(shù),將文本信息通過科大訊飛的后臺(tái)轉(zhuǎn)換成語音信息,經(jīng)過后臺(tái)的分析及處理,得到回復(fù)的語音信息,從而達(dá)到語音合成的目的,具體流程圖如圖3所示。

圖3 語音合成

此部分功能主要通過兩步來完成:1)C#覆寫科大訊飛離線語音合成c++dll;2)語音合成。其中語音合成部分代碼如下:

public void tts(string response) //tts

uint audio_len=0;

SynthStatus synth_status = SynthStatus.

MSP_TTS_FLAG_STILL_HAVE_DATA;

ret = TTSDll.MSPLogin(string.Empty,string.Empty,“appid=56eada3a”);

string c3 =“ssm=1,ent=sms16k,vcn=xiaoyan,spd=medium,aue=speex-wb;7,vol=x-loud,auf=audio/L16;rate=16000”;

session_ID = TTSDll.QTTSSessionBegin(c3,ref ret);

ret = TTSDll.QTTSTextPut(Ptr2Str(session_ID),response,(uint)Encoding.Default.GetByteCount(response),string.Empty);//核心代碼MemoryStream memoryStream = new MemoryStream();

memoryStream.Write(new byte[44],0,44);

1.1 臨床資料 選擇江西省婦幼保健院2010年至2018年間130例各級(jí)卵巢漿液性腫瘤手術(shù)標(biāo)本蠟塊(包含卵巢漿液性囊腺瘤40例、卵巢交界性漿液性囊腺瘤40例及卵巢漿液性腺癌50例),以同期卵巢漿液性囊腺瘤標(biāo)本作為對(duì)照,所選病例手術(shù)前期未進(jìn)行任何放化療,相關(guān)臨床病理資料完善,病理診斷均明確,排除其他組織學(xué)類型。

while(true)

IntPtr source = TTSDll.QTTSAudioGet(Ptr2Str(session_ID),ref audio_len,ref synth_status,ref ret);

byte[]array=new byte[(int)audio_len];

if(audio_len >0)

Marshal.Copy(source,array,0,(int)audio_len);

memoryStream.Write(array,0,array.Length);Thread.Sleep(1000);

if (synth_status == SynthStatus.MSP_TTS_FLAG_DATA_END||ret!=0)

break;}

WAVE_Header wave_Header = getWave_Header((int)memoryStream.Length-44);

byte[]array2=this.StructToBytes(wave_Header);

memoryStream.Position=0L;

memoryStream.Write(array2,0,array2.Length);

memoryStream.Position=0L;

//SoundPlayer soundPlayer = new SoundPlayer(memoryStream);

//soundPlayer.Stop();

//soundPlayer.Play();

//if(filename!=null)

//{

// FileStream fileStream = new FileStream(filename,F(xiàn)ileMode.Create,F(xiàn)ileAccess.Write);

// memoryStream.WriteTo(fileStream);

// memoryStream.Close();

// fileStream.Close();

//}

if(filename!=null)

FileStream fileStream = new FileStream(filename,F(xiàn)ileMode.Create,F(xiàn)ileAccess.Write);

memoryStream.WriteTo(fileStream);

memoryStream.Close();

fileStream.Close();

SoundPlayer sound=new SoundPlayer();

sound.SoundLocation=filename;

sound.Play();

if(File.Exists(filename))

File.Delete(filename);

//退出登錄ret = TTSDll.QTTSSessionEnd(Ptr2Str(session_ID),“”);

ret=TTSDll.MSPLogout();

5.2.3 圖靈后臺(tái)交互

本項(xiàng)目中主要依靠的是圖靈后臺(tái)來進(jìn)行數(shù)的處理,項(xiàng)目程序先將文字盡心封裝,然后將封裝好的文字包發(fā)送到圖靈后臺(tái),圖靈后臺(tái)對(duì)該封裝包進(jìn)行相應(yīng)的解析,并對(duì)數(shù)據(jù)進(jìn)行一系列的處理,從而得到所對(duì)應(yīng)的文字[14~15],具體的流程圖如圖4所示。

圖4 圖靈后臺(tái)交互

其核心代碼如下:

public string ConnectTuLing(string p_strMessage)

//與圖靈機(jī)器人交互的函數(shù),傳string,return string

HttpWebResponse response=null;

string result=null;

String APIKEY =“99dea6dcb60ee0b0144b4eb175976571”;

String_strMessage=p_strMessage;

String INFO = Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(_strMessage)); //把信息通過UTF-8編碼

String getURL =“http://www.tuling123.com/openapi/api?key=”+APIKEY+“&info=”+INFO;

HttpWebRequest MyRequest = (HttpWebRequest)HttpWebRequest.Create(getURL);

HttpWebResponse MyResponse =(HttpWebResponse)MyRequest.GetResponse();

response=MyResponse;

using(Stream MyStream = MyResponse.GetResponseStream())

long ProgMaximum = MyResponse.Content-Length;

long totalDownloadedByte=0;

byte[]by=new byte[1024];

int osize=MyStream.Read(by,0,by.Length);

Encoding encoding=Encoding.UTF8;

while(osize >0)

totalDownloadedByte = osize + totalDownloadedByte;

result+=encoding.GetString(by,0,osize);

long ProgValue=totalDownloadedByte;

osize=MyStream.Read(by,0,by.Length);

//解析json

try

JsonReader reader = new JsonTextReader(new StringReader(result));

for(int i=0;i <=4;i++)

reader.Read();

result=reader.Value.ToString();

catch(Exception)

throw;

return result;

5.2.4 虛擬場景搭建

虛擬場景搭建,主要是為了讓用戶有一種3D式的沉浸感,讓人們?cè)诹奶斓臅r(shí)候有一種真實(shí)感和親切感,虛擬建模首先是通過Maya 將人物和場景搭建出來,在將搭建的這些人物和場景導(dǎo)入到unity 中,在由unity 進(jìn)行具體的處理,編寫成具體的unity c#的腳本,具體的流程如圖5所示。

圖5 虛擬場景搭建

5.2.5 VR顯示

VR 顯示功能是通過暴風(fēng)魔鏡來實(shí)現(xiàn)的,暴風(fēng)魔鏡能夠?qū)⒋罱ǖ膱鼍巴昝赖恼宫F(xiàn)出來,貼切地將3D 沉浸式這種感覺帶入到聊天中來,增加了用戶在聊天中的親切感以及幽默感,具體的流程圖如圖6所示。

圖6 VR 顯示功能

6 結(jié)語

我們目的在于打造一款虛擬環(huán)境下的智能聊天機(jī)器人,實(shí)現(xiàn)人與機(jī)器人的智能交互,在設(shè)計(jì)的時(shí)候兼容了文本和語音兩種形式的聊天。系統(tǒng)后臺(tái)采用了圖靈機(jī)器人平臺(tái),結(jié)合科大訊飛的語音處理和合成技術(shù),采用虛擬技術(shù),搭建了一個(gè)虛擬的場景,通過暴風(fēng)魔鏡將搭建的場景完美的展現(xiàn)出來,貼切地將3D沉侵式感覺帶入到聊天中來,增加了用戶在聊天中的親切感和參與感。下一步我們將會(huì)針對(duì)不通的用戶和聊天場景,去創(chuàng)建各種不同的專用知識(shí)庫,使智能聊天機(jī)器人越來越多融入我們的生活。

猜你喜歡
圖靈后臺(tái)助手
哈啰電動(dòng)車發(fā)布智能新品哈啰B70 PRO,推出智能平臺(tái)圖靈T30
新英鎊
后臺(tái)暗戀
前臺(tái)、后臺(tái)精彩花絮停不了
人工智能簡史
語言與圖靈測試
小助手
靈感助手表彰大會(huì)(二)
靈感助手表彰大會(huì)(一)
電力調(diào)度中后臺(tái)監(jiān)控系統(tǒng)的應(yīng)用
河南科技(2014年11期)2014-02-27 14:10:03
四川省| 金溪县| 武隆县| 安化县| 孟州市| 星子县| 铜川市| 鞍山市| 醴陵市| 临高县| 长顺县| 萨嘎县| 阿拉善右旗| 儋州市| 仙桃市| 上高县| 弋阳县| 栖霞市| 柳江县| 平和县| 容城县| 大关县| 盐城市| 九龙城区| 井研县| 普陀区| 德阳市| 讷河市| 荥经县| 太仆寺旗| 师宗县| 绍兴县| 阿克苏市| 南澳县| 噶尔县| 西盟| 永清县| 泗水县| 孟津县| 赣榆县| 清水河县|