用于失語(yǔ)群體的智能“眼-語(yǔ)”助手的設(shè)計(jì)

2022-08-03 06:59:06雷濤許兆坤王昭昳李釗張林媛路國(guó)華

中國(guó)醫(yī)療設(shè)備 2022年7期

雷濤，許兆坤，王昭昳，李釗，張林媛，路國(guó)華

空軍軍醫(yī)大學(xué) a. 軍事生物醫(yī)學(xué)工程學(xué)系；b. 基礎(chǔ)醫(yī)學(xué)院，陜西西安 710032

引言

失語(yǔ)群體是指言語(yǔ)功能喪失群體，其主要包括出生缺陷、聲帶損傷等導(dǎo)致的失語(yǔ)群體[1-2]以及腦卒中、脊柱損傷等退行性疾病導(dǎo)致的失語(yǔ)群體[3-5]。該類群體基數(shù)大，由于無(wú)法像正常人一樣交流溝通，嚴(yán)重影響其正常工作、學(xué)習(xí)、娛樂(lè)、就醫(yī)、維權(quán)等，甚至一些低文化言語(yǔ)殘障人士面臨生存危機(jī)，對(duì)家庭和社會(huì)造成了一定的負(fù)擔(dān)[6]。因此如何消除失語(yǔ)群體社會(huì)參與障礙，尊重和保護(hù)殘障人士的自主權(quán)、生命權(quán)和人格完整權(quán)，推動(dòng)殘障人士共享經(jīng)濟(jì)社會(huì)發(fā)展成果，增強(qiáng)全社會(huì)扶殘助殘意識(shí)，是目前需要重點(diǎn)解決的問(wèn)題[7-8]。本研究通過(guò)設(shè)計(jì)并制作一個(gè)可穿戴的智能“眼-語(yǔ)”解決裝置，旨在幫助失語(yǔ)群體實(shí)現(xiàn)基本的交流，提升該類人群社會(huì)生活的能力。

1 系統(tǒng)設(shè)計(jì)方案

1.1 主要元件及其作用

系統(tǒng)整體架構(gòu)如圖1 所示，主要元件及其作用包括：4 個(gè)反射率傳感器（Pololu-2459 QTR-1RC，用于捕捉右眼球運(yùn)動(dòng)方向）、USB3.0A 電纜（為傳感器供電以及將傳感器輸出信號(hào)傳輸至Aduino Nano模塊）、Aduino Nano模塊（用于處理傳感器輸出信號(hào)和系統(tǒng)控制）、文本轉(zhuǎn)語(yǔ)音模塊（Parallax Emic 2，主要將患者5 s 內(nèi)2 個(gè)眼球運(yùn)動(dòng)方向所對(duì)應(yīng)的預(yù)定義文本短語(yǔ)轉(zhuǎn)換為語(yǔ)音輸出、移動(dòng)電源（+5 V，為系統(tǒng)供電）、抗掉電模塊（防止系統(tǒng)低功耗造成移動(dòng)電源無(wú)法檢測(cè)到耗電設(shè)備）、音頻插座（為外部揚(yáng)聲器提供輸出接口）、基板（將Arduino 模塊、文本轉(zhuǎn)語(yǔ)音模塊、抗掉電模塊、音頻插座及內(nèi)部揚(yáng)聲器的電氣連接整合到一個(gè)電路板上）、普通眼鏡（為4 個(gè)反射率傳感器提供一個(gè)支架，方便傳感器捕捉眼球運(yùn)動(dòng)方向）、系統(tǒng)外殼及傳感器支架（為確保設(shè)備的便攜性，設(shè)計(jì)了一個(gè)3D 打印的外殼，將除傳感器及眼鏡外的硬件電路封裝在一個(gè)外殼中；同時(shí)，為了將傳感器固定在眼鏡上，為4 個(gè)傳感器也3D 打印了一個(gè)傳感器支架，傳感器支架可用雙面膠固定在眼鏡上，見(jiàn)圖2。

圖1 系統(tǒng)整體架構(gòu)

圖2 系統(tǒng)外殼及傳感器支架

1.2 運(yùn)行原理和優(yōu)勢(shì)

整個(gè)解決方案是基于Arduino 平臺(tái)，該平臺(tái)是一個(gè)開(kāi)放源代碼的單芯片微控制器，其使用了Atmel AVR 單片機(jī)，采用了基于開(kāi)放源代碼的軟硬件平臺(tái)。使用連接到普通眼鏡上的4 個(gè)紅外反射率傳感器，實(shí)現(xiàn)對(duì)右眼球運(yùn)動(dòng)狀態(tài)（向上、向下、向左、向右及閉眼）的識(shí)別。每識(shí)別2 個(gè)連續(xù)的眼球運(yùn)動(dòng)動(dòng)作（上、下、左、右）的組合，文本轉(zhuǎn)語(yǔ)音模塊即輸出該組合所對(duì)應(yīng)的預(yù)定義短語(yǔ)，如患者右眼球先向上看，然后向右看，“眼-語(yǔ)”助手可以解釋這個(gè)動(dòng)作（上+右），文本到語(yǔ)音模塊將輸出其對(duì)應(yīng)的預(yù)定義短語(yǔ)。同時(shí)整個(gè)系統(tǒng)的控制采用Arduino Nano 模塊實(shí)現(xiàn)，其即可滿足失語(yǔ)群體對(duì)相關(guān)功能的需求，并且其體積較小，易于攜帶。整個(gè)系統(tǒng)硬件PCB 基板大小為64 mm×55 mm；同時(shí)，根據(jù)硬件系統(tǒng)尺寸大小，設(shè)計(jì)了一個(gè)3D 打印的外殼，可便于穿戴。

2 硬件設(shè)計(jì)

主設(shè)備需要一個(gè)微處理器，作為設(shè)備的“大腦”，協(xié)調(diào)輸入、計(jì)算和產(chǎn)生的輸出，同時(shí)保持對(duì)順序任務(wù)的跟蹤等，本研究選擇Arduino Nano 完成這項(xiàng)任務(wù)。首先為實(shí)現(xiàn)音頻輸出功能，使用了Parallax Emic 2 這一高質(zhì)量的文本轉(zhuǎn)語(yǔ)音控制器；然后添加一個(gè)連接眼鏡上紅外反射率傳感器傳輸信號(hào)的USB 3.0 A 型母頭連接器，一個(gè)用于外部揚(yáng)聲器的3.5 mm AUX 音頻插座，該音頻插座額外引出一個(gè)2 針頭連接器，可實(shí)現(xiàn)選擇使用內(nèi)部揚(yáng)聲器的功能。此外，除了音頻輸出外，還添加了一個(gè)狀態(tài)LED，為患者提供反饋。現(xiàn)代大多數(shù)電源設(shè)備供電時(shí)，會(huì)因其供電的硬件系統(tǒng)功耗低及電流太小，無(wú)法檢測(cè)到該硬件為其正常供電。為了防止出現(xiàn)這種情況，本研究增加了一個(gè)額外的電路用于“故意”地浪費(fèi)一點(diǎn)能量，確保移動(dòng)電源為系統(tǒng)正常供電。主設(shè)備電路原理圖如圖3 所示，PCB 圖如圖4 所示。

圖3 主設(shè)備原理圖

圖4 主設(shè)備PBC圖

3 軟件設(shè)計(jì)

軟件設(shè)計(jì)采用Arduino IDE（V1.8.14）平臺(tái)。為了使本系統(tǒng)能盡可能多地應(yīng)用于不同的溝通情景，軟件設(shè)計(jì)利用5 s 內(nèi)2 個(gè)右眼球運(yùn)動(dòng)方向作為一個(gè)組合，并且只允許兩個(gè)方向的組合，然后輸出一個(gè)預(yù)定義短語(yǔ)。根據(jù)這一規(guī)則，2 個(gè)右眼球運(yùn)動(dòng)方向可生成16 種組合。

3.1 主控功能模式

利用4 個(gè)傳感器檢測(cè)閉眼，當(dāng)右眼閉眼2 s，可以實(shí)現(xiàn)對(duì)系統(tǒng)功能的主控，進(jìn)入主控功能模式后，利用16 種眼球運(yùn)動(dòng)方向的組合，可現(xiàn)實(shí)16 種不同的主控功能，包括4 種系統(tǒng)功能控制、4 種基本應(yīng)答和8 種可設(shè)定情景。各主控功能對(duì)應(yīng)的患者右眼球運(yùn)動(dòng)組合控制方式如圖5 所示。

圖5 16種不同的主控功能對(duì)應(yīng)的患者右眼球運(yùn)動(dòng)組合控制方式

3.2 情景模式

右眼閉眼2 s，進(jìn)入主控功能模式后，可選擇8 種情景模式用于不同的溝通場(chǎng)景，每種情景模式均可由患者右眼球2 個(gè)運(yùn)動(dòng)方向的組合控制進(jìn)入。在本研究中預(yù)定了4 種情景模式，分別是情景1（居家）、情景2（朋友）、情景3（護(hù)理）及情景4（就醫(yī)）；另外4 種情景模式為患者可根據(jù)不同的溝通環(huán)境自己定制。

4 系統(tǒng)集成及測(cè)試

系統(tǒng)集成展示如圖6 所示，關(guān)鍵元器件供電電壓測(cè)試結(jié)果為+4.7～4.8V，供電正常。各傳感器輸出、USB 引腳、Arduino 引腳連接均導(dǎo)通。紅外外反射率傳感器對(duì)單眼球運(yùn)動(dòng)方向最佳感應(yīng)距離為3～4 mm，最大感應(yīng)距離為9～10 mm。

圖6 系統(tǒng)集成展示

為了測(cè)試系統(tǒng)功能，招募20 名受試者測(cè)試主控功能模式與4 種預(yù)定義情景模式下，測(cè)試系統(tǒng)語(yǔ)音輸出是否正常。每名受試者測(cè)試3 次，統(tǒng)計(jì)主控功能模式與4 種預(yù)定義情景模式下語(yǔ)音輸出的正常率，數(shù)據(jù)以（±s）表示。在60 次的功能測(cè)試中，系統(tǒng)主控功能模式與4 種預(yù)定義情景模式下語(yǔ)音輸出的正常率在93%以上（圖7），可滿足實(shí)際使用需求。

圖7 系統(tǒng)功能測(cè)試結(jié)果

5 討論

據(jù)2006 年第二次全國(guó)殘疾人抽樣調(diào)查數(shù)據(jù)，中國(guó)現(xiàn)有殘疾人8300 多萬(wàn)，涉及7000 多萬(wàn)個(gè)家庭、2.6 億人口[9]。2006 年我國(guó)殘疾人占2005 年第三次全國(guó)總?cè)丝?3.09 億人的6.34%。其中言語(yǔ)殘疾的人數(shù)為127 萬(wàn)，其占?xì)埣踩丝側(cè)藬?shù)的1.53%。雖尚無(wú)最新的言語(yǔ)殘疾人數(shù)的權(quán)威數(shù)據(jù)，但根據(jù)2021 年第七次全國(guó)人口普查最新人口總量14.11 億這一數(shù)據(jù)[10]，在殘疾人占比保持不變的前提下，可以保守推算出中國(guó)現(xiàn)有殘疾人約8900 多萬(wàn)，其中言語(yǔ)殘疾的人數(shù)約為137 萬(wàn)[11]。因此，如何使失語(yǔ)群體實(shí)現(xiàn)基本交流已成為社會(huì)普遍關(guān)注的問(wèn)題[12]。

手語(yǔ)是用手勢(shì)比量動(dòng)作，根據(jù)手勢(shì)的變化模擬形象或者音節(jié)以構(gòu)成的一定含義或詞語(yǔ)，其是聽(tīng)力障礙或者無(wú)法言語(yǔ)的人互相交流的一種手的語(yǔ)言，是該類人群的主要的交際工具[13]。但是，手語(yǔ)具有一定的局限性，首先學(xué)會(huì)手語(yǔ)并不容易，要達(dá)到正常交流的水平需要一定的時(shí)間，且每個(gè)國(guó)家或地區(qū)間手語(yǔ)存在一定差異，日常生活中的推廣度不高。

語(yǔ)音合成（Text to Speech，TTS）技術(shù)是將人類語(yǔ)音用人工的方式產(chǎn)生，能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來(lái)，相當(dāng)于給機(jī)器裝上了人工嘴巴[14]，其涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)，是信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)，其主要將文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息，使機(jī)器像人一樣開(kāi)口說(shuō)話。在線TTS 利用供Android/iOS 在線語(yǔ)音合成軟件開(kāi)發(fā)工具包（Software Development Kit，SDK），適用于網(wǎng)絡(luò)環(huán)境穩(wěn)定場(chǎng)景下的手機(jī)等智能硬件設(shè)備快速集成。但是，該項(xiàng)技術(shù)需要患者打字，僅適用于手功能健康的失語(yǔ)群體。腦卒中、脊柱損傷或其他緩慢失去對(duì)身體功能控制的退行性疾病的患者[15-17]常伴隨手功能障礙，無(wú)法使用手語(yǔ)或者在線TTS技術(shù)實(shí)現(xiàn)交流。

與在線TTS 技術(shù)相比，TTS 芯片雖然功能較為簡(jiǎn)單，但其具有體積小，功能穩(wěn)定可靠，可滿足特定溝通環(huán)境下的交流需求，支持任意中文文本的合成，對(duì)常見(jiàn)的數(shù)值、電話號(hào)碼、時(shí)間日期、度量衡符號(hào)等格式的文本具有智能分析處理功能，且抗噪能力強(qiáng)（在嘈雜的噪音環(huán)境下也可聽(tīng)懂），內(nèi)置功放，可以直接驅(qū)動(dòng)喇叭等優(yōu)點(diǎn)。非常適合可穿戴智能產(chǎn)品的設(shè)計(jì)；同時(shí)，結(jié)合紅外眼球運(yùn)動(dòng)方向捕捉技術(shù)，可以利用眼球運(yùn)動(dòng)方向的控制實(shí)現(xiàn)讓TTS 芯片語(yǔ)音輸出預(yù)定義好的文本短語(yǔ)，不需要手的參與，也可以讓機(jī)器發(fā)聲，滿足兩類失語(yǔ)人群實(shí)現(xiàn)基本交流。本研究將眼球運(yùn)動(dòng)方向捕捉技術(shù)與文本轉(zhuǎn)語(yǔ)音技術(shù)結(jié)合，探究利用眼球運(yùn)動(dòng)方向的控制讓機(jī)器發(fā)聲的關(guān)鍵技術(shù)，并利用該機(jī)器研發(fā)一種可穿戴的裝置，使失語(yǔ)群體能在不同溝通情景下實(shí)現(xiàn)基本交流，以滿足患者的實(shí)際生活需要。

6 結(jié)論

本研究旨在解決如何消除失語(yǔ)群體社會(huì)參與障礙并實(shí)現(xiàn)基本交流這一問(wèn)題，該問(wèn)題是社會(huì)發(fā)展特定人群需求的一個(gè)實(shí)際問(wèn)題，具有較好的應(yīng)用價(jià)值。本研究提出的“眼-語(yǔ)”解決方案和裝置，可以為失語(yǔ)群體提供8 種溝通情景下的128 個(gè)高質(zhì)量語(yǔ)音輸出，且這些語(yǔ)音均可定制，該系統(tǒng)具有較廣的應(yīng)用性和較好的擴(kuò)充性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡