《電子技術應用》
您所在的位置:首頁 > MEMS|傳感技術 > 業(yè)界動態(tài) > 光學傳感器無視噪音,實現(xiàn)精準語音識別

光學傳感器無視噪音,實現(xiàn)精準語音識別

2016-12-21

據(jù)麥姆斯咨詢報道,VocalZoom是一家以色列初創(chuàng)企業(yè),他們發(fā)明了一種光學傳感解決方案,可以在噪雜環(huán)境中將人們的語音更精準地轉換為數(shù)字信號。這項發(fā)明非常適用于緊急狀況下的通訊服務,除了最初面向的車載語音識別應用,還可用于頭戴耳機、智能手機、安保等一切跟語音識別相關的應用。

目前基于語音的人機交互系統(tǒng)(human-to-machine communication,簡稱HMC)的問題在于它們只針對人類進行了優(yōu)化,而沒有考慮機器。這些人機交互系統(tǒng)利用聲學麥克風探測所有的聲音信息,然后耗費大量寶貴的能源和時間運用降噪算法過濾背景噪音,再經(jīng)過優(yōu)化獲得自然、悅耳、清晰的聲音再現(xiàn)。

當人們在開車的時候,無論是人類還是語音識別系統(tǒng),隨著背景噪音的增加,可理解性和識別率都隨即下降,這帶來了糟糕的通話質量和錯誤的聲控命令。

20160415031330541.jpg

圖1 行駛的車輛,隨著車窗打開幅度和車內喇叭音量的提高,聲控識別率通常逐漸降為0%。VocalZoom宣稱他們的HMC傳感器在相同的環(huán)境下,聲控識別率可以保持在90%以上。

為了將人類的聲音從環(huán)境噪音中完全分離,VocalZoom為其HMC傳感器運用了一種低成本、低功耗的干涉測量原理。該傳感器使用一個激光器來測量人們說話時臉部或者耳后皮膚的低頻震動。為了降低干涉測量的成本,VocalZoom選擇了犧牲測量距離,使用一款一級安全等級的垂直腔面發(fā)射體激光器(VCSEL),該激光器測量距離為1米,可以直接正對臉部進行皮膚震動探測。

20160415031349817.jpg

圖2 VocalZoom的HMC傳感器應用了一項簡單但專利保護的干涉測量技術,使用一款可以正對臉部測量的一級安全等級的垂直腔面發(fā)射體激光器(VCSEL)。面部震動改變了反射光束的相位,通過定制ASIC中嵌入的算法獲得最終輸出信號,信號再通過I2S接口輸出。

該系統(tǒng)不僅可以改善手機通話質量、更精準更持久的接收語音命令進行聲控操作,還可以用于近距離探測和測量心率。而且,每個人說話的嗓音和相應的面部震動都是獨特的,所以該傳感器還可以用于生物安全識別。

20160415031404711.jpg

圖3 VocalZoom技術的應用

“這一技術將改變人類與機器的交互方式?!盫ocalZoom銷售和商業(yè)發(fā)展部副總裁Rammy Bahalul突出了該項技術的主要應用。但是,他還指出該傳感器可以替換掉占智能手機成本10~20美元的傳感器組件,包括近距探測、語音識別、生物識別(自帶“存活證明”特性)等功能組件,同時還能提供更好的降噪效果,還能通過語音控制降低系統(tǒng)功耗。

為此,摩托羅拉選擇該系統(tǒng)進行了試驗,最后,摩托羅拉還成為了該公司的投資方。今年初,VocalZoom與科大訊飛簽署了一項協(xié)議,將VocalZoom的人機交流(HMC)光學傳感器與科大訊飛的“語音云”智能語音技術平臺相結合。

“該傳感器自身功耗在毫瓦范圍內,” Bahalul說道,“成本大約1美元?!奔す馄鞯某杀驹?美元左右,ASIC的成本低于1美元。首批原型系統(tǒng)應該在今年第三季度準備就緒,Behalul預計第一批產(chǎn)品將于2017年年初上市。


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。