MEMS麥克風在語音激活設計中如何輔助聲音檢測和關鍵詞識別
發布時間:2020-06-11 責任編輯:lina
【導讀】隨著用戶越來越依賴語音作為用戶界麵,設計人員麵臨著多重挑戰,既要以盡可能小的功耗和響應時間來實現最準確、最可靠的用戶語音界麵 (VUI),又要滿足更緊湊的空間、更低的成本預算並縮短設計進度的要求。
隨著用戶越來越依賴語音作為用戶界麵,設計人員麵臨著多重挑戰,既要以盡可能小的功耗和響應時間來實現最準確、最可靠的用戶語音界麵 (VUI),又要滿足更緊湊的空間、更低的成本預算並縮短設計進度的要求。為了幫助設計人員達到這些目標,多家供應商推出了一種先進的微機電係統 (MEMS) 麥克風,這種麥克風具有多個性能特征,有助於實現強大的喚醒詞檢測和 VUI 語音指令處理。
MEMS 麥克風(也稱為矽麥克風)已普遍在智能手機、智能手表、無線耳塞、汽車、智能電視以及遙控器中使用。這在很大程度上歸功於大獲成功的個人語音助手(例如亞馬遜的 Alexa、穀歌語音助手和蘋果的 Siri)。這些助手會收聽特定的語音指令,使用喚醒詞識別算法從周圍環境中提取語音指令。設計人員的訣竅是:以經濟高效地的方式快速實現這種提取功能,同時盡管存在環境噪聲,也要提高可靠性、準確性和遠場語音采集能力。
本文將討論影響 VUI 設計的 MEMS 麥克風的關鍵特性,包括信噪比 (SNR)、動態範圍、靈敏度和啟動時間。然後介紹來自 TDK InvenSense、CUI Devices、STMicroelectronics 和 Vesper Technologies 的硬件和軟件解決方案,並展示如何將其應用於語音激活設計中。
MEMS 麥克風如何工作
一個 MEMS 麥克風封裝中通常包含兩個組件:將聲波轉換為電信號的 MEMS 膜,以及用作阻抗轉換器向音頻信號鏈提供可用模擬輸出的放大器。如果需要數字輸出,還可在其芯片上再集成一個組件——模數轉換器 (ADC)。

圖 1:MEMS 麥克風的基本結構顯示了其兩個關鍵構建塊:MEMS 變動器和信號處理鏈(位於 ASIC 中)。(圖片來源:CUI Devices)
除了支持具有模擬或數字輸出的微型麥克風外,MEMS 技術還實現了出色的相位匹配和漂移性能。
MEMS 麥克風的關鍵特性
對於語音控製設備設計人員而言,需要在 MEMS 麥克風中查找的關鍵參數如下:
• 信噪比 (SNR):這是參考信號電平與麥克風輸出信號的噪聲電平之比。SNR 測量值包括麥克風元件和 MEMS 麥克風封裝中集成的任何其他設備(例如 IC)產生的噪聲。
靈敏度:響應 1千赫 (kHz) 正弦波時的模擬或數字輸出值,其聲壓級 (SPL) 為 94 分貝 (dB) 或1 帕斯卡 (Pa),後者為壓力測量值。
• 靈敏度公差:任何給定的單隻麥克風的靈敏度範圍。嚴格的靈敏度公差可在使用多個麥克風時確保一致性。
• 動態範圍:麥克風線性響應的最大和最小聲壓級的差異測量。
• 頻率響應:麥克風能夠工作的頻率範圍。
• 啟動時間:響應觸發事件時麥克風被喚醒並輸出有效信號的速度。
諸如遙控器、電視和智能揚聲器之類的語音控製設備通常工作在高環境噪聲下。同樣,在遠場操作中,用戶可能在附近或距離 1 至 10 米 (m) 的地方。這些情況使麥克風的動態範圍、靈敏度和 SNR 變得如此重要。在陣列中使用多個麥克風的應用中,靈敏度公差至關重要。
雖然可以規定每個麥克風具有一定的靈敏度水平,但細微的結構變化可能會導致各種變更。但是,由於 MEMS 麥克風是使用嚴格控製的半導體製造工藝開發,因此具有匹配嚴格的靈敏度公差,這是任何麥克風陣列進行有效數據處理所需的(圖 2)。

圖 2:陣列中使用的麥克風必須嚴格匹配才能實現所需的信號處理性能。(圖片來源:CUI Devices)
為使支持 VUI 的(de)設(she)計(ji)能(neng)越(yue)來(lai)越(yue)多(duo)地(di)采(cai)用(yong)麥(mai)克(ke)風(feng)陣(zhen)列(lie),緊(jin)公(gong)差(cha)的(de)輔(fu)助(zhu)作(zuo)用(yong)極(ji)其(qi)重(zhong)要(yao)。在(zai)麥(mai)克(ke)風(feng)陣(zhen)列(lie)中(zhong),由(you)兩(liang)個(ge)或(huo)多(duo)個(ge)麥(mai)克(ke)風(feng)收(shou)集(ji)信(xin)號(hao),然(ran)後(hou)在(zai)組(zu)合(he)信(xin)號(hao)並(bing)形(xing)成(cheng)合(he)成(cheng)信(xin)號(hao)之(zhi)前(qian),分(fen)別(bie)處(chu)理(li)來(lai)自(zi)每(mei)個(ge)麥(mai)克(ke)風(feng)的(de)信(xin)號(hao)(放大、延遲或濾波)。在麥克風陣列中,可以使用多個輸入來確定方向響應(也稱為波束形成),以濾除不需要的噪聲;與此同時,重點關注在來自更期望的方向上的聲音。
MEMS 麥克風的啟動時間對於捕獲全部關鍵詞並確保其準確性也至關重要。為了節電,支持 VUI 的設備保持低功耗狀態;但是,如果麥克風響應喚醒觸發的啟動時間短,則會影響 VUI 喚醒時間,進而影響喚醒詞檢測性能以及功耗。
隻zhi要yao在zai選xuan擇ze麥mai克ke風feng時shi考kao慮lv到dao這zhe些xie特te性xing,那na麼me在zai具ju有you高gao環huan境jing噪zao聲sheng或huo者zhe用yong戶hu遠yuan距ju離li講jiang話hua,或huo者zhe這zhe兩liang種zhong情qing形xing都dou存cun在zai的de情qing況kuang下xia,後hou續xu的de語yu音yin處chu理li算suan法fa便bian能neng夠gou更geng好hao地di執zhi行xing用yong戶hu語yu音yin提ti取qu功gong能neng。
模擬與數字 MEMS 麥克風接口
正如有關 MEMS 麥克風工作原理的部分所述,MEMS 麥克風輸出可以采用模擬或者數字形式。模擬 MEMS 麥克風使用內部放大器將麥克風的輸出信號驅動至具有低輸出阻抗的合理高電平。這提供了一個連接音頻處理器的直接接口。對於 VUI,設計人員需要確保相關處理器具有板載 ADC,或者設計人員能夠選擇 ADC 以滿足其特定要求。後者會增加複雜性和成本。
借助數字 MEMS 麥克風,麥克風輸出可直接應用於通常的微控製器或數字信號處理器 (DSP) 的數字電路。用於電噪聲環境的 VUI 設計更傾向於數字麥克風,因為與模擬輸出信號相比,數字輸出信號具有更高的抗噪能力。
此外,數字 MEMS 麥克風通常采用脈衝密度調製 (PDM) 將模擬信號電壓轉換為包含相應密度的邏輯高信號的單比特數字流。這樣可以進一步抵禦射頻幹擾 (RFI) 和電磁幹擾 (EMI)。這對於大型麥克風陣列和諸如支持語音的車輛信息娛樂係統之類的實際大型係統尤其重要。
關於靈敏度,就模擬麥克風而言,是采用以分貝為單位的聲壓級相對於 1 伏 (dB/V) 進行測量的。對於數字麥克風,通常以相對於滿刻度分貝值為單位進行測量 (dB FS) 。
VUI 的 MEMS 麥克風解決方案
TDK InvenSense 的 ICS-40740 模擬 MEMS 麥克風滿足了 VUI 應用的許多關鍵麥克風性能要求。該器件包含一個 MEMS 麥克風元件、一個阻抗轉換器和一個差分輸出放大器,采用小型 4.00 x 3.00 x 1.20 毫米 (mm) 的表麵貼裝封裝。該器件采用 1.5 伏電源供電,工作時僅消耗 165 微安 (µA) 電流(圖 3)。

圖 3:ICS-40740 模擬 MEMS 麥克風滿足智能揚聲器和可穿戴設備(例如降噪耳機)的尺寸和功率預算要求。(圖片來源: TDK InvenSense)
該器件的 SNR 為 70 dBA(A 加權分貝),並與 108.5 dB 的寬動態範圍相耦合,即使在高環境噪聲和遠場條件下也能檢測到語音信號。此外,該器件具有 80 赫茲 (Hz) 到 20 kHz 的寬工作頻率響應範圍,132.5 dB 的線性響應性能和 ±1 dB 靈敏度公差。後者使其對於麥克風陣列非常有用。
ICS-40740 的封裝小、功耗低,使其適用於圍繞智能揚聲器和諸如降噪耳機等可穿戴設備構建的物聯網 (IoT) 應用程序。
Vesper Technologies 的 VM3000 是一款全向、底部端口壓電式數字 MEMS 麥克風,具有不到 200 微秒 (µs) 的超快速啟動時間,使其被快速喚醒,足以捕獲完整的喚醒詞(圖4)。

圖4:VM3000 壓電式數字 MEMS 麥克風具有不到 200 µs 的超快速啟動時間,使其能夠足被快速喚醒,足以捕獲完整的喚醒詞。(圖片來源:Vesper Technologies)
在壓電式 MEMS 麥mai克ke風feng中zhong,當dang聲sheng波bo撞zhuang擊ji壓ya電dian懸xuan臂bi時shi,將jiang使shi懸xuan臂bi移yi動dong並bing產chan生sheng電dian壓ya。該gai電dian壓ya由you一yi個ge功gong耗hao非fei常chang低di的de比bi較jiao器qi電dian路lu檢jian測ce,該gai電dian路lu會hui將jiang喚huan醒xing信xin號hao發fa送song到dao音yin頻pin係xi統tong。
由於壓電式 MEMS 麥克風不需要偏置電壓,因此 VM3000 在被喚醒詞指令啟動前幾乎無功耗。而且,這種麥克風僅需 0.35 µA 電流即可保持休眠模式,並且能夠在不到 100 µs 的時間內切換到性能模式。超低功耗休眠模式與快速模式切換相結合,還能確保在喚醒音頻設備時不會丟失任何信息。
VM3000 數字麥克風幾乎可以與任何音頻芯片配對,其輸出特點是在一條數據線上複用兩個麥克風。該麥克風在 1 kHz 信號下的典型 SNR 為 63 dB,具有 122 dB SPL 聲學過載點 (AOP)。
VM3000 采用 3.5 x 2.65 x 1.3 mm 封裝,並通過集成 ADC 節省物料清單 (BOM)。此外,VM3000 使用單層壓電晶體,使其不受靈敏度漂移的影響,並可防止灰塵、水、濕氣和其他環境顆粒的侵害。
諸如 VM3000 之類的壓電式 MEMS 麥mai克ke風feng無wu需xu使shi用yong保bao護hu網wang或huo薄bo膜mo覆fu蓋gai多duo個ge麥mai克ke風feng,從cong而er簡jian化hua了le陣zhen列lie的de音yin頻pin設she計ji。如ru保bao護hu網wang或huo保bao護hu膜mo等deng為wei防fang止zhi受shou環huan境jing汙wu染ran而er覆fu蓋gai聲sheng學xue孔kong的de保bao護hu元yuan件jian,可ke導dao致zhi MEMS 麥克風靈敏度下降。
VM3000 也相對容易實現,因為它可以直與 CODEC 或其他處理器連接(圖 5)。主係統(CODEC 等)提供主時鍾 CLK,該時鍾定義了 DATA 線上的比特速率。

圖5:VM3000 可以直接與外部處理器連接,並且可將兩個麥克風連接到一條 DATA 線上。(圖片來源:Vesper Technologies)
有趣的是,兩個麥克風可以通過一條 DATA 線連接。這是因為數據是在由 L/R Select 引腳定義的時鍾 (CLK) 上升沿或下降沿設置的,而 L/R Select = GND(頂部)在時鍾下降沿設置數據,L/R Select = VDD(底部)在時鍾上升沿設置數據。然後,CODEC 或處理器可以根據比特流與 CLK 邊沿的對齊方式將其分離。
入門:MEMS 麥克風評估套件
為了評估關鍵參數並簡化使用 MEMS 麥克風的音頻係統的設計,供應商提供了參考板和軟件開發套件。例如,Vesper 提供了 S-VM3000-C 評估板,其中包括一個 VM3000 數字 MEMS 麥克風和一個 0.1 微法拉 (µF) 的電源旁路電容器以及一個邊緣連接器。
同樣,TDK InvenSense 為其 ICS-40740 模擬 MEMS 傳感器提供 EV_ICS-40740-FX 評估板,可讓設計人員快速、高效地分析差分模擬輸出麥克風的性能。除 MEMS 麥克風外,該開發套件唯一的其他組件便是 0.1 µF 電源旁路電容器。
CUI Devices 同時提供模擬和數字 MEMS 麥克風,其 DEVKIT-MEMS-001 開發套件用於原型開發和測試(圖 6)。該評估板有四個獨立的麥克風評估電路。

圖 6:DEVKIT-MEMS-001 有四個可拆卸麥克風評估電路:其中兩個用於模擬輸出,另兩個用於數字輸出。(圖片來源:CUI Devices)
該評估板上有兩個模擬 MEMS 麥克風:底部音孔 CMM-2718AB-38308-TR 和頂部音孔 CMM-2718AT-42308-TR;兩個數字 MEMS 麥克風:底部音孔 CMM-4030DB-26354-TR 和頂部音孔 CMM-4030DT-26354-TR。頂部和底部音孔用於模擬和數字輸出麥克風,以提高設計靈活性。
比較這兩個模擬設備,CMM-2718AB-38308-TR 的靈敏度為 -38 dB,SNR 為 65 dBA。CM-2718AT-43208-TR 的靈敏度為 -42 dB,SNR 為 60 dBA。兩者的頻率範圍均為 100 Hz 至 10 kHz,並從 2 V 電源軌汲取 80 µA 電流。
對於兩個數字麥克風,CMM-4030DB-26354-TR 的靈敏度為 -26 dB FS,SNR 為 64 dBA。CMM-4030DT-26354-TR 的靈敏度為 -26 dB FS,SNR 為 65 dBA。兩者均使用 1 位 PDM 數據格式,在 100 Hz 至 10 kHz 頻率範圍內工作,並從 2 V 電源汲取 0.54 毫安 (mA) 電流。
總結
通過仔細研究 MEMS 麥克風(模擬和數字),可以發現其係統級性能優勢,以及它們如何對始終開啟的語音接口設計進行補充。最新的 MEMS 麥mai克ke風feng采cai用yong新xin穎ying的de技ji術shu來lai延yan長chang電dian池chi壽shou命ming,改gai善shan遠yuan場chang音yin頻pin質zhi量liang並bing能neng抵di禦yu環huan境jing汙wu染ran。提ti高gao關guan鍵jian詞ci的de準zhun確que性xing是shi另ling一yi個ge主zhu要yao的de設she計ji考kao慮lv因yin素su,它ta與yu SNR、靈敏度容差和啟動時間等參數密切相關。所有這些都已在最新設備中得到解決,能更好地適應 VUI 設計。
免責聲明:本文為轉載文章,轉載此文目的在於傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請聯係小編進行處理。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索





