高信噪比MEMS麥克風驅動人工智能交互
發布時間:2024-11-23 責任編輯:lina
【導讀】在英飛淩,我們一直堅信卓越的音頻解決方案對於提升消費類設備的用戶體驗至關重要。我們堅定不移地致力於創新,在主動降噪、語音透傳、錄音室錄音、音頻變焦和其他相關技術方麵取得了顯著進步,對此我們深感自豪。作為MEMS麥克風的領先供應商,英飛淩集中資源改善MEMS麥克風的音頻質量,為TWS和耳罩式耳機、筆記本電腦、平板電腦、會議係統、智能手機、智能音箱、助聽器甚至汽車等各種消費設備帶來卓越體驗。
導言
在英飛淩,我們一直堅信卓越的音頻解決方案對於提升消費類設備的用戶體驗至關重要。我們堅定不移地致力於創新,在主動降噪、語音透傳、錄音室錄音、音頻變焦和其他相關技術方麵取得了顯著進步,對此我們深感自豪。作為MEMS麥克風的領先供應商,英飛淩集中資源改善MEMS麥克風的音頻質量,為TWS和耳罩式耳機、筆記本電腦、平板電腦、會議係統、智能手機、智能音箱、助聽器甚至汽車等各種消費設備帶來卓越體驗。
今天,我們生活在一個激動人心的時代,人工智能正在徹底改變日常生活,而ChatGPT等工具正在通過直觀的文本和語音交互重新定義工作效率。隨著人工智能係統的不斷進步,傳統的商業模式、信仰和假設正在受到挑戰。語音在新興的人工智能生態係統中扮演什麼角色?作為企業領導者,我們是否需要重新思考我們的信念? 生(sheng)成(cheng)式(shi)人(ren)工(gong)智(zhi)能(neng)的(de)興(xing)起(qi)是(shi)否(fou)會(hui)降(jiang)低(di)高(gao)質(zhi)量(liang)語(yu)音(yin)輸(shu)入(ru)的(de)重(zhong)要(yao)性(xing),或(huo)者(zhe)高(gao)質(zhi)量(liang)語(yu)音(yin)輸(shu)入(ru)是(shi)否(fou)會(hui)成(cheng)為(wei)廣(guang)泛(fan)采(cai)用(yong)人(ren)工(gong)智(zhi)能(neng)服(fu)務(wu)和(he)個(ge)人(ren)助(zhu)理(li)的(de)必(bi)要(yao)條(tiao)件(jian)?
人工智能,從得力助手到最好的朋友
人(ren)類(lei)不(bu)僅(jin)會(hui)根(gen)據(ju)問(wen)題(ti)的(de)內(nei)容(rong),也(ye)會(hui)根(gen)據(ju)提(ti)問(wen)的(de)形(xing)式(shi)調(tiao)整(zheng)自(zi)己(ji)的(de)回(hui)答(da),這(zhe)是(shi)很(hen)自(zi)然(ran)的(de)事(shi)情(qing)。人(ren)類(lei)的(de)聲(sheng)音(yin)提(ti)供(gong)了(le)各(ge)種(zhong)線(xian)索(suo),可(ke)用(yong)來(lai)判(pan)斷(duan)提(ti)問(wen)者(zhe)的(de)年(nian)齡(ling)、性別、社會和文化背景以及情緒狀態。此外,識別所處的環境(如機場、辦公室、交通或跑步等體育活動)也有助於確定提問者的意圖,並相應地調整答案並更好的對話。
盡jin管guan人ren工gong智zhi能neng的de能neng力li有you了le長chang足zu的de進jin步bu,但dan人ren們men仍reng然ran認ren為wei,基ji於yu人ren工gong智zhi能neng的de輔fu助zhu工gong具ju缺que乏fa正zheng確que預yu測ce人ren類lei提ti問wen意yi圖tu或huo特te定ding信xin息xi將jiang如ru何he被bei解jie讀du的de能neng力li。為wei了le改gai善shan人ren機ji交jiao互hu,人ren工gong智zhi能neng在zai做zuo出chu修xiu辭ci選xuan擇ze時shi應ying考kao慮lv三san個ge關guan鍵jian因yin素su:對聽者的了解、聽者的情緒狀態和環境背景。
zaixuduoqingkuangxia,jinpingjieshoudaodeyinpinxinhaojiuzuyitiquyouyongdexinxibingzuochushidangdefanying。liru,kaolvyixiayusuweimoumianderenjinxingdianhuahuoyinpinhuiyideqingkuang。gengzhongyaodeshi,kaolvyixiazaimeiyoujihuidangmianjiaoliudeqingkuangxia,yigerenzaifanfujiaotanhouduilingyigerendeganzhishiruhefazhanhebianhuade。
最zui近jin的de研yan究jiu表biao明ming,即ji使shi人ren工gong智zhi能neng的de語yu言yan反fan應ying風feng格ge發fa生sheng微wei小xiao的de變bian化hua,也ye會hui導dao致zhi人ren工gong智zhi能neng的de社she交jiao能neng力li和he個ge性xing發fa生sheng明ming顯xian變bian化hua。我wo們men有you理li由you假jia設she,在zai適shi當dang的de聲sheng音yin輸shu入ru水shui平ping下xia,未wei來lai的de人ren工gong智zhi能neng係xi統tong將jiang能neng夠gou作zuo為wei有you效xiao的de夥huo伴ban發fa揮hui作zuo用yong,表biao現xian出chu人ren類lei朋peng友you的de行xing為wei,例li如ru詢xun問wen並bing真zhen正zheng傾qing聽ting答da案an,或huo者zhe隻zhi是shi傾qing聽ting並bing在zai適shi當dang的de時shi候hou保bao留liu判pan斷duan。
人類如何體驗音頻信號?
與任何語言交流一樣,音頻信息也使用語言和文字來傳達思想、情感和觀點。此外,音調、速度、音量和背景噪音等其他交流元素也會影響對信息的整體感知。
從科學的角度來看,人耳基於兩個關鍵因素來感知音頻信號:頻率和聲壓級。聲壓級(SPL)以分貝(dBSPL)為單位,表示圍繞環境大氣壓振蕩的聲壓幅度。100dBSPL的聲壓級相當於割草機或直升機發出的巨大噪音。聲壓級範圍內的最低點(0dB)等效於20µPa的聲壓振蕩,這代表具有最佳聽力的健康年輕人在1kHz頻率下的聽力閾值。所有與語言有關的人類聲音都屬於100Hz至8kHz的頻段。根據ISO 226:2023 標準,相應的人類聽力閾值如圖1所示。

圖1:聽力閾值:根據ISO 226:2023,人在重複試驗中做出 50%正確檢測反應的聲級
如圖1所示人耳對 500Hz至6kHz 範圍內的頻率特別敏感。這些頻率上的任何頻率平衡問題都會對聲音和樂器的感知質量產生重大影響。500Hz至4kHz 之間的頻率包含了人類語音中影響語音清晰度的大部分信息。具體來說,2 kHz 左右的頻率尤為重要。5kHz至10kHz 的頻率對音樂非常重要。這些頻率為聲音增添了 "活力 "和 "亮度"。然而,這些頻率包含的語音信息相對較少,隻有噝聲,即 "zhi"、"chi"和 "shi"等詞開頭的嘶嘶聲。降低 6-8kHz左右的噝聲會對語音清晰度產生不利影響。
我們大多數人都知道,人類的聽力閾值會隨著年齡的增長而下降,如圖 2 所示。

圖 2: 該gai圖tu顯xian示shi了le不bu同tong年nian齡ling段duan本ben體ti正zheng常chang的de男nan性xing在zai單dan聲sheng道dao耳er機ji聆ling聽ting條tiao件jian下xia的de聽ting閾yu衰shuai減jian情qing況kuang。請qing注zhu意yi,女nv性xing也ye有you類lei似si的de圖tu表biao,其qi聽ting力li衰shuai減jian程cheng度du隨sui年nian齡ling增zeng長chang而er略lve有you降jiang低di(ISO7029:2017)
值得注意的是,即使是輕度聽力損失(大多數人的聽力損失發生在40至50歲之間)yehuiduigerenshenghuochanshengzhongdayingxiang。liru,huanyouqingdutinglisunshiderenzaicaozadehuanjingzhonggenbushangjititanhuakenenghuiyudaokunnan。ciwai,tamenhaikenengcuoguozhongyaodetingjiaotishi,rujinggaoxinhaohuojingbao。
目前的音頻硬件是否足以滿足未來人工智能的需要?
jiranwomenyijingduirenleiruheganzhiyinpinxinhaoyoulegenghaodelejie,namerangwomenzhongxinshenshiyixiazuichudewenti,jidangqianheweilaiderengongzhinengxuyaoshenmeyangdeyinpinshuruzhiliang,cainengdadaoyurenleiwuyideshuiping。
目前市場上的大多數消費類設備都使用MEMS麥克風記錄音頻信號。MEMS 麥克風是人工智能個人助理的主要音頻捕捉技術,使用人工智能助理技術的設備目前已開始在市場上銷售。
MEMS 麥克風的錄音質量取決於其動態範圍(dynamic range)。動態範圍的上限由聲學過載點 (AOP) 確定,它定義了麥克風在高聲壓級時的失真性能。麥克風的自噪聲確定了其動態範圍的下限。衡量麥克風自噪聲的方法是信噪比(SNR),它定義了麥克風的自噪聲與其捕獲的信號(靈敏度)之間的比率。不過,就我們的討論而言,信噪比有些不合適,因為信噪比的自噪聲使用了A計權(A-weighting),而A計權其實是基於人類感知音頻信號的能力來定義的。
如果音頻信號的預期接收者是人工智能,則相關的麥克風的等效噪聲級ENL(equivalent noise level)是衡量性能的更合適參數,因為它忽略了錄製聲音的人類感知因素。等效噪聲級ENL指的是在沒有外部聲源的情況下麥克風產生的信號。等效噪聲級ENL以分貝(dBSPL)為單位,表示與麥克風自噪聲相同電壓的聲壓級。
值得注意的是,無論後期采用何種聲音處理方法,低於等效噪聲級ENL的任何聲音信息基本上都會丟失,無法恢複。因此,如果音頻鏈路中沒有其他元件在信號到達人工智能算法之前引入噪音,麥克風ENL就可以被視為人工智能算法的聽覺閾值。應該注意的是,這是一個高度簡化的假設,因為音頻鏈中通常還有許多其他組件,包括聲道、防水保護膜和音頻處理鏈路。
請參考圖 3兩種MEMS麥克風等效噪聲級ENL曲線與人類聽力閾值的直觀對比。

圖 3:中端和高端MEMS麥克風的1/3倍頻程等效噪聲級ENL與典型男性聽力閾值的比較
紅色線條的是信噪比為65dB(A)的麥克風的等效噪聲級ENL曲線,麥克風集成了防塵設計。相應的MEMS麥克風目前已用於多家供應商生產的多款高端智能手機中。
下麵的紫色線條表示英飛淩最新高端數字麥克風的等效噪聲級ENLquxian,gaimaikefengjuyouchuangxindefanghusheji,keshixianfangchenfangshuixiaoguo。zhekuanmaikefengdaibiaoledangqiandejishushuiping,jinniancaizaigaoduanpingbandiannaoshangfabu。womenyuji,daojinnianniandi,xingnengxiangdangdemaikefengjiangchuxianzaigaoduanzhinengshoujishang。zhidezhuyideshi,jiangmaikefengdezizaoshengjiangdi 5-10dB是一項重大成就,特別是考慮到聲壓是使用對數刻度來表示的。
雖然英飛淩在降低高端MEMS麥克風的自噪聲方麵取得了顯著進展,但與人耳相比,麥克風在辨別低聲壓級的能力方麵仍有很大差距。尤其是2kHz附近,對於確保人類聽眾獲得高水平的聲音清晰度至關重要。年輕人的聽覺能力與英飛淩最先進的麥克風之間的差距超過12dBSPL。與目前高端手機中使用的麥克風相比,差距明顯更大,達到17dBSPL。需要再次指出的是,這一評估僅考慮了MEMS麥克風的自噪聲,並未考慮音頻鏈中會進一步降低整體性能的額外噪聲源。
目前MEMS麥克風技術的局限性在包含大部分人類語音信息的頻率範圍(500Hz - 4kHz)內最為明顯。即使是市場上最先進的MEMS麥克風,其聲音理解能力也隻能達到60歲老人的水平。根據現有數據,可以合理地預計,使用最新MEMS麥克風技術的人工智能虛擬助手將出現與老年人類似的聽力障礙,特別是在需要在嘈雜環境中或遠距離跟讀對話的情況下。
總結與展望
人工智能的飛速發展不僅不會減緩,反而會加速MEMS麥克風向更高信噪比發展的趨勢。雖然最新的MEMSmaikefenghaiwufayurenerdeyinpinzhiliangxiangpimei,danyingfeilingzaijiangdimaikefengzizaoshengfangmianqudedejinzhanyouliyuxianyouheweilaiderengongzhineng。jinyibugaijinyinpinlianlujiangshizengqiangrengongzhinengnenglideguanjian,liruzhouweihuanjingfenbian、語境理解、情感意識、說話者識別和多人對話記錄。有了更好的音頻輸入,人工智能與人類的互動方式將能與人類之間的互動相匹配,甚至不相上下。
此外,人機交互水平的提高將促成新的基於人工智能的用例和服務。例如,想象一下未來的微軟Copilot,它(ta)不(bu)僅(jin)能(neng)總(zong)結(jie)團(tuan)隊(dui)會(hui)議(yi)內(nei)容(rong),還(hai)能(neng)提(ti)供(gong)對(dui)交(jiao)談(tan)氛(fen)圍(wei)的(de)整(zheng)體(ti)評(ping)估(gu)。未(wei)來(lai)的(de)人(ren)工(gong)智(zhi)能(neng)輔(fu)助(zhu)功(gong)能(neng)或(huo)許(xu)可(ke)以(yi)基(ji)於(yu)人(ren)類(lei)的(de)語(yu)音(yin)和(he)音(yin)頻(pin),突(tu)出(chu)顯(xian)示(shi)重(zhong)點(dian)或(huo)按(an)照(zhao)重(zhong)要(yao)性(xing)進(jin)行(xing)排(pai)序(xu)。此(ci)外(wai),還(hai)可(ke)以(yi)添(tian)加(jia)輔(fu)導(dao)功(gong)能(neng),為(wei)用(yong)戶(hu)提(ti)供(gong)有(you)用(yong)的(de)建(jian)議(yi),幫(bang)助(zhu)他(ta)們(men)更(geng)好(hao)地(di)將(jiang)未(wei)來(lai)的(de)對(dui)話(hua)引(yin)向(xiang)所(suo)需(xu)的(de)方(fang)向(xiang)。
試想一下,人工智能可以對新的求職者進行第一輪麵試,或者僅憑音頻就能識別說話者,其安全級別足以滿足網上購物的需要。
所有這些可能隻是未來人工智能的一小部分,未來人工智能的聽力能力將達到或超過人類。憑借我們的增強型 MEMS麥克風解決方案,英飛淩很榮幸能夠參與這一激動人心的旅程。
(作者:Gunar Lorenz博士 英飛淩科技技術市場高級總監,校對:丁越 英飛淩科技消費、計算與通訊業務大中華區 首席工程師)
免責聲明:本文為轉載文章,轉載此文目的在於傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請聯係小編進行處理。
推薦閱讀:
AMTS & AHTE South China 2024圓滿落幕 持續發力探求創新,攜手並進再踏新征程!
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 邊緣AI的發展為更智能、更可持續的技術鋪平道路
- IAR作為Qt Group獨立BU攜兩項重磅汽車電子應用開發方案首秀北京車展
- 數字化的線性穩壓器
- 安森美:用全光譜“智慧之眼”定義下一代工業機器人
- 貿澤EIT係列新一期,探索AI如何重塑日常科技與用戶體驗
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall



