使用交互式人工智能(CAI)實現語音轉錄成本降低高達90%
發布時間:2023-12-05 責任編輯:lina
【導讀】交互式人工智能(CAI)使用機器學習(ML)的子集深度學習(DL),通過機器實現語音識別、自然語言處理和文本到語音的自動化。
交互式人工智能(CAI)簡介
什麼是交互式人工智能(AI)?
交互式人工智能(CAI)使用機器學習(ML)的子集深度學習(DL),通過機器實現語音識別、自然語言處理和文本到語音的自動化。CAI流程通常用三個關鍵的功能模塊來描述:
1 語音轉文本(STT),也稱為自動語音識別(ASR)
2 自然語言處理(NLP)
3 文本轉語音(TTS)或語音合成
圖1:交互式AI構建模塊
本篇白皮書詳細介紹了自動語音識別(ASR)的應用場景,以及Achronix如何在實現ASR解決方案的同時將相關成本降低高達90%。
細分市場和應用場景
僅在美國就有超過1.1億個虛擬助手在發揮作用[1],大多數人對使用CAI服務都很熟悉。主要示例包括移動設備上的語音助手,例如蘋果的Siri或亞馬遜的Alexa;筆記本電腦上的語音搜索助手,例如微軟的Cortana;自動呼叫中心應答助理;以及支持語音功能的設備,例如智能音箱、電視和汽車等。
支持這些CAIfuwudeshenduxuexisuanfakeyizaibendidianzishebeishangjinxingchuli,huozhejujizaiyunzhongjinxingyuanchengdaguimochuli。zhichishubaiwanyonghujiaohudedaguimobushushiyigejudadejisuanchulitiaozhan,chaodaguimodetigongshangyijingtongguokaifazhuanyongdexinpianheshebeilaichulizhexiefuwu。
現在,大多數小型企業都可以使用亞馬遜、IBM、微軟和穀歌等公司提供的雲API,輕鬆地將語音接口添加到他們的產品中。然而,當這些工作負載的規模增加時(本白皮書後麵將介紹一個具體的示例),使用這些雲API的de成cheng本ben將jiang會hui變bian得de過guo高gao,迫po使shi企qi業ye尋xun求qiu其qi他ta解jie決jue方fang案an。此ci外wai,許xu多duo企qi業ye運yun營ying對dui數shu據ju安an全quan性xing有you更geng高gao的de要yao求qiu,因yin此ci需xu要yao將jiang解jie決jue方fang案an必bi須xu保bao留liu在zai企qi業ye的de數shu據ju安an全quan範fan圍wei內nei。
企業級CAI解決方案可用於以下應用場景:
• 自動呼叫中心
• 語音和視頻通信平台
• 健康和醫療服務
• 金融和銀行服務
• 零售和售貨販賣設備
詳細介紹ASR處理過程
ASR是CAI流程的第一步,在這裏語音被轉錄為文本。一旦文本可用,就可以使用自然語言處理(NLP)算法以多種方式對其進行處理。NLP包括關鍵內容識別、情感分析、索引、語境化內容和分析。在端到端的交互式AI算法中,語音合成用於生成自然的語音響應。
最先進的ASR算法是通過端到端的深度學習來實現。不同於卷積神經網絡(CNN),遞歸神經網絡(RNN)在語音識別中很常見。正如來自TechTarget [10]的David Petersson在《CNN與RNN:它們有何不同?》文章中提到:RNN更適合處理時間數據,與ASR應用非常適配。基於RNN的de模mo型xing需xu要yao較jiao高gao的de計ji算suan能neng力li和he存cun儲chu帶dai寬kuan來lai處chu理li神shen經jing網wang絡luo模mo型xing,並bing滿man足zu交jiao互hu式shi係xi統tong所suo需xu的de嚴yan格ge的de延yan遲chi目mu標biao。當dang實shi時shi或huo自zi動dong響xiang應ying太tai慢man時shi,它ta們men會hui顯xian得de遲chi緩huan和he不bu自zi然ran。通tong常chang隻zhi有you犧xi牲sheng處chu理li效xiao率lv才cai能neng實shi現xian低di延yan遲chi,這zhe會hui增zeng加jia成cheng本ben,並bing且qie對dui於yu實shi際ji部bu署shu來lai說shuo會hui變bian得de過guo於yu龐pang大da。
Achronix與采用現場可編程邏輯門陣列(FPGA)進行AI推理的專業技術公司Myrtle.ai展開合作。Myrtle.ai利用其MAU推理加速引擎在FPGA上實現基於RNN的高性能網絡。該設計已集成到Achronix Speedster®7t AC7t1500 FPGA器件中,可以利用Speedster7t架構的關鍵架構優勢(將在本白皮書後麵進行探討),大幅提高實時ASR神經網絡的加速處理,從而與服務器級中央處理器(CPU)相比,可處理的實時數據流(RTS)的數量增加2500%。
數據加速器:如何實現資源的合理平衡分配
數據加速器可以卸載通常由主CPU執行的計算、網絡和/或存儲處理工作負載,從而可以顯著減少服務器的占用空間。本白皮書介紹了用一台服務器和一個Achronix基於ASR的加速卡可取代多達25台服務器。這種架構大大降低了工作負載成本、功gong耗hao和he延yan遲chi,同tong時shi提ti高gao了le工gong作zuo負fu載zai吞tun吐tu量liang。然ran而er,隻zhi有you在zai硬ying件jian得de到dao有you效xiao使shi用yong並bing且qie部bu署shu具ju有you成cheng本ben效xiao益yi的de情qing況kuang下xia,使shi用yong數shu據ju加jia速su硬ying件jian來lai實shi現xian高gao性xing能neng和he低di延yan遲chi才cai有you意yi義yi。
ASR模型對現代數據加速器來說是一種挑戰,通常需要手動調整以實現比平台主要性能規格的個位數效率更高的性能。實時ASR工作負載需要高存儲帶寬以及高性能計算。這些大型神經網絡所需的數據通常存儲在加速卡上的DDR存儲器中。將數據從外部存儲器傳輸到計算平台是該工作負載中的性能瓶頸,特別是在進行實時部署的時候。
圖形處理器(GPU)架構是基於數據並行模型,較小的批處理量(batch size)會導致GPU加速硬件的利用率較低,從而導致成本增加和效率降低。硬件加速解決方案數據表(以TOPS即每秒萬億次操作為單位進行衡量)中的性能數據並不能總是很好地表示實際性能,因為許多硬件加速器件由於與器件架構相關的瓶頸而未得到充分利用。這些數據以TOPS為單位,強調了加速器計算引擎的處理能力,但忽略了關鍵因素,例如外部存儲器的批處理量、速度和規模,以及在外部存儲器和加速器計算引擎之間傳輸數據的能力。對於ASR工作負載,關注存儲帶寬和在加速器內高效地傳輸數據為加速器性能和效率的實現提供了更強有力的指導。
加速器必須具有更大的外部存儲規模和非常高的帶寬。當今的高端加速器通常使用高性能的外部存儲器,存儲規模達8-16 GB,運行速度可高達4 Tbps。它ta還hai必bi須xu能neng夠gou將jiang這zhe些xie數shu據ju傳chuan輸shu到dao計ji算suan平ping台tai而er不bu會hui影ying響xiang性xing能neng。然ran而er,無wu論lun如ru何he去qu實shi現xian高gao速su存cun儲chu和he計ji算suan引yin擎qing之zhi間jian的de數shu據ju通tong道dao,它ta幾ji乎hu在zai所suo有you情qing況kuang下xia都dou是shi係xi統tong性xing能neng的de瓶ping頸jing,特te別bie是shi在zai實shi時shiASR這樣的低延遲應用中。
FPGA設計旨在存儲和計算之間提供最佳的數據路由通道,從而為這些工作負載提供一個出色的加速平台。
Achronix解決方案與其他FPGA解決方案的對比
在機器學習(ML)加速領域中,已有FPGA架構宣稱其推理速度可高達150 TOPS。然而在實際應用中,尤其是在那些對延遲敏感的應用(如ASR)中,由於無法在計算平台和外部存儲器之間高效地傳輸數據,所以這些FPGA遠不能達到其聲稱的最高推理速度。由於數據從外部存儲器傳輸到FPGA器件中的計算引擎時出現了瓶頸,從而造成了這種性能上的損失。Achronix Speedster7t架構在計算引擎、高速存儲接口和數據傳輸之間取得了良好的平衡,使Speedster7t FPGA器件能夠為實時、低延遲的ASR工作負載提供高性能,可實現最高TOPS速率的64%等級。
圖2:Speedster7t器件的計算、存儲和數據傳輸能力
Speedster7t架構如何實現更高的計算效率
在Speedster7t上搭載的機器學習處理器(MLP)是一種優化的矩陣/向量乘法模塊,能夠在單個時鍾周期內進行32次乘法和1次累加,是計算引擎架構的基礎。AC7t1500器件中的Block RAM(BRAM)與2560個MLP實例都處於同一位置,這意味著更低的延遲和更高的吞吐量。
借助於這些關鍵的架構單元,Myrtle.ai的MAU低延遲、高吞吐量的ML推理引擎已集成到Speedster7t FPGA器件中。
在構建最佳的ASR解決方案時,集成了之前提到的來自Myrtle.ai的MAU推理引擎,使用了2560個MLP中的2000個。由於MLP是一個硬模塊,它可以運行在比FPGA邏輯陣列本身更高的時鍾速率上。
圖3:機器學習處理器
在AC7t1500器件中使用了8個GDDR6存儲控製器,它們總共可提供高達4 Tbps的雙向帶寬。如上所述,強大的計算引擎和大容量、高帶寬的存儲依賴於高速、低延遲和確定性的數據傳輸,以提供低延遲ASR應用所需的實時結果。
隨後這些數據進入到Speedster7t的二維片上網絡(2D NoC)。該二維片上網絡是Speedster7t架構中的另一種硬結構,時鍾頻率高達2 GHz,可與所有I/O、內部硬模塊和FPGA邏輯陣列本身互連。憑借20 Tbps的總帶寬,2D NoC提供了最高的吞吐量,並通過適當的實現方式,可以在外部GDDR6存儲器和支持MLP的計算引擎之間提供最具確定性的、低延遲的數據傳輸。
圖4:總帶寬為20 Tbps的2D NoC
與其他競爭性廠商的解決方案不同,2D NoC消除了Speedster7t ASR解決方案在存儲器和計算引擎之間的任何瓶頸,在這些非常低的批處理速率下,硬件加速器的利用率達到最佳狀態。
將所有這些功能放在一個roofline圖中,就可以清楚地說明Achronix Speedster7t器件在低延遲ASR應用中相對於其他競爭性FPGA解決方案的優勢。該roofline圖使用了由每個製造商公布的經過驗證的TOPS數據,展示了這些器件在實際應用中可以達到的效果。
下圖顯示了一個有效TOPS的roofline模型,它使用了Achronix為微基準(GEMV和MLP)和測試而構建的子集,以及公司A [4] [5]和公司B(基於架構)發布的數據。橙色的豎線表示批處理量為8毫秒和80毫秒音頻模塊的最佳操作點,用於低延遲、實時ASR數據流應用。在這個最佳操作點上,Achronix的有效TOPS比公司A提高了44%,比公司B的解決方案提高了260%。
圖5:有效TOPS的Roofline模型
在一年內實現ASR處理成本降低高達90%的目標
大多數ASR解決方案由Google、Amazon、Microsoft Azure和Oracle等大型雲服務提供商提供。隨著運營規模的擴大,以及這些產品在市場上取得的成功,在這些雲API基礎上構建產品的服務提供商麵臨著越來越高的成本壓力。較大規模的ASR提供商公開宣傳成本從每分鍾0.01美元到0.025美元不等[6]、[7]、[8]、[9]。行業報告顯示,呼叫中心的平均呼叫時間約為5分鍾。考慮一個大型企業數據或呼叫中心服務公司每天要處理50,000通電話,每通電話5分鍾。按照上述費率計算,ASR處理成本將是每天1,500至6,000美元或每年50萬至200萬美元。Achronix和Myrtle.ai的解決方案可以集成在一個加速卡上支持處理4000個RTS,每天可以處理超過一百萬次的呼叫。
有許多因素會決定獨立ASR設備的成本。在這個特定示例中,假設Achronix ASR加速解決方案是通過基於FPGA的PCIe卡提供,並集成到基於x86架構的2U服務器中。該設備從係統集成商那裏出售,價格可能為50,000美元,而每年運行服務器的成本可能是這個成本的兩倍。這樣一來,本地ASR設備第一年的費用就達到了10萬美元。將這種本地解決方案與雲API服務進行比較,終端用戶可以在第一年節省5到20倍的費用。
表1:Achronix ASR解決方案與雲API服務的對比總結
1.高度緊湊的係統使企業能夠隨著其業務的增加而擴展,而無需依賴日益昂貴的ASR雲API,也無需構建龐大的數據中心基礎設施來提供本地解決方案。
總結
CAI中的ASR功能要求RNN機器學習算法具有低延遲、高吞吐量的計算,這對現代AI加速器提出了挑戰。聲稱推理速度高達150 TOPS的FPGA硬件加速器在大型計算引擎和高速存儲器之間傳輸數據時會遇到瓶頸,這些瓶頸可能導致硬件利用率低至5%。Achronix和Myrtle.ai攜手推出一個ASR平台,該平台由一個200W、x16 PCIe Gen4加速卡和相關軟件組成,可以同時支持多達4000個RTS,每24小時可以處理多達100萬個、時長5分鍾的轉錄文件。將單台x86服務器上的PCIe加速卡與雲ASR服務的成本相比,第一年的資本支出(CAPEX)和運營成本(OPEX)就可以降低高達90%。
參考資料:
1.https://www.statista.com/statistics/973815/worldwide-digital-voice-assistant-in-use/
2.https://www.microsoft.com/en-us/research/project/project-brainwave/
3.Myrtle.ai未發表的白皮書,關於在Speedster AC7t1500器件中托管的ASR應用
4.M.Langhammer, G. Baeckler和S. Gribok,《SpiderWeb-高性能FPGA NoC》,2020 IEEE國際並行和分布式處理研討會(IPDPSW),2020年,第115-118頁,doi:10.1109/IPDPSW50202.2020.00025。
5.https://arxiv.org/pdf/2010.06075.pdf
6.https://aws.amazon.com/transcribe
7.https://cloud.google.com/speech-to-text
8.https://www.ibm.com/cloud/watson-speech-to-text
9.https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service
10.https://www.techtarget.com/searchenterpriseai/feature/CNN-vs-RNN-How-they-differ-and-where-they-overlap
免責聲明:本文為轉載文章,轉載此文目的在於傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請聯係小編進行處理。
推薦閱讀:
基礎設施數字化正當時,兆易創新與信馳科技共同推進燃氣物聯網發展
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall





