類TPU架構+開源生態,奕行智能走出中國AI芯片的第三條路
發布時間:2026-02-11 來源:轉載 責任編輯:lily
【導讀】在AI大模型邁向萬億參數與規模化部署的新階段,算力需求正從“堆規模”轉向“提效率”。奕行智能以RISC-V架構為基底,融合類TPU設計、Tile編程範式與自研VISA虛擬指令集,走出一條“軟硬協同+開源生態”的差異化路徑。其首款量產芯片Epoch不僅在算力密度、能效比和互聯擴展性上實現突破,更通過深度適配FP8、NVFP4等低位寬高精度計算格式,直擊當前AI推理成本與效率的核心痛點。本文將係統剖析AI產業對算力的三大核心訴求,並揭示DSA(專用架構)+Tile範式如何成為下一代AI芯片的關鍵方向。
從行業需求角度,詳細剖析AI產業現狀及未來
AI算力的三個需求
奕行智能介紹,隨著大模型參數量迭代至萬億級、應用場景需要考慮規模化部署,此時,AI行業對底層算力的需求已從單一性能比拚,升級為規模、效率、生態的全方位較量。
具體而言,針對規模訴求,AI模型參數量與訓練計算量的激增速度,已遠超硬件算力的提升幅度,算力供需矛盾日益突出。也正因此,算力部署形態發生根本性轉變——從早期單卡GPU支撐小型模型,升級為萬卡規模的數據中心承載大模型訓練與推理,這對算力規模化提出了更高要求:需要兼顧算力密度、互聯能力及係統穩定性等。
第二是效率訴求。2025年,以DeepSeek為代表的國內頭部大模型廠商,通過算法與軟硬件協同優化,將Token單位成本顯著降低。DeepSeek現象也讓AI推理有了新的玩法。從追求算力堆砌轉變為效率與規模並重,更加關注模型算力實際利用率(MFU)、Token單位成本(Token/Dollar),以及影響用戶體驗的首個Token延遲(TTFT)和持續推理吞吐量(TPS)等效率指標。
第三個訴求是生態訴求。伴隨著大模型的迭代速度以月甚至周為單位,芯片、算法與軟件互相促進、快速迭代,這對高投入、長周期的芯片廠商而言,是巨大的挑戰。需要前瞻性地考慮上層軟件算法的快速發展,支持更高效的AI開發範式(如Triton、TileLang等)。
效率訴求是第一位
大模型的發展已從單一依賴“算力與參數堆疊”,演進為“預訓練→訓練後優化→測試時推理”的三階段擴展模式。每一階段的進化都以更高效率的計算投入,實現了模型智能水平的顯著躍升,也為突破算力瓶頸提供了新路徑。
而對於推理而言,大模型的核心產品形態實際上是Token,與軟件近乎零成本的複製不同,Token的生產模型以算力與電力為核心,因此,提升算力利用率與能效比,不再是單純的技術優化,而是直接降低生產成本、提高毛利率、轉化為商業利潤,提升運營效率的關鍵。
DSA+Tile範式正在崛起
目前,AI計算芯片市場主要分為CPU、GPGPU和ASIC(DSA)三大架構,其中GPGPU長期占據主導地位,但如今ASIC(DSA)架構與Tile編程範式的結合,正成為行業發展的新趨勢,為AI算力效率提升開辟了全新路徑。
英偉達的GPGPU憑借SIMT架構的強大並行計算能力,以及深耕近20年的CUDA生態,長期占據AI算力硬件市場的主導地位。不少廠商試圖通過CUDA兼容的方式切入市場,但麵臨諸多挑戰。據分享,CUDA是英偉達深度軟硬協同的產物,僅能在英偉達GPGPU上發揮最優性能,第三方廠商的兼容往往隻停留在API層麵,普遍存在“水土不服”的問題,同時,隨著英偉達軟硬件的快速迭代,即便是現有的“CUDA兼容”,也會因為硬件代差而無法持續。
相比之下,穀歌給出了一個較為妥善的答案。以TPU為代表的ASIC(DSA)架構,通過內置針對矩陣運算等AI核心範式的專用加速單元,在性能與能效比上具備超出GPGPU的優勢。ASIC的核心挑戰的是生態適配的成本,相較於成熟的CUDA,如何吸引開發者在專用硬件上高效編程,是多數ASIC廠商麵臨的共同難題。穀歌等頭部廠商通過長期投入,已在生態適配上取得突破:TPU借助XLA編譯技術,不僅支持穀歌係的TensorFlow和JAX框架,還能適配PyTorch框架,有效降低了生態遷移門檻,推動ASIC架構走向規模化應用。
此外,穀歌還聯合多家科技巨頭發起OpenXLA開源項目,通過XLA編譯器及StableHLO中間表示層,構建起跨框架的通用編譯生態,實現對TensorFlow、JAX和PyTorch等主流框架的高效兼容,大幅降低開發者的遷移門檻;近期發起的TorchTPU項目,旨在進一步深化TPU對PyTorch生態的原生支持,讓開發者能夠以近乎零代碼修改的方式,將模型從GPU遷移至TPU,最大限度減少轉化過程中的性能損耗。穀歌的實踐充分證明,全棧軟硬協同,才是實現算力效率最大化的核心路徑。
除了架構革新,編程範式的升級也成為提升AI開發效率的重要方向,其中Tile(數據分塊)計算範式的興起,尤為值得關注。AI計算中的數據往往具有規整性,Tile編程模式貼合這一特征,能夠提供更友好的編程接口,大幅提升算子開發效率,降低編程門檻。比如DeepSeek就采用北大團隊開源的TileLang構建算子,並將其作為新模型的精度基準;而這種對於開發者更友好的編程範式,影響力已經延伸至CUDA生態,就連英偉達也在CUDA 13.1中,推出了基於Tile編程範式的CUDA Tile編程界麵,印證了這一範式的行業價值與發展潛力。
值得注意的是,DSA設計思想也正在滲透到GPU的迭代中:英偉達從Volta架構首次引入Tensor Core,到Blackwell架構擴大張量核心規模、加入Transformer優化引擎,持續提升芯片中DSA的占比,凸顯出“領域定製化”的演進趨勢;2025年12月,英偉達吸納AI推理芯片創企Groq的核心團隊,進一步強化在大模型推理定製化領域的布局。
“種種跡象表明,DSA(ASIC)+Tile編程範式的結合,將成為未來AI算力領域的核心生態力量。”奕行智能分享。其通過軟硬協同帶來的效率優勢,在AGI(通用人工智能)時代具備廣闊的市場空間。而這一技術方向,正是奕行智能的核心布局領域,也是其區別於同行的關鍵差異化優勢。
奕行智能走通了DSA+Tile
實際上,在奕行智能成立之初,公司就已經選擇了“硬件架構創新+自研互聯+開源生態”這條路徑,實際結果也符合創業之初的預期。奕行智能研發的國內業界首款RISC-V AI算力芯片Epoch正在大規模量產出貨中,截至目前,該係列產品已在頭部係統廠商、互聯網企業、數據中心及重點行業客戶中取得重大商業突破。
該芯片在業界率先采用RISC-V + RVV(RISC-V向量擴展)指令集架構,結合自研的VISA(虛擬指令集)技術,兼顧了AI計算的通用性與專用性。
Epoch十分滿足如今AI芯片變革過程中的新痛點。
首先,在應對規模化需求方麵,通過先進芯片架構,結合自研ELink互聯技術,實現算力的大規模擴展。
其次,在應對效率提升需求上,采用了類TPU架構,兼顧高性能與高效率;通過深度軟硬協同優化,提升算力實際使用效率,降低Token單位成本。
而在生態適配上,采用RISC-V + RVV開源指令集,賦予硬件靈活擴展能力;另外,采用了基於軟硬件一體的Tile級動態調度架構,通過“虛擬指令+智能編譯器+硬件調度器”,提供更友好的編程界麵,降低開發與適配成本,跟上算法迭代節奏。
Epoch芯片在業界率先采用RISC-V + RVV(RISC-V向量擴展)指令集架構,結合自研的VISA(虛擬指令集)技術,完美平衡了AI計算的通用性與專用性,既能適配多樣化的AI應用場景,又能通過專用優化提升計算效率。
2025年,Epoch係列產品及計算平台解決方案正式啟動量產;截至目前,該係列產品已在頭部係統廠商、互聯網企業、數shu據ju中zhong心xin及ji重zhong點dian行xing業ye客ke戶hu中zhong取qu得de重zhong大da商shang業ye突tu破po,斬zhan獲huo巨ju額e在zai手shou商shang業ye訂ding單dan,迎ying來lai規gui模mo化hua量liang產chan的de爆bao發fa期qi,充chong分fen印yin證zheng了le其qi產chan品pin競jing爭zheng力li與yu市shi場chang認ren可ke度du。
針對產品的類TPU架構,奕行智能介紹了一些架構亮點,例如同樣采用RISC-V內核,並內置了性能強大雙脈動流水矩陣運算引擎及具備複雜矩陣數據處理與變換的4D DMA引擎。
其qi中zhong,采cai用yong雙shuang脈mai動dong流liu水shui設she計ji的de大da尺chi寸cun矩ju陣zhen運yun算suan引yin擎qing,將jiang數shu據ju複fu用yong率lv提ti升sheng數shu倍bei,且qie顯xian著zhu減jian少shao了le數shu據ju前qian處chu理li的de開kai銷xiao。相xiang比bi同tong類lei方fang案an,編bian程cheng也ye更geng為wei簡jian單dan易yi用yong,限xian製zhi更geng少shao——例如幾乎無需為規避bank衝突特意做手動編排,能夠直接支持模型中開發難度大的卷積矩陣乘算子等。
麵對AI計算中頻繁出現的4D數據,相比競品需要多次數據搬移與處理,奕行智能的4D DMA引擎僅通過一次操作即可完成4D數據的整體搬移,並在過程中同步完成數據變換與重排。此外,通過配置大容量片上緩存,將熱點與關鍵數據置於L1/L2中,其訪問速度相比存放在DDR的方案提升1–2個數量級。
盤點Epoch三大創新
奕行智能詳細介紹了Epoch的三大產品創新,其中包含一個率先和兩個獨創。
創新之一是率先采用了RISC-V + RVV(RISC-V向量擴展)構建AI芯片架構,依托RISC-V的開源特性與技術優勢,可以更好地實現完備的生態支持。
獨創之一是VISA(虛擬指令集)技術。奕行智能解釋,VISA相當於在軟件與硬件之間搭建了一層中間抽象層,從根本上解決了AI芯片行業長期存在的軟件兼容、擴展能力、編譯難度三大痛點,兼顧了計算通用性與效率。
VISA技術讓上層的算子及AI編譯器軟件建立在VISA抽象層之上,硬件層麵實現VISA宏指令的順序發射、亂序執行——這種設計可有效隔離硬件變化對上層軟件的衝擊,同時降低AI編譯器與算子的實現難度,預留額外的性能優化空間,實現通用計算與高效計算的平衡,滿足AI計算所需的抽象需求。
這樣做的好處是,可以實現隔離硬件迭代差異,提升計算擴展能力,並且解決了AI編譯陡降問題。
第二個獨創是Tile級動態調度架構。基於AI場景數據規整、無需過高靈活性的特點,奕行智能獨創Tile級動態調度架構,原生適配Tile生態範式。該架構由Tile級虛擬指令集、智能編譯器和硬件調度器三部分組成,可實時適配硬件行為,充分挖掘並行計算潛力,實現算力資源的最優分配。
架構可自動管理指令間依賴、指zhi令ling順shun序xu流liu水shui和he內nei存cun切qie分fen,無wu需xu開kai發fa者zhe手shou動dong優you化hua,既ji突tu破po了le靜jing態tai優you化hua的de性xing能neng瓶ping頸jing,又you讓rang編bian程cheng更geng加jia幹gan淨jing簡jian潔jie,大da幅fu降jiang低di開kai發fa者zhe的de編bian程cheng門men檻kan,提ti升sheng開kai發fa效xiao率lv。
在編譯框架中,奕行智能深度融合了穀歌開發並開源的StableHLO & XLA技術,無縫支持市麵上所有的主流深度學習框架——包括深度適配PyTorch生態,同時支持TensorFlow、JAX、ONNX等主流機器學習框架,支持無縫遷移代碼。
迎合“低位寬高精度”新時代
在深度學習領域,數據精度與計算效率始終存在權衡關係。例如,TPU Tensor Core 在FP8模式下可提供2倍於BF16的算力密度。以Ironwood(TPU v7)為例,其FP8峰值算力達到4.6PetaFLOPS,而BF16僅為2.3PFLOPS。顯存占用和通信數據量也同步減半。
DeepSeek於2025年1月推出基於FP8分塊量化(Block-wise Quantization)的技術,通過更細粒度的縮放因子補償,使FP8計算精度接近原始BF16水平,也因此引起了DeepSeek熱。
2025年6月,NVIDIA正式發布NVFP4,采用16元素共享縮放因子並以FP8作為縮放數據類型,使4bit精度幾乎逼近 BF16水準,標誌行業進入4bit時代。
奕行智能的Epoch除了支持傳統的多種浮點及整型數據類型以外,還在國內率先支持DeepSeek 所需的基於分塊量化的FP8計算精度,並在其新一代產品支持 NVFP4、MXFP4、MXFP8、MXINT8等各類前沿數據格式。
總結
當AI產業從“算力軍備競賽”步入“效率精耕時代”,唯有真正打通硬件架構、編譯生態與算法演進的全棧協同,才能穿越算力瓶頸、兌現商業價值。奕行智能憑借RISC-V的開放基因、類TPU的高效架構與獨創的VISA+Tile動態調度體係,不僅驗證了國產AI芯片在高端算力領域的可行性,更在全球DSA演進浪潮中搶占了生態定義權。

- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 三星上演罕見對峙:工會集會討薪,股東隔街抗議
- 摩爾線程實現DeepSeek-V4“Day-0”支持,國產GPU適配再提速
- 築牢安全防線:智能駕駛邁向規模化應用的關鍵挑戰與破局之道
- GPT-Image 2:99%文字準確率,AI生圖告別“鬼畫符”
- 機器人馬拉鬆的勝負手:藏在主板角落裏的“時鍾戰爭”
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall

