築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
發布時間:2026-04-21 來源:轉載 責任編輯:lily
【導讀】精準醫療與藥物研發正被人工智能深刻重塑。作為AI for Science(AI4S)領域的核心陣地,解碼生命奧秘的關鍵已從實驗觀測轉向算力與算法的協同突破。蛋白質結構預測、基因組分析與醫學影像,構成了生命科學AI的三類關鍵技術,其能力直接決定了新藥研發的效率與精準醫療的進程。
然而,作為這三類關鍵技術之一的蛋白質結構預測模型AlphaFold 3,qixunliandaimaweiwanquankaifang,shangyeshiyongyishouxian,zheshidekexuejiananyijiyugaimoxinggoujianzhenzhengzizhukekongdeyanfahuanjing。zhezhongjishuyilaihaimianlingengshencengdeheguitiaozhan:蛋(dan)白(bai)質(zhi)結(jie)構(gou)預(yu)測(ce)與(yu)基(ji)因(yin)組(zu)分(fen)析(xi)涉(she)及(ji)大(da)量(liang)人(ren)類(lei)遺(yi)傳(chuan)數(shu)據(ju),相(xiang)關(guan)法(fa)規(gui)對(dui)數(shu)據(ju)的(de)跨(kua)境(jing)流(liu)動(dong)有(you)明(ming)確(que)規(gui)範(fan)。因(yin)此(ci),構(gou)建(jian)從(cong)模(mo)型(xing)到(dao)算(suan)力(li)的(de)全(quan)鏈(lian)路(lu)自(zi)主(zhu)能(neng)力(li),不(bu)僅(jin)是(shi)科(ke)研(yan)效(xiao)率(lv)的(de)保(bao)障(zhang),更(geng)是(shi)合(he)規(gui)與(yu)安(an)全(quan)的(de)必(bi)然(ran)要(yao)求(qiu)。
在技術工具層麵,這一困境迎來了破局。2026年,字節跳動發布Protenix-v1,在Apache 2.0協議下完整開源代碼及模型參數,業界稱之為首個在同等條件下“性能表現達到甚至超越AlphaFold 3的全開源模型”。至此,生命科學領域迎來了自主可控、可訓練、可定製的開源基礎模型。
工欲善其事,必先利其器。模型開放隻是起點,能否在國產算力上跑通訓練、推理、精度驗證和開發環境,決定了這些模型能否真正進入科研與產業工作流。摩爾線程旗艦級訓推一體全功能智算卡MTT S5000,基於自主MUSA軟件棧,已完成對蛋白質結構預測模型Protenix、基因組基礎模型Evo 2的完整驗證。實測顯示,在生命科學AI核心工作負載中,MTT S5000實現了性能對標:在蛋白質結構預測訓練任務中,其單卡性能達到國際主流GPU的115%以上;在基因組大模型推理與訓練任務中,精度與國際主流GPU持平。此外,摩爾線程已開源MUSA加速版MONAI 1.5.0,為AI醫學影像這一關鍵環節提供國產算力支持,進一步增強了AI4S工具環的可控性。
生物醫藥研發對算力的依賴日益加深,而算力供應鏈的安全性直接影響科研與產業的穩定性。摩爾線程全功能GPU能夠完整承載生命科學AI前沿模型的生產級負載,為國內科研機構、藥企及醫療機構提供了自主可控的高性能計算基座,降低了對單一算力路徑的依賴。
這是中國AI醫藥研發領域的一個裏程碑事件:從可控模型到自主算力,從結構預測到醫學影像,一個完整、開放、可控的AI醫藥研發底座正在形成。
生命的數字鏡像
人類生命體由約30億個堿基對編碼而成。若將人體比作一台精密運行的計算係統,感冒發燒如同臨時進程異常,免疫機製可自動修複。然而,癌症、漸凍症等重大疾病的根源,是寫入基因組深處的代碼錯誤:抑癌基因被篡改,導致細胞增殖失控;運動神經元代碼發生亂碼,指令無法傳達。這些內源性錯誤無法通過常規手段修複,需要從分子層麵被靶向。
理解這些疾病,需回歸生物學的中心法則:DNA轉錄為RNA,再翻譯為蛋白質。蛋白質從氨基酸序列折疊為三維空間構象,多條肽鏈可組裝為功能複合體(如血紅蛋白)。核心共識貫穿始終:序列決定結構,結構決定功能。
圖1:基於AI生命科學技術的腫瘤精準診療與新療法研發協同框架
正是基於這一邏輯鏈條,AI驅動的精準治療解決方案得以構建。當前,基於生命科學AI的癌症精準治療已形成完整的技術閉環:
1. 基於MONAI等框架的AI影像學實現早篩與監測;
2. 基因組大模型(如Evo 2)解讀突變功能;
3. 結構預測模型(如AlphaFold / Protenix)揭示蛋白結構變化;
4. 在此基礎上設計靶向藥物或降解劑;
5. 最終通過臨床驗證與數據回饋,持續優化模型。
這一技術路徑的實現,高度依賴於蛋白質結構預測、基因組分析與醫學影像這三類關鍵工具。
生命科學AI的工具箱
Protenix:蛋白質結構預測的開源破局
蛋白質結構決定功能。精確預測蛋白質三維結構,是理解疾病機製、設計靶向藥物的關鍵。
2018年以來,DeepMind的AlphaFold係列不斷刷新結構預測的精度邊界。2024年發布的AlphaFold 3可同時預測蛋白質、DNA、RNA及小分子配體等複合物結構。然而,該模型的訓練代碼未完全開放,商業使用亦受限,全球科研機構難以基於其進行定製化開發。
Protenix的出現填補了這一空白。2025年5月,字節跳動發布生物分子結構預測模型Protenix-v0.5.0,成為開源社區中追平甚至挑戰AlphaFold 3水平的重要力量。2026年2月,字節跳動正式發布Protenix-v1,在Apache 2.0協議下完整開源代碼及模型參數。據媒體報道,Protenix是首個在相同訓練數據與推理預算下,性能達到甚至超越AlphaFold 3的全開源模型,模型采用Transformer+Diffusion架構,可精準處理蛋白質、DNA/RNA及小分子配體。開發者可基於Protenix在自有數據集上進行微調與訓練,為特定研究任務提供了靈活的技術路徑。
Evo 2:從“閱讀”到“寫作”基因組
Protenix解決了“序列→結構”的映射問題,但更深層的源頭問題仍然存在:基因如何決定蛋白質序列?為什麼某些基因更易突變導致疾病?修改基因會產生什麼後果?
人類基因組總長約30億堿基對,其中編碼蛋白質的基因僅占1%-2%,大部分為非編碼區。非編碼區承載了人與人之間90%以上的遺傳差異,其功能機製尚未被完全闡明。糖尿病、精神分裂症等複雜疾病涉及多個微效基因的疊加效應——這需要更強大的基因組建模能力。
圖2:Evo 2和Evo 1的模型框架
Evo 2由美國Arc研究所等機構共同開發,於2026年3月發表於《自然》期刊。作為麵向生命科學領域的基因組基礎模型,Evo 2借鑒了大語言模型的理念,在超過12.8萬個物種、9.3萬億個核苷酸(OpenGenome 2數據集)上完成訓練,覆蓋細菌、古菌、真核生物三大生命域。其訓練數據量是前代Evo 1的30倍,模型采用StripedHyena 2架構,可一次性處理長達100萬個堿基對的序列,訓練效率達傳統Transformer的三倍。Evo 2提供70億和400億參數兩個版本,其中400億參數版本是當前最大的開源生物學AI模型。
Evo 2的核心能力主要體現在兩個維度:
精準預測:可零樣本評估編碼區和非編碼區基因突變的影響。在區分乳腺癌相關基因BRCA1的有害突變與良性突變時,預測準確率超過90%,為臨床解讀“意義未明變異”提供了重要工具;
生成設計:從“閱讀”基因組進化到“寫作”基因組。成功案例包括設計模擬生殖支原體的簡化基因組、人類線粒體基因組、酵母染色體片段,以及設計並合成功能性噬菌體——部分設計序列在導入大腸杆菌後產生了具有殺菌活性的病毒顆粒,為應對抗生素耐藥性提供了新思路
MONAI:醫學影像的“事實標準”
在AI醫學影像領域,算法正從基礎的2D圖像篩查,邁向複雜的3D器官分割與生成式內容創建。作為該領域公認的“事實標準”,基於PyTorch構建的開源框架MONAI(Medical Open Network for AI),已成為連接前沿學術研究與臨床落地應用的關鍵橋梁。截至2024年底,其全球下載量已突破350萬次,在行業內被廣泛應用。
MONAI采用清晰的三層架構設計:
MONAI Core:提供專門針對醫學影像的高效數據處理、變換方法與網絡架構;
MONAI Label:作為智能標注工具,通過AI輔助大幅提升數據標注效率;
MONAI Deploy:支持將訓練好的AI模型打包並部署至臨床環境。
憑借從數據標注、模型訓練到臨床部署的完整閉環能力,MONAI已成為醫學影像AI研究與應用的主流框架。
結構預測模型涉及複雜的pair representation、幾何推理與擴散式計算,對顯存、訪存及數值穩定性要求極高;基因組基礎模型麵向超長序列與大規模數據訓練,對長上下文處理、分布式訓練及吞吐效率要求嚴苛;醫學影像框架強調從標注、訓練到部署的完整鏈條,對框架兼容性與工程落地能力要求更強。對國產GPU而言,真正的挑戰不僅在於跑通模型,更在於同時完成算子適配、數值穩定性驗證、訓練與推理雙場景支持,以及開發環境的可複現封裝。
摩爾線程全功能GPU實踐
麵對這些挑戰,摩爾線程基於自主MUSA軟件棧,完成了對Protenix、Evo 2及MONAI三大生命科學AI工具的完整驗證與支持,覆蓋推理、訓練及醫學影像三大場景。
Protenix:訓練性能達115%以上
Protenix-v0.5.0作為開源社區中追平AlphaFold 3水平的重要版本,為開發者提供了可訓練、可定製的全棧開源方案。摩爾線程在MTT S5000上完成了對該模型的推理與訓練驗證。
圖3:7r6r等示例序列在MTT S5000上的推理重建結果和誤差對比
推理精度:
選取 7r6r、7wux、7pzb三個示例序列進行推理重建測試。如上圖所示,重建可視化效果與參考實現基本一致,端到端整體計算誤差小於1%,充分驗證了推理結果的準確性與可靠性。
訓練性能:
如下圖所示,在全數據集訓練任務中,MTT S5000單卡性能達到國際主流GPU的115%以上。
圖4:Protenix-v0.5.0實測表現
Evo 2:精度完全對標
在Evo 2_7B模型上,摩爾線程完成了推理與訓練的精度對標。對4個序列生成任務的比對顯示:序列生成Score、準確率與國際主流GPU持平,充分體現了MUSA軟件棧對基因組大模型的完整兼容性。
圖5:Evo 2_7B實測表現
MONAI:國產化加速
在醫學影像環節,摩爾線程已開源MUSA加速版MONAI 1.5.0(了解更多詳情請參見https://gitee.com/MooreThreads/monai ),為AI醫學影像領域提供國產算力支撐。基於MUSA軟件棧,摩爾線程實現了對MONAI官方倉庫的原生支持,開發者可實現“零學習成本”的無縫遷移。
國內領先的XR+AI智慧外科解決方案提供商錦瑟醫療,已將MONAI深度集成至其產品線。錦瑟醫療CTO陳亮表示:“我們基於CUDA開發的成熟算法,可以低成本、高效率且無損地遷移到摩爾線程MUSA平台。在AI醫學影像的複雜實際任務中,MUSA展現出與CUDA對等的計算精度與運行穩定性。”
這意味著,國產全功能GPU的價值不再局限於研究端的模型驗證,而開始進入更接近真實醫療應用的工程鏈路。
築基AI4S,共創生命科學新未來
從基因序列到蛋白質宇宙,生命科學的AI化正在重塑疾病理解與治療的根本範式。在AI for Science(AI4S)的版圖中,蛋白質結構預測與基因組設計已成為檢驗算法創新與算力能力的試金石。
摩爾線程在生命科學領域的一係列探索成功推動了“開源模型—本土軟件棧—國產算力—開發者工作流”的全鏈路閉環。對國內科研機構、藥企和醫療技術團隊而言,意味著在許可條件、數據合規、供應鏈安全與長期迭代能力上,擁有更高自主性,加速從驗證到落地的全流程。
生命科學的數字鏡像正在被層層解碼。在AI for Science的時代浪潮中,摩爾線程願與開發者一同,在30億堿基對的浩瀚宇宙裏,探索從基因到蛋白質的未竟之路。
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall


