分子生物学
IVD分子诊断
细胞培养与分析
蛋白研究
重组蛋白
细胞因子
抗体
高通量测序建库
病原检测UCF系列
生物医药
工具酶
抑制剂激活剂与常用试剂
仪器
耗材
国际期刊 | 新型三模态蛋白质语言模型ProTrek,用自然语言解码蛋白宇宙

在生命科学的核心地带,始终横亘着一道“模态鸿沟”:我们既有海量的蛋白质序列(如来自测序数据),也有日益增多的三维结构(如来自AlphaFold2和冷冻电镜),还有描述其功能的自然语言文本(如来自UniProt数据库)。然而,传统的工具如BLAST、Foldseck等,如同只精通一种语言的专家,只能在序列或结构等单一模态内进行比对,无法发现序列、结构与功能之间的跨模态联系。

如何打破模态壁垒,构建一个能统一理解蛋白质序列、结构与功能的AI模型,成为了领域内的圣杯之一。

2025年10月2日,西湖大学原发杰、常兴教授团队联合香港科技大学(广州)卢泓远教授团队在Nature BiotechnologyIF=41.7)上发表了文章A tri-modal protein language model enables advanced protein searches,推出了三模态蛋白质语言模型Pro Trek。该模型首次将蛋白质的三种核心信息——氨基酸序列(一维)、三维结构(空间)和自然语言功能描述(语义)——融合于一个统一的语言模型中。

研究亮点

01

通过对比学习,将蛋白质的序列、结构和功能(文本)描述,映射到同一个统一的语义空间中

不同编码器分工合作(上图a),通过三模态对比学习,统一序列、结构和功能的语义空间。

  • 序列编码器:采用在进化尺度上预训练好的ESM-2模型,精准捕捉氨基酸序列中蕴含的进化与结构信息。

  • 结构编码器:创新性地使用Foldseck将三维结构转化为离散的“3Di序列”,再用BERT风格的模型进行编码,巧妙避免了直接处理3D坐标导致的数据泄露问题。

  • 功能编码器:采用在生物医学文献上预训练的PubMedBERT,专门用于理解蛋白质功能的自然语言描述。

02

实现真正的“功能导向”搜索,突破同源进化局限

传统工具基于序列或结构相似性,本质是寻找“同源蛋白”。而Pro Trek基于语义理解,能够发现趋同进化的蛋白——即那些序列和结构迥异,却执行相似功能的蛋白。

以“锌离子结合”为查询时,Foldseck(基于结构)仅找到18个真实相关蛋白,而Pro Trek找到了198个。上图右侧的TM-score矩阵图清晰地显示,这些被Pro Trek找出的蛋白,结构多样性极高(TM-score很低),但它们都共享“锌离子结合”这一功能。

03

从“挖掘”到“设计”,闭环验证模型价值

这项研究没有停留在计算层面,而是通过湿实验完整验证了Pro Trek的实用价值。研究团队利用 ProTrek 从一个包含 2 亿蛋白质的数据库中,通过“序列-序列”和“文本-序列”两种模式并行搜索,寻找与人类尿嘧啶 DNA 糖基化酶(UDG)功能相似但可能效率更高的新蛋白。

对搜索到的Top候选蛋白进行工程化改造(模仿UDG的Y147A突变),并构建成新型碱基编辑器。实验证明,其中排名第一的蛋白变体 (V1) 在多个基因组位点展示了高于现有编辑器(如TSBES EK, gTBE)的胸腺嘧啶编辑效率,且脱靶率更低。

04

极致的效率与用户友好性

开箱即用的网页服务器ProTrek (http://www.search-protrek.com)已收录超过 50 亿蛋白质数据信息,处理速度比传统工具(Foldseck和MMseqs2)快 100 倍以上,可在数秒内完成海量数据库的检索。

翌圣助力产品

在该研究中,研究人员选择了翌圣Canace®系列高保真PCRHieff Trans®系列细胞转染试剂用于验证分析。

目前翌圣高保真PCR、细胞转染系列的产品已经荣登Nature、 Cell等多个顶级期刊,获得科研大牛们认可!以下仅展示部分助力发表的高分文章:

<上下滑动查看更多>

[1]Jiang Y, Dai A, Huang Y, et al. Ligand-induced ubiquitination unleashes LAG3 immune checkpoint function by hindering membrane sequestration of signaling motifs. Cell. 2025;188(9):2354-2371.e18. doi:10.1016/j.cell.2025.02.014.

[2]Wang WW, Ji SY, Zhang W, et al. Structure-based design of non-hypertrophic apelin receptor modulator. Cell. 2024;187(6):1460-1475.e20. doi:10.1016/j.cell.2024.02.004

[3]Xie F, Zhou X, Ran Y, et al. Targeting FOXM1 condensates reduces breast tumour growth and metastasis. Nature. 2025;638(8052):1112-1121. doi:10.1038/s41586-024-08421-w

[4]Yang X, Wang J, Qi X, et al. HLF and PPARα axis regulates metabolic-associated fatty liver disease through extracellular vesicles derived from the intestinal microbiota. Imeta. 2025;4(2):e70022. Published 2025 Apr 7. doi:10.1002/imt2.70022

[5] Jiang L, Xie X, Su N, et al. Large Stokes shift fluorescent RNAs for dual-emission fluorescence and bioluminescence imaging in live cells. Nat Methods. 2023;20(10):1563-1572. doi:10.1038/s41592-023-01997-7. 

[6] Xia L, Zhang Y, Zhou Q. Structural basis for the recognition of HCoV-HKU1 by human TMPRSS2. Cell Res. 2024;34(7):526-529. doi:10.1038/s41422-024-00958-9 

[7] Liang X, Gong M, Wang Z, et al. LncRNA TubAR complexes with TUBB4A and TUBA1A to promote microtubule assembly and maintain myelination. Cell Discov. 2024;10(1):54. Published 2024 May 21. doi:10.1038/s41421-024-00667-y

[8]Chai Q, Yu S, Zhong Y, et al. A bacterial phospholipid phosphatase inhibits host pyroptosis by hijacking ubiquitin. Science. 2022;378(6616):eabq0132. doi:10.1126/science.abq0132

[9]Liu R, Yang J, Yao J, et al. Optogenetic control of RNA function and metabolism using engineered light-switchable RNA-binding proteins. Nat Biotechnol. 2022;40(5):779-786. doi:10.1038/s41587-021-01112-1

[10]Luo J, Yang Q, Zhang X, et al. TFPI is a colonic crypt receptor for TcdB from hypervirulent clade 2 C. difficile. Cell. 2022;185(6):980-994.e15. doi:10.1016/j.cell.2022.02.010

[11]Chen S, Chen G, Xu F, et al. Treatment of allergic eosinophilic asthma through engineered IL-5-anchored chimeric antigen receptor T cells. Cell Discov. 2022;8(1):80. Published 2022 Aug 16. doi:10.1038/s41421-022-00433-y

特别推荐

长片段高保真PCR试剂-10166ES

  • 长片段扩增:最长可扩增40kb片段。

  • 快速延伸:5-10秒/kb延伸速度,省时高效。

  • 保真性好:83×Taq。

  • 适用性广:覆盖20-80%GC的片段,耐受好。

  • 灵敏度高:可检测低至1 pg的λDNA,100pg的基因组DNA。

  • 稳定可靠:可反复冻融30次。

新型高效转染试剂-40801ES

  • 转染效率更高:可在原代细胞及293T、HeLa、MCF7、HepG2、A549、NIH3T3、RAW267.4、HCT116等细胞系中实现高效转染。

  • 普适性更广:满足DNA、mRNA、siRNA、miRNA、ASO等多种类型核酸转染。

  • 毒性更低:非脂质体、非PEI新型基因递送材料,毒性更低。

购物车
客服
转染试用