首页/ 行业资讯 / 新闻详情

生物界的ChatGPT:ProGen——开启人工智能设计蛋白质的新时代

2022年11月30日,美国人工智能实验室OpenAI发布ChatGPT。ChatGPT问世即一举成名,引起全球热议。微软公司表示将把ChatGPT整合到搜索引擎Bing和网络浏览器中,并向ChatGPT的创建者Open AI投资100亿美元;此外ChatGPT成功面试谷歌编程;小说、剧作、漫画ChatGPT也信手拈来。短短两个多月,ChatGPT让人惊叹的表现不胜枚举,人工智能新时代的序幕由此拉开。

 

那么,ChatGPT到底是什么?ChatGPT:Chat Generative Pre-training Transformer,即预训练生成模型,它是能够创建真实对话的深度学习语言模型。它以对话的方式进行交互,能够回答连续性问题、承认错误并进行纠正、质疑不正确的假设,甚至拒绝不适当的请求,是一款具备“学习”、“理解”和“思辨”能力的聊天机器人。
图片
(图片来源:https://learnchatgpt.com)
 
ChatGPT的出现引发的这场AI风暴,令我们不得不感慨人工智能发展之迅速。在生物领域,人工智能近年来也取得了瞩目的成就。前几年AlphaFold2的横空出世,使蛋白质结构预测有了质的飞跃,而今,ProGen的亮相又一次颠覆了蛋白质设计的传统认知。

 

ProGen是由Salesforce Research、Tierra Biosciences 和加州大学的研究团队共同开发的一种新型人工智能系统,能从头开始生成人工酶。研究团队合成了ProGen预测生成的人工酶,并发现其具备天然酶的活性,首次打破了AI预测和实验之间的壁垒,相关论文在《Nature Biotechnology》上发表。

 

ProGen采用了基于标签的深度学习语言模型,用来自超过19000个家族的2.8亿种不同蛋白质的天然氨基酸序列进行训练,这些训练数据包含物种信息、蛋白质家族、催化功能等属性标签,使模型能将蛋白质功能和序列信息进行映射,从而可生成具备预测功能的蛋白质序列。ProGen使从头设计蛋白质就像遣词造句一样简单,给定功能标签和属性等关键词,即可大批量生成蛋白质序列。
图片
(图片来源:Nature Biotechnology)
 
创始人Ali Madani和其他研究人员通过ProGen生成人工溶菌酶,与天然溶菌酶的蛋白质序列一致性仅为31.4%,但实验结果令人惊讶,该人工溶菌酶与天然溶菌酶具有相似的催化效果。由ProGen生成的人工酶的催化效果在其他蛋白质家族,比如在分支酸变位酶和苹果酸脱氢酶中同样得到了验证。
图片
(图片来源:Nature Biotechnology)
 
无论是ChatGPT还是ProGen,其背后的算法均是一种完全基于“自注意力机制”的深度学习模型。深度学习语言模型正在蛋白质设计和改造领域如火如荼地进行,翌圣生物也在AI辅助蛋白质改造领域进行了探索。翌圣ZymeEditorTM平台是翌圣生物酶进化研发中心六大核心技术平台之一,它将理性设计、定向进化与人工智能技术有机结合、交互筛选,是高效、系统、创新型的蛋白质进化平台。
 

 

翌圣ZymeEditorTM平台的理性设计技术具备蛋白质建模、分子对接、分子动力学模拟等技术模块,并结合人工智能深度学习语言模型,对蛋白质进行精准改造,具有准确度高、耗时短、成本低等优势。翌圣ZymeEditorTM平台的超高通量定向进化技术,则可构建优质、超大突变文库,进行自动化、智能化的超高通量筛选,可快速、准确获得具备特定功能的有益突变体。翌圣ZymeEditorTM平台的人工智能技术将理性设计与定向进化湿实验产生的庞大的蛋白质实验数据作为机器学习的数据训练集,更加真实可靠,从而训练出更适合分子酶的语言模型。ZymeEditorTM平台目前已完成130余种高端分子酶的改造和进化,具备扎实的开发高端分子酶的技术基础。
 
图片
图:翌圣ZymeEditorTM平台
 

 

参考文献

 
[1]Madani A, Krause B, Greene ER, Subramanian S, Mohr BP, Holton JM, Olmos JL Jr, Xiong C, Sun ZZ, Socher R, Fraser JS, Naik N. Large language models generate functional protein sequences across diverse families. Nat Biotechnol. 2023 Jan 26. doi: 10.1038/s41587-022-01618-2. Epub ahead of print. PMID: 36702895.
[2]Madani A, McCann B, Naik N, Keskar NS, Anand N, Eguchi RR, Huang PS, Socher R. ProGen: language modeling for protein generation. BioRxiv。2022 Mar 7. doi: https://doi.org/10.1101/2020.03.07.982272.
[3]Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, Tunyasuvunakool K, Bates R, Žídek A, Potapenko A, Bridgland A, Meyer C, Kohl SAA, Ballard AJ, Cowie A, Romera-Paredes B, Nikolov S, Jain R, Adler J, Back T, Petersen S, Reiman D, Clancy E, Zielinski M, Steinegger M, Pacholska M, Berghammer T, Bodenstein S, Silver D, Vinyals O, Senior AW, Kavukcuoglu K, Kohli P, Hassabis D. Highly accurate protein structure prediction with AlphaFold. Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15. PMID: 34265844; PMCID: PMC8371605.
[4]ChatGPT: Optimizing Language Models for Dialogue: https://openai.com/blog/chatgpt/
[5]Radford A, Narasimhan K,Salimans T, Sutskever I.Improving Language Understanding by Generative Pre-Training.
[6]Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. Nature. 2023 Jan;613(7945):612. doi: 10.1038/d41586-023-00191-1. PMID: 36694020.
[7]Riesselman AJ, Ingraham JB, Marks DS. Deep generative models of genetic variation capture the effects of mutations. Nat Methods. 2018 Oct;15(10):816-822. doi: 10.1038/s41592-018-0138-4. Epub 2018 Sep 24. PMID: 30250057; PMCID: PMC6693876.
[8]University of California - San Francisco. "AI technology generates original proteins from scratch: Natural language model jumpstarts protein design with creation of active enzymes." ScienceDaily. ScienceDaily, 26 January 2023..
[9]Stokel-Walker C. AI bot ChatGPT writes smart essays - should professors worry? Nature. 2022 Dec 9. doi: 10.1038/d41586-022-04397-7. Epub ahead of print. PMID: 36494443.

400-6111-883