深圳商报·读创客户端首席记者 吴吉
医药研发行业长期以来面临着“双十定律”,即需要耗时超过10年、10亿美元才有可能上市一款新药。新药上市前,要经过一轮一轮的体外测试、动物测试……未来,这一过程可能随着人工智能的崛起而大大缩短。科研人员利用人工智能技术,快速发现与疾病靶点相匹配的药物,然后通过细胞数字元宇宙平台,在计算机上快速评估细胞对候选药物的反应,只需要几秒即可进入后期的临床试验。
11月16日,在第25届高交会“改变世界的新兴科技”主题论坛上,深圳理⼯⼤学计算机科学与控制⼯程院创院院⻓、中科院深圳先进院⾸席科学家潘毅为大家描述的这一幕,让人充满期待。当天,他以《AIGC赋能⽣物医药》为题,从生成式人工智能(AIGC)的现状和大语言模型(LLM)出发,阐述了AIGC在生物医药中领域的重要作用和价值。
“昨天李彦宏在西丽湖论坛上说,现在的模型太多,应用太少,我非常同意他的观点。”潘毅一上来就隔空回应了李彦宏的话。他认为,AI代表着一种新的生产方式,但大语言模型存在的问题显而易见——成本门槛高,大模型开发和训练一次约1200万美元;技术门槛高,要具有对AI框架深度优化和超越的并行计算能力;数据门槛高,需要海量优质的相关数据作为训练支撑;监管门槛高,在安全方面并不具备人类的价值观……
如何突破这些弊端?“未来大模型的方向,应该是在垂直领域内的精准应用”,潘毅说,人们通常用“三驾马车”来描述人工智能所面临的挑战,即:大数据、优算法、强算力,但他认为还要加上“三驾马车”——赋知识、可解释、低能耗。在他看来,大模型只是一个框架,一定要和行业和领域结合,才能有用武之地。
以人工智能在生物医疗领域内的应用为例,潘毅从最近的一则新闻谈开去——“ChatGPT击败17位医生,助4岁男孩精准揪出怪病病因”。这说明只要应用得当,AI完全可以成为人类诊疗疾病的助手。但同时,哈佛大学附属医院布莱根妇女医院发表在JAMA上的一项研究显示,在给出癌症治疗建议时,ChatGPT只有62%的案例是完全正确的。在其他案例中,有34%的建议至少包含一个或多个与正确诊断结果不一致的答案,还有2%的案例给出了不可信的诊断结果。
ChatGPT背后海量的数据库是优势,但在专业领域里则存在着干扰信息过多的弊端。针对这种情况,潘毅带领团队研发了一种自闭症大语言模型知识向量库系统。该案例中,仅通过大约100篇自闭症相关综述、文献、电子病例、互联网问答,就将几乎没有自闭症相关领域知识的模型训练成了“专业助手”,得到的回答与最先进的GPT4模型准确率相近甚至更高;训练成本上大大缩小,该方法的训练成本几乎可以忽略不计,而对于专业领域问答用户,特别是医学问答用户,并不需要底部模型在通用领域过多的、永不可能被提问到的问题。潘毅表示,这个系统得到了一种小规模训练成本增强LLM在高门槛专业知识领域提升回答精度的方法,也是未来人工智能在更细分领域应用的一种探索。
除了以更精准的“信息投喂”来训练更专业的大模型外,人工智能在药物研发方面也存在着极大的优势。高技术、高投入、高风险、长周期……在新药研发的过程中,经常面临着诸多痛点。因此,业界正在着力布局通过AI翻过新药研发过程中的这几座“大山”,AI智药成为一条新赛道。数据桥市场研究公司分析,到2029年,全球人工智能在药物研发市场的价值预计将超过246亿美元,在预测期内的复合年增长率为53.3%。由于技术的快速发展,使人工智能在药物发现市场的使用商业化,而软件占了市场最大的份额。
潘毅提出,人工智能可以应用到新药研发的各个领域,例如:找到靶标后,筛选出能和其紧密耦合的小分子很难,而AI可发挥作用迅速筛选,不用再一个一个去试,大大节约时间和成本。再例如:使用机器学习,可以在几秒钟内创建初蛋白质分子,而在以前,这个时间也许是几个月。目前,已经有几十种人工智能蛋白质设计工具被开发了出来,研究人员可以混合和匹配各种方法来得出一个可行的最终设计。而随着元宇宙兴起,未来甚至可能连动物测试等步骤都可通过细胞数字孪生来完成……在人工智能技术的赋能下,生物医药的发展将步入一条新赛道。
评论留言