论文链接:
https://www.nature.com/articles/s41586-023-06221-2
一、Science is about making new discoveries.
在这篇14页的文章中,我们主要关注AI如何助力科学发现,不论是牛顿的万有引力定律、爱因斯坦的相对论、哥白尼的日心说、弗莱明对青霉素的发现,还是运用计算机模拟蛋白质折叠,都代表着新的规则和现象的发现。因此,"AI for Science"的核心可以说就是"借助AI推动科学发现、科技进步"。这与汤老师观点并不冲突,无论是增强AI的预测能力,还是利用科学知识指导AI的发展,在科学领域最终都是为了实现"创造新的发现"这一终极目标。当然,如果有一天自然科学能够切实指导AI的发展,即"Science for AI",那将会是另一件改变世界的事儿,因为AI的影响力远不止在自然科学,当然这不在本文的讨论范围之内。
这篇综述讲了啥
"AI for Science"的视角实在是太宏大了,我们在着眼大局的同时,也力求细致入微地描绘细节。为了丰富文章的内涵,我们几个核心成员可以说是精读了截止至2022年秋季的近十年来所有CNS及其子刊中与AI相关的文章。我们在早期集思广益构建了数个版本的框架和图表,在一年多的写作过程中,不断地内部讨论修改[1]。自23年1月份文章不经修改直接被原则上接受后,我们又与Reviewer和Editorial Team进行了两轮、长达四个多月的细致讨论和修改,最终定稿(事实证明修还是要修的)。接下来通过文章的四个图,我将简单介绍下这篇文章的主体,即我们对近些年"AI for Science"发展的观察和思考,以及讨论下未来需要解决的问题和挑战。对此感兴趣的朋友,强烈推荐阅读原文。
当然,Science杂志在7月中旬率先上了一个专注于AI+Science的特刊,其中包含一些优秀的观点和评论文章,它们大多关注在单个或少数几个学科的特定问题上,此外arXiv上也有一些或长或短的材料可供参考。但如果你只打算阅读一篇关于"AI for Science"的综述性文章的话,我推荐我们这篇:思考更深、视角更全、极度精炼,经过了Peer Review的捶打(其实Editor要求更改的地方更多)。此外,作者团队中有很多established scholars和rising stars,能把大家聚在一起讨论出我们都能接受的框架也挺磨人的。至于影响力,of course time will tell,有这份自信。
扯远了,回到文章本身。尽管科学实践和流程在不同学科中有所不同,我们还是可以将其大致划分为三个相互关联且有递进、循环关系的阶段:假设构建、实验设计以及数据收集与分析。在这个过程中,人工智能在每个阶段都在发光发热,重塑科学发现的过程。举几个具体的例子,如AI优化实验参数和功能,AU自动化数据收集、处理和可视化,AI大规模探索候选假设以形成理论、生成假设并估计其不确定性以改进相关实验…,都已经成为科研小将们的必备工具。图1列出了各个学科的一些具体例子,有关具体文章,可以在我们的原文中找到。
图1 | 这里用的自己画的最后一版(约摸着是总第六/七版),最终用的是editorial team“润色”的版本。
图2-4我们具体阐述了在这三个阶段,AI在方法和应用上的一些共性,分别说下。
AI-aided data collection and curation for scientific research
首先是数据。作为一切的出发点,AI在数据处理中可以干这么几件事儿,比如说:
-
Selection. 一个典型的粒子碰撞实验每秒钟能产生超过100 TB的数据量,而其中超过99.99%的原始数据实际上是需要实时识别并舍弃的背景噪音,目的是为了保留那些稀有且含有有价值信息的数据。一种常见的处理策略是利用异常检测(Anomaly Detection)算法,将这些稀有事件视为异常数据进行识别并保存。这种思路在物理学、神经科学、地球科学、海洋学以及天文学等领域都得到了广泛的应用;
-
Annotation. 训练有监督的模型需要依赖带有标签的数据集,然而对于生物学、医学等实验性学科来说,生成大量准确标签的数据集既耗时又耗力。伪标签法(Pseudo Labelling)和标签传播法(Label Propagation)因此成为了优秀的替代方案,它们允许在只有少量准确注释的大型无标签数据集上进行自动注释。此外,主动学习(Active Learning)可以帮助我们确定最有必要进行实验标注的数据点,从而进一步降低成本。另一种数据注解策略则是借助专业领域知识来制定标签规则,如Data Programming (NeurIPS '22)和Snorkel (VLDB '17)等;
-
Generation. 通常来说,AI的性能随着训练数据集的质量、多样性和规模的提高而提高。通过自动数据增强(AutoAugment)和深度生成模型(Deep Generative AI)生成额外的合成数据点,以扩充训练数据集,是创建更好模型的一种有效方法。除了手动设计之外,强化学习方法(Reinforcement Learning)还可以发现一种自动数据增强的策略,这种策略既灵活又不依赖于下游任务。举例来说,生成对抗网络(Generative Adversatial Netowrk)已被证明对科学图像有益,它们可以在多个领域中生成逼真且有用的数据,从粒子碰撞事件、病理切片、胸部X光、磁共振对比、三维材料微结构、蛋白质功能到基因序列;
-
Refinement. 高精度的仪器,如超高分辨率激光器和无创显微系统,可以直接或间接测量物理量,得到非常精确的结果。AI则能够进一步提高了测量分辨率,减少噪声,并减小测量精度的误差,使之具有一致性。具体例子比如黑洞成像、捕捉物理粒子碰撞、提高活细胞图像的分辨率,以及细胞类型检测。
Deep Learning能够在多层次上提取科学数据的meaningful representation,并优化这些表示以指导研究。好的Representation应该尽可能地保留数据的信息,同时simple, accessible, compact, discriminative, and disentangle。在文中,我们简单了介绍几种策略:几何深度学习(Geometric deep learning),自监督学习(Self-Supervised Learning),语言模型(Language Modelling)和神经算子(Neural Operators),此处就不赘述了。
图2 | AI for Science中Representation Learning常见的几种策略
AI-based generation of scientific hypotheses
可验证的假设是科学发现的关键。这些假设有多种形式,从数学的符号表达式,到化学的分子,再到生物学的基因变异。构建有意义的假设通常是一项耗时费力的过程,正如约翰内斯·开普勒在分析星体和行星数据四年后才得出了一个导致发现行星运动定律的假设。AI在此过程的多个阶段都可以发挥作用。它们可以通过从噪声观测中识别出候选的符号表达式来生成假设。它们也能帮助设计物体,比如一个能与治疗目标结合的分子,或是一个可以推翻数学猜想的反例,这些都指向了实验室中的实验评估。此外,AI可以学习假设的贝叶斯后验分布,并利用这个分布生成与科学数据和知识相吻合的假设。我们在此简单总结了以下三点,具体内容没有在这里展开讲解,欢迎大家阅读原文深入了解。
-
Black-box predictors of scientific hypotheses
-
Navigating combinatorial hypothesis spaces
-
Optimizing differentiable hypothesis spaces
图3 | AI帮助科学假设检验的几种常见模式
AI-driven experimentation and simulation
通过实验评估科学假设是科学发现的关键环节。然而,实验室实验可能成本高昂,操作复杂。计算机模拟已经成为一种具有前景的替代方案,为我们提供了更为有效和灵活的实验手段。虽然模拟需要依赖人工设置的参数和启发式策略来模仿现实世界的情况,并且需要在精度和速度之间做出权衡,这就需要理解底层的机制。随着AI的出现,这些挑战正在得到解决,我们可以通过识别和优化假设来进行有效的测试,并且可以利用计算机模拟将观察结果和假设联系起来。这里我们简要地总结了以下两点,具体细节就不展开了,欢迎大家阅读原文深入理解。
-
Efficient evaluation of scientific hypotheses
-
Deducing observables from hypotheses using simulations
图4 | AI指导科学实验的几个常见例子
Grand challenges
最后说下挑战和展望。这里我们简要地总结了以下三点,前两点很好理解,展开说说第三个。
-
Practical considerations
-
Algorithmic innovations
-
Conduct of science and the scientific enterprise
长远来看,自然科学中的AI需求将受到两种力量的驱动。
首先,有些问题正处在可以从AI的应用中受益的边缘,例如全自动化实验室。其次,AI工具有能力提升已有技术并创造新的机会,例如探究在实验中难以达到的长度和时间尺度上的生物、化学或物理过程。基于这两大动力,我们预见研究团队的构成将发生改变,以包括AI专家、软硬件工程师,以及涉及各级政府、教育机构和公司的新型合作方式。目前最先进的深度学习模型的规模正在不断扩大,这些模型的参数量达到了十亿甚至万亿级别,每年呈倍增态势,而满足这些模型的计算和数据需求非常巨大。因此,大型科技公司大量投资于计算基础设施和云服务,推动规模和效率的极限。虽然盈利和非学术组织拥有庞大的计算基础设施,但高等教育机构可以在多个学科中实现更好的整合。此外,学术机构往往拥有独特的历史数据库和测量技术,这些在其他地方可能无法获得,但对于AI for Science来说是必不可少的。这些互补性的资源促成了新型的产学合作模式的形成,这可能会影响研究问题的选择。
随着AI系统的表现越来越接近甚至超越人类,将其作为日常实验室工作的替代已变得切实可行。这种方法使研究人员能够迭代地从实验数据中开发预测模型,并选择实验以改进它们,而无需手动执行繁琐和重复的任务。为了支持这种范式转变,新的教育项目正在涌现,旨在培养科学家在科研中设计、实施并应用实验室自动化和AI。这些项目帮助科学家理解何时应适宜使用AI,并防止AI分析的误解,例如Hallucination。
AI工具的误用和对其结果的误解可能会带来重大的负面影响,而且这些风险的应用范围非常广泛。然而,AI的误用并非仅仅是一个技术问题,它还取决于那些引领AI创新和投资AI实施的人的动机。建立道德审查流程和负责任的实施策略是必不可少的,包括全面审视AI的范围和适用性。此外,必须考虑与AI相关的安全风险,因为将算法实现复用为双重用途已变得越来越简单。由于算法能适应广泛的应用,它们可以为一个目的而开发,但用于另一个目的,从而产生威胁和操纵的风险。这些都是亟需解决且影响深远的问题。
可以看这么两点:
2.1 “有没有搞头”(天时)
毫无疑问,"AI for Science"的学术前景广阔。我们可以通过AlphaGo和AlphaFoldv2的对比来直观地看到这一点。AlphaGo于2016年在Nature上发表,至今已经有45万+的研究者阅读过这篇文章,引用次数达到了7600+;而AlphaFoldv2于2021年也在Nature上发表,至今已有118万+的研究者阅读过这篇文章,引用次数达到了8000+。仅从这些数字来看,AlphaFoldv2在学术界和科技界的影响力至少是AlphaGo的几倍。值得一提的是,AlphaGo是上一波的人工智能浪潮的标志性事件之一。
AlphaGo
AlphaFoldv2
现在以ChatGPT等AI工具可能成为下一代计算平台的底层架构的观点,已经得到了越来越多人的认同。从这个角度看,"AI for Science"的影响可能会超过上世纪中后期把计算机引入自然科学的影响。Nature曾经评选出十个改变科学的计算机程序,这其中包括:
-
1957年,基于Fortran编译器的科学模拟程序被用于天气预报、航天轨道计算、材料性质计算等;
-
1965年,快速傅立叶变换被应用于天文测量;
-
1990年,BLAST序列搜索工具被广泛应用于基因研究;
AI for Science将有可能引领另一次科学的巨变,这将是一个非常值得期待的未来。
https://www.beren.io/2023-04-11-Scaffolded-LLMs-natural-language-computers/
https://www.nature.com/articles/d41586-021-00075-2
https://www.microsoft.com/en-us/research/lab/microsoft-research-ai4science/ https://www.zhihu.com/question/592157178 https://www.osti.gov/biblio/1604756
2. 2 “能不能做好” (地利人和)
-
首先读CS/AI PhD就是一个成本很大的事情,此外单从学术方向而言,AI for Science的Top Researcher需要Top Conference和Top Journal两手抓 (e.g., Brian Hie[https://brianhie.com/], James Zou[https://www.james-zou.com/], Marinka Zitnik[https://zitniklab.hms.harvard.edu/])[3],这两者的投审稿风格也很不同,有机会细讲; -
其次AI for Science这个方向在大厂里并不是很受待见,比如Meta的蛋白质组,CNS咔咔发、工作确实不错,但是从个人职业晋升角度来说并不吃香,因为公司、stackholders看不到回头钱,团队带头人Alex也回到学界了; -
此外,AI for Science对于其他职业路径比如Quant,也并没有太大的帮助或被普遍认可(虽然也时不时收到hr和猎头的reach out,不过主要是跟我之前做过点儿Quant有关) https://zhuanlan.zhihu.com/p/372884253 https://www.zhihu.com/question/58470970/answer/2364977070
三、写在文章发表后
-
^非常感谢Yoshua、Connor等PI通篇改框架、文章 -
^比如说”写AI for Science的Survey“这个想法简直烂大街 :) -
^不然Science的人说你解决不了问题,AI的人说你算法没什么创新 :) -
^Author里我们把Junior靠前,从Anima到张林峰,是按照字母序排
作者:Hanchen 来源:【知乎】 https://zhuanlan.zhihu.com/p/642293473
Illustration by TechCrunch

扫码观看!
本周上新!

“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!

评论留言